Korelasyon kavramı iki değişken arasındaki birlikte değişimin bir göstergesi olarak kullanılmaktadır. -1 ile +1 arasında değişek korelasyon katsayısı 1'e yaklaştıkça ilişkinin güçlendiğini 0'a yaklaştıkça ise ilişkinin olmadığını göstermektedir. Araştırmalarda korelasyon katsayısının hesaplanması için genellikle Pearson korelasyon katsayısı kullanılmaktadır. Peki Pearson korelasyon katsayısını her durumda kullanmak doğru mudur? Bu sorunun yanıtı elbette hayır olacaktır. Pearson iki değişken sürekli ve normal dağılım göstermesi durumunda kullanılmaktadır. Ancak ilişki düzeyi incelenen değişkenler süreksiz, normal dağılım göstermeyen, sıralama ölçeğin v.s. olabilmektedir. Bu durumda Hangi korelasyon katsayısının kullanılanacağına ilişkin olarak sizleri yönlendirmesi amacıyla bu slaytı hazırladık.
İletişim Bilimlerinde Araştırma Teknikleri (İBAT) Dersi Evren ve Örneklem konusu
Bu sunum, Çanakkale Onsekiz Mart Üniversitesi İletişim Fakültesi'nde verilen İletişim Bilimlerinde Araştırma Teknikleri Dersi için hazırlanmıştır.
Yrd. Doç. Dr. Esmeray KARATAŞ ATEŞ
ekaratas@comu.edu.tr
Mart 2016
İletişim Bilimlerinde Araştırma Teknikleri (İBAT) Dersi Evren ve Örneklem konusu
Bu sunum, Çanakkale Onsekiz Mart Üniversitesi İletişim Fakültesi'nde verilen İletişim Bilimlerinde Araştırma Teknikleri Dersi için hazırlanmıştır.
Yrd. Doç. Dr. Esmeray KARATAŞ ATEŞ
ekaratas@comu.edu.tr
Mart 2016
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...ISSEL
Τις τελευταίες δεκαετίες, τα έργα λογισµικού γίνονται όλο και µεγαλύτερα, χρησιµότερα και διεισδύουν σε όλο και περισσότερες πτυχές του ανθρώπινου ϐίου. Κατά την ανάπτυξη και τη συντήρηση λογισµικού, οι προγραµµατιστές σπαταλούν µεγάλο µέρος του χρόνου τους στον εντοπισµό και τη διόρθωση σφαλµάτων. Τα εργαλεία στατικής ανάλυσης κώδικα αυτοµατοποιούν τη διαδικασία εντοπισµού των σφαλµάτων. Η χρήση τους, ωστόσο, παραµένει περιορισµένη, καθώς η κατανόηση και η διόρθωση σφαλµάτων παραµένουν ευθύνες των προγραµµατιστών. Τα τελευταία χρόνια, πραγµατοποιούνται έρευνες για την εξόρυξη προτύπων διόρθωσης τέτοιων σφαλµάτων άλλα και την ανάπτυξη συστηµάτων αυτοµατοποιηµένης διόρθωσης σφαλµάτων. Οι πρώτες στοχεύουν στην κατανόηση του τρόπου που οι προγραµµατιστές αντιµετωπίζουν τέτοια προβλήµατα, και πολλές ϕορές τα αποτελέσµατα τους αποτελούν ϐάση για τις δεύτερες. Η παρούσα διπλωµατική, στοχεύει στην εξόρυξη χρήσιµων προτύπων διόρ ϑωσης σφαλµάτων για σφάλµατα που ανήκουν στους κανόνες του εργαλείου στατικής ανάλυσης PMD. Αρχικά, µέσω κατάλληλων ερωτηµάτων στο API του Github, αναζητο ύνται commits που αφορούν διορθώσεις τέτοιων σφαλµάτων και λαµβάνονται οι εκδόσεις των αρχείων πριν και µετά των αλλαγών των commits. Στη συνέχεια, µέσω εκτέλεσης του PMD στις δύο εκδόσεις, εντοπίζονται οι επιµέρους διορθώσεις και δηµιουργείται κα τάλληλο σύνολο δεδοµένων, αποτελούµενο αποκλειστικά από διορθώσεις σφαλµάτων, κανόνων του PMD. Οι επιµέρους διορθώσεις αναλύονται και µε αξιοποίηση της αναπα ϱάστασης κώδικα srcML και του αλγορίθµου απόστασης επεξεργασίας δέντρου Gumtree, είναι εφικτή η εξαγωγή µιας ακολουθίας όρων που είναι αντιπροσωπευτικοί για κάθε διόρθωση. ΄Ετσι, µε εύρεση του µήκους της µέγιστης κοινής υπακολουθίας µεταξύ δύο διορθώσεων, είναι εφικτή η ανάπτυξη ενός µοντέλου οµοιότητας για τις διορθώσεις συνολικά και κατ΄ επέκταση, η οµαδοποίηση τους και η εξαγωγή προτύπων διόρθω σης. Πραγµατοποιήθηκαν δύο διαφορετικά πειράµατα οµαδοποίησης : στο ένα αξιοποιήθηκε ο αλγόριθµος K-medoids και στο άλλο ο DBSCAN. Και στα δύο πειράµα τα, άλλα ιδιαίτερα σε αυτό µε τον DBSCAN, σχεδόν κάθε εξαγόµενη οµάδα αποτελείται κυρίως από διορθώσεις σφαλµάτων ενός κανόνα του PMD. Παράλληλα, µε τον υπο λογισµό του αριθµού των commits και των αποθετηρίων από τα οποία προέρχονται οι διορθώσεις κάθε οµάδας - προτύπου, ϕανερώνεται ότι οι περισσότερες οµάδες προκύπτουν από διορθώσεις προερχόµενες από µεγάλο αριθµό commits και αποθετηρίων. ΄Ετσι αντανακλούν τον τρόπο που αρκετοί προγραµµατιστές ϑα αντιµετώπιζαν παρόµοια προβλήµατα. Συνεπώς, τα εξαγόµενα πρότυπα ϑα µπορούσαν να αποτελέσουν αφετη ϱία για κάποιον µηχανισµό αυτοµατοποιηµένης διόρθωσης σφαλµάτων, ϐασιζόµενο στο PMD για τον εντοπισµό τους.
Εφαρμογή Τεχνικών Εξόρυξης Δεδομένων για την Εξαγωγή Προτύπων Διόρθωσης σε Σφ...ISSEL
Τις τελευταίες δεκαετίες, τα έργα λογισµικού γίνονται όλο και µεγαλύτερα, χρησιµότερα και διεισδύουν σε όλο και περισσότερες πτυχές του ανθρώπινου ϐίου. Κατά την ανάπτυξη και τη συντήρηση λογισµικού, οι προγραµµατιστές σπαταλούν µεγάλο µέρος του χρόνου τους στον εντοπισµό και τη διόρθωση σφαλµάτων. Τα εργαλεία στατικής ανάλυσης κώδικα αυτοµατοποιούν τη διαδικασία εντοπισµού των σφαλµάτων. Η χρήση τους, ωστόσο, παραµένει περιορισµένη, καθώς η κατανόηση και η διόρθωση σφαλµάτων παραµένουν ευθύνες των προγραµµατιστών. Τα τελευταία χρόνια, πραγµατοποιούνται έρευνες για την εξόρυξη προτύπων διόρθωσης τέτοιων σφαλµάτων άλλα και την ανάπτυξη συστηµάτων αυτοµατοποιηµένης διόρθωσης σφαλµάτων. Οι πρώτες στοχεύουν στην κατανόηση του τρόπου που οι προγραµµατιστές αντιµετωπίζουν τέτοια προβλήµατα, και πολλές ϕορές τα αποτελέσµατα τους αποτελούν ϐάση για τις δεύτερες. Η παρούσα διπλωµατική, στοχεύει στην εξόρυξη χρήσιµων προτύπων διόρ ϑωσης σφαλµάτων για σφάλµατα που ανήκουν στους κανόνες του εργαλείου στατικής ανάλυσης PMD. Αρχικά, µέσω κατάλληλων ερωτηµάτων στο API του Github, αναζητο ύνται commits που αφορούν διορθώσεις τέτοιων σφαλµάτων και λαµβάνονται οι εκδόσεις των αρχείων πριν και µετά των αλλαγών των commits. Στη συνέχεια, µέσω εκτέλεσης του PMD στις δύο εκδόσεις, εντοπίζονται οι επιµέρους διορθώσεις και δηµιουργείται κα τάλληλο σύνολο δεδοµένων, αποτελούµενο αποκλειστικά από διορθώσεις σφαλµάτων, κανόνων του PMD. Οι επιµέρους διορθώσεις αναλύονται και µε αξιοποίηση της αναπα ϱάστασης κώδικα srcML και του αλγορίθµου απόστασης επεξεργασίας δέντρου Gumtree, είναι εφικτή η εξαγωγή µιας ακολουθίας όρων που είναι αντιπροσωπευτικοί για κάθε διόρθωση. ΄Ετσι, µε εύρεση του µήκους της µέγιστης κοινής υπακολουθίας µεταξύ δύο διορθώσεων, είναι εφικτή η ανάπτυξη ενός µοντέλου οµοιότητας για τις διορθώσεις συνολικά και κατ΄ επέκταση, η οµαδοποίηση τους και η εξαγωγή προτύπων διόρθω σης. Πραγµατοποιήθηκαν δύο διαφορετικά πειράµατα οµαδοποίησης : στο ένα αξιοποιήθηκε ο αλγόριθµος K-medoids και στο άλλο ο DBSCAN. Και στα δύο πειράµα τα, άλλα ιδιαίτερα σε αυτό µε τον DBSCAN, σχεδόν κάθε εξαγόµενη οµάδα αποτελείται κυρίως από διορθώσεις σφαλµάτων ενός κανόνα του PMD. Παράλληλα, µε τον υπο λογισµό του αριθµού των commits και των αποθετηρίων από τα οποία προέρχονται οι διορθώσεις κάθε οµάδας - προτύπου, ϕανερώνεται ότι οι περισσότερες οµάδες προκύπτουν από διορθώσεις προερχόµενες από µεγάλο αριθµό commits και αποθετηρίων. ΄Ετσι αντανακλούν τον τρόπο που αρκετοί προγραµµατιστές ϑα αντιµετώπιζαν παρόµοια προβλήµατα. Συνεπώς, τα εξαγόµενα πρότυπα ϑα µπορούσαν να αποτελέσουν αφετη ϱία για κάποιον µηχανισµό αυτοµατοποιηµένης διόρθωσης σφαλµάτων, ϐασιζόµενο στο PMD για τον εντοπισµό τους.
2. Korelasyon
Alfaistatistik (2015)2
İki değişken arasındaki birlikte değişimin
göstergesidir.
Korelasyon analizi bağımsız değişkenler arasındaki
ilişkinin yönü ve miktarını bulmak için kullanılan bir
istatistiktir.
7. Pearson Momentler Çarpımı Korelasyon
Katsayısı
En az eşit aralıklı düzeyde iki sürekli değişken
arasındaki ilişkinin belirlenmesinde kullanılır.
Bağımsız değişkenlerin normallik varsayımını
karşılaması gerekir.
-1 ile 1 aralığında değişen değerler alır.
7 Alfaistatistik (2015)
9. Spearman Sıra Farkları Korelasyonu
En az sıralama ölçeğinde iki değişken arasındaki
ilişkinin hesaplanmasında kullanılır.
Normallik varsayımı karşılanmadığında Pearson’a
alternatif sayılabilir.
-1 ile 1 aralığında değişen değerler alır.
9 Alfaistatistik (2015)
10. Kendal’s Tau-b ve Tau-c
En az sıralama ölçeğinde iki değişken arasındaki
ilişkinin hesaplanmasında kullanılır.
Sıralama ölçeğindeki veriler ile oluşturulan çapraz
tablolarda kullanılması uygundur.
Satır ve sütun sayısı eşit olduğunda Tau-b eşit
olmadığında Tau-c kullanılması kararlı sonuçlar verir.
-1 ile 1 aralığında değişen değerler alır.
10 Alfaistatistik (2015)
11. Gamma
En az sıralama ölçeğinde iki değişken arasındaki
ilişkinin hesaplanmasında kullanılır.
Çapraz tablolarda uyuşan ve uyuşmayan gözlem
çiftlerine bağlı olarak korelasyon hesaplar.
Gamma değerleri Tau değerlerinden büyük çıkmaktadır.
-1 ile 1 aralığında değişen değerler alır.
11 Alfaistatistik (2015)
12. Somer’s d
En az sıralama ölçeğinde iki değişken arasındaki
ilişkinin hesaplanmasında kullanılır.
Değişkenlerden biri bağımlı diğeri bağımsız değişken
olduğunda kullanılması daha uygundur.
Somer’s d değeri ile Tau değeri arasındaki ilişki
-1 ile 1 aralığında değişen değerler alır.
12 Alfaistatistik (2015)
14. Kontenjans Tabloları
Çapraz tablolar olarak da isimlendirilir.
Kategorik değişkenler arasındaki ilişkiyi veya
gözlenen-beklenen değer uyumunu hesaplamak için
kullanılır. Tablolarda sütun “r” ve satır “c”ile gösterilir.
Tablo (rxc) şeklinde ifade edilir.
c1 c2
r1 f11 f12
r2 f21 f22
14 Alfaistatistik (2015)
15. Ki-Kare Katsayısı
Kategorik değişkenler arasındaki ilişkinin
hesaplanmasında en yaygın olarak kullanılan testtir.
Kategorik değişkenler için yapılan diğer korelasyon
testleri de ki-kare dağılımına bağlı olarak
hesaplanmaktadır.
15 Alfaistatistik (2015)
16. Ki-Kare Katsayısı
Ki-kare istatistiğinin hesaplanması için her hücrenin
frekansının 5’ten büyük olması gerekir. Aksi halde
yorumlanması uygun değildir. 5’ten az frekansa sahip
hücre sayısı %20’i geçiyorsa Fisher’s Exact testi
yorumlanır.
Gözlenen ve beklenen frekanslara bağlı olarak ki-kare
değeri hesaplanır.
16 Alfaistatistik (2015)
17. Phi Katsayısı
En az sınıflama ölçeğinde iki değişken arasındaki
ilişkinin hesaplanmasında kullanılır.
Değişkenlerin ikisinin de iki kategorili olması
durumunda kullanılabilir.
Verilerin 0,1 olarak girilmesi durumunda -1 ile 1
değerlerine ulaşılamamaktadır.
17 Alfaistatistik (2015)
18. Kontenjans Katsayısı
En az sınıflama ölçeğinde iki değişken arasındaki ilişkinin
hesaplanmasında kullanılır.
Pearson Ki-Kare istatistiği ve örneklem büyüklüğü temel
alınarak hesaplanmaktadır.
Alabileceği en yüksek değer sütun (c)
satır (r) sayısına bağlıdır.
Kontejans tablolarının boyutlar aynı olmadığın karşılaştırılması
uygun değildir.
18 Alfaistatistik (2015)
19. Cramer’s V
En az sınıflama ölçeğinde iki değişken arasındaki ilişkinin
hesaplanmasında kullanılır.
Kontenjans tablosunda olan satır ve sütun sayısına bağlı
hesaplanması sınırlılığı yoktur.
İki kategorili iki değişken arasında hesaplanan V değeri Phi
değerinin aynısıdır.
min(r,c) değeri iki tablo için aynı olması durumunda ilişki
karşılaştırılabilir.
19 Alfaistatistik (2015)
24. Kısmi Korelasyon
İki değişken arasındaki ilişkinin her zaman sadece bu iki
değişkenden kaynaklanacağı söylenemez.
Bu iki değişkenle ilişkili başka değişkenler de olabilir.
Bir ya da daha çok değişkenin yol açtığı varyansın kontrol
edilmesiyle hesaplanan iki değişken arasındaki ilişki kısmi
korelasyondur.
24 Alfaistatistik (2015)
25. Kısmi Korelasyon
Aralarında ilişki bulunacak değişkenler ve kontrol değişkeni
sürekli olmalı
Değişkenler normal dağılım göstermeli
25 Alfaistatistik (2015)
26. Z puanı kontrol edildiğinde (sabit tutulduğunda) X ve Y puanları
arasında anlamlı bir ilişki var mıdır?
Z
X Y
26 Alfaistatistik (2015)