Lecture 4: Frequent Itemests, Association Rules. Evaluation. Beyond Apriori (ppt, pdf)
Chapter 6 from the book “Introduction to Data Mining” by Tan, Steinbach, Kumar.
Chapter 6 from the book Mining Massive Datasets by Anand Rajaraman and Jeff Ullman.
Lecture 4: Frequent Itemests, Association Rules. Evaluation. Beyond Apriori (ppt, pdf)
Chapter 6 from the book “Introduction to Data Mining” by Tan, Steinbach, Kumar.
Chapter 6 from the book Mining Massive Datasets by Anand Rajaraman and Jeff Ullman.
A normalized gaussian wasserstein distance for tiny object detection 1taeseon ryu
오늘 소개해 드릴 논문은 Tiny Object, 즉 아주 작은 오브젝트를 디텍트 하기 위한 테스크라고 이해 하시면 될 것 같은대요, 대부분 많은 디텍션 모델들은, 작은 객체들에 대해서 디텍트 성능이 떨어지는 경향을 보입니다. 해당 논문은 이런 작은 객체를 찾지 못하는 원인을 대표적으로 디텍션 테스크에서 사용하는 메트릭인 IoU가 문제라고 지적을 합니다. 아주 작은 객체들에 대해서는, 한 픽셀 어긋나서 잡는것이 큰 오브젝트의 경우 IoU값이 크게 오차가 없지만, 작은 오브젝트의 경우 1,2픽셀이 움직인것이 매우 큰 오차가 생길수 있습니다. 이러한 메트릭 개선과 모델의 개선을 통하여 아주작은 오브젝트를 탐지해야 하는 테스크에서도 높은 성능향상을 가져왔습니다.
오늘 논문 리뷰를 위하여 이미지처리팀 안종식님이 자세한 리뷰 도와주셨습니다.
Talk on Optimization for Deep Learning, which gives an overview of gradient descent optimization algorithms and highlights some current research directions.
A normalized gaussian wasserstein distance for tiny object detection 1taeseon ryu
오늘 소개해 드릴 논문은 Tiny Object, 즉 아주 작은 오브젝트를 디텍트 하기 위한 테스크라고 이해 하시면 될 것 같은대요, 대부분 많은 디텍션 모델들은, 작은 객체들에 대해서 디텍트 성능이 떨어지는 경향을 보입니다. 해당 논문은 이런 작은 객체를 찾지 못하는 원인을 대표적으로 디텍션 테스크에서 사용하는 메트릭인 IoU가 문제라고 지적을 합니다. 아주 작은 객체들에 대해서는, 한 픽셀 어긋나서 잡는것이 큰 오브젝트의 경우 IoU값이 크게 오차가 없지만, 작은 오브젝트의 경우 1,2픽셀이 움직인것이 매우 큰 오차가 생길수 있습니다. 이러한 메트릭 개선과 모델의 개선을 통하여 아주작은 오브젝트를 탐지해야 하는 테스크에서도 높은 성능향상을 가져왔습니다.
오늘 논문 리뷰를 위하여 이미지처리팀 안종식님이 자세한 리뷰 도와주셨습니다.
Talk on Optimization for Deep Learning, which gives an overview of gradient descent optimization algorithms and highlights some current research directions.
3. BAYES TEOREMİ
Bir olayın meydana gelmesinde birden fazla etkenin
olması koşulunda, olayın hangi etkenin etkinliği ile ortaya
çıktığını gösteren teoremdir.
P(h) = h olayının önsel (marjinal) olasılığı
P(D) = D eğitim verisinin önsel olasılığı
P(D|h) = h olayı verildiğinde D’ nin koşullu olasılığı
P(h|D) = D eğitim verisi verildiğinde h’ nin koşullu
olasılığı
Yapay Zeka-Bayes Öğrenme 3
4. Alternatif iki hipotezi olan bir tıbbi teşhis problemini ele alalım.
(1) Hasta, kanser (2) Hasta, kanser değil
Veriler, (pozitif) ve ϴ (negatif) olmak üzere iki sonucu olan laboratuar
testlerinden oluşmaktadır. Tüm popülasyonun .008’lik
kısmının bu hastalığa sahip olduğuna dair önsel bilgimiz var. Ayrıca
laboratuar testi bu hastalığa dair eksik sonuçlar da verebilmektedir.Test,
hastalığın gerçekte var olduğu durumların %98’inde doğru pozitif sonuç,
olmadığı durumların %97’ sinde doğru negatif sonuç vermektedir. Diğer
durumlarda ise test, hastalığın varlığına dair tam zıttı sonuçlar vermektedir:
P(cancer)=0.008 P(¬cancer)=0.992
P( |cancer )=0.98 P( |¬cancer)=0.03
⊕
⊕ ⊕
Yapay Zeka-Bayes Öğrenme 4
P( |cancer )=0.98 P( |¬cancer)=0.03
P(ϴ|cancer)=0.02 P(ϴ|¬cancer)=0.97
Laboratuar testi pozitif olan bir hastanın olduğunu varsayarsak,
bu hastayı kanser var şeklinde mi, yok şeklinde mi teşhis etmeliyiz?
P( |cancer ) P(cancer)=0.98*0.008 0.0078 0.0078
P( ) = 1 1
P( |¬cancer) P(¬cancer)= 0.03*0.992 0.0298 0.0298
P( ) = 1 1
P( cancer| ) < P(¬cancer| ) ¬cancer
⊕ ⊕
⊕
⊕
⊕ ⊕
⊕
⊕
5. BAYES SINIFLANDIRMA
İstatistiksel bir sınıflandırıcıdır.
İstatistikteki bayes teoremine dayanır.
Örneklerin hangi sınıfa hangi olasılıkla ait olduklarını
öngörür.
Basit bir yöntemdir.Basit bir yöntemdir.
Öğrenme zamanı yoktur, yani sınıflandırmadan önce
bir başlangıç zamanı gerekmez.
Her sınıflandırma için tüm veri kümesini işler.
Yapay Zeka-Bayes Öğrenme 5
6. TENİS OYNAMA ÖRNEĞİ
GünGünGünGün Hava DurumuHava DurumuHava DurumuHava Durumu Sıcaklık DerecesiSıcaklık DerecesiSıcaklık DerecesiSıcaklık Derecesi Nem OranıNem OranıNem OranıNem Oranı RüzgarRüzgarRüzgarRüzgar Oynama DurumuOynama DurumuOynama DurumuOynama Durumu
D1 Güneşli Sıcak Yüksek Zayıf Hayır
D2 Güneşli Sıcak Yüksek Şiddetli Hayır
D3 Bulutlu Sıcak Yüksek Zayıf Evet
D4 Yağmurlu Ilık Yüksek Zayıf Evet
D5 Yağmurlu Serin Normal Zayıf Evet
D6 Yağmurlu Serin Normal Şiddetli Hayır
Yapay Zeka-Bayes Öğrenme 6
D6 Yağmurlu Serin Normal Şiddetli Hayır
D7 Bulutlu Serin Normal Şiddetli Evet
D8 Güneşli Ilık Yüksek Zayıf Hayır
D9 Güneşli Serin Normal Zayıf Evet
D10 Yağmurlu Ilık Normal Zayıf Evet
D11 Güneşli Ilık Normal Şiddetli Evet
D12 Bulutlu Ilık Yüksek Şiddetli Evet
D13 Bulutlu Sıcak Normal Zayıf Evet
D14 Yağmurlu Ilık Yüksek Şiddetli Hayır
8. Yeni X Örneğinin Sınıflandırılması
Yeni örnek X = <yağmurlu, sıcak, yüksek, zayıf>
P(evet|X) = ?
= P(yağmurlu|evet)·P(sıcak|evet)·P(yüksek|evet)·P(zayıf|evet)·P(evet)
= 3/5·2/4·3/7·6/8·9/14 =0.062
P(hayır|X) = ?
= P(yağmurlu|hayır)·P(sıcak|hayır)·P(yüksek|hayır)·P(zayıf|hayır)·P(hayır)
= 2/5·2/4·4/7·2/8·5/14 =0.01
P(evet|X)>P(hayır|X) olduğundan örnek X’in sınıfı evet
olarak öngörülür.
Yapay Zeka-Bayes Öğrenme 8
9. ÖRNEK
Dergi
Harcaması
Kol Saati
Harcaması
Hayat
Sigortası
Kredi Kartı
Sigortası
Cinsiyet
Evet Hayır Hayır Hayır E
Evet Evet Evet Hayır K
Verilen tabloya göre Dergi Harcaması=Evet, Saat Harcaması=Evet
Hayat Sigortası=Hayır, Kredi Kartı Sigortası=Hayır
Cinsiyet=?
Evet Evet Evet Hayır K
Hayır Hayır Hayır Hayır E
Evet Evet Evet Hayır E
Evet Hayır Evet Hayır K
Hayır Hayır Hayır Hayır K
Evet Hayır Evet Evet E
Hayır Evet Hayır Hayır E
Evet Hayır Hayır Hayır E
Evet Evet Evet Hayır K
10. ÖRNEK
Dergi
Harcaması
Kol Saati H. Hayat Sigor.
Kredi Kartı
Sigortası
Cinsiyet E K E K E K E K
Evet 4 3 2 2 2 3 2 1
Hayır 2 1 4 2 4 1 4 3
P(Evet) 4/6 3/4 2/6 2/4 2/6 3/4 2/6 1/4
P(Hayır) 2/6 1/4 4/6 2/4 4/6 1/4 4/6 3/4
S1:Cinsiyet=ERKEK, S2:Cinsiyet=KADIN şeklinde 2 sınıf olsun.
X1,X2,X3,X4 örnekler olsun. Buna göre P(X|Cinsiyet=ERKEK)
koşullu olasılığını hesaplamak gerekmektedir.
10Yapay Zeka-Bayes Öğrenme
12. 2.ADIM: S2:Cinsiyet=KADIN için P(X|Cinsiyet=KADIN)
Bayes Teoremine göre:
5
2
)( == KcinsiyetP
Bayes Teoremine göre:
SONUÇ:Bayes sınıflandırıcı bize, örneğin büyük olasılıkla erkek bir
kredi kartı müşterisi olduğunu söylemektedir.
12Yapay Zeka-Bayes Öğrenme
13. SIFIR DEĞER SORUNU
Dergi Harcaması=Evet, Saat Harcaması=Evet
Hayat Sigortası=Hayır, Kredi Kartı Sigortası=Hayır
Cinsiyet=? [2]
Burada, Kredi Kartı Sigortası=Hayır olan kadınların sayısını 0 kabul edelim:
04/0)|.()|(
4/1)|.()|(
4/2)|.()|(
4/3)|.()|(
23
22
21
=====
====
====
====
KCinsiyetHayirigorKrediKartSPSxP
KCinsiyetHayirHayatSigorPSxP
KCinsiyetEvetKolSaatiHPSxP
KCinsiyetEvetDergiHPSxP
00
4
1
4
2
4
3
)|(
04/0)|.()|( 24
=×××==
=====
KCinsiyetXP
KCinsiyetHayirigorKrediKartSPSxP
kd
pkn
+
+ ))((
Bu problemi aşmak için:
k: 0 ile 1 arasında bir sayıdır, p ise hedef nitelik için mümkün
değerlerin toplamının 1 kesirli kısmıdır. Yani p=1/2 olmaktadır.
13Yapay Zeka-Bayes Öğrenme
14. EKSİK VERİ
Dergi Harcaması=Evet, Saat Harcaması=Bilinmiyor
Hayat Sigortası=Hayır, Kredi Kartı Sigortası=Hayır
Cinsiyet=? [2]
64
9
4
3
4
1
4
3
)|(
27
8
6
4
6
4
6
4
)|(
=××==
=××==
KCinsiyetXP
ECinsiyetXP
05625.0)|(
1778.0)|(
64444
≈=
≈=
XKCinsiyetP
XECinsiyetP
Burada, Saat Harcaması özelliğinin olasılık değeri 1 kabul edilerek ihmal
edilmiştir.
Her iki şartlı olasılık aynı derecede aynı derecede etkilendiğinden sonuç
için problem olmaz.
14Yapay Zeka-Bayes Öğrenme
15. SAYISAL VERİLER
Dergi
Harcaması
Kol Saati
Harcaması
Hayat
Sigortası
Kredi Kartı
Sigortası
Yaş Cinsiyet
Evet Hayır Hayır Hayır 45 E
Evet Evet Evet Hayır 40 K
Hayır Hayır Hayır Hayır 42 E
Evet Evet Evet Evet 30 E
Evet Hayır Evet Hayır 38 KEvet Hayır Evet Hayır 38 K
Hayır Hayır Hayır Hayır 55 K
Evet Hayır Evet Evet 35 E
Hayır Evet Hayır Hayır 27 E
Evet Hayır Hayır Hayır 43 E
Evet Evet Evet Hayır 41 K
Dergi Harcaması=Evet, Saat Harcaması=Evet
Hayat Sigortası=Hayır, Kredi Kartı Sigortası=Hayır, Yaş=45
Cinsiyet=? [2] 15Yapay Zeka-Bayes Öğrenme
18. KULLANIM ALANLARI
Metin sınıflandırma
Konuşmacı tanıma sistemleri
Şifre kontrolü uygulamaları
Orta veya geniş eğitim kümesinin mevcutOrta veya geniş eğitim kümesinin mevcut
olması durumunda
Örnekleri tanımlayan nitelikler, sınıflandırmadan
bağımsız olarak verildiğinde
Yapay Zeka-Bayes Öğrenme 18
19. Avantaj ve Dezavantajları
Avantajları:
- Kolay uygulanabilirlik
- Üstün performans
- Çoğu durumda iyi sonuçlar
DezavantajlarıDezavantajları
- Varsayım: sınıf bilgisi verildiğinde nitelikler bağımsız
- Gerçek hayatta değişkenler birbirine bağımlı
- Değişkenler arası ilişki modellenemiyor.
- Test verisinin uzun işlem zamanıdır.
Çözüm: Bayes ağları
Yapay Zeka-Bayes Öğrenme 19