Successfully reported this slideshow.
Information Extraction, Automatic                (Hamish Cunningham-2004)               Canan GİRGİN              Yıldız T...
Program            Çıkarım ve Getirim Farkı            Anlamadan Dil İşleme            Uygulama Senaryoları           ...
Çıkarım ve Getirim Farkı          IR sistemi alakalı metinleri bulur bunları kullanıcıya sunar          IE uygulaması me...
Anlamadan Dil İşleme              1990 Message Understanding Conferences (MUCs )              Standartlar              ...
Uygulama Senaryoları            Finansal Analiz            Market Stratejileri            Halkla İlişkiler Çalışanları ...
Finansal Analiz              “Şirketimizle aynı konuda çalışan guçlu bir               performansa sahip olacağı tahmin e...
Market Stratejileri             • “Bu sabah IT yazılarının %7 sinde şirketinizden               bahsetti. Sizin şirketiniz...
Halkla İlişkiler Çalışanları              „Aşağıdaki tablo IT haberlerinde ki               şirketiniz hakkında son 24 sa...
Medya Analistleri              “Sizin                    şirketiniz ve XML konusundaki               medya uzaklığı 0.09;...
5 IE Turu            Named Entity recognition (NE)            Coreference resolution (CO)            Template Element c...
Örnek:         Salı günü parlak kırmızı roket atıldı. Bu Dr. Big         Head „in parlak bir buluşu. Dr. Head We Build    ...
Named Entity recognition (NE)          “Named Entity Extraction”          NE sistemi tum kişi isimlerini, yerleri, organ...
Coreference resolution (CO)              Kimlik ilişkileri tanımları              “Ne yazık, zavallı Yorick, ben onu Hor...
Template Element construction (TE)                                                         Açıklayıcı bilgiler ile       ...
Template Relation construction (TR)        Template elemenler arasında ki az sayıdaki olası ilişkiyi tanımlar        Örn...
Scenario Template production (ST)          Scenario templates (STs) IE sistemleri için prototip çıktılardır.          Ba...
MUC dan Sonra IE         Taşınabilir IE         Otomatik İçerik Çıkarımı ( Automatic Content Extraction ACE)         On...
Teşekurler12/28/2011    Canan Girgin Yıldız Teknik Universitesi   18
Upcoming SlideShare
Loading in …5
×

Data extraction

724 views

Published on

Data Extraction Bilgi çıkarımı

Published in: Technology, Business
  • Be the first to comment

  • Be the first to like this

Data extraction

  1. 1. Information Extraction, Automatic (Hamish Cunningham-2004) Canan GİRGİN Yıldız Teknik Üniversitesi Bilgisayar Mühendisliği12/28/2011 Canan Girgin Yıldız Teknik Universitesi 1
  2. 2. Program  Çıkarım ve Getirim Farkı  Anlamadan Dil İşleme  Uygulama Senaryoları  5 .IE Turu  MUC dan Sonra IE12/28/2011 Canan Girgin Yıldız Teknik Universitesi 2
  3. 3. Çıkarım ve Getirim Farkı  IR sistemi alakalı metinleri bulur bunları kullanıcıya sunar  IE uygulaması metinleri analiz eder ve kullanıcıya sadece ilgisini çeken belirli bir bilgi sunar.12/28/2011 Canan Girgin Yıldız Teknik Universitesi 3
  4. 4. Anlamadan Dil İşleme  1990 Message Understanding Conferences (MUCs )  Standartlar  Yarışma12/28/2011 Canan Girgin Yıldız Teknik Universitesi 4
  5. 5. Uygulama Senaryoları  Finansal Analiz  Market Stratejileri  Halkla İlişkiler Çalışanları  Medya Analistleri12/28/2011 Canan Girgin Yıldız Teknik Universitesi 5
  6. 6. Finansal Analiz  “Şirketimizle aynı konuda çalışan guçlu bir performansa sahip olacağı tahmin edilen kaç tane şirket var?”  “Geçtiğimiz yıl bu şirket için tahminlerin profilleri nasıl değişti?”  “Şirket için kaç tane olumlu/olumsuz duşunce ifade edildi?”12/28/2011 Canan Girgin Yıldız Teknik Universitesi 6
  7. 7. Market Stratejileri • “Bu sabah IT yazılarının %7 sinde şirketinizden bahsetti. Sizin şirketinizle doğrudan ilgili olanlarının avaraj oranı 33%. Sizin sektörünüzdeki diğer şirketlerin özet olarak goruntusu ekteki tablodadır.” • «Şirket Y Comdex de sergilendi. Bir sonraki hafta Comdex sergisi ile ilgili yazıların %20 si Y şirketi ile ilgiliydi.»12/28/2011 Canan Girgin Yıldız Teknik Universitesi 7
  8. 8. Halkla İlişkiler Çalışanları  „Aşağıdaki tablo IT haberlerinde ki şirketiniz hakkında son 24 saatte çıkan 12 negatif raporlanacak olayı özetliyor.”12/28/2011 Canan Girgin Yıldız Teknik Universitesi 8
  9. 9. Medya Analistleri  “Sizin şirketiniz ve XML konusundaki medya uzaklığı 0.09; IBM için bu değer 0.2”12/28/2011 Canan Girgin Yıldız Teknik Universitesi 9
  10. 10. 5 IE Turu  Named Entity recognition (NE)  Coreference resolution (CO)  Template Element construction (TE)  Template Relation construction (TR)  Scenario Template production (ST)12/28/2011 Canan Girgin Yıldız Teknik Universitesi 10
  11. 11. Örnek: Salı günü parlak kırmızı roket atıldı. Bu Dr. Big Head „in parlak bir buluşu. Dr. Head We Build Rockets şirketinde bilim adamı olarak çalışmakta.  NE “roket, Salı, Dr. Head ve We Build Rockets Inc” varlıklarını bulur.  CO rokete başvuracağını bulur.  TE roketin parlak kırmızı olduğunu ve Head‟in buluşu olduğunu bulur.  TR Dr. Head‟in “We Build Rockets Inc.” İçin çalıştığını bulur.  ST birçok varlığı barındıran bir roket fırlatma olayının olduğunu bulur.12/28/2011 Canan Girgin Yıldız Teknik Universitesi 11
  12. 12. Named Entity recognition (NE)  “Named Entity Extraction”  NE sistemi tum kişi isimlerini, yerleri, organizasyonları,  tarihleri, para miktarlarını vs. tanımlar  NE varlık tanıması 95% oranda başarılı olmuştur12/28/2011 Canan Girgin Yıldız Teknik Universitesi 12
  13. 13. Coreference resolution (CO)  Kimlik ilişkileri tanımları  “Ne yazık, zavallı Yorick, ben onu Horatio olarak bilirdim.”  Yoric => onu  Problemler:  Zamir Çözumleme( anaphoric resolution) Örneğin: „Ben‟ ile “Ahmet”.  Özel isim çözumleme(proper-noun resolution) Örneğin: „IBM‟, „IBM Europe‟, „ International Business Machines Ltd.‟. .  Başarı: %50-6012/28/2011 Canan Girgin Yıldız Teknik Universitesi 13
  14. 14. Template Element construction (TE)  Açıklayıcı bilgiler ile varlıkları ilişkilendirir.  En iyi başarı oranı %8012/28/2011 Canan Girgin Yıldız Teknik Universitesi 14
  15. 15. Template Relation construction (TR)  Template elemenler arasında ki az sayıdaki olası ilişkiyi tanımlar  Örneğin bir kişi ve şirket arasındaki çalışan ilişkisi iki kişi arasındaki akrabalık ilişkisi, ya da iki şirket arasındaki ortaklık ilişkisi.  En iyi başarı oranı %7512/28/2011 Canan Girgin Yıldız Teknik Universitesi 15
  16. 16. Scenario Template production (ST)  Scenario templates (STs) IE sistemleri için prototip çıktılardır.  Başarı oranı %6012/28/2011 Canan Girgin Yıldız Teknik Universitesi 16
  17. 17. MUC dan Sonra IE  Taşınabilir IE  Otomatik İçerik Çıkarımı ( Automatic Content Extraction ACE)  Ontoloji Tabanlı IE12/28/2011 Canan Girgin Yıldız Teknik Universitesi 17
  18. 18. Teşekurler12/28/2011 Canan Girgin Yıldız Teknik Universitesi 18

×