It3 4 2 4 2 1

816 views

Published on

Published in: Technology, Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
816
On SlideShare
0
From Embeds
0
Number of Embeds
28
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

It3 4 2 4 2 1

  1. 1. Számítógépes szövegelemzés IT3-BT, 2007. május 11
  2. 2. Behatárolás <ul><li>A számítógépes szövegelemzés </li></ul><ul><li>strukturálatlan információkat elemez (mint pl. e-mail-ek, dokumentumok), hogy </li></ul><ul><li>adatokat (pl. tényállításokat) és metaadatokat (pl. kategorizálás) nyerjen ki belőlük </li></ul><ul><li>különböző (pl. nyelvi vagy statisztikai) technikák-kal. </li></ul><ul><li>Pontosítás </li></ul><ul><li>csak szöveg és (előfeldolgozás után) beszéd elemzése </li></ul><ul><li>strukturálatlan = nehezen feldolgozható struktúrákat tartalma-zó </li></ul><ul><li>Kizárás </li></ul><ul><li>helyesírás- vagy nyelvhelyességellenőrző és -javító eszközök </li></ul><ul><li>szövegek készítését segítő eszközök </li></ul><ul><li>gépi fordító rendszerek </li></ul>
  3. 3. Tézis <ul><li>A számítógépes szövegelemzés </li></ul><ul><li>beintegrálódik a vállalatok üzleti intelligen-cia megoldásaiba és ismeretgazdálkodási kezdeményezéseibe, </li></ul><ul><li>kiterjeszti az informatika lehetőségeit új al-kalmazások felé, és szerves részévé válik az alkalmazási rendszereknek, </li></ul><ul><li>általában is növelni fogja az ember-gép kap-csolat hatékonyságát. </li></ul>
  4. 4. Kapcsolódó technológiák <ul><li>Tartalomkezelés (Content Management) </li></ul><ul><li>Ismeretkezelés (Knowledge Management) </li></ul><ul><li>Keresés (Search) </li></ul><ul><li>Üzleti intelligencia (Business Intelligence) </li></ul><ul><ul><li>adatbányászat </li></ul></ul><ul><ul><li>adatintegráció </li></ul></ul><ul><li>A szavakon túl (de azok segítségével) </li></ul><ul><ul><li>fogalmak (tezauruszok, taxonómiák, ontológiák) és </li></ul></ul><ul><ul><li>tartalmi (nemcsak felszínes) kapcsolódásaik </li></ul></ul><ul><li>azonosítása a szövegben. </li></ul>
  5. 5. Szövegelérés és -előkészítés Tartalomelemzés A szövegben szereplő objektumok és fogalmak meghatározása, egyértelmű-sítése, tulajdonságaik és kapcsolataik megállapítása nyelvi, tematikus vagy ontológiai megközelítéssel A szöveg alapvető jelentéshordozó egységeinek meghatározása (fejezet, szakasz, bekezdés, mondat, szó, táblázat, lista stb.) Attól függően, hogy a szöveg XML-formátumú, RDBMS-hez integrált vagy metaadatokkal más módon jól jellemzett-e Információ- bővítés és -integrálás Információ- átalakítás és -megjelenítés Az egyes jelentési egységekből az elemi struktúrák kiemelése, elemi következtetések elvégzése és a kinyert és a háttérinformációk integrálása A szövegből kinyert és integrált információ további gépi vagy emberi használatra való elkészítése. Jelentési egységek Elemi jelentésstruktúrák Bővített jelentésstruktúra Kontextusinformáció taxonómia vagy ontológia formájában Háttérinformáció objektumokról struktúrált forrásokból A használati kontextus leírása taxonómia vagy ontológia formájában Szakontológiák 1 2 3 Szótárak, nyelvi ontológiák Morfológiai elemzés Szintaktikai elemzés Szemantikai elemzés Tárolás, prezentáció
  6. 6. A tartalmi elemzés megközelítései <ul><li>Nyelvi megközelítés </li></ul><ul><ul><li>Kiindulás : a teljes szöveg </li></ul></ul><ul><ul><li>Technika : szintaktikai és nyelvi-szemantikai elemzés </li></ul></ul><ul><li>Tematikus megközelítés </li></ul><ul><ul><li>Kiindulás : a szöveg összes „lényeges” szava </li></ul></ul><ul><ul><li>Technika : gyakoriság- és kollokációelemzés </li></ul></ul><ul><li>Ontológiai megközelítés </li></ul><ul><ul><li>Kiindulás : az ontológia, mint kontextus </li></ul></ul><ul><ul><li>Technika : illesztés az ontológiához, gyakoriság- és kollokációelemzés, kontextusalapú szemantikai elemzés </li></ul></ul>
  7. 7. WordNet <ul><li>Cél </li></ul><ul><ul><li>a szótár és a tezaurusz (szinonímatár) funkciók kombinálásával intuitíven jól használható nyelvi lexikon létrehozása, </li></ul></ul><ul><ul><li>támogatni az automatikus szövegelemzést és a mesterségesintelligencia-alkalmazásokat </li></ul></ul><ul><li>Megközelítés </li></ul><ul><ul><li>A szavakat szinonímacsoportokba (synset) szervezi </li></ul></ul><ul><ul><li>rövid, általános meghatározásokat ad rájuk, </li></ul></ul><ul><ul><li>rögzíti a szinonímacsoportok közti jelentéshordozó (szemantikus) kapcsolatokat . </li></ul></ul>
  8. 8. EuroWordNet – a nyelvek összekapcsolása nyelvek közti megfeleltés (ILI) felső szintű ontológia holland wordnet hol- land BC alapfogalmak (BC) spanyol wordnet spa- nyol BC … (bicicleta, velocipedo) hipernima (bicycle, bike) ekvivalens ekvivalens … (fiets, rijkwiel) hipernima
  9. 10. Lokális nyelvtanok <ul><li>Kontextusspecifikus nyelvtani elemzés </li></ul><ul><li>Mottó: „Nem kell mindent megérteni” </li></ul><ul><ul><li>… gyakran az is elég, ha azt megértjük, amire kiváncsiak vagyunk. </li></ul></ul><ul><li>Különböző nyelvtanok különböző témakörökre, pl.: </li></ul><ul><ul><li>Oksági viszonyok </li></ul></ul><ul><ul><li>Személyek közti kapcsolatok </li></ul></ul><ul><ul><li>Üzleti viszonyok </li></ul></ul>
  10. 11. Szövegelemzés (TA) és BI-technológiák <ul><li>TA -> BI </li></ul><ul><ul><li>Eddig feldolgozatlan információkör bevonása </li></ul></ul><ul><li>BI -> TA </li></ul><ul><ul><li>Adatbázis és adattárház, mint háttértudás </li></ul></ul><ul><li>Információintegráció </li></ul><ul><ul><li>a szövegek mögötti háttértudás aktvizálásának rugalmas eszköze </li></ul></ul><ul><ul><li>Névkifejezések (pl. tulajdonevek, azonosítók) mögötti objektumok felismerése </li></ul></ul><ul><li>Egyre több BI-eszköz biztosít hozzáférést strukturálatlan forrásokhoz valamilyen szinten </li></ul>
  11. 12. Megjelenítés „önszervező háló”-val egy csoportot alkotó dokumentumok határát fekete vonal jelzi dokumentumok összetartozásának mértékét színek mutatják: piros – magas sárga - közepes kék - alacsony a dokumentumok csoportosítása jellemző szavaik szerint történik a dokumentumokat fehér pontok jelölik
  12. 13. Várható fejlődés integrálódás az üzleti intelligencia eszközeivel magyar szintaktikai elemző nyelvi tudású internetkereső szövegértő és tanuló rendszerek szövegelemzés mindennapi környezetben morfológiai elemzés WordNet terjedőben nyelvi és szakontológiák együttes alkalmazása speciális grammatikák vállalati használatban tematikus elemzés 2007 2012 2017
  13. 14. Számítógépes szövegértés felé belső rendszer moduláris feldolgozó alrendszer asszociatív memória-alrendszer külső objektum jelsorozat kereső modul vezérlő modul hosszú távú memória közbenső memória rövid távú memória felismerő- generáló modul érzékelő modul tároló modul elemző modul jelentés ideiglenes kialakult
  14. 15. Technológiai tényezők Web 2.0 térhódítása Web, mint korpusz Webes keresés finomodása Szövegmennyiség további növekedése Szövegelemzés fejlődése Tárolókapacitások növekedése Számítási kapacitások növekedése Nyelvtechnológiák fejlődése Szemantikus Web – Adatintegráció fejlődése Szakontológiák stabilizálódása + OCR fejlődése
  15. 16. Gazdasági tényezők Ügyfélkapcsolat kezelés finomodása Szövegelemzés fejlődése Biztonsági kérdések előtérbe kerülése Élettudományok beépülése a mindennapokba – Személyiségjogi aggályok felmerülése Nemzetbiztonság, terrorelhárítás Bankbiztonság Réspiacok számának növekedése Rendészeti feladatok Globális szolgáltatási igények Géntechnológia alkalmazása Gyógyászati diagnosztika fejlődése
  16. 17. Társadalmi tényezők Szövegelemzés fejlődése Közszolgáltatások elektronizálása Internet tömeges, aktív használata – Innovációs készség hiánya Web 2.0 terjedése Sávszélesség jelentős növekedése
  17. 18. Hatások <ul><li>Társadalom </li></ul><ul><ul><li>Papírmunka további visszaszorulása </li></ul></ul><ul><ul><li>Soknyelvűség fenntarthatósága </li></ul></ul><ul><ul><li>Hatékonyabb ember-gép kommunikáció </li></ul></ul><ul><li>Gazdaság </li></ul><ul><ul><li>Teljeskörű információkezelés (felé) </li></ul></ul><ul><li>Technológia </li></ul><ul><ul><li>Gépi fordítás tökéletesedése </li></ul></ul><ul><ul><li>Multimodális adatelemzés elősegítése </li></ul></ul>
  18. 19. Hazai szereplők <ul><li>MTA Nyelvtudományi Intézete (NYTI), </li></ul><ul><li>Morphologic Kft. </li></ul><ul><li>Szegedi Tudományegyetem (SZTE) Nyelvtechnológiai Csoportja (NyTCs). </li></ul><ul><li>BME Média Oktatási és Kutató Központ (MOKK) </li></ul><ul><li>Alkalmazott Logikai Laboratórium Kft. (ALL) </li></ul><ul><li>Signum Kft. </li></ul>
  19. 20. Hazai fejlesztések <ul><li>Magyar Wordnet </li></ul><ul><li>Magyar NooJ </li></ul><ul><li>Nyelvfüggetlen tulajdonnévfelismerés </li></ul><ul><li>Alkamazások: </li></ul><ul><ul><li>Egészségügy (+ pszichológia) </li></ul></ul><ul><ul><li>Üzleti információk </li></ul></ul>
  20. 21. Hazai tényezők és hatások <ul><li>Fejlesztéspolitika: </li></ul><ul><ul><li>csak magunkra számíthatunk </li></ul></ul><ul><ul><ul><li>általános és specifikus magyar nyelvi elemzők, </li></ul></ul></ul><ul><ul><ul><li>magyar nyelvi ontológiák, </li></ul></ul></ul><ul><ul><ul><li>jó minőségű nyelvi annotációt tartalmazó, magyar szövegkorpuszok </li></ul></ul></ul><ul><ul><ul><li>szakontológiák magyar nyelvi változatai </li></ul></ul></ul><ul><li>Nyilt forráskódú alaptechnológia: </li></ul><ul><ul><li>lenni vagy nem lenni? </li></ul></ul>

×