Microsegment Corpus
(Hungarian - Magyar)
01.30
2010.10.31
2010.11.03. www.microsegment.hu 2
Korpusz
 http://hu.wikipedia.org/wiki/Korpusz:
– A korpusz nyelvészeti szakkifejezés, j...
2010.11.03. www.microsegment.hu 3
Microsegment Corpus
 Első (legfontosabb) forrás:
– Webcorpus:
http://mokk.bme.hu/resour...
2010.11.03. www.microsegment.hu 4
Hogyan készül
Forrás szöveg
…
…
…
Jelenleg több fajta
(szöveg, szótár) és
néhány formátu...
2010.11.03. www.microsegment.hu 5
Mire használjuk
 Szövegbányászati projektekhez
 Adattisztítás (Data Improver 2.0)
 Eg...
2010.11.03. www.microsegment.hu 62010.11.03. www.microsegment.hu 6
Tokenek forrásonkénti darabszáma
Microsegment Corpus 01...
2010.11.03. www.microsegment.hu 72010.11.03. www.microsegment.hu 7
Microsegment Corpus bővítése
Verzió Dátum Tartalom Stru...
2010.11.03. www.microsegment.hu 82010.11.03. www.microsegment.hu 8
Tokenek forrásonkénti keresztelőfordulásai
Microsegment...
2010.11.03. www.microsegment.hu 92010.11.03. www.microsegment.hu 9
Új tokenek forrásonkénti darabszámai
Microsegment Corpu...
2010.11.03. www.microsegment.hu 10
Tokenek kezdőbetűnkénti darabszáma (6 207 058 db)
Lemmák kezdőbetűnkénti darabszáma (1 ...
2010.11.03. www.microsegment.hu 11
Lemmák kezdőbetűnkénti súlyozott darabszáma (5 716 022 db)
2010.11.03. www.microsegment.hu 122010.11.03. www.microsegment.hu 12
Sorrend Lemma Előfordulás (db)
1 én 858
2 ezer 717
3 ...
2010.11.03. www.microsegment.hu 13
Kérdések
csaba.kiss[at]microsegment.hu
Upcoming SlideShare
Loading in …5
×

Microsegment Corpus 01.30

949 views
895 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
949
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Microsegment Corpus 01.30

  1. 1. Microsegment Corpus (Hungarian - Magyar) 01.30 2010.10.31
  2. 2. 2010.11.03. www.microsegment.hu 2 Korpusz  http://hu.wikipedia.org/wiki/Korpusz: – A korpusz nyelvészeti szakkifejezés, jelentése egy adott nyelv adott időpontban használt változatára vonatkozó szövegek összessége. – A szó a latin corpus (test) szóból ered, és a "nyelvi test", nyelvi összesség értelemben használt. – A nyelvi korpusz felhasználásaira lehet példa szótárak létrehozása, nyelv jellegzetességeinek elemzése. – Létrehozásakor fontos szempont, hogy lehetőség szerint ne keveredjen benne az adott nyelv eltérő időszakokban használt (új, és régies) formája. – Az informatika terjedésével egyre könnyebb igen nagy mennyiségű, természetes szöveget tartalmazó korpuszok létrehozása, ilyen célra használhatóak például a digitalizált lexikonok, a Wikipédia, de például az internetes weblapok egy adott köre is (pl. sajtó).  http://corpus.nytud.hu/mnsz/: – A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Az MNSZ a mai magyar írott köznyelv általános célú reprezentatív korpusza kíván lenni.
  3. 3. 2010.11.03. www.microsegment.hu 3 Microsegment Corpus  Első (legfontosabb) forrás: – Webcorpus: http://mokk.bme.hu/resources/webcorpus/ Halácsy Péter, Kornai András, Németh László, Rung András, Szakadát István, Trón Viktor Creating open language resources for Hungarian In Proceedings of the 4th international conference on Language Resources and Evaluation (LREC2004), 2004 ps pdf Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based frequency dictionaries for medium density languages In: Proceedings of the 2nd International Workshop on Web as Corpus, edited by Adam Kilgarriff, Marco Baroni ACL-06, pages 1--9. pdf  Második legfontosabb forrás – Magyar wikipedia szövegei (2010. Április)  További források – www.fn.hu – www.hvg.hu – www.mti.hu – Stb.
  4. 4. 2010.11.03. www.microsegment.hu 4 Hogyan készül Forrás szöveg … … … Jelenleg több fajta (szöveg, szótár) és néhány formátumú (txt, pdf, cvs, stb.) fogadására képes Feldolgozás Helyesírás ellenőrzés tokenizálás és egyéb feldolgozás Tárolás Utólagos Feldolgozás Statisztikák Keresztvizsgálatok „Auto-Tag”-elés
  5. 5. 2010.11.03. www.microsegment.hu 5 Mire használjuk  Szövegbányászati projektekhez  Adattisztítás (Data Improver 2.0)  Egyéb elemzések (közösségi elemzések, témák, szinonimák, trendek)  Saját tudástárunk keresőmotorja
  6. 6. 2010.11.03. www.microsegment.hu 62010.11.03. www.microsegment.hu 6 Tokenek forrásonkénti darabszáma Microsegment Corpus 01.00 (alap)
  7. 7. 2010.11.03. www.microsegment.hu 72010.11.03. www.microsegment.hu 7 Microsegment Corpus bővítése Verzió Dátum Tartalom Struktúra Módszer 01.00 2010.04.10. Webcorpus, Wiki címszavak, BM utcanevek, Trágár szavak, Közterületek, Magyar keresztnevek, Magyar településnevek, Magyar vezetéknevek Lemma Hunspell alkalmazása 01.15 2010.08.10. Wiki Hun 2010.04, eBooks, www.mti.hu 2004-2010 01.20 2010.10.10 www.fn.hu Amerikai keresztnevek Leíró statisztikák tokenekre és lemmákra NER Huntoken alkalmazása 01.30 2010.10.20 Számnevek (arab és római) Auto-Tag-ek
  8. 8. 2010.11.03. www.microsegment.hu 82010.11.03. www.microsegment.hu 8 Tokenek forrásonkénti keresztelőfordulásai Microsegment Corpus 01.30 Microsegment Corpus 1.0 Arab számok Római számok Amerikai női keresztnevek Amerikai férfi keresztnevek eBooks www.fn.hu www.mti.hu Wiki Hun - 2010.04 Microsegment Corpus 1.0 5 600 791 713 160 1 252 484 864 561 72 757 75 303 929 806 Arab számok 713 2 999 387 50 242 387 50 77 242 Római számok 160 387 3 999 3 468 783 100 30 51 163 Amerikai női keresztnevek 1 252 50 3 4 275 331 1 923 328 484 2 279 Amerikai férfi keresztnevek 484 242 468 783 331 1 219 1 022 281 398 1 096 eBooks 864 561 387 100 1 923 1 022 1 308 703 59 026 61 970 468 783 www.fn.hu 72 757 50 30 328 281 59 026 79 283 31 191 64 486 www.mti.hu 75 303 77 51 484 398 61 970 31 191 80 773 69 541 Wiki Hun 2010.04 929 806 242 163 2 279 1 096 468 783 64 486 69 541 1 131 283
  9. 9. 2010.11.03. www.microsegment.hu 92010.11.03. www.microsegment.hu 9 Új tokenek forrásonkénti darabszámai Microsegment Corpus 01.30 Dátum Új token (db) Microsegment Corpus 1.0 2010.04.10 5 600 791 Wiki Hun - 2010.04 2010.08.10 201 477 eBooks 2010.08.27 389 673 mti.hu 2010.08.31 2 592 Amerikai férfi keresztnevek 2010.10.10 113 Amerikai női keresztnevek 2010.10.10 1 851 fn.hu 2010.10.17 4 584 Arab számok 2010.10.20 2 207 Római számok 2010.10.20 3 770
  10. 10. 2010.11.03. www.microsegment.hu 10 Tokenek kezdőbetűnkénti darabszáma (6 207 058 db) Lemmák kezdőbetűnkénti darabszáma (1 352 386 db)
  11. 11. 2010.11.03. www.microsegment.hu 11 Lemmák kezdőbetűnkénti súlyozott darabszáma (5 716 022 db)
  12. 12. 2010.11.03. www.microsegment.hu 122010.11.03. www.microsegment.hu 12 Sorrend Lemma Előfordulás (db) 1 én 858 2 ezer 717 3 egy 645 4 három 540 5 négy 520 6 láb 491 7 öt 491 8 maga 471 9 éves 468 10 hat 462 11 hét 445 12 kettő 437 13 oldal 411 14 száz 392 15 jó 380 16 kar 376 17 szív 359 18 nyolc 358 19 év 356 20 barát 353 21 fej 344 22 tíz 344 23 fog 344 24 millió 342 25 szó 342 26 ház 339 27 nagy 336 28 szem 334 29 szomszéd 330 30 mag 330 31 tag 326 32 szín 326 33 tér 324 A leggyakoribb lemmák Sorrend Lemma Előfordulás (db) 34 nyelv 324 35 nap 319 36 gyermek 318 37 út 316 38 társ 313 39 kilenc 312 40 ember 311 41 apa 309 42 sok 308 43 kor 308 44 föld 306 45 tanár 306 46 testvér 305 47 óra 304 48 fal 303 49 csapat 302 50 anya 302 51 sejt 299 52 levél 295 53 szint 294 54 város 294 55 állat 294 56 ár 292 57 anyag 291 58 vár 288 59 kéz 287 60 ér 286 61 él 285 62 saját 285 63 szer 284 64 lélek 284 65 atya 280 66 test 279 Sorrend Lemma Előfordulás (db) 67 méret 279 68 szám 277 69 áll 277 70 érték 275 71 falu 275 72 szülő 272 73 rokon 271 74 isten 271 75 előd 271 76 lány 271 77 mű 269 78 nő 269 79 tesz 267 80 ország 266 81 világ 265 82 család 265 83 jegy 265 84 sor 264 85 kerék 264 86 cél 264 87 hely 263 88 rész 263 89 lépés 262 90 arc 262 91 gyerek 261 92 név 261 93 úr 261 94 adat 260 95 nyom 259 96 munka 259 97 nemzet 259 98 ügy 259 99 mondat 258
  13. 13. 2010.11.03. www.microsegment.hu 13 Kérdések csaba.kiss[at]microsegment.hu

×