• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Microsegment corpus 01.32   statistics
 

Microsegment corpus 01.32 statistics

on

  • 603 views

corpus,lemma,ner,tag,text-mining,token,hungarian,text-processing

corpus,lemma,ner,tag,text-mining,token,hungarian,text-processing

Statistics

Views

Total Views
603
Views on SlideShare
602
Embed Views
1

Actions

Likes
0
Downloads
0
Comments
0

1 Embed 1

http://www.linkedin.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Microsegment corpus 01.32   statistics Microsegment corpus 01.32 statistics Presentation Transcript

    • Microsegment Corpus(Hungarian - Magyar) 01.32 2011.02.01
    • Korpusz http://hu.wikipedia.org/wiki/Korpusz: – A korpusz nyelvészeti szakkifejezés, jelentése egy adott nyelv adott időpontban használt változatára vonatkozó szövegek összessége. – A szó a latin corpus (test) szóból ered, és a "nyelvi test", nyelvi összesség értelemben használt. – A nyelvi korpusz felhasználásaira lehet példa szótárak létrehozása, nyelv jellegzetességeinek elemzése. – Létrehozásakor fontos szempont, hogy lehetőség szerint ne keveredjen benne az adott nyelv eltérő időszakokban használt (új, és régies) formája. – Az informatika terjedésével egyre könnyebb igen nagy mennyiségű, természetes szöveget tartalmazó korpuszok létrehozása, ilyen célra használhatóak például a digitalizált lexikonok, a Wikipédia, de például az internetes weblapok egy adott köre is (pl. sajtó). http://corpus.nytud.hu/mnsz/: – A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Az MNSZ a mai magyar írott köznyelv általános célú reprezentatív korpusza kíván lenni.2011.02.01. www.microsegment.hu 2
    • Microsegment Corpus Első (legfontosabb) forrás: – Webcorpus: http://mokk.bme.hu/resources/webcorpus/ Halácsy Péter, Kornai András, Németh László, Rung András, Szakadát István, Trón Viktor Creating open language resources for Hungarian In Proceedings of the 4th international conference on Language Resources and Evaluation (LREC2004), 2004 ps pdf Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based frequency dictionaries for medium density languages In: Proceedings of the 2nd International Workshop on Web as Corpus, edited by Adam Kilgarriff, Marco Baroni ACL-06, pages 1--9. pdf Második legfontosabb forrás – Magyar wikipedia szövegei (2010. Április) További források – www.fn.hu – www.hvg.hu – www.mti.hu Forrás jelöltek – Minden nyilvánosan hozzáférhető digitális magyar nyelvű forrás2011.02.01. www.microsegment.hu 3
    • Hogyan készül / Mire használjuk Forrás szöveg … Utólagos … Feldolgozás Feldolgozás … Helyesírás ellenőrzés Statisztikák Jelenleg több fajta tokenizálás és Tárolás egyéb Keresztvizsgálatok (szöveg, szótár) és néhány formátumú feldolgozás „Auto-Tag”-elés (txt, pdf, cvs, stb.) fogadására képes Felhasználás Szövegbányászati projektekhez Adattisztítás (Data Improver) Egyéb elemzések (közösségi elemzések, tematizálás, szinonimák, trendek) Saját tudástárunk keresőmotorja2011.02.01. www.microsegment.hu 4
    • Tokenek forrásonkénti darabszámaMicrosegment Corpus 01.00 (alap)2011.02.01. www.microsegment.hu 5
    • Microsegment Corpus bővítéseVerzió Dátum Tartalom Struktúra Módszer Webcorpus, Wiki címszavak, BM utcanevek, Trágár szavak,01.00 2010.04.10. Közterületek, Magyar keresztnevek, Lemma Hunspell alkalmazása Magyar településnevek, Magyar vezetéknevek Wiki Hun 2010.04,01.15 2010.08.10. eBooks, www.mti.hu 2004-2010 Leíró statisztikák fn.hu (1) tokenekre és01.20 2010.10.10 Huntoken alkalmazása Amerikai keresztnevek lemmákra NER01.30 2010.10.20 Számnevek (arab és római) Auto-Tag-ek2011.02.01. www.microsegment.hu 6
    • Tokenek forrásonkénti keresztelőfordulásaiMicrosegment Corpus 01.30 (Előző kiadás) Microsegment Arab Római Amerikai női Amerikai férfi Wiki Hun - eBooks www.fn.hu www.mti.hu Corpus 1.0 számok számok keresztnevek keresztnevek 2010.04MicrosegmentCorpus 1.0 5 600 791 713 160 1 252 484 864 561 72 757 75 303 929 806Arab számok 713 2 999 387 50 242 387 50 77 242Római számok 160 387 3 999 3 468 783 100 30 51 163Amerikai nőikeresztnevek 1 252 50 3 4 275 331 1 923 328 484 2 279Amerikai férfikeresztnevek 484 242 468 783 331 1 219 1 022 281 398 1 096eBooks 864 561 387 100 1 923 1 022 1 308 703 59 026 61 970 468 783fn.hu (1) 72 757 50 30 328 281 59 026 79 283 31 191 64 486www.mti.hu 75 303 77 51 484 398 61 970 31 191 80 773 69 541Wiki Hun2010.04 929 806 242 163 2 279 1 096 468 783 64 486 69 541 1 131 2832011.02.01. www.microsegment.hu 7
    • Új tokenek forrásonkénti darabszámaiMicrosegment Corpus 01.30 (Előző kiadás) Dátum Új token (db)Microsegment Corpus 1.0 2010.04.10 5 600 791Wiki Hun - 2010.04 2010.08.10 201 477eBooks 2010.08.27 389 673mti.hu 2010.08.31 2 592Amerikai férfi keresztnevek 2010.10.10 113Amerikai női keresztnevek 2010.10.10 1 851fn.hu 2010.10.17 4 584Arab számok 2010.10.20 2 207Római számok 2010.10.20 3 770 5600791 10 000 000 1 000 000 389673 201477 100 000 2592 4584 3770 10 000 1851 2207 1 000 113 100 10 1 Microsegment Wiki Hun - eBooks mti.hu Amerikai ffi Amerikai női fn.hu (1) arab számok római számok corpus 1.0 2010.04 nevek nevek2011.02.01. www.microsegment.hu 8
    • Microsegment Corpus bővítéseVerzió Dátum Tartalom Struktúra Módszer Webcorpus, Wiki címszavak, BM utcanevek, Trágár szavak,01.00 2010.04.10. Közterületek, Magyar keresztnevek, Lemma Hunspell alkalmazása Magyar településnevek, Magyar vezetéknevek Wiki Hun 2010.04,01.15 2010.08.10. eBooks, www.mti.hu 2004-2010 Leíró statisztikák fn.hu (1) tokenekre és01.20 2010.10.10 Huntoken alkalmazása Amerikai keresztnevek lemmákra NER01.30 2010.10.20 Számnevek (arab és római) Auto-Tag-ek01.31 2010.11.20 fn.hu (2)01.32 2011.01.06 fn.hu (3)2011.02.01. www.microsegment.hu 9
    • Microsegment Corpus 01.32Tokenek forrásonkénti keresztelőfordulásai Microsegment Corpus 1.30 fn.hu (2) fn.hu (3)Microsegment Corpus 1.30 6 207 058 67 044 157 100fn.hu (2) 67 044 70 705 48 227fn.hu (3) 157 100 48 227 172 311Új tokenek forrásonkénti előfordulásai 10 000 000 6 207 058 1 000 000 Dátum Új token (db) 100 000Microsegment Corpus 1.30 2010.10.20 6 207 058 14 631 10 000 3 661fn.hu (1) 2010.11.20 3 661 1 000fn.hu (2) 2011.01.06 14 631 100 10 1 Microsegment Corpus 1.30 fn.hu (2) fn.hu (3)2011.02.01. www.microsegment.hu 10
    • Új tokenek forrásonkénti darabszámaiMicrosegment Corpus 01.32 Dátum Új token (db) 10 000 000 5 600 791Microsegment 2010.04.10 5 600 791Corpus 1.0 1 000 000 389 673Wiki Hun - 2010.04 2010.08.10 201 477 201 477eBooks 2010.08.27 389 673 100 000mti.hu 2010.08.31 2 592 14 631Amerikai férfi 10 000 2010.10.10 113 4 584 3 770 3 661keresztnevek 2 592 2 207 1 851Amerikai női 2010.10.10 1 851keresztnevek 1 000fn.hu (1) 2010.10.17 4 584 113 100Arab számok 2010.10.20 2 207Római számok 2010.10.20 3 770 10fn.hu (2) 2010.11.20 3 661fn.hu (3) 2011.01.06 14 631 1 Microsegment Wiki Hun - eBooks mti.hu Amerikai férfi Amerikai női fn.hu (1) Arab számok Római számok fn.hu (2) fn.hu (3) Corpus 1.0 2010.04 keresztnevek keresztnevek2011.02.01. www.microsegment.hu 11
    • Tokenek kezdőbetűnkénti darabszáma (6 225 350 db) Lemmák kezdőbetűnkénti darabszáma (1 352 386 db) A 3,75% A 3,75% A 3,63% A 3,63% Á 1,75% Á 1,75% Á 1,80% Á 1,80% B 5,73% B 5,73% B 5,78% B 5,78% C, CS 2,98% C, CS 2,98% C, CS 3,10% C, CS 3,10%D, DZ, DZS 2,21% D, DZ, DZS 2,21% D, DZ, DZS 2,07% D, DZ, DZS 2,07% E 4,50% E 4,50% E 4,02% E 4,02% É 1,39% É 1,39% É 1,40% É 1,40% F 6,86% F 6,86% F 7,09% F 7,09% G, GY 3,03% G, GY 3,03% G, GY 3,17% G, GY 3,17% H 5,07% H 5,07% H 5,02% H 5,02% I 2,28% I 2,28% I 2,16% I 2,16% Í 0,24% Í 0,24% Í 0,25% Í 0,25% J 1,42% J 1,42% J 1,30% J 1,30% K 10,18% K 10,18% K 10,30% K 10,30% L, LY 4,20% L, LY 4,20% L, LY 4,01% L, LY 4,01% M 7,26% M 7,26% M 6,78% M 6,78% N, NY 2,54% N, NY 2,54% N, NY 2,43% N, NY 2,43% O 1,39% O 1,39% O 1,40% O 1,40% Ó 0,23% Ó 0,23% Ó 0,29% Ó 0,29% Ö 1,16% Ö 1,16% Ö 1,15% Ö 1,15% Ő 0,23% Ő 0,23% Ő 0,25% Ő 0,25% P 4,43% P 4,43% P 4,73% P 4,73% Q 0,02% Q 0,02% Q 0,00% Q 0,00% R 3,48% R 3,48% R 3,51% R 3,51% S, SZ 8,54% S, SZ 8,54% S, SZ 8,71% S, SZ 8,71% T, TY 7,10% T, TY 7,10% T, TY 7,57% T, TY 7,57% U 0,53% U 0,53% U 0,48% U 0,48% Ú 0,45% Ú 0,45% Ú 0,49% Ú 0,49% Ü 0,64% Ü 0,64% Ü 0,63% Ü 0,63% Ű 0,08% Ű 0,08% Ű 0,10% Ű 0,10% V 5,03% V 5,03% V 5,21% V 5,21% W 0,22% W 0,22% W 0,12% W 0,12% X 0,01% X 0,01% X 0,00% X 0,00% Y 0,02% Y 0,02% Y 0,00% Y 0,00% Z, ZS 1,03% Z, ZS 1,03% Z, ZS 1,05% Z, ZS 1,05% 0 100 000 200 000 300 000 400 000 500 000 600 000 700 000 0 20 000 40 000 60 000 80 000 100 000 120 000 140 000 160 000 2011.02.01. www.microsegment.hu 12
    • A leggyakoribb lemmák Sorrend Lemma Előfordulás (db) Sorrend Lemma Előfordulás (db) Sorrend Lemma Előfordulás (db)1 én 858 34 nyelv 324 67 méret 2792 ezer 717 35 nap 319 68 szám 2773 egy 645 36 gyermek 318 69 áll 2774 három 540 37 út 316 70 érték 2755 négy 520 38 társ 313 71 falu 2756 láb 491 39 kilenc 312 72 szülő 2727 öt 491 40 ember 311 73 rokon 2718 maga 471 41 apa 309 74 isten 2719 éves 468 42 sok 308 75 előd 27110 hat 462 43 kor 308 76 lány 27111 hét 445 44 föld 306 77 mű 26912 kettő 437 45 tanár 306 78 nő 26913 oldal 411 46 testvér 305 79 tesz 26714 száz 392 47 óra 304 80 ország 26615 jó 380 48 fal 303 81 világ 26516 kar 376 49 csapat 302 82 család 26517 szív 359 50 anya 302 83 jegy 26518 nyolc 358 51 sejt 299 84 sor 26419 év 356 52 levél 295 85 kerék 26420 barát 353 53 szint 294 86 cél 26421 fej 344 54 város 294 87 hely 26322 tíz 344 55 állat 294 88 rész 26323 fog 344 56 ár 292 89 lépés 26224 millió 342 57 anyag 291 90 arc 26225 szó 342 58 vár 288 91 gyerek 26126 ház 339 59 kéz 287 92 név 26127 nagy 336 60 ér 286 93 úr 26128 szem 334 61 él 285 94 adat 26029 szomszéd 330 62 saját 285 95 nyom 25930 mag 330 63 szer 284 96 munka 25931 tag 326 64 lélek 284 97 nemzet 25932 szín 326 65 atya 280 98 ügy 25933 tér 324 66 test 279 99 mondat 2582011.02.01. www.microsegment.hu 13
    • Kérdések csaba.kiss[at]microsegment.hu2011.02.01. www.microsegment.hu 14