SlideShare a Scribd company logo
1 of 14
Microsegment Corpus
(Hungarian - Magyar)
       01.32

      2011.02.01
Korpusz
    http://hu.wikipedia.org/wiki/Korpusz:

     –   A korpusz nyelvészeti szakkifejezés, jelentése egy adott nyelv adott időpontban használt változatára vonatkozó
         szövegek összessége.
     –   A szó a latin corpus (test) szóból ered, és a "nyelvi test", nyelvi összesség értelemben használt.
     –   A nyelvi korpusz felhasználásaira lehet példa szótárak létrehozása, nyelv jellegzetességeinek elemzése.
     –   Létrehozásakor fontos szempont, hogy lehetőség szerint ne keveredjen benne az adott nyelv eltérő időszakokban
         használt (új, és régies) formája.
     –   Az informatika terjedésével egyre könnyebb igen nagy mennyiségű, természetes szöveget tartalmazó korpuszok
         létrehozása, ilyen célra használhatóak például a digitalizált lexikonok, a Wikipédia, de például az internetes weblapok
         egy adott köre is (pl. sajtó).


    http://corpus.nytud.hu/mnsz/:
     –   A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen
         szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a
         szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Az
         MNSZ a mai magyar írott köznyelv általános célú reprezentatív korpusza kíván lenni.




2011.02.01.                                     www.microsegment.hu                                                                2
Microsegment Corpus
    Első (legfontosabb) forrás:
     –   Webcorpus:

         http://mokk.bme.hu/resources/webcorpus/

         Halácsy Péter, Kornai András, Németh László, Rung András,
         Szakadát István, Trón Viktor Creating open language resources for
         Hungarian In Proceedings of the 4th international conference on
         Language Resources and Evaluation (LREC2004), 2004 ps pdf

         Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based frequency dictionaries for medium density languages In: Proceedings of the 2nd
         International Workshop on Web as Corpus,
         edited by Adam Kilgarriff, Marco Baroni ACL-06, pages 1--9. pdf


    Második legfontosabb forrás
     – Magyar wikipedia szövegei (2010. Április)

    További források
     – www.fn.hu
     – www.hvg.hu
     – www.mti.hu

    Forrás jelöltek
     – Minden nyilvánosan hozzáférhető digitális magyar nyelvű forrás




2011.02.01.                                                      www.microsegment.hu                                                                                       3
Hogyan készül / Mire használjuk
 Forrás szöveg
 …                                                                        Utólagos
 …                       Feldolgozás                                      Feldolgozás
 …                       Helyesírás ellenőrzés                            Statisztikák
 Jelenleg több fajta     tokenizálás és                   Tárolás
                         egyéb
                                                                          Keresztvizsgálatok
 (szöveg, szótár) és
 néhány formátumú        feldolgozás                                      „Auto-Tag”-elés
 (txt, pdf, cvs, stb.)
 fogadására képes


                                                 Felhasználás


                                  Szövegbányászati projektekhez
                                  Adattisztítás (Data Improver)
                                  Egyéb elemzések (közösségi elemzések,
                                  tematizálás, szinonimák, trendek)
                                  Saját tudástárunk keresőmotorja



2011.02.01.                             www.microsegment.hu                                 4
Tokenek forrásonkénti darabszáma
Microsegment Corpus 01.00 (alap)




2011.02.01.                   www.microsegment.hu   5
Microsegment Corpus bővítése

Verzió        Dátum         Tartalom                             Struktúra            Módszer

                            Webcorpus, Wiki címszavak, BM
                            utcanevek, Trágár szavak,
01.00         2010.04.10.   Közterületek, Magyar keresztnevek,   Lemma                Hunspell alkalmazása
                            Magyar településnevek, Magyar
                            vezetéknevek

                            Wiki Hun 2010.04,
01.15         2010.08.10.   eBooks,
                            www.mti.hu 2004-2010
                                                                 Leíró statisztikák
                            fn.hu (1)                            tokenekre és
01.20         2010.10.10                                                              Huntoken alkalmazása
                            Amerikai keresztnevek                lemmákra
                                                                 NER
01.30         2010.10.20    Számnevek (arab és római)            Auto-Tag-ek




2011.02.01.                      www.microsegment.hu                                                         6
Tokenek forrásonkénti keresztelőfordulásai
Microsegment Corpus 01.30 (Előző kiadás)

                 Microsegment   Arab          Római          Amerikai női        Amerikai férfi                                                          Wiki Hun -
                                                                                                   eBooks            www.fn.hu         www.mti.hu
                 Corpus 1.0     számok        számok         keresztnevek        keresztnevek                                                            2010.04

Microsegment
Corpus 1.0          5 600 791        713               160           1 252                   484        864 561            72 757            75 303           929 806

Arab számok
                          713      2 999               387                  50               242              387                 50                77                242

Római számok
                          160        387           3 999                     3         468 783                100                 30                51                163

Amerikai női
keresztnevek            1 252            50              3           4 275                   331             1 923               328            484              2 279

Amerikai férfi
keresztnevek              484        242         468 783               331                1 219              1 022               281            398              1 096

eBooks
                      864 561        387               100           1 923                1 022       1 308 703            59 026            61 970           468 783

fn.hu (1)
                       72 757            50             30             328                   281            59 026         79 283            31 191             64 486

www.mti.hu
                       75 303            77             51             484                   398            61 970         31 191            80 773             69 541

Wiki Hun
2010.04               929 806        242               163           2 279                1 096         468 783            64 486            69 541         1 131 283




2011.02.01.                                              www.microsegment.hu                                                                                      7
Új tokenek forrásonkénti darabszámai
Microsegment Corpus 01.30 (Előző kiadás)
                               Dátum                 Új token (db)


Microsegment Corpus 1.0        2010.04.10                            5 600 791

Wiki Hun - 2010.04             2010.08.10                              201 477

eBooks                         2010.08.27                              389 673

mti.hu                         2010.08.31                                2 592

Amerikai férfi keresztnevek    2010.10.10                                 113

Amerikai női keresztnevek      2010.10.10                                1 851

fn.hu                          2010.10.17                                4 584

Arab számok                    2010.10.20                                2 207

Római számok                   2010.10.20                                3 770


                     5600791
 10 000 000
  1 000 000                                 389673
                                 201477
    100 000
                                                               2592                                        4584                      3770
         10 000                                                                               1851                       2207
          1 000
                                                                                 113
           100
            10
              1
                  Microsegment Wiki Hun -   eBooks            mti.hu        Amerikai ffi   Amerikai női   fn.hu (1)   arab számok római számok
                   corpus 1.0   2010.04                                       nevek          nevek


2011.02.01.                                          www.microsegment.hu                                                                    8
Microsegment Corpus bővítése

Verzió        Dátum         Tartalom                             Struktúra            Módszer

                            Webcorpus, Wiki címszavak, BM
                            utcanevek, Trágár szavak,
01.00         2010.04.10.   Közterületek, Magyar keresztnevek,   Lemma                Hunspell alkalmazása
                            Magyar településnevek, Magyar
                            vezetéknevek

                            Wiki Hun 2010.04,
01.15         2010.08.10.   eBooks,
                            www.mti.hu 2004-2010
                                                                 Leíró statisztikák
                            fn.hu (1)                            tokenekre és
01.20         2010.10.10                                                              Huntoken alkalmazása
                            Amerikai keresztnevek                lemmákra
                                                                 NER
01.30         2010.10.20    Számnevek (arab és római)            Auto-Tag-ek

01.31         2010.11.20    fn.hu (2)

01.32         2011.01.06    fn.hu (3)




2011.02.01.                      www.microsegment.hu                                                         9
Microsegment Corpus 01.32
Tokenek forrásonkénti keresztelőfordulásai

                           Microsegment Corpus 1.30           fn.hu (2)                fn.hu (3)


Microsegment Corpus 1.30                  6 207 058             67 044                  157 100


fn.hu (2)                                    67 044             70 705                   48 227


fn.hu (3)                                   157 100             48 227                  172 311




Új tokenek forrásonkénti előfordulásai
                                                                                   10 000 000          6 207 058

                                                                                    1 000 000
                             Dátum                    Új token (db)
                                                                                     100 000
Microsegment Corpus 1.30    2010.10.20                                6 207 058                                                           14 631
                                                                                      10 000                                  3 661
fn.hu (1)                   2010.11.20                                     3 661
                                                                                       1 000
fn.hu (2)                   2011.01.06                                    14 631
                                                                                         100


                                                                                          10


                                                                                           1
                                                                                                   Microsegment Corpus 1.30   fn.hu (2)   fn.hu (3)




2011.02.01.                                           www.microsegment.hu                                                                         10
Új tokenek forrásonkénti darabszámai
Microsegment Corpus 01.32

                     Dátum        Új token (db)     10 000 000   5 600 791


Microsegment
                     2010.04.10         5 600 791
Corpus 1.0                                           1 000 000
                                                                                             389 673
Wiki Hun - 2010.04   2010.08.10          201 477
                                                                                201 477

eBooks               2010.08.27          389 673      100 000

mti.hu               2010.08.31            2 592                                                                                                                                                      14 631

Amerikai férfi                                         10 000
                     2010.10.10              113                                                                                                 4 584                        3 770        3 661
keresztnevek                                                                                           2 592                                                   2 207
                                                                                                                                    1 851
Amerikai női
                     2010.10.10            1 851
keresztnevek                                            1 000

fn.hu (1)            2010.10.17            4 584
                                                                                                                    113
                                                          100
Arab számok          2010.10.20            2 207

Római számok         2010.10.20            3 770
                                                           10
fn.hu (2)            2010.11.20            3 661

fn.hu (3)            2011.01.06           14 631
                                                            1
                                                                 Microsegment   Wiki Hun -    eBooks   mti.hu   Amerikai férfi    Amerikai női   fn.hu (1)   Arab számok   Római számok   fn.hu (2)   fn.hu (3)
                                                                  Corpus 1.0    2010.04                         keresztnevek     keresztnevek




2011.02.01.                                           www.microsegment.hu                                                                                                                       11
Tokenek kezdőbetűnkénti darabszáma (6 225 350 db)
           Lemmák kezdőbetűnkénti darabszáma (1 352 386 db)
          A 3,75%                                    A 3,75%                                                                      A 3,63%                                  A 3,63%
          Á 1,75%                  Á 1,75%                                                                                        Á 1,80%                  Á 1,80%
          B 5,73%                                                      B 5,73%                                                    B 5,78%                                                    B 5,78%
     C, CS 2,98%                               C, CS 2,98%                                                                   C, CS 3,10%                              C, CS 3,10%
D, DZ, DZS 2,21%                       D, DZ, DZS 2,21%                                                                 D, DZ, DZS 2,07%                     D, DZ, DZS 2,07%
          E 4,50%                                           E 4,50%                                                               E 4,02%                                     E 4,02%
          É 1,39%               É 1,39%                                                                                           É 1,40%              É 1,40%
          F 6,86%                                                              F 6,86%                                            F 7,09%                                                              F 7,09%
     G, GY 3,03%                               G, GY 3,03%                                                                   G, GY 3,17%                               G, GY 3,17%
          H 5,07%                                                H 5,07%                                                          H 5,02%                                              H 5,02%
           I 2,28%                      I 2,28%                                                                                    I 2,16%                    I 2,16%
           Í 0,24%  Í 0,24%                                                                                                        Í 0,25%  Í 0,25%
          J 1,42%               J 1,42%                                                                                           J 1,30%             J 1,30%
         K 10,18%                                                                                          K 10,18%              K 10,30%                                                                                       K 10,30%
      L, LY 4,20%                                        L, LY 4,20%                                                          L, LY 4,01%                                     L, LY 4,01%
          M 7,26%                                                                  M 7,26%                                        M 6,78%                                                            M 6,78%
     N, NY 2,54%                           N, NY 2,54%                                                                       N, NY 2,43%                         N, NY 2,43%
          O 1,39%               O 1,39%                                                                                           O 1,40%              O 1,40%
          Ó 0,23%   Ó 0,23%                                                                                                       Ó 0,29%    Ó 0,29%
          Ö 1,16%             Ö 1,16%                                                                                             Ö 1,15%            Ö 1,15%
          Ő 0,23%   Ő 0,23%                                                                                                       Ő 0,25%   Ő 0,25%
          P 4,43%                                          P 4,43%                                                                P 4,73%                                           P 4,73%
          Q 0,02% Q 0,02%                                                                                                         Q 0,00% Q 0,00%
          R 3,48%                                  R 3,48%                                                                        R 3,51%                                 R 3,51%
     S, SZ 8,54%                                                                             S, SZ 8,54%                     S, SZ 8,71%                                                                            S, SZ 8,71%
     T, TY 7,10%                                                                 T, TY 7,10%                                 T, TY 7,57%                                                                   T, TY 7,57%
          U 0,53%       U 0,53%                                                                                                   U 0,48%      U 0,48%
          Ú 0,45%      Ú 0,45%                                                                                                    Ú 0,49%      Ú 0,49%
          Ü 0,64%        Ü 0,64%                                                                                                  Ü 0,63%       Ü 0,63%
          Ű 0,08% Ű 0,08%                                                                                                         Ű 0,10% Ű 0,10%
          V 5,03%                                                V 5,03%                                                          V 5,21%                                               V 5,21%
         W 0,22%    W 0,22%                                                                                                      W 0,12% W 0,12%
          X 0,01% X 0,01%                                                                                                         X 0,00% X 0,00%
          Y 0,02% Y 0,02%                                                                                                         Y 0,00% Y 0,00%
     Z, ZS 1,03%            Z, ZS 1,03%                                                                                      Z, ZS 1,05%            Z, ZS 1,05%

                 0         100 000       200 000       300 000       400 000      500 000       600 000       700 000                    0        20 000      40 000      60 000      80 000      100 000     120 000     140 000     160 000




           2011.02.01.                                                                            www.microsegment.hu                                                                                                               12
A leggyakoribb lemmák
     Sorrend         Lemma    Előfordulás (db)        Sorrend          Lemma   Előfordulás (db)        Sorrend         Lemma    Előfordulás (db)
1              én            858                 34             nyelv          324                67             méret         279
2              ezer          717                 35             nap            319                68             szám          277
3              egy           645                 36             gyermek        318                69             áll           277
4              három         540                 37             út             316                70             érték         275
5              négy          520                 38             társ           313                71             falu          275
6              láb           491                 39             kilenc         312                72             szülő         272
7              öt            491                 40             ember          311                73             rokon         271
8              maga          471                 41             apa            309                74             isten         271
9              éves          468                 42             sok            308                75             előd          271
10             hat           462                 43             kor            308                76             lány          271
11             hét           445                 44             föld           306                77             mű            269
12             kettő         437                 45             tanár          306                78             nő            269
13             oldal         411                 46             testvér        305                79             tesz          267
14             száz          392                 47             óra            304                80             ország        266
15             jó            380                 48             fal            303                81             világ         265
16             kar           376                 49             csapat         302                82             család        265
17             szív          359                 50             anya           302                83             jegy          265
18             nyolc         358                 51             sejt           299                84             sor           264
19             év            356                 52             levél          295                85             kerék         264
20             barát         353                 53             szint          294                86             cél           264
21             fej           344                 54             város          294                87             hely          263
22             tíz           344                 55             állat          294                88             rész          263
23             fog           344                 56             ár             292                89             lépés         262
24             millió        342                 57             anyag          291                90             arc           262
25             szó           342                 58             vár            288                91             gyerek        261
26             ház           339                 59             kéz            287                92             név           261
27             nagy          336                 60             ér             286                93             úr            261
28             szem          334                 61             él             285                94             adat          260
29             szomszéd      330                 62             saját          285                95             nyom          259
30             mag           330                 63             szer           284                96             munka         259
31             tag           326                 64             lélek          284                97             nemzet        259
32             szín          326                 65             atya           280                98             ügy           259
33             tér           324                 66             test           279                99             mondat        258



2011.02.01.                                                     www.microsegment.hu                                                                13
Kérdések

          csaba.kiss[at]microsegment.hu




2011.02.01.         www.microsegment.hu   14

More Related Content

Viewers also liked

NIA2010Q2-R00.97 - tier2 datasheet (2) - magyar
NIA2010Q2-R00.97 - tier2 datasheet (2) - magyarNIA2010Q2-R00.97 - tier2 datasheet (2) - magyar
NIA2010Q2-R00.97 - tier2 datasheet (2) - magyar
Csaba Kiss
 
"Kapcsolat" Concert - "Relationship" Concert
"Kapcsolat"  Concert - "Relationship" Concert"Kapcsolat"  Concert - "Relationship" Concert
"Kapcsolat" Concert - "Relationship" Concert
Csaba Kiss
 
20130128 contextual intelligence v5_5
20130128 contextual intelligence v5_520130128 contextual intelligence v5_5
20130128 contextual intelligence v5_5
bo begole
 
Version 5 mcp jua2013 - public
Version 5   mcp jua2013 - publicVersion 5   mcp jua2013 - public
Version 5 mcp jua2013 - public
Csaba Kiss
 
Long Tail Business Model and OSS/BSS
Long Tail Business Model and OSS/BSSLong Tail Business Model and OSS/BSS
Long Tail Business Model and OSS/BSS
Csaba Kiss
 

Viewers also liked (11)

Nia 2010 q4-r00.98 - tier2 datasheet - magyar
Nia 2010 q4-r00.98 - tier2 datasheet - magyarNia 2010 q4-r00.98 - tier2 datasheet - magyar
Nia 2010 q4-r00.98 - tier2 datasheet - magyar
 
Nia 2012 q1-r01.01 - tier2 datasheet - magyar
Nia 2012 q1-r01.01 - tier2 datasheet - magyarNia 2012 q1-r01.01 - tier2 datasheet - magyar
Nia 2012 q1-r01.01 - tier2 datasheet - magyar
 
National Infrastructure Database
National Infrastructure DatabaseNational Infrastructure Database
National Infrastructure Database
 
NIA2010Q2-R00.97 - tier2 datasheet (2) - magyar
NIA2010Q2-R00.97 - tier2 datasheet (2) - magyarNIA2010Q2-R00.97 - tier2 datasheet (2) - magyar
NIA2010Q2-R00.97 - tier2 datasheet (2) - magyar
 
NBS showcase (2005-2010)
NBS showcase (2005-2010)NBS showcase (2005-2010)
NBS showcase (2005-2010)
 
"Kapcsolat" Concert - "Relationship" Concert
"Kapcsolat"  Concert - "Relationship" Concert"Kapcsolat"  Concert - "Relationship" Concert
"Kapcsolat" Concert - "Relationship" Concert
 
Nemzeti Infrastruktúra Adatbázis
Nemzeti Infrastruktúra AdatbázisNemzeti Infrastruktúra Adatbázis
Nemzeti Infrastruktúra Adatbázis
 
20130128 contextual intelligence v5_5
20130128 contextual intelligence v5_520130128 contextual intelligence v5_5
20130128 contextual intelligence v5_5
 
Version 5 mcp jua2013 - public
Version 5   mcp jua2013 - publicVersion 5   mcp jua2013 - public
Version 5 mcp jua2013 - public
 
Algorithms
AlgorithmsAlgorithms
Algorithms
 
Long Tail Business Model and OSS/BSS
Long Tail Business Model and OSS/BSSLong Tail Business Model and OSS/BSS
Long Tail Business Model and OSS/BSS
 

Microsegment corpus 01.32 statistics

  • 1. Microsegment Corpus (Hungarian - Magyar) 01.32 2011.02.01
  • 2. Korpusz http://hu.wikipedia.org/wiki/Korpusz: – A korpusz nyelvészeti szakkifejezés, jelentése egy adott nyelv adott időpontban használt változatára vonatkozó szövegek összessége. – A szó a latin corpus (test) szóból ered, és a "nyelvi test", nyelvi összesség értelemben használt. – A nyelvi korpusz felhasználásaira lehet példa szótárak létrehozása, nyelv jellegzetességeinek elemzése. – Létrehozásakor fontos szempont, hogy lehetőség szerint ne keveredjen benne az adott nyelv eltérő időszakokban használt (új, és régies) formája. – Az informatika terjedésével egyre könnyebb igen nagy mennyiségű, természetes szöveget tartalmazó korpuszok létrehozása, ilyen célra használhatóak például a digitalizált lexikonok, a Wikipédia, de például az internetes weblapok egy adott köre is (pl. sajtó). http://corpus.nytud.hu/mnsz/: – A korpusz ténylegesen előforduló írott, vagy lejegyzett beszélt nyelvi adatok gyűjteménye. A szövegeket valamilyen szempont szerint válogatják és rendezik. Nem feltétlenül egész szövegeket tartalmaz, és nem csak tárháza a szövegeknek, hanem tartalmazza azok bibliográfiai adatait, bejelöli a szerkezeti egységeket (bekezdés, mondat). Az MNSZ a mai magyar írott köznyelv általános célú reprezentatív korpusza kíván lenni. 2011.02.01. www.microsegment.hu 2
  • 3. Microsegment Corpus Első (legfontosabb) forrás: – Webcorpus: http://mokk.bme.hu/resources/webcorpus/ Halácsy Péter, Kornai András, Németh László, Rung András, Szakadát István, Trón Viktor Creating open language resources for Hungarian In Proceedings of the 4th international conference on Language Resources and Evaluation (LREC2004), 2004 ps pdf Kornai, A, Halácsy, P, Nagy, V, Oravecz, Cs, Trón, V, and Varga, D (2006). Web-based frequency dictionaries for medium density languages In: Proceedings of the 2nd International Workshop on Web as Corpus, edited by Adam Kilgarriff, Marco Baroni ACL-06, pages 1--9. pdf Második legfontosabb forrás – Magyar wikipedia szövegei (2010. Április) További források – www.fn.hu – www.hvg.hu – www.mti.hu Forrás jelöltek – Minden nyilvánosan hozzáférhető digitális magyar nyelvű forrás 2011.02.01. www.microsegment.hu 3
  • 4. Hogyan készül / Mire használjuk Forrás szöveg … Utólagos … Feldolgozás Feldolgozás … Helyesírás ellenőrzés Statisztikák Jelenleg több fajta tokenizálás és Tárolás egyéb Keresztvizsgálatok (szöveg, szótár) és néhány formátumú feldolgozás „Auto-Tag”-elés (txt, pdf, cvs, stb.) fogadására képes Felhasználás Szövegbányászati projektekhez Adattisztítás (Data Improver) Egyéb elemzések (közösségi elemzések, tematizálás, szinonimák, trendek) Saját tudástárunk keresőmotorja 2011.02.01. www.microsegment.hu 4
  • 5. Tokenek forrásonkénti darabszáma Microsegment Corpus 01.00 (alap) 2011.02.01. www.microsegment.hu 5
  • 6. Microsegment Corpus bővítése Verzió Dátum Tartalom Struktúra Módszer Webcorpus, Wiki címszavak, BM utcanevek, Trágár szavak, 01.00 2010.04.10. Közterületek, Magyar keresztnevek, Lemma Hunspell alkalmazása Magyar településnevek, Magyar vezetéknevek Wiki Hun 2010.04, 01.15 2010.08.10. eBooks, www.mti.hu 2004-2010 Leíró statisztikák fn.hu (1) tokenekre és 01.20 2010.10.10 Huntoken alkalmazása Amerikai keresztnevek lemmákra NER 01.30 2010.10.20 Számnevek (arab és római) Auto-Tag-ek 2011.02.01. www.microsegment.hu 6
  • 7. Tokenek forrásonkénti keresztelőfordulásai Microsegment Corpus 01.30 (Előző kiadás) Microsegment Arab Római Amerikai női Amerikai férfi Wiki Hun - eBooks www.fn.hu www.mti.hu Corpus 1.0 számok számok keresztnevek keresztnevek 2010.04 Microsegment Corpus 1.0 5 600 791 713 160 1 252 484 864 561 72 757 75 303 929 806 Arab számok 713 2 999 387 50 242 387 50 77 242 Római számok 160 387 3 999 3 468 783 100 30 51 163 Amerikai női keresztnevek 1 252 50 3 4 275 331 1 923 328 484 2 279 Amerikai férfi keresztnevek 484 242 468 783 331 1 219 1 022 281 398 1 096 eBooks 864 561 387 100 1 923 1 022 1 308 703 59 026 61 970 468 783 fn.hu (1) 72 757 50 30 328 281 59 026 79 283 31 191 64 486 www.mti.hu 75 303 77 51 484 398 61 970 31 191 80 773 69 541 Wiki Hun 2010.04 929 806 242 163 2 279 1 096 468 783 64 486 69 541 1 131 283 2011.02.01. www.microsegment.hu 7
  • 8. Új tokenek forrásonkénti darabszámai Microsegment Corpus 01.30 (Előző kiadás) Dátum Új token (db) Microsegment Corpus 1.0 2010.04.10 5 600 791 Wiki Hun - 2010.04 2010.08.10 201 477 eBooks 2010.08.27 389 673 mti.hu 2010.08.31 2 592 Amerikai férfi keresztnevek 2010.10.10 113 Amerikai női keresztnevek 2010.10.10 1 851 fn.hu 2010.10.17 4 584 Arab számok 2010.10.20 2 207 Római számok 2010.10.20 3 770 5600791 10 000 000 1 000 000 389673 201477 100 000 2592 4584 3770 10 000 1851 2207 1 000 113 100 10 1 Microsegment Wiki Hun - eBooks mti.hu Amerikai ffi Amerikai női fn.hu (1) arab számok római számok corpus 1.0 2010.04 nevek nevek 2011.02.01. www.microsegment.hu 8
  • 9. Microsegment Corpus bővítése Verzió Dátum Tartalom Struktúra Módszer Webcorpus, Wiki címszavak, BM utcanevek, Trágár szavak, 01.00 2010.04.10. Közterületek, Magyar keresztnevek, Lemma Hunspell alkalmazása Magyar településnevek, Magyar vezetéknevek Wiki Hun 2010.04, 01.15 2010.08.10. eBooks, www.mti.hu 2004-2010 Leíró statisztikák fn.hu (1) tokenekre és 01.20 2010.10.10 Huntoken alkalmazása Amerikai keresztnevek lemmákra NER 01.30 2010.10.20 Számnevek (arab és római) Auto-Tag-ek 01.31 2010.11.20 fn.hu (2) 01.32 2011.01.06 fn.hu (3) 2011.02.01. www.microsegment.hu 9
  • 10. Microsegment Corpus 01.32 Tokenek forrásonkénti keresztelőfordulásai Microsegment Corpus 1.30 fn.hu (2) fn.hu (3) Microsegment Corpus 1.30 6 207 058 67 044 157 100 fn.hu (2) 67 044 70 705 48 227 fn.hu (3) 157 100 48 227 172 311 Új tokenek forrásonkénti előfordulásai 10 000 000 6 207 058 1 000 000 Dátum Új token (db) 100 000 Microsegment Corpus 1.30 2010.10.20 6 207 058 14 631 10 000 3 661 fn.hu (1) 2010.11.20 3 661 1 000 fn.hu (2) 2011.01.06 14 631 100 10 1 Microsegment Corpus 1.30 fn.hu (2) fn.hu (3) 2011.02.01. www.microsegment.hu 10
  • 11. Új tokenek forrásonkénti darabszámai Microsegment Corpus 01.32 Dátum Új token (db) 10 000 000 5 600 791 Microsegment 2010.04.10 5 600 791 Corpus 1.0 1 000 000 389 673 Wiki Hun - 2010.04 2010.08.10 201 477 201 477 eBooks 2010.08.27 389 673 100 000 mti.hu 2010.08.31 2 592 14 631 Amerikai férfi 10 000 2010.10.10 113 4 584 3 770 3 661 keresztnevek 2 592 2 207 1 851 Amerikai női 2010.10.10 1 851 keresztnevek 1 000 fn.hu (1) 2010.10.17 4 584 113 100 Arab számok 2010.10.20 2 207 Római számok 2010.10.20 3 770 10 fn.hu (2) 2010.11.20 3 661 fn.hu (3) 2011.01.06 14 631 1 Microsegment Wiki Hun - eBooks mti.hu Amerikai férfi Amerikai női fn.hu (1) Arab számok Római számok fn.hu (2) fn.hu (3) Corpus 1.0 2010.04 keresztnevek keresztnevek 2011.02.01. www.microsegment.hu 11
  • 12. Tokenek kezdőbetűnkénti darabszáma (6 225 350 db) Lemmák kezdőbetűnkénti darabszáma (1 352 386 db) A 3,75% A 3,75% A 3,63% A 3,63% Á 1,75% Á 1,75% Á 1,80% Á 1,80% B 5,73% B 5,73% B 5,78% B 5,78% C, CS 2,98% C, CS 2,98% C, CS 3,10% C, CS 3,10% D, DZ, DZS 2,21% D, DZ, DZS 2,21% D, DZ, DZS 2,07% D, DZ, DZS 2,07% E 4,50% E 4,50% E 4,02% E 4,02% É 1,39% É 1,39% É 1,40% É 1,40% F 6,86% F 6,86% F 7,09% F 7,09% G, GY 3,03% G, GY 3,03% G, GY 3,17% G, GY 3,17% H 5,07% H 5,07% H 5,02% H 5,02% I 2,28% I 2,28% I 2,16% I 2,16% Í 0,24% Í 0,24% Í 0,25% Í 0,25% J 1,42% J 1,42% J 1,30% J 1,30% K 10,18% K 10,18% K 10,30% K 10,30% L, LY 4,20% L, LY 4,20% L, LY 4,01% L, LY 4,01% M 7,26% M 7,26% M 6,78% M 6,78% N, NY 2,54% N, NY 2,54% N, NY 2,43% N, NY 2,43% O 1,39% O 1,39% O 1,40% O 1,40% Ó 0,23% Ó 0,23% Ó 0,29% Ó 0,29% Ö 1,16% Ö 1,16% Ö 1,15% Ö 1,15% Ő 0,23% Ő 0,23% Ő 0,25% Ő 0,25% P 4,43% P 4,43% P 4,73% P 4,73% Q 0,02% Q 0,02% Q 0,00% Q 0,00% R 3,48% R 3,48% R 3,51% R 3,51% S, SZ 8,54% S, SZ 8,54% S, SZ 8,71% S, SZ 8,71% T, TY 7,10% T, TY 7,10% T, TY 7,57% T, TY 7,57% U 0,53% U 0,53% U 0,48% U 0,48% Ú 0,45% Ú 0,45% Ú 0,49% Ú 0,49% Ü 0,64% Ü 0,64% Ü 0,63% Ü 0,63% Ű 0,08% Ű 0,08% Ű 0,10% Ű 0,10% V 5,03% V 5,03% V 5,21% V 5,21% W 0,22% W 0,22% W 0,12% W 0,12% X 0,01% X 0,01% X 0,00% X 0,00% Y 0,02% Y 0,02% Y 0,00% Y 0,00% Z, ZS 1,03% Z, ZS 1,03% Z, ZS 1,05% Z, ZS 1,05% 0 100 000 200 000 300 000 400 000 500 000 600 000 700 000 0 20 000 40 000 60 000 80 000 100 000 120 000 140 000 160 000 2011.02.01. www.microsegment.hu 12
  • 13. A leggyakoribb lemmák Sorrend Lemma Előfordulás (db) Sorrend Lemma Előfordulás (db) Sorrend Lemma Előfordulás (db) 1 én 858 34 nyelv 324 67 méret 279 2 ezer 717 35 nap 319 68 szám 277 3 egy 645 36 gyermek 318 69 áll 277 4 három 540 37 út 316 70 érték 275 5 négy 520 38 társ 313 71 falu 275 6 láb 491 39 kilenc 312 72 szülő 272 7 öt 491 40 ember 311 73 rokon 271 8 maga 471 41 apa 309 74 isten 271 9 éves 468 42 sok 308 75 előd 271 10 hat 462 43 kor 308 76 lány 271 11 hét 445 44 föld 306 77 mű 269 12 kettő 437 45 tanár 306 78 nő 269 13 oldal 411 46 testvér 305 79 tesz 267 14 száz 392 47 óra 304 80 ország 266 15 jó 380 48 fal 303 81 világ 265 16 kar 376 49 csapat 302 82 család 265 17 szív 359 50 anya 302 83 jegy 265 18 nyolc 358 51 sejt 299 84 sor 264 19 év 356 52 levél 295 85 kerék 264 20 barát 353 53 szint 294 86 cél 264 21 fej 344 54 város 294 87 hely 263 22 tíz 344 55 állat 294 88 rész 263 23 fog 344 56 ár 292 89 lépés 262 24 millió 342 57 anyag 291 90 arc 262 25 szó 342 58 vár 288 91 gyerek 261 26 ház 339 59 kéz 287 92 név 261 27 nagy 336 60 ér 286 93 úr 261 28 szem 334 61 él 285 94 adat 260 29 szomszéd 330 62 saját 285 95 nyom 259 30 mag 330 63 szer 284 96 munka 259 31 tag 326 64 lélek 284 97 nemzet 259 32 szín 326 65 atya 280 98 ügy 259 33 tér 324 66 test 279 99 mondat 258 2011.02.01. www.microsegment.hu 13
  • 14. Kérdések csaba.kiss[at]microsegment.hu 2011.02.01. www.microsegment.hu 14