RapidMiner Studio 6 használatával, web-bányászati modell építése annak eldöntésére, hogy vajon az online New York Times főoldala (http://www.nytimes.com/) tartalmi szempontból vizsgálva melyik oldalra hasonlít leginkább az alábbiak közül?
• The Washington Post – Politics (http://www.washingtonpost.com/politics/)
• The Guardian – Business (http://www.theguardian.com/uk/business)
• The Telegraph – Sport (http://www.telegraph.co.uk/sport/)
2. VIZSGÁLT OLDALAK
• A három kiinduló weboldal:
• The Washington Post - Politics
(http://www.washingtonpost.com/politics/)
• The Guardian – Business
(http://www.theguardian.com/uk/business)
• The Telegraph – Sport
(http://www.telegraph.co.uk/sport/)
• A vizsgált negyedik oldal:
• The New York Times – Főoldal
(http://www.nytimes.com/)
2013. november 22.
2
3. FELHASZNÁLT OPERÁTOROK
• Get Page és Get Pages – weboldalak beolvasására
• Data to Documents – Dokumentum kollekciók
•
•
kezelése
Process Documents – a vizsgálandó szóvektorok
kialakítása
Data to Similarity – Hasonlóság vizsgálat
2013. november 22.
3
4. GET PAGES – I.
• A címek beolvasását a Read Excel operátor végzi
• Fontosabb beállítások:
• Sheet number: 1
• Imported cell range: A1:B4
• Data set meta data information:
2013. november 22.
4
5. GET PAGES – II.
• A weboldalak betöltését a Get Pages operátor végzi
• A bementére kapott minden sort, mint URL cím kezel
• Fontosabb beállítás:
• Link attribute: Basis (igazodva az Excel fájlhoz és
az előző lépéshez)
2013. november 22.
5
6. PROCESS DOCUMENTS – I.
• A Process Documents bemente önállóan vizsgált
dokumentumok,
ehhez
Data to Documents operátort
2013. november 22.
felhasználom
6
7. PROCESS DOCUMENTS – II.
• Mivel több elemzést is végzek, így a Data to
Documents eredményét Multiply operátorra kötöm
a Process Documents operátorra
2013. november 22.
7
8. PROCESS DOCUMENTS – III.
• Extract Content – HTML kódból szöveget állít elő
• Tokenize – szavakra bontja a szöveget
•
elválasztó karakterek: „nem betű”
Filter Tokens (by Length) – csak az adott hosszúságú
szavakat hagyja meg (min=3 és max=25)
2013. november 22.
8
9. PROCESS DOCUMENTS – IV.
• Filter
Stopwords – Elhagyja a jelentésnélküli
kötőszavakat (ÉS, VAGY, stb…)
• Stem (Porter) – Szótövezést valósít meg
• Transform cases – Egységesen kisbetűre konvertálja a
szöveget
• Továbbá elhagyom azokat a szavakat, amelyek csak egy
dokumentumban fordulnak elő:
• Prune methode: absolute
• Prune below absolute: 2
• Vector Creation: TF-IDF (term freq.–inv. doc. Freq.)
2013. november 22.
9
10. DATA TO SIMILARITY – I.
• Az
•
előkészített
dokumentumokat
egyenként
összeveti egymással, Euklideszi távolságot mérve
Ennek eredménye adja az elemzésünk végét
2013. november 22.
10
11. DATA TO SIMILARITY – II.
• Második elemzésként, a szóvektorok közül nem
hagyom el a csak egy dokumentumban fellelhető
szavakat
Prune methode: none
2013. november 22.
11
12. A VIZSGÁLT OLDAL BEOLVASÁSA
• Hasonlóan az előzőkhöz, de a Get Page operátort
használva
URL: http://www.nytimes.com/
2013. november 22.
12
15. HASONLÓSÁG VIZSGÁLATA
• Azokat a szavakat is figyelembe véve, amelyek
kizárólag
1.
2.
3.
4.
2013. november 22.
egy
dokumentumban
szerepelnek:
The Washington Post - Politics
The Guardian - Business
The Telegraph – Sport
The New York Times
15
16. HASONLÓSÁG VIZSGÁLATA
• Elhagyva azokat a szavakat, amelyek kizárólag egy
dokumentumban szerepelnek:
1.
2.
3.
4.
2013. november 22.
The Washington Post - Politics
The Guardian - Business
The Telegraph – Sport
The New York Times
16
17. EREDMÉNY
• Mindkét vizsgálattal hasonló eredményre jutottam,
miszerint a The New York Times főoldala leginkább a The
Washington Post politikai rovatára hasonlít (a vizsgáltak
közül).
• Ennek okai lehetnek:
• A megcélzott olvasótábor a napi politikában a
legérdekeltebb.
• A hasonló lapok lokalizációja közeli (geo).
• Esetleg az amerikai-brit szóhasználat és idézett
kifejezések gyakorisága is dönthetett (stock vs. share)
2013. november 22.
17
18. FELHASZNÁLT FORRÁSOK
• RapidMiner 5 Operator Reference
(RapidMiner_OperatorReference_en.pdf)
• RapidMiner 5 RapidMiner in academic use
(RapidMiner_RapidMinerInAcademicUse_en.pdf)
Mindkettő dokumentum letölthető a
rapidminer.com/documentation
Oldalról.
2013. november 22.
18