WEB-bányászat

973 views

Published on

RapidMiner Studio 6 használatával, web-bányászati modell építése annak eldöntésére, hogy vajon az online New York Times főoldala (http://www.nytimes.com/) tartalmi szempontból vizsgálva melyik oldalra hasonlít leginkább az alábbiak közül?
• The Washington Post – Politics (http://www.washingtonpost.com/politics/)
• The Guardian – Business (http://www.theguardian.com/uk/business)
• The Telegraph – Sport (http://www.telegraph.co.uk/sport/)

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
973
On SlideShare
0
From Embeds
0
Number of Embeds
470
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

WEB-bányászat

  1. 1. WEB-BÁNYÁSZAT WWW.DEVNTEST.ORG
  2. 2. VIZSGÁLT OLDALAK • A három kiinduló weboldal: • The Washington Post - Politics (http://www.washingtonpost.com/politics/) • The Guardian – Business (http://www.theguardian.com/uk/business) • The Telegraph – Sport (http://www.telegraph.co.uk/sport/) • A vizsgált negyedik oldal: • The New York Times – Főoldal (http://www.nytimes.com/) 2013. november 22. 2
  3. 3. FELHASZNÁLT OPERÁTOROK • Get Page és Get Pages – weboldalak beolvasására • Data to Documents – Dokumentum kollekciók • • kezelése Process Documents – a vizsgálandó szóvektorok kialakítása Data to Similarity – Hasonlóság vizsgálat 2013. november 22. 3
  4. 4. GET PAGES – I. • A címek beolvasását a Read Excel operátor végzi • Fontosabb beállítások: • Sheet number: 1 • Imported cell range: A1:B4 • Data set meta data information: 2013. november 22. 4
  5. 5. GET PAGES – II. • A weboldalak betöltését a Get Pages operátor végzi • A bementére kapott minden sort, mint URL cím kezel • Fontosabb beállítás: • Link attribute: Basis (igazodva az Excel fájlhoz és az előző lépéshez) 2013. november 22. 5
  6. 6. PROCESS DOCUMENTS – I. • A Process Documents bemente önállóan vizsgált dokumentumok, ehhez Data to Documents operátort 2013. november 22. felhasználom 6
  7. 7. PROCESS DOCUMENTS – II. • Mivel több elemzést is végzek, így a Data to Documents eredményét Multiply operátorra kötöm a Process Documents operátorra 2013. november 22. 7
  8. 8. PROCESS DOCUMENTS – III. • Extract Content – HTML kódból szöveget állít elő • Tokenize – szavakra bontja a szöveget • elválasztó karakterek: „nem betű” Filter Tokens (by Length) – csak az adott hosszúságú szavakat hagyja meg (min=3 és max=25) 2013. november 22. 8
  9. 9. PROCESS DOCUMENTS – IV. • Filter Stopwords – Elhagyja a jelentésnélküli kötőszavakat (ÉS, VAGY, stb…) • Stem (Porter) – Szótövezést valósít meg • Transform cases – Egységesen kisbetűre konvertálja a szöveget • Továbbá elhagyom azokat a szavakat, amelyek csak egy dokumentumban fordulnak elő: • Prune methode: absolute • Prune below absolute: 2 • Vector Creation: TF-IDF (term freq.–inv. doc. Freq.) 2013. november 22. 9
  10. 10. DATA TO SIMILARITY – I. • Az • előkészített dokumentumokat egyenként összeveti egymással, Euklideszi távolságot mérve Ennek eredménye adja az elemzésünk végét 2013. november 22. 10
  11. 11. DATA TO SIMILARITY – II. • Második elemzésként, a szóvektorok közül nem hagyom el a csak egy dokumentumban fellelhető szavakat Prune methode: none 2013. november 22. 11
  12. 12. A VIZSGÁLT OLDAL BEOLVASÁSA • Hasonlóan az előzőkhöz, de a Get Page operátort használva URL: http://www.nytimes.com/ 2013. november 22. 12
  13. 13. TELJES MODELL 2013. november 22. 13
  14. 14. EREDMÉNYEK • Vizsgált szavak listája és azok előfordulása 2013. november 22. 14
  15. 15. HASONLÓSÁG VIZSGÁLATA • Azokat a szavakat is figyelembe véve, amelyek kizárólag 1. 2. 3. 4. 2013. november 22. egy dokumentumban szerepelnek: The Washington Post - Politics The Guardian - Business The Telegraph – Sport The New York Times 15
  16. 16. HASONLÓSÁG VIZSGÁLATA • Elhagyva azokat a szavakat, amelyek kizárólag egy dokumentumban szerepelnek: 1. 2. 3. 4. 2013. november 22. The Washington Post - Politics The Guardian - Business The Telegraph – Sport The New York Times 16
  17. 17. EREDMÉNY • Mindkét vizsgálattal hasonló eredményre jutottam, miszerint a The New York Times főoldala leginkább a The Washington Post politikai rovatára hasonlít (a vizsgáltak közül). • Ennek okai lehetnek: • A megcélzott olvasótábor a napi politikában a legérdekeltebb. • A hasonló lapok lokalizációja közeli (geo). • Esetleg az amerikai-brit szóhasználat és idézett kifejezések gyakorisága is dönthetett (stock vs. share) 2013. november 22. 17
  18. 18. FELHASZNÁLT FORRÁSOK • RapidMiner 5 Operator Reference (RapidMiner_OperatorReference_en.pdf) • RapidMiner 5 RapidMiner in academic use (RapidMiner_RapidMinerInAcademicUse_en.pdf) Mindkettő dokumentum letölthető a rapidminer.com/documentation Oldalról. 2013. november 22. 18

×