SlideShare a Scribd company logo
1 of 18
WEB-BÁNYÁSZAT
WWW.DEVNTEST.ORG
VIZSGÁLT OLDALAK
• A három kiinduló weboldal:
• The Washington Post - Politics
(http://www.washingtonpost.com/politics/)
• The Guardian – Business
(http://www.theguardian.com/uk/business)
• The Telegraph – Sport
(http://www.telegraph.co.uk/sport/)
• A vizsgált negyedik oldal:
• The New York Times – Főoldal
(http://www.nytimes.com/)
2013. november 22.

2
FELHASZNÁLT OPERÁTOROK
• Get Page és Get Pages – weboldalak beolvasására
• Data to Documents – Dokumentum kollekciók
•
•

kezelése
Process Documents – a vizsgálandó szóvektorok
kialakítása
Data to Similarity – Hasonlóság vizsgálat

2013. november 22.

3
GET PAGES – I.
• A címek beolvasását a Read Excel operátor végzi
• Fontosabb beállítások:
• Sheet number: 1
• Imported cell range: A1:B4
• Data set meta data information:

2013. november 22.

4
GET PAGES – II.
• A weboldalak betöltését a Get Pages operátor végzi
• A bementére kapott minden sort, mint URL cím kezel
• Fontosabb beállítás:
• Link attribute: Basis (igazodva az Excel fájlhoz és
az előző lépéshez)

2013. november 22.

5
PROCESS DOCUMENTS – I.
• A Process Documents bemente önállóan vizsgált
dokumentumok,
ehhez
Data to Documents operátort

2013. november 22.

felhasználom

6
PROCESS DOCUMENTS – II.
• Mivel több elemzést is végzek, így a Data to
Documents eredményét Multiply operátorra kötöm
a Process Documents operátorra

2013. november 22.

7
PROCESS DOCUMENTS – III.
• Extract Content – HTML kódból szöveget állít elő
• Tokenize – szavakra bontja a szöveget
•

elválasztó karakterek: „nem betű”
Filter Tokens (by Length) – csak az adott hosszúságú
szavakat hagyja meg (min=3 és max=25)

2013. november 22.

8
PROCESS DOCUMENTS – IV.
• Filter

Stopwords – Elhagyja a jelentésnélküli
kötőszavakat (ÉS, VAGY, stb…)
• Stem (Porter) – Szótövezést valósít meg
• Transform cases – Egységesen kisbetűre konvertálja a
szöveget
• Továbbá elhagyom azokat a szavakat, amelyek csak egy
dokumentumban fordulnak elő:
• Prune methode: absolute
• Prune below absolute: 2
• Vector Creation: TF-IDF (term freq.–inv. doc. Freq.)
2013. november 22.

9
DATA TO SIMILARITY – I.
• Az
•

előkészített
dokumentumokat
egyenként
összeveti egymással, Euklideszi távolságot mérve
Ennek eredménye adja az elemzésünk végét

2013. november 22.

10
DATA TO SIMILARITY – II.
• Második elemzésként, a szóvektorok közül nem
hagyom el a csak egy dokumentumban fellelhető
szavakat
Prune methode: none

2013. november 22.

11
A VIZSGÁLT OLDAL BEOLVASÁSA
• Hasonlóan az előzőkhöz, de a Get Page operátort
használva
URL: http://www.nytimes.com/

2013. november 22.

12
TELJES MODELL

2013. november 22.

13
EREDMÉNYEK
• Vizsgált szavak listája és azok előfordulása

2013. november 22.

14
HASONLÓSÁG VIZSGÁLATA
• Azokat a szavakat is figyelembe véve, amelyek
kizárólag
1.
2.
3.
4.

2013. november 22.

egy

dokumentumban

szerepelnek:

The Washington Post - Politics
The Guardian - Business
The Telegraph – Sport
The New York Times

15
HASONLÓSÁG VIZSGÁLATA
• Elhagyva azokat a szavakat, amelyek kizárólag egy
dokumentumban szerepelnek:
1.
2.
3.
4.

2013. november 22.

The Washington Post - Politics
The Guardian - Business
The Telegraph – Sport
The New York Times

16
EREDMÉNY
• Mindkét vizsgálattal hasonló eredményre jutottam,
miszerint a The New York Times főoldala leginkább a The
Washington Post politikai rovatára hasonlít (a vizsgáltak
közül).
• Ennek okai lehetnek:
• A megcélzott olvasótábor a napi politikában a
legérdekeltebb.
• A hasonló lapok lokalizációja közeli (geo).
• Esetleg az amerikai-brit szóhasználat és idézett
kifejezések gyakorisága is dönthetett (stock vs. share)
2013. november 22.

17
FELHASZNÁLT FORRÁSOK
• RapidMiner 5 Operator Reference
(RapidMiner_OperatorReference_en.pdf)

• RapidMiner 5 RapidMiner in academic use
(RapidMiner_RapidMinerInAcademicUse_en.pdf)

Mindkettő dokumentum letölthető a
rapidminer.com/documentation
Oldalról.

2013. november 22.

18

More Related Content

Viewers also liked

What to Wear On a Date - 4 Outfit Options for Dinner and a Movie
What to Wear On a Date - 4 Outfit Options for Dinner and a MovieWhat to Wear On a Date - 4 Outfit Options for Dinner and a Movie
What to Wear On a Date - 4 Outfit Options for Dinner and a MovieAisha Jones
 
REHAB FUTBOL-Projecte
REHAB FUTBOL-ProjecteREHAB FUTBOL-Projecte
REHAB FUTBOL-Projectenins1983
 
Presentazione team consulenza e risorse 2014
Presentazione team consulenza e risorse 2014Presentazione team consulenza e risorse 2014
Presentazione team consulenza e risorse 2014Luigi Jovacchini
 
AAC(グローバルマネジメントトレーニング)
AAC(グローバルマネジメントトレーニング)AAC(グローバルマネジメントトレーニング)
AAC(グローバルマネジメントトレーニング)iYES Corporation
 
What's New for the 2014 Kia Optima
What's New for the 2014 Kia OptimaWhat's New for the 2014 Kia Optima
What's New for the 2014 Kia OptimaGary Lang Auto Group
 

Viewers also liked (11)

What to Wear On a Date - 4 Outfit Options for Dinner and a Movie
What to Wear On a Date - 4 Outfit Options for Dinner and a MovieWhat to Wear On a Date - 4 Outfit Options for Dinner and a Movie
What to Wear On a Date - 4 Outfit Options for Dinner and a Movie
 
REHAB FUTBOL-Projecte
REHAB FUTBOL-ProjecteREHAB FUTBOL-Projecte
REHAB FUTBOL-Projecte
 
Hands Only CPR
Hands Only CPRHands Only CPR
Hands Only CPR
 
Rueda helicoidal
Rueda helicoidalRueda helicoidal
Rueda helicoidal
 
Presentazione team consulenza e risorse 2014
Presentazione team consulenza e risorse 2014Presentazione team consulenza e risorse 2014
Presentazione team consulenza e risorse 2014
 
Aula prática 1
Aula prática 1Aula prática 1
Aula prática 1
 
AAC(グローバルマネジメントトレーニング)
AAC(グローバルマネジメントトレーニング)AAC(グローバルマネジメントトレーニング)
AAC(グローバルマネジメントトレーニング)
 
What's New for the 2014 Kia Optima
What's New for the 2014 Kia OptimaWhat's New for the 2014 Kia Optima
What's New for the 2014 Kia Optima
 
Tumbuhan paku
Tumbuhan pakuTumbuhan paku
Tumbuhan paku
 
An carraig ed1
An carraig ed1An carraig ed1
An carraig ed1
 
austin
austinaustin
austin
 

WEB-bányászat

  • 2. VIZSGÁLT OLDALAK • A három kiinduló weboldal: • The Washington Post - Politics (http://www.washingtonpost.com/politics/) • The Guardian – Business (http://www.theguardian.com/uk/business) • The Telegraph – Sport (http://www.telegraph.co.uk/sport/) • A vizsgált negyedik oldal: • The New York Times – Főoldal (http://www.nytimes.com/) 2013. november 22. 2
  • 3. FELHASZNÁLT OPERÁTOROK • Get Page és Get Pages – weboldalak beolvasására • Data to Documents – Dokumentum kollekciók • • kezelése Process Documents – a vizsgálandó szóvektorok kialakítása Data to Similarity – Hasonlóság vizsgálat 2013. november 22. 3
  • 4. GET PAGES – I. • A címek beolvasását a Read Excel operátor végzi • Fontosabb beállítások: • Sheet number: 1 • Imported cell range: A1:B4 • Data set meta data information: 2013. november 22. 4
  • 5. GET PAGES – II. • A weboldalak betöltését a Get Pages operátor végzi • A bementére kapott minden sort, mint URL cím kezel • Fontosabb beállítás: • Link attribute: Basis (igazodva az Excel fájlhoz és az előző lépéshez) 2013. november 22. 5
  • 6. PROCESS DOCUMENTS – I. • A Process Documents bemente önállóan vizsgált dokumentumok, ehhez Data to Documents operátort 2013. november 22. felhasználom 6
  • 7. PROCESS DOCUMENTS – II. • Mivel több elemzést is végzek, így a Data to Documents eredményét Multiply operátorra kötöm a Process Documents operátorra 2013. november 22. 7
  • 8. PROCESS DOCUMENTS – III. • Extract Content – HTML kódból szöveget állít elő • Tokenize – szavakra bontja a szöveget • elválasztó karakterek: „nem betű” Filter Tokens (by Length) – csak az adott hosszúságú szavakat hagyja meg (min=3 és max=25) 2013. november 22. 8
  • 9. PROCESS DOCUMENTS – IV. • Filter Stopwords – Elhagyja a jelentésnélküli kötőszavakat (ÉS, VAGY, stb…) • Stem (Porter) – Szótövezést valósít meg • Transform cases – Egységesen kisbetűre konvertálja a szöveget • Továbbá elhagyom azokat a szavakat, amelyek csak egy dokumentumban fordulnak elő: • Prune methode: absolute • Prune below absolute: 2 • Vector Creation: TF-IDF (term freq.–inv. doc. Freq.) 2013. november 22. 9
  • 10. DATA TO SIMILARITY – I. • Az • előkészített dokumentumokat egyenként összeveti egymással, Euklideszi távolságot mérve Ennek eredménye adja az elemzésünk végét 2013. november 22. 10
  • 11. DATA TO SIMILARITY – II. • Második elemzésként, a szóvektorok közül nem hagyom el a csak egy dokumentumban fellelhető szavakat Prune methode: none 2013. november 22. 11
  • 12. A VIZSGÁLT OLDAL BEOLVASÁSA • Hasonlóan az előzőkhöz, de a Get Page operátort használva URL: http://www.nytimes.com/ 2013. november 22. 12
  • 14. EREDMÉNYEK • Vizsgált szavak listája és azok előfordulása 2013. november 22. 14
  • 15. HASONLÓSÁG VIZSGÁLATA • Azokat a szavakat is figyelembe véve, amelyek kizárólag 1. 2. 3. 4. 2013. november 22. egy dokumentumban szerepelnek: The Washington Post - Politics The Guardian - Business The Telegraph – Sport The New York Times 15
  • 16. HASONLÓSÁG VIZSGÁLATA • Elhagyva azokat a szavakat, amelyek kizárólag egy dokumentumban szerepelnek: 1. 2. 3. 4. 2013. november 22. The Washington Post - Politics The Guardian - Business The Telegraph – Sport The New York Times 16
  • 17. EREDMÉNY • Mindkét vizsgálattal hasonló eredményre jutottam, miszerint a The New York Times főoldala leginkább a The Washington Post politikai rovatára hasonlít (a vizsgáltak közül). • Ennek okai lehetnek: • A megcélzott olvasótábor a napi politikában a legérdekeltebb. • A hasonló lapok lokalizációja közeli (geo). • Esetleg az amerikai-brit szóhasználat és idézett kifejezések gyakorisága is dönthetett (stock vs. share) 2013. november 22. 17
  • 18. FELHASZNÁLT FORRÁSOK • RapidMiner 5 Operator Reference (RapidMiner_OperatorReference_en.pdf) • RapidMiner 5 RapidMiner in academic use (RapidMiner_RapidMinerInAcademicUse_en.pdf) Mindkettő dokumentum letölthető a rapidminer.com/documentation Oldalról. 2013. november 22. 18