Your SlideShare is downloading. ×
Tarcsi Ádám,  Horváth Győző:Web-mining fogalma és eszközei
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Tarcsi Ádám, Horváth Győző:Web-mining fogalma és eszközei

270
views

Published on


0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
270
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. WEB-MINING FOGALMA ÉS ESZKÖZEI Tarcsi Ádám, Horváth Győző
  • 2. Tematika     Trendek, big data Webes adatbányászat Példák Trendvizsgálat
  • 3. Internet felhasználók száma Régió Populáció (2012) Internet Internet használók száma használók száma (2000.dec.31.) (2012.jún.30) Penetráció Növekedés 2000-2012 % Afrika 1 073 380 925 4 514 400 167 335 676 15,6 % 3 606,7 % 7,0 % Ázsia 3 922 066 987 114 304 000 1 076 681 059 27,5 % 841,9 % 44,8 % Európa 820 918 446 105 096 093 518 512 109 63,2 % 393,4 % 21,5 % Közel-Kelet 223 608 203 3 284 800 90 000 455 40,2 % 2 639,9 % 3,7 % Észak-Amerika 348 280 154 108 096 800 273 785 413 78,6 % 153,3 % 11,4 % Közép- és Dél-Amerika 593 688 638 18 068 919 254 915 745 42,9 % 1 310,8 % 10,6 % Ausztrália és Óceánia 35 903 569 7 620 480 24 287 919 67,6 % 218,7 % 1,0 % 7 017 846 922 360 985 492 2 405 518 376 34,3 % 566,4 % 100,0 % Világ
  • 4. Big data statisztikák
  • 5. Big data statisztikák  571 új weboldal keletkezik naponta minden egyes percben  A 247 milliárd naponta elküldött e-mail 80%-a spam  A Walmart havonta 45 millió online vásárló kattintási adatait elemezi azért hogy személyre szabott ajánlatokkal lássa el a látogatókat mellyel közel 15%-al növelték a sikeres vásárlási tranzakciók számát,  1 826 petabyte (1 826 000 terabyte) az az adatmennyiség melyet az internet naponta "megmozgat",     Évente 3 6 terrabájt adatot állítunk elő évente 2015-re a Gartner előrejelzése szerint, A Cisco számításai szerint 2015-re várhatóan megnégyszereződik a világ teljes internetforgalma és így eléri az éves 966 exabájtot, A 2014-2015 közötti időszakban önmagában is 200 exabájtos növekedés várható ez több mint a 2010-ben világszerte generált összes internetforgalom, Egy exabájt adatmennyiség körülbelül 19 milliárd DVD-lemeznek felel meg és 75-szöröse a 2000-ben generált teljes - vezetékes és mobil - internetes adatforgalomnak,
  • 6. Big Data statisztikák - Google A Google szerverei évente 1,8 billió (1000 milliárd) keresést dolgoztak fel 2012-ben (22 milliót 2000-ben) 5,1 milliárdot naponta  Kétnaponta annyi információ keletkezik mint amennyi a civilizáció kezdete óta 2003-ig (Eric Schmidt, Google)  A Youtube-ra percenként 100 órányi videót töltünk fel (egy éve ez még 72, még egy évvel korábban pedig még "csak" 48 óra volt) 
  • 7. Big Data - Facebook 699 millió a Facebookot naponta használók száma (2013 június)  Egy átlagos napon 4 5 milliárd lájk keletkezik  Naponta 350 millió képet töltünk fel a Facebookra 
  • 8. Internet of things Forrás: http://www,bitport,hu/megoldasok/joevokep-mi-az-a-dolgok-internete-infografika
  • 9. Milyen gyors az Internet?
  • 10. Milyen gyors az Internet? A twittet 22 perc alatt 226.000 Twitter felhasználó osztotta tovább. A bejelentés percében 327.452 üzenetet osztottak meg a felhasználók a Twitteren.
  • 11. A legkedveltebb Facebook fotó Közel 4 millió felhasználó lájkolta a képet egy nap alatt!
  • 12. Láthatatlan web az ún. Deep web
  • 13. Webbányászat területei Webbányászat Webtartalom-bányászat Webstruktúra-bányászat Webhasználat-bányászat
  • 14. Webtartalom-bányászat  Információ keresése elemzése a weben tárolt tartalmakban: szövegekben képekben videókban stb, Nem strukturált adatok: videók, audio-állományok  Félig strukturált adatok: blogok, közösségi megosztások, dokumentumok  Strukturált adatok: szenzorok által mért adatok, adatbázisból származó adatok     Web szövegbányászat jellemzően természetes nyelvfeldolgozási módszerek segítségével, Információ-szűrés és kategorizálás, Web-es kereső rendszerek.
  • 15. Webstruktúra-bányászat    A honlapot és a webet felépítő hiperlinkekből azok kapcsolataiból nyer ki információt, Keresőrobotok a kapcsolatok hivatkozások megtalálására elemzésére használják, Website tervezési eszköz
  • 16. Webhasználat-bányászat    A látogatók szokásainak magatartásmintáinak tanulmányozása A látogatók tevékenységének előrejelzése és ösztönzése A (web)szolgáltatás minőségének javítása webszerver teljesítményének optimalizálása
  • 17. Webhasználat-bányászat  Webnaplók elemzésén alapul             Kérés IP címe Kérés ideje A kért URL cím Honnan jött? Ha keresőből jött milyen keresőszóra talált ide? Milyen böngészőt eszközt használ? Járt-e már nálunk korábban? Hol járt nálunk korábban? Melyik oldalra érkeznek a leggyakrabban a látogatóink? Milyen sorrendben szokták a látogatók olvasni az egyes oldalakat? Egy átlagos látogatás alatt hány oldalt néztek meg? Mennyi ideig tartózkodnak egy-egy oldalon a látogatók?
  • 18. http://extremetracking,com Statisztika (eXtreme tracking) 18
  • 19. 19 Web-es statisztika: Google Analytics
  • 20. Google Analytics 20  A mérési eredményekből kiderül Leglátogatottabb oldalak  Honnan jöttek a látogatók? Direkt címzés / melyik keresőből melyik oldalról  Mely keresőszavakra találtak az oldalra?  Google AdWords és Analytics együttes használatával mérhető a marketing kampány sikeressége  Trendek  Felhasználói szokások: területi adatok böngészők típusa felbontás stb,  Látogatások folyamata  Oldalon belüli elemzés 
  • 21. Látogatók folyamata
  • 22. Oldalon belüli elemzés… 22
  • 23. Példák
  • 24. Webáruházak és a webbányászat     „webes kosár”: akik szintén ezt vették, mit vettek még? bejelentkezett felhasználók múltbéli cselekedeteinek (vásárlás és keresés) adatai  hasonló, vagy kapcsolódó új termékek ajánlata előzmények: előzőleg meglátogatott (akár más szerveren lévő) lapok adatai Vásárlók kategorizálása!
  • 25. Google Trends
  • 26. Google Trends     Itt nem megkérdezzük a célcsoportot, hanem megfigyeljük azok szokásait, szándékait. Keresési, egyéb internetes trendek, valamint webes szolgáltatások közötti összehasonlításra (pl.: kuponoldalak), illetve olyan esetekben, amikor a célcsoport aktív webes jelenléte feltételezhető, nagyon jól alkalmazhatóak. Leginkább az internetezők, az internetes vásárlóközönség mérésére, elemzésére alkalmas. Példák:  Influenza-trendek követése  Versenytárselemzés  Reklám üzenet, hirdetési kulcsszó kiválasztása  Szezonalitás-vizsgálat  Új piacok meghódítása
  • 27. Influenza-trendek
  • 28. Sentiment Analysis with SAP HANA Hochschule Ludwigshafen am Rhein Prof. Dr. Klaus Freyburger
  • 29. 2012-es USA elnökválasztások közösségi elemzése
  • 30. Alkalmazás készítésének lépései
  • 31. Érzelmi elemzés
  • 32. DE! Torzított minta - Pl. az Egyesült Államok lakosságának kb. 10%-a Twitter felhasználó, a Facebook penetráció pedig 57%-os. Az életkor szerinti eloszlásban is erős eltérések mutatkoznak.  Ismeretlen adatok - Nem tudjuk pontosan hányan láttak egy adott Facebook bejegyzést, csak azt, hogy hányan reagáltak rá.  Túláltalánosított hálózati modellek - A gráfelméleti modellek nem tesznek különbséget a közösségi média kapcsolatai, az internetes hálózatok, vagy a személyes ismertség között.  A nem-hálózati viselkedési faktorok figyelmen kívül hagyása - Az emberi viselkedésnek vannak nem hálózati jellegű vonatkozásai. Ilyenek az ún. mező hatások a csoportviselkedés terén (nagy nemzeti katasztrófák, nagy csoportok viselkedése tüntetések/zavargások idején).  A megfigyelő-paradoxona - A közösségi média felhasználói Forrás: http://kereses.blog.hu/2013/08/01/a_big_data_buktatoi többé-kevésbé tudatában vannak annak, hogy 
  • 33. Vége