Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Tarcsi Ádám, Horváth Győző:Web-mining fogalma és eszközei

771 views

Published on

  • Be the first to comment

  • Be the first to like this

Tarcsi Ádám, Horváth Győző:Web-mining fogalma és eszközei

  1. 1. WEB-MINING FOGALMA ÉS ESZKÖZEI Tarcsi Ádám, Horváth Győző
  2. 2. Tematika     Trendek, big data Webes adatbányászat Példák Trendvizsgálat
  3. 3. Internet felhasználók száma Régió Populáció (2012) Internet Internet használók száma használók száma (2000.dec.31.) (2012.jún.30) Penetráció Növekedés 2000-2012 % Afrika 1 073 380 925 4 514 400 167 335 676 15,6 % 3 606,7 % 7,0 % Ázsia 3 922 066 987 114 304 000 1 076 681 059 27,5 % 841,9 % 44,8 % Európa 820 918 446 105 096 093 518 512 109 63,2 % 393,4 % 21,5 % Közel-Kelet 223 608 203 3 284 800 90 000 455 40,2 % 2 639,9 % 3,7 % Észak-Amerika 348 280 154 108 096 800 273 785 413 78,6 % 153,3 % 11,4 % Közép- és Dél-Amerika 593 688 638 18 068 919 254 915 745 42,9 % 1 310,8 % 10,6 % Ausztrália és Óceánia 35 903 569 7 620 480 24 287 919 67,6 % 218,7 % 1,0 % 7 017 846 922 360 985 492 2 405 518 376 34,3 % 566,4 % 100,0 % Világ
  4. 4. Big data statisztikák
  5. 5. Big data statisztikák  571 új weboldal keletkezik naponta minden egyes percben  A 247 milliárd naponta elküldött e-mail 80%-a spam  A Walmart havonta 45 millió online vásárló kattintási adatait elemezi azért hogy személyre szabott ajánlatokkal lássa el a látogatókat mellyel közel 15%-al növelték a sikeres vásárlási tranzakciók számát,  1 826 petabyte (1 826 000 terabyte) az az adatmennyiség melyet az internet naponta "megmozgat",     Évente 3 6 terrabájt adatot állítunk elő évente 2015-re a Gartner előrejelzése szerint, A Cisco számításai szerint 2015-re várhatóan megnégyszereződik a világ teljes internetforgalma és így eléri az éves 966 exabájtot, A 2014-2015 közötti időszakban önmagában is 200 exabájtos növekedés várható ez több mint a 2010-ben világszerte generált összes internetforgalom, Egy exabájt adatmennyiség körülbelül 19 milliárd DVD-lemeznek felel meg és 75-szöröse a 2000-ben generált teljes - vezetékes és mobil - internetes adatforgalomnak,
  6. 6. Big Data statisztikák - Google A Google szerverei évente 1,8 billió (1000 milliárd) keresést dolgoztak fel 2012-ben (22 milliót 2000-ben) 5,1 milliárdot naponta  Kétnaponta annyi információ keletkezik mint amennyi a civilizáció kezdete óta 2003-ig (Eric Schmidt, Google)  A Youtube-ra percenként 100 órányi videót töltünk fel (egy éve ez még 72, még egy évvel korábban pedig még "csak" 48 óra volt) 
  7. 7. Big Data - Facebook 699 millió a Facebookot naponta használók száma (2013 június)  Egy átlagos napon 4 5 milliárd lájk keletkezik  Naponta 350 millió képet töltünk fel a Facebookra 
  8. 8. Internet of things Forrás: http://www,bitport,hu/megoldasok/joevokep-mi-az-a-dolgok-internete-infografika
  9. 9. Milyen gyors az Internet?
  10. 10. Milyen gyors az Internet? A twittet 22 perc alatt 226.000 Twitter felhasználó osztotta tovább. A bejelentés percében 327.452 üzenetet osztottak meg a felhasználók a Twitteren.
  11. 11. A legkedveltebb Facebook fotó Közel 4 millió felhasználó lájkolta a képet egy nap alatt!
  12. 12. Láthatatlan web az ún. Deep web
  13. 13. Webbányászat területei Webbányászat Webtartalom-bányászat Webstruktúra-bányászat Webhasználat-bányászat
  14. 14. Webtartalom-bányászat  Információ keresése elemzése a weben tárolt tartalmakban: szövegekben képekben videókban stb, Nem strukturált adatok: videók, audio-állományok  Félig strukturált adatok: blogok, közösségi megosztások, dokumentumok  Strukturált adatok: szenzorok által mért adatok, adatbázisból származó adatok     Web szövegbányászat jellemzően természetes nyelvfeldolgozási módszerek segítségével, Információ-szűrés és kategorizálás, Web-es kereső rendszerek.
  15. 15. Webstruktúra-bányászat    A honlapot és a webet felépítő hiperlinkekből azok kapcsolataiból nyer ki információt, Keresőrobotok a kapcsolatok hivatkozások megtalálására elemzésére használják, Website tervezési eszköz
  16. 16. Webhasználat-bányászat    A látogatók szokásainak magatartásmintáinak tanulmányozása A látogatók tevékenységének előrejelzése és ösztönzése A (web)szolgáltatás minőségének javítása webszerver teljesítményének optimalizálása
  17. 17. Webhasználat-bányászat  Webnaplók elemzésén alapul             Kérés IP címe Kérés ideje A kért URL cím Honnan jött? Ha keresőből jött milyen keresőszóra talált ide? Milyen böngészőt eszközt használ? Járt-e már nálunk korábban? Hol járt nálunk korábban? Melyik oldalra érkeznek a leggyakrabban a látogatóink? Milyen sorrendben szokták a látogatók olvasni az egyes oldalakat? Egy átlagos látogatás alatt hány oldalt néztek meg? Mennyi ideig tartózkodnak egy-egy oldalon a látogatók?
  18. 18. http://extremetracking,com Statisztika (eXtreme tracking) 18
  19. 19. 19 Web-es statisztika: Google Analytics
  20. 20. Google Analytics 20  A mérési eredményekből kiderül Leglátogatottabb oldalak  Honnan jöttek a látogatók? Direkt címzés / melyik keresőből melyik oldalról  Mely keresőszavakra találtak az oldalra?  Google AdWords és Analytics együttes használatával mérhető a marketing kampány sikeressége  Trendek  Felhasználói szokások: területi adatok böngészők típusa felbontás stb,  Látogatások folyamata  Oldalon belüli elemzés 
  21. 21. Látogatók folyamata
  22. 22. Oldalon belüli elemzés… 22
  23. 23. Példák
  24. 24. Webáruházak és a webbányászat     „webes kosár”: akik szintén ezt vették, mit vettek még? bejelentkezett felhasználók múltbéli cselekedeteinek (vásárlás és keresés) adatai  hasonló, vagy kapcsolódó új termékek ajánlata előzmények: előzőleg meglátogatott (akár más szerveren lévő) lapok adatai Vásárlók kategorizálása!
  25. 25. Google Trends
  26. 26. Google Trends     Itt nem megkérdezzük a célcsoportot, hanem megfigyeljük azok szokásait, szándékait. Keresési, egyéb internetes trendek, valamint webes szolgáltatások közötti összehasonlításra (pl.: kuponoldalak), illetve olyan esetekben, amikor a célcsoport aktív webes jelenléte feltételezhető, nagyon jól alkalmazhatóak. Leginkább az internetezők, az internetes vásárlóközönség mérésére, elemzésére alkalmas. Példák:  Influenza-trendek követése  Versenytárselemzés  Reklám üzenet, hirdetési kulcsszó kiválasztása  Szezonalitás-vizsgálat  Új piacok meghódítása
  27. 27. Influenza-trendek
  28. 28. Sentiment Analysis with SAP HANA Hochschule Ludwigshafen am Rhein Prof. Dr. Klaus Freyburger
  29. 29. 2012-es USA elnökválasztások közösségi elemzése
  30. 30. Alkalmazás készítésének lépései
  31. 31. Érzelmi elemzés
  32. 32. DE! Torzított minta - Pl. az Egyesült Államok lakosságának kb. 10%-a Twitter felhasználó, a Facebook penetráció pedig 57%-os. Az életkor szerinti eloszlásban is erős eltérések mutatkoznak.  Ismeretlen adatok - Nem tudjuk pontosan hányan láttak egy adott Facebook bejegyzést, csak azt, hogy hányan reagáltak rá.  Túláltalánosított hálózati modellek - A gráfelméleti modellek nem tesznek különbséget a közösségi média kapcsolatai, az internetes hálózatok, vagy a személyes ismertség között.  A nem-hálózati viselkedési faktorok figyelmen kívül hagyása - Az emberi viselkedésnek vannak nem hálózati jellegű vonatkozásai. Ilyenek az ún. mező hatások a csoportviselkedés terén (nagy nemzeti katasztrófák, nagy csoportok viselkedése tüntetések/zavargások idején).  A megfigyelő-paradoxona - A közösségi média felhasználói Forrás: http://kereses.blog.hu/2013/08/01/a_big_data_buktatoi többé-kevésbé tudatában vannak annak, hogy 
  33. 33. Vége

×