NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

485 views
431 views

Published on

Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
485
On SlideShare
0
From Embeds
0
Number of Embeds
56
Actions
Shares
0
Downloads
3
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

NMI13 Michal Illich - Extrakce strukturovaných dat z webových stránek

  1. 1. Extrakce strukturovaných dat z webových stránek New Media Inspiration 2013 Michal Illich
  2. 2. Cože?● na webu jsou miliardy stránek● jsou psané pro lidi● stroje jim téměř nerozumí což kupodivu zas tak nevadí● ale nemůžeme se tak strojů na nic ptát – Kdy se narodil Václav Havel? Kolik megapixelů má kamera iPhone 5? Jaké je HDP ČR? Kde a kdy jsou kurzy jógy v Praze? Kolik stojí kWh elektřiny od ČEZ? Kolik procent hlasů získal Schwarzenberg? Kolik je Tomášů na Google+? Jaký je plat poslanců? Jaké rychlosti ADSL nabízí Telefonica? Kdy má otevřeno obchod X?
  3. 3. Už se na tom pracuje● Freebase 2005● Wikidi (velmi skromně) 2010● Siri 2011 v iOS● Google Knowledge Graph 2012● Microsoft Probase stále research
  4. 4. Kde stojíme● nemůžeme konkurovat Googlu ani Applu● ale naprostá většina firem neumí ani to co my● nápad: poskytneme jim to jako službu #cloud #saas #b2b #ai #machinelearning #api● pro koho? e-shopy hledání hotelů, realit, práce ekonomy a analytiky firemní katalogy ...
  5. 5. Web + příklad
  6. 6. Technicky...Problém je složitý, zjednodušili jsme ho na:● Zákazník zná entity iPhone 5● Zákazník ví co chce rozlišení, výrobce, operační systém, ...● Ideálně má i část dat předvyplněnýchA my už si automaticky odvodíme strukturu Jednotky? Rozsah hodnot? Možné kategorie?
  7. 7. Pro každou řádku (entitu)● Zeptáme se vyhledávače na relevantní stránky● Stáhneme tak 30 až 50 stránek● Zanalyzujeme texty na stránce viz další slide● Slejeme informace ze všech stránek● A vyplníme tabulku
  8. 8. Samotná extrakce● Najdi fragmenty Rozlišení: 5 megapixelů● Slož z fragmentů kandidáta propertyName + number + unitName = super● Ohodnoť kandidáty viz další slide● Porovnej a sluč nejlepší kandidáty
  9. 9. Strojové učení● Ohodnocení kandidátů – váhy nejdřív ručně● Ale strojové učení to zpřesní Naučí se vztahy Hodnotí i nelineárně Jednoduché přidávání dalších dat● Boostované rozhodovací lesy Dříve i neuronové sítě, teď už je nepoužíváme
  10. 10. Strojové učení i jindeJde použít i pro čirá zákaznická data. Tedy bez té extrakce dat z webových stránek. Takže pozor! Tenhle slide je o něčem jiném než ostatní :)Např. Jak do newsletteru vybrat nej nabídky? To je pro MagicTable taky tabulka. Akorát ji nevyplňujeme, ale předpovídáme nějakou hodnotu – např. míru konverze Strojové učení se na minulých datech naučí, na čem je konverze závislá. A pro budoucí nabídky predikuje míru konverze.
  11. 11. Kde jsme● V beta provozu● Dva zkušební zákazníci velké české firmy● Bereme i další když mají zajímavý problém● MagicTable.com miniweb
  12. 12. Díky!michal@illich.cz @michalillich

×