NMI13 Jiří Skuhrovec - Jak se dávají informace o státních prodejích na jednu hromadu?

257 views

Published on

Prezentace z druhého ročníku konference New Media Inspiration (http://nminspiration.cz), který se konal 19. 1. 2013 v hlavní budově FF UK pod vedením @petrkou, @simindr a @josefslerka.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
257
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

NMI13 Jiří Skuhrovec - Jak se dávají informace o státních prodejích na jednu hromadu?

  1. 1. VášMajetek.czJak se dávají informace o státních prodejích na jednu hromadu?
  2. 2. Should I stay or should I go?● Nebudou hezké obrázky.● Nebudou nové technologie.Otázky:● VasMajetek.cz: proč server o státním majetku?● Tech: Data mining nad ošklivými daty● Byznys: Hezký. A z čeho to zaplatit?
  3. 3. Prodeje státu● Ročně stát (obce, kraje..) prodá majetek za 100+ mld. Kč. (zdroj: ÚFIS)● Vše je „ na internetu, čili transparentní“ ● Reálně: ● tisíce obecních vývěsek ● excelové tabulky s minimem informací ● na každé url pár nabídek ročně.. Sledovat to nemá smysl.
  4. 4. VasMajetek.cz – kde jsme?5/2011 - 1. pivo ● Cíl: sesypat informace na jedno místo11/2011 - Start serveru ● 30.000+ nabídek, byznys model: platby za bonus content9/2012 – Měníme byznys model  ● Free content ● Orientace na prodejce, úplnost dat.1/2013 – Integrujeme ● Nástroj pro zveřejňování nabídek majetku ( zInfo.cz – umí to i zakázky ) ● Doplňování a distribuce dat na realitní servery
  5. 5. Jaká data sbíráme?● Zdroje: Veřejné dražby, weby obcí, exekuce, soudy..● 5 scraperů (ze surového html)● Zbytek ručně (!)● Aktuálních nabídek 2600, celkem sebráno 48000 nabídek● Informace pravidelně scrapujeme / sbíráme, čistíme, publikujeme
  6. 6. Co jsou to ta zprasená data?● Nestabilní URLs● Nejednotný formát (i na jednom zdroji)● HTML – struktura není, nebo se mění● Klíčová data uvnitř PDF scanů● Řešení (?): lidská síla, důmyslné scrapery, sekundární zdroje..
  7. 7. Proč dělat se státními daty?● 40 % ekonomiky je (a bude) stát.● Zprasená data, zastaralé technologie .. praxe k nezaplacení.● Místo konkurence řešíte technické problémy :)
  8. 8. Radostné zítřky státních prodejů● Nově (polo)povinné dražby● Elektronizace dražeb● Bude evidence státních nemovitostí (ano, to stále není..)● Nad tím bude bdít Vášmajetek.cz 
  9. 9. The End Díky za pozornost a nakupujte fér Jirka Skuhrovecjiri.skuhrovec@vasmajetek.cz

×