Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Opendata practice for Global Editors Hackathon

972 views

Published on

Open Data practice in Russia

Published in: Technology
  • Be the first to comment

Opendata practice for Global Editors Hackathon

  1. 1. Открытые  и  большие  данные   на  практике   Иван  Бегтин   Директор  НП  “Информационная  культура”            
  2. 2. Типовые  ситуации  в  data-­‐ журналистике  
  3. 3. Есть  данные  -­‐  нет  идеи  
  4. 4. Есть  идея  –  нет  данных  
  5. 5. Нет  ни  данных,  ни  идеи,  но   сделать  надо  завтра!  
  6. 6. Идеальная  ситуация   Это  когда  есть:   ü  Идея   ü  Данные   ü  Время   ü  +  Технологии    
  7. 7. Что  делать?  
  8. 8. Готовимся  заранее:  Данные   •  Большие  данные:  знаем  где  искать,  знаем  что   делать   •  Ключевые  онлайн  API  и  наборы  данных   •  Screen  Scraping   •  Основные  инструменты  очистки  данных    
  9. 9. Как  быстро  найти  данные?   •  Спросить:   •  Quora.com   •  StackOverclow  -­‐  http://opendata.stackexchange.com/   •  Рассылки  OKF,  группы  в  Facebook  и  тд.   •  Каталоги   •  The  Data  hub  –  http://thedatahub.org     •  Хаб  открытых  данных  –  http://hubofdata.ru     •  Data  Catalogs  –  http://datacatalogs.org/    
  10. 10. Wikipedia  
  11. 11. Wikipedia   •  Wikipedia:   •  •  •  •  •    API  -­‐  http://en.wikipedia.org/w/api.php     Дампы  –  http://download.wikimedia.org   DBPedia  –  http://dbpedia.org   Wikidata  –  http://wikidata.org     FreeBase  -­‐  http://www.freebase.com/  
  12. 12. Основные  базы  данных  онлайн   •  Международные:   •  The  Data  Hub  –  http://thedatahub.org   •  Всемирный  банк  –  http://data.worldbank.org   •  ООН  –  http://data.un.org   •  Национальные   •  Хаб  открытых  данных  –  http://hubofdata.ru     •  США  –  http://data.gov   •  UK  –  http://data.gov.uk      
  13. 13. Основные  способы  работы  с  большими   данными   •  Выкачивать  целиком  под  задачу   •  Найти  и  использовать  чужое  API   •  Сделать  своё  API    
  14. 14. Web  /  Screen  scraping  
  15. 15. Что  такое  Web/Screen/Data  Scraping?   •  не  ждем  данных  –  собираем  их  сами   •  извлекаем  их  из  веб-­‐страниц,   файлов  и  печатных  документов   •  переводим  неструктуриованное  в   базы  данных    
  16. 16. Инструменты   •  Программирование   •  Python  +  lxml  or  BeautifulSoup  +  база  данных   •  Или  …любой  другой  язык  программирования   •  Платформы:   •  ScraperWiki.com  –  тоже  Python,  но  проще   •  Abbyy  PDFTransformer  +  Finereader    
  17. 17. Технологии  
  18. 18. Технологии   •  Открытый  код   •  Инструменты  визуализации   •  Обработка  данных    
  19. 19. Government.github.com  
  20. 20. Selection.datavizualisation.ch  
  21. 21. Developers.google.com  
  22. 22. Tech.yandex.ru  
  23. 23. Пример:   Российская  общественная   инициатива  
  24. 24. Сайт  РОИ  
  25. 25. Как  действовать   •  Собрать  идеи   •  Написать  scraper  и  посмотреть   данные   •  Посмотреть  что  сделали  другие:   •  WeThePeople  –  http://petitions.whitehouse.gov   •  E-­‐Petitions  http://petitions.direct.gov.uk      
  26. 26. Что  есть?   •  Анализ  данных  РОИ  и  аналогичных  проектов  –   http://habrahabr.ru/company/infoculture/   •  Код  на  Python  -­‐  https://github.com/ivbeg/apiroi   •  Дамп  базы  -­‐  http://hubofdata.ru/dataset/roi-­‐dump      
  27. 27. Иван  Бегтин   Email:  ibegtin@infoculture.ru   Сайт:  http://ivan.begtin.name     Facebook:  facebook.com/ibegtin   twitter.:  ibegtin   Вопросы?  

×