Команда
Шашев Сегей менеджер проекта
Коробейников Алексей эксперт в области информационного
поиска, back-end разработчик
Каменцев Степан ninja разработчик, front-end
Мартьянов Дмитрий ninja разработчик, back-end
Контакты:
http://xpir.ru
+7(926)945-41-62
favoritefx@mail.ru
Это моя презентация для воркшопа по основам журналистики данных на митапе Hacks/Hackers Minsk #2. В презентации - примеры лучших мира сего, основные шаги, и ссылки для дальнейшего обучения.
This is my presentation at the Data Journalism 101 workshop at Hacks/Hackers Minsk #2. The presentations contains examples of the best, as well as explains key steps in Data Journalism.
Презентация занятия Инны Юрик "Конкурентная разведка" для курса "Поиск информации и конкурентная разведка" в Школе бизнес-исследований (www.businessresearch.by)
Доклад с PUG#4 https://www.facebook.com/events/350783888446030/
Рассмотрим:
- Что такое Highload, термины, инструменты.
- Где тормозит PHP, родовые травмы языка, как с ними жить.
- Скорость работы vs скорость разработки.
- Архитектура, что стоит делать и когда.
Команда
Шашев Сегей менеджер проекта
Коробейников Алексей эксперт в области информационного
поиска, back-end разработчик
Каменцев Степан ninja разработчик, front-end
Мартьянов Дмитрий ninja разработчик, back-end
Контакты:
http://xpir.ru
+7(926)945-41-62
favoritefx@mail.ru
Это моя презентация для воркшопа по основам журналистики данных на митапе Hacks/Hackers Minsk #2. В презентации - примеры лучших мира сего, основные шаги, и ссылки для дальнейшего обучения.
This is my presentation at the Data Journalism 101 workshop at Hacks/Hackers Minsk #2. The presentations contains examples of the best, as well as explains key steps in Data Journalism.
Презентация занятия Инны Юрик "Конкурентная разведка" для курса "Поиск информации и конкурентная разведка" в Школе бизнес-исследований (www.businessresearch.by)
Доклад с PUG#4 https://www.facebook.com/events/350783888446030/
Рассмотрим:
- Что такое Highload, термины, инструменты.
- Где тормозит PHP, родовые травмы языка, как с ними жить.
- Скорость работы vs скорость разработки.
- Архитектура, что стоит делать и когда.
- Как начать развивать систему аналитики в компании, не имея армию data-инженеров.
- Как перейти из состояния «я не понимаю какие квадратики на этой схеме нужны для моих задач» и при этом не уйти в R&D на несколько месяцев.
- Как реализовать потоковую обработку данных на PHP (~40К записей в минуту).
- Какие технические решения применяли в нашем решении и какие факторы учитывали в принятии решений.
Презентация с мероприятия https://habr.com/ru/company/tuturu/blog/426059/
Расследования основанные на данных. Примеры расследований по госконтрактам, латинице в госзакупках, использованию пиратского ПО в госорганах и утечкам персональных данных из общедоступных информационных систем. Реальные истории о том как проводятся дата расследования.
Экосистема API Инфокультуры и дальнейшая её эволюция. О том какие данные и как публикуются в проектах Информационной культуры: Госзатраты, Хаб открытых данных и другие
Как не запутаться в справочниках и классификаторах бюджетной системыIvan Begtin
Обзор принципов кодирования и видов справочников и классификаторов бюджетной системы. Примеры значения, расшифровка, ссылка на источники о том где можно узнать больше информации.
Как устроена бюджетная система России (обзор данных и структуры)Ivan Begtin
Презентация посвящена структуре государственного бюджета, отвечает на вопросы о том что такое ГРБС, РБС, ПБС и другие области бюджетных терминов и знаний
Проекты на данных криминальной статистики в России и в миреIvan Begtin
Обзор проектов прогнозирования преступлений и иного использования данных криминальной статистики в России и в мире в общественных и в коммерческих проектах.
Простой и понятный русский язык (plainrussian.ru)Ivan Begtin
О том что такое простой, понятный язык на примере русского языка и международных проектов. Обзор проекта plainrussian.ru и его международных аналогов. О том как устроены алгоритмы оценки простоты языка.
Государство как платформа. Обзор и практикаIvan Begtin
Открытые данные, государственные данные, микросервисы и многое другое - всё это часть государства как платформы, как экосистемы интегрированных сервисов основанной на данных. Обзор мировой практики и стартовых возможностей внедрения государства как платформы в России.
Открытые государственные финансовые исторические данныеIvan Begtin
Презентации по открытым данным исторических бюджетов. Как они публикуются, как с ними работать. Обзор ограничений в использовании исторических данных на практике.
Государственные субсидии (федеральный уровень) Ivan Begtin
Федеральный реестр государственных субсидий позволяет гражданам знать как тратятся деньги по этой статье государственных расходов. Презентация включает обзор реестра и его структуры данных.
Международные проекты по открытости расходов государстваIvan Begtin
Обзор международных проектов по открытости государственных расходов органов власти и местного самоуправления. Включая OpenSpending, Aiddata, IATI, OpenBudgets.eu, Redflags и многие другие.
Обзор открытых финансовых данных органов власти в реестрах государственных контрактов и субсидий. Охватывает все основные источники информации в ведении Минфина России и Федерального Казначейства
Скрытые данные. Какие данные спрятаны на госсайтахIvan Begtin
О том как находить скрытые данные в среди открытых данных. О API скрытых в недрах сайтов, о поиске опубликованных XML и CSV файлов и том какие данные скрываются в сканах документов
8. Готовимся
заранее:
Данные
• Большие
данные:
знаем
где
искать,
знаем
что
делать
• Ключевые
онлайн
API
и
наборы
данных
• Screen
Scraping
• Основные
инструменты
очистки
данных
9. Как
быстро
найти
данные?
• Спросить:
• Quora.com
• StackOverclow
-‐
http://opendata.stackexchange.com/
• Рассылки
OKF,
группы
в
Facebook
и
тд.
• Каталоги
• The
Data
hub
–
http://thedatahub.org
• Хаб
открытых
данных
–
http://hubofdata.ru
• Data
Catalogs
–
http://datacatalogs.org/
12. Основные
базы
данных
онлайн
• Международные:
• The
Data
Hub
–
http://thedatahub.org
• Всемирный
банк
–
http://data.worldbank.org
• ООН
–
http://data.un.org
• Национальные
• Хаб
открытых
данных
–
http://hubofdata.ru
• США
–
http://data.gov
• UK
–
http://data.gov.uk
13. Основные
способы
работы
с
большими
данными
• Выкачивать
целиком
под
задачу
• Найти
и
использовать
чужое
API
• Сделать
своё
API
15. Что
такое
Web/Screen/Data
Scraping?
• не
ждем
данных
–
собираем
их
сами
• извлекаем
их
из
веб-‐страниц,
файлов
и
печатных
документов
• переводим
неструктуриованное
в
базы
данных
16. Инструменты
• Программирование
• Python
+
lxml
or
BeautifulSoup
+
база
данных
• Или
…любой
другой
язык
программирования
• Платформы:
• ScraperWiki.com
–
тоже
Python,
но
проще
• Abbyy
PDFTransformer
+
Finereader
25. Как
действовать
• Собрать
идеи
• Написать
scraper
и
посмотреть
данные
• Посмотреть
что
сделали
другие:
• WeThePeople
–
http://petitions.whitehouse.gov
• E-‐Petitions
http://petitions.direct.gov.uk
26. Что
есть?
• Анализ
данных
РОИ
и
аналогичных
проектов
–
http://habrahabr.ru/company/infoculture/
• Код
на
Python
-‐
https://github.com/ivbeg/apiroi
• Дамп
базы
-‐
http://hubofdata.ru/dataset/roi-‐dump