“Скрытые данные”
Какие данные спрятаны в
госсайтах?
Иван Бегтин
Директор АНО “Информационная культура”
Член экспертного совета при Правительстве РФ
Тезисы
Открытые данные - это лишь малая часть
государственных общедоступных
данных.
Много большее скрывается за пределами
разделов по открытым данным.
О чём пойдёт речь
• Скрытое API на официальных сайтах
• Государственные FTP сервера
• Поиск данных и API в поисковых системах
• Поиск данных в веб-архивах
• Данные внутри сканов документов
Скрытое API
Пример: www.mos.ru
Скрытое API сайта Мэра Москвы
• Не документировано
• Включает: новости, структуру власти,
ключевые индикаторы, структуру сайта и тд
• Является частью CMS сайта (используется для
Ajax запросов)
Находится через режим веб-разработки
браузера
… и через упоминания в robots.txt
Как найти API на сайте?
Основные способы
• Признаки факта наличия в robots.txt
• Включив режим веб-разработки в браузере и
отслеживая XHR запросы
А также
• Читая ТЗ и результаты работы на создания
сайтов (помним про документы на
zakupki.gov.ru)
• Анализируя код сайтов
Где ещё есть недокументированное
API?
• Портал госуслуг
• Единый портал бюджетной системы
• ГАС “Управление”
• ГИС “ЖКХ”
• Портал открытых данных Москвы
и ещё десятки государственных сайтов и
порталов государственных информационных
систем
Государственные FTP
сервера
Примеры государственных FTP
серверов
• FTP сервер сайта госзакупок (массовая
выгрузка данных по контрактам и
закупкам)
• FTP сервер сайта бюджетных
учреждений (массовая выгрузка данных
по бюджетным организациям)
Малоизвестные государственные FTP
ресурсы
• FTP сервер Судебного департамента:
судебная статистика
• SFTP сервер федеральной
антимонопольной службы
Официальная новость на сайте ФАС
Поиск данных и API в
поисковых системах
REST API на сайтах в домене .gov.ru
XML на сайте МВД
Как искать данные и API
По домену и расширениям файлов:
• site:mvd.ru filetype:csv
• site:kremlin.ru filetype:xml
Поиск по ключевым словам:
• API REST site:gov.ru
• API JSON site:gov.ru
Нюансы
• Находит только находимое поисковыми
системами, не находит за пределами
ограничений robots.txt
• Google лучше Яндекса для
направленного поиска
Поиск данных внутри
веб-архивов
Особенности работы с данными на
сайтах
• Многие реестры публикуются как Excel
файлы .xls/.xlsx большого объёма
• Многие данные скрыты внутри
ZIP/RAR/7z файлов и не находятся
поисковыми системами
• Найти их на самом сайте очень
неочевидно
Решение
Выкачать весь сайт и найти всё
что спрятано в архивах и найти
все документы большого объёма
Национальный цифровой архив
Национальный цифровой архив
• Создан для целей долгосрочной
архивации документов
• Но может использоваться и для
обнаружения данных на сайтах
Поиск данных внутри
сканов документов
Проблемы со сканами документов
• Сканы не только понижают удобство
работы с документами, но и позволяют
упустить утечки персональных и иных
данных
• Например, публикация паспортных
данных доверенности или информацию
для служебного использования
Как много?
За последние 3 года выявлено в:
• 4 крупных государственных реестра
• 10 сайтах органов власти
Объём
• тысячи документов
Примеры
Примеров не будет:(
Когда находим подобное сразу
передаём информацию
руководству госоргана или
правоохранительным органам
Спасибо за
внимание.
Иван Бегтин
Email: ibegtin@infoculture.ru
Сайт: http://infoculture.ru

Скрытые данные. Какие данные спрятаны на госсайтах

  • 1.
    “Скрытые данные” Какие данныеспрятаны в госсайтах? Иван Бегтин Директор АНО “Информационная культура” Член экспертного совета при Правительстве РФ
  • 2.
    Тезисы Открытые данные -это лишь малая часть государственных общедоступных данных. Много большее скрывается за пределами разделов по открытым данным.
  • 3.
    О чём пойдётречь • Скрытое API на официальных сайтах • Государственные FTP сервера • Поиск данных и API в поисковых системах • Поиск данных в веб-архивах • Данные внутри сканов документов
  • 4.
  • 5.
  • 6.
    Скрытое API сайтаМэра Москвы • Не документировано • Включает: новости, структуру власти, ключевые индикаторы, структуру сайта и тд • Является частью CMS сайта (используется для Ajax запросов)
  • 7.
    Находится через режимвеб-разработки браузера
  • 8.
    … и черезупоминания в robots.txt
  • 9.
    Как найти APIна сайте? Основные способы • Признаки факта наличия в robots.txt • Включив режим веб-разработки в браузере и отслеживая XHR запросы А также • Читая ТЗ и результаты работы на создания сайтов (помним про документы на zakupki.gov.ru) • Анализируя код сайтов
  • 10.
    Где ещё естьнедокументированное API? • Портал госуслуг • Единый портал бюджетной системы • ГАС “Управление” • ГИС “ЖКХ” • Портал открытых данных Москвы и ещё десятки государственных сайтов и порталов государственных информационных систем
  • 11.
  • 12.
    Примеры государственных FTP серверов •FTP сервер сайта госзакупок (массовая выгрузка данных по контрактам и закупкам) • FTP сервер сайта бюджетных учреждений (массовая выгрузка данных по бюджетным организациям)
  • 13.
    Малоизвестные государственные FTP ресурсы •FTP сервер Судебного департамента: судебная статистика • SFTP сервер федеральной антимонопольной службы
  • 14.
  • 15.
    Поиск данных иAPI в поисковых системах
  • 16.
    REST API насайтах в домене .gov.ru
  • 17.
  • 18.
    Как искать данныеи API По домену и расширениям файлов: • site:mvd.ru filetype:csv • site:kremlin.ru filetype:xml Поиск по ключевым словам: • API REST site:gov.ru • API JSON site:gov.ru
  • 19.
    Нюансы • Находит тольконаходимое поисковыми системами, не находит за пределами ограничений robots.txt • Google лучше Яндекса для направленного поиска
  • 20.
  • 21.
    Особенности работы сданными на сайтах • Многие реестры публикуются как Excel файлы .xls/.xlsx большого объёма • Многие данные скрыты внутри ZIP/RAR/7z файлов и не находятся поисковыми системами • Найти их на самом сайте очень неочевидно
  • 22.
    Решение Выкачать весь сайти найти всё что спрятано в архивах и найти все документы большого объёма
  • 23.
  • 24.
    Национальный цифровой архив •Создан для целей долгосрочной архивации документов • Но может использоваться и для обнаружения данных на сайтах
  • 25.
  • 26.
    Проблемы со сканамидокументов • Сканы не только понижают удобство работы с документами, но и позволяют упустить утечки персональных и иных данных • Например, публикация паспортных данных доверенности или информацию для служебного использования
  • 27.
    Как много? За последние3 года выявлено в: • 4 крупных государственных реестра • 10 сайтах органов власти Объём • тысячи документов
  • 28.
    Примеры Примеров не будет:( Когданаходим подобное сразу передаём информацию руководству госоргана или правоохранительным органам
  • 29.
    Спасибо за внимание. Иван Бегтин Email:ibegtin@infoculture.ru Сайт: http://infoculture.ru