Как грабить корованы

•Download as PPTX, PDF•

0 likes•278 views

#dotnetconf 15 мая 2016 http://dotnetconf.ru/materialy/korovan В то время, когда наши космические корабли бороздят просторы Вселенной, а проекты с модным словом BigData растут как на дрожжах, остро встает вопрос — откуда и как эту самую BigData брать? В нашем докладе мы расскажем о способах парсинга/краулинга/среза и прочего получения дейстивтельно большого количества информации из интернета. Рассмотрим различные способы решения ситуаций, когда сайты ограничивают или блокируют автоматический краулинг. Ведь без данных, и BigData — не BigData.

Internet

Как грабить корованы
Александр Козько и Руслан Сафин
ByndyuSoft
@alkozko @razonrus
12-я конференция .NET разработчиков
15 мая 2016
dotnetconf.ru

2
BIG DATA
• Volume (Объем)
• Velocity (Скорость)
• Variety (многообразие)

4
Грабеж корована
• Найти данные
• Получить
• Обработать
• …
• Повторить

5
Данные бывают
Структурированные
Неструктурированные
Полуструктурированные

6
Информация содержит
• Тексты
• Имена
• Факты
• все остальное
• Изображения
• Числа
• Связи

7
Доступ к информации
Официальный
Неофициальный
Совсем неофициально

8
Официальное использование
Дампы и архивы данных
• Базы данных ФИАС, Wikipedia, Rutracker

9
Официальное использование
Публичные API
• Социальные сети
• Некоторые СМИ (New York Times, …)
• Другие источники (ЦБ РФ, 500px, …)
9

10
Официальное использование
Ссылки на данные
• RSS
• Sitemap
10

11
Неофициальный доступ
HTML
• Ручная обработка каждого сайта
через XPath (AgilityPack, AngleSharp)
• Умные алгоритмы анализирующие
структуру страниц (NReadability)

12
Примеры – XPath
//*[@id="firstHeading"]
//*[@id="layout"]/div[3]/div[3]/div[2]/div[4]/div[2]
//*[@class='companies_items']/*[@class='company_item']

14
Сложности
Краулинг = (D)DoS
Сайты не хотят делиться информацией
Сайты защищаются

15
Обход защиты
Прикидываемся Google bot:
• User-agent
Прикидываемся пользователем
• Ограничение одновременных запросов
• User-agent и Headers
• Cookie
Прокси

16
Тяжелый случай
Эмуляция браузера, когда ничего
другого не помогает:
• Selenium
• PhantomJS
• Awesomeum
16

17
Совсем неофициально
Ревес-инжиниринг Internal API
• Анализ верстки и JS
• Traffic sniffing (Fiddler2, Web Developer Tools)
• Декомпиляция приложений
Обход ограничений
• Rucaptcha.com
• Виртуальные номера для СМС
• Одноразовые email

18
Как запустить в продакшн
Асинхронные запросы
Очереди

20
Спасибо за внимание
Александр Козько и Руслан Сафин
alkozko@yandex.ru iruslansafin@gmail.com
@alkozko @razonrus

Это моя презентация для воркшопа по основам журналистики данных на митапе Hacks/Hackers Minsk #2. В презентации - примеры лучших мира сего, основные шаги, и ссылки для дальнейшего обучения. This is my presentation at the Data Journalism 101 workshop at Hacks/Hackers Minsk #2. The presentations contains examples of the best, as well as explains key steps in Data Journalism.

Ссылки в нормативных документахAndrey Subbota

Thumbtack Expertise Days # 5 - Dataset

Alexey Remnev

20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...

IT-Portfolio

20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда стоит написать свою БД", Олег Краснов (cистемный Архитектор SEMrush) Аннотация В 2008 году система хранения SEMrush была построена на базе сочетания SQL и файлового хранилища. Это позволило выдерживать нагрузку примерно до 3 миллионов запросов в день. Но уже в 2009 году было видно, что интерес к сервису растет стремительно и очень скоро старая система хранения будет основным сдерживающим фактором. Мы провели ряд экспериментов и в результате исследования остановились на собственной структуре хранения данных. Новая система была создана в предельно короткие сроки и уже через 3 месяца была введена в строй. Эта система используется и по сей день, хотя нагрузка выросла на порядок. В докладе будет освещены история и методы построения хранилища данных проекта SEMrush. В ходе выступления будет проведена ретроспектива требований. Также докладчик расскажет об особенностях применяемого хранилища данных и отличиях от стандартных методов и средств. В том числе, будут освещены перспективы данной технологии применительно к реалиям и новым потребностям проекта. О компании Сегодня SEMrush – ведуший сервис для анализа конкурентов. Он позволяет узнать кейворды, по которым любой домен или сайт попадает в AdWords, выдачу Google и Bing. В отличие от других инструментов, которые позволяют анализировать только ваши собственные данные, SEMrush дает возможность изучить рекламные тексты конкурентов и собирает сведения об их бюджетах на продвижение в поисковиках.

Dev {highload}. When you should do your own db.Oleg Kwerty

Елена Никитина, Аналитический центр при Правительстве РФ — Путь питониста, ил...

Dev_Party

HighLoad++ 2017 Зал «Конгресс-Холл», 7 ноября, 12:00 Тезисы: http://www.highload.ru/2017/abstracts/2864.html Большое количество современных веб-проектов переходит на микросервисную архитектуру. Она решает огромное количество проблем, присущих монолитным системам, однако накладывает качественно новые требования, в том числе и на аналитику данных. В докладе будет рассказано о том, какие вызовы и возможности преподнесла нам микросервисная архитектура, а также показано, как clickstream может быть полезен не только аналитикам, но и разработчикам.

10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...

HappyDev

20150129 минобороны презентация v02

finnopolis

DDoS-атаки Рунета в 2011-2012 гг.: характер и тенденции

HLL

Артем Гавриченков (ximaera), ведущий разработчик сети фильтрации трафика Qrator, проводит обзор DDoS-атак за последние полтора года в рамках семинара компании HLL «DDoS-атаки и защита от них» (RIGF, 14 мая 2012, Москва). Отчетную статью по докладу читайте на Хабрахабре: http://habrahabr.ru/company/highloadlab/blog/145137/

poznay top 2

prmegaindex

Использование облачной платформы OpenStack для реализации механизмов обработк...Игорь Мызгин

МойСклад, облачный сервис ERP

Oleg Alexeev

Астерит. Михаил Пузин. "Облачные сервисы, соответствующие законодательству "О...

Expolink

16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...

IT-Portfolio

16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимизация архитектуры для работы 24/7", Олег Краснов (системный архитектор SEMrush) Аннотация Со времени предыдущего доклада прошло полгода и мы сделали огромный рывок вперёд. В 2008 году система хранения SEMrush была построена на базе сочетания SQL с файловым хранилищем и позволяла выдерживать нагрузку примерно в 3 миллиона запросов в день. К моменту прошлого выступления нагрузка возросла на порядок, а сейчас на подобной нагрузке было успешно введено обновление данных онлайн без потери производительности. В докладе, через призму краткой ретроспективы, будут освещены изменения технологий обработки данных проекта SEMrush. В ходе выступления будет проведен обзор изменившихся требований к системе, как в плане надёжности, так и скорости реакции на запросы пользователей. Выступление будет дополнено реальными проблемами, программного обеспечения и оборудования, а также способами их решения. Кроме этого будет произведён обзор планов на ближайшее будущее. О компании Компания SEMrush является разработчиком программного обеспечения для анализа конкурентов и определения ключевых слов для SEO оптимизации, входит в тройку мировых лидеров разработчиков аналитических инструментов для изучения трафика. Существует на рынке с 2007 года. Сервис SEMrush предоставляет пользователям информацию, необходимую для анализа конкурентной среды и оптимизации поисковой выдачи. SEMrush незаменим для углубленного анализа ключевых слов, позиций конкурентов, AdWords кампаний.

Как устроены поисковые системыPovolzskiy state university of telecommunications and informatics

Александр Богданов «Lambda - архитектура»DataArt

Как мы строили аналитическую платформу на несколько миллиардов событии в месяц

Mikhail Tabunov

Аналитика над петабайтами в реальном времени

CodeFest

Доменная структура интернетаPovolzskiy state university of telecommunications and informatics

Практика миграции реляционных баз данных в экосистему Hadoop

Yury Petrov

Слайды моего доклада: "Практика миграции реляционных баз данных в экосистему Hadoop" В докладе я доказываю, что возможен полный отказ от реляционных баз данных в пользу экосистемы Hadoop. В мире (к сожалению не в России) эта тема уже перекраивает рынок, уже наносится удар по традиционным базам данных. Скоро ожидаются скринкасты. Если вы начинаете проект миграции - задавайте мне вопросы - я с удовольствием на них отвечу. Приглашайте меня в качестве консультанта и архитектора - я помогу собрать команду, обосновать инвестиции и запустить проект.

Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Yury Petrov

В докладе я постараюсь донести до аудитории общую концепцию построения инфраструктуры Big Data, которую многие не видят. Будут и инсайты и самый главный из них это то, что за долгое время работы с Big Data я таки вывел определение для этого термина

Анализ доменной зоны TJIvan Golodov

16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...

IT-Portfolio

16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Когда надо изобретать свой велосипед? Строим NoSQL хранилище в приемлемые сроки", Александр Календарёв (разработчик РБК-Медиа Холдинг / Love Planet) Аннотация - Что из себя представляет Современная служба знакомств (крупная соцсеть в миниатюре). - Какие задачи мы решаем и немного про общую архитектуру проекта. - Обзор про существующие key/value решения - Почему не нас не устроили memcachedb, redis, tarantool или MongoDВ... - Какие велосипеды пришлось изобретать и что взяли готовое. - Протокол обмена, почему выбрали memcached - Как и зачем расширять существующие протоколы - Как устроено хранилище изнутри (на базе key/value Hash & Tree), немного скучной теории про структуры данных, полезно тем, кто все же рискнет написать что-то своё. - какие key/value АПИ можно еще использовать. - Проблемы здоровья хранилища или зачем и как делать Мониторинг. - возможность масштабирования, проблемы и пути решения. Биография Опыт в IT индустрии 15 лет, кандидат наук. Докладчик на Hi++ 2011, ADDConf-2, DevConf 2012, PHPConf 2009 и других. Автор блога highloadblog.ru. Круг интересов: хранение и обработка данных.

Евгений Куршев, Яндекс.Метрика вместо сериалов: анализируем поведение пользов...

Optimization conference

Конкурентная Разведка в ИнтернетеPositive Hack Days

Скрытые данные. Какие данные спрятаны на госсайтах

Ivan Begtin

What's hot

Linked Open Data (EIS)

Fred Kozlov

Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...

Ontico

10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...

HappyDev

20150129 минобороны презентация v02

finnopolis

DDoS-атаки Рунета в 2011-2012 гг.: характер и тенденции

HLL

poznay top 2

prmegaindex

Использование облачной платформы OpenStack для реализации механизмов обработк...Игорь Мызгин

МойСклад, облачный сервис ERP

Oleg Alexeev

Астерит. Михаил Пузин. "Облачные сервисы, соответствующие законодательству "О...

Expolink

16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...

IT-Portfolio

Как устроены поисковые системыPovolzskiy state university of telecommunications and informatics

Александр Богданов «Lambda - архитектура»DataArt

Как мы строили аналитическую платформу на несколько миллиардов событии в месяц

Mikhail Tabunov

Аналитика над петабайтами в реальном времени

CodeFest

Доменная структура интернетаPovolzskiy state university of telecommunications and informatics

Практика миграции реляционных баз данных в экосистему Hadoop

Yury Petrov

Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Yury Petrov

Анализ доменной зоны TJIvan Golodov

16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...

IT-Portfolio

Евгений Куршев, Яндекс.Метрика вместо сериалов: анализируем поведение пользов...

Optimization conference

What's hot (20)

Linked Open Data (EIS)

Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...

10 HappyDev-lite'14 Иван Погудин, Анатолий Никулин. Решение задач, связанных...

20150129 минобороны презентация v02

DDoS-атаки Рунета в 2011-2012 гг.: характер и тенденции

poznay top 2

Использование облачной платформы OpenStack для реализации механизмов обработк...

МойСклад, облачный сервис ERP

Астерит. Михаил Пузин. "Облачные сервисы, соответствующие законодательству "О...

16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...

Как устроены поисковые системы

Александр Богданов «Lambda - архитектура»

Как мы строили аналитическую платформу на несколько миллиардов событии в месяц

Аналитика над петабайтами в реальном времени

Доменная структура интернета

Практика миграции реляционных баз данных в экосистему Hadoop

Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиС

Анализ доменной зоны TJ

16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...

Евгений Куршев, Яндекс.Метрика вместо сериалов: анализируем поведение пользов...

Similar to Как грабить корованы

Конкурентная Разведка в ИнтернетеPositive Hack Days

Скрытые данные. Какие данные спрятаны на госсайтах

Ivan Begtin

лекция информационные ресурсы

Tatjana Reichert

#1 razvedka i sbor dannih

Uladzislau Murashka

Атрибуция кибератак

Aleksey Lukatskiy

Мастер класс по открытым данным

DimOK AD

Oracle Endeca Information Discovery - Платформа для исследования данныхAndrey Akulov

Similar to Как грабить корованы (7)

Конкурентная Разведка в Интернете

Скрытые данные. Какие данные спрятаны на госсайтах

лекция информационные ресурсы

#1 razvedka i sbor dannih

Атрибуция кибератак

Мастер класс по открытым данным

Oracle Endeca Information Discovery - Платформа для исследования данных

Как грабить корованы

1. Как грабить корованы Александр Козько и Руслан Сафин ByndyuSoft @alkozko @razonrus 12-я конференция .NET разработчиков 15 мая 2016 dotnetconf.ru

2. 2 BIG DATA • Volume (Объем) • Velocity (Скорость) • Variety (многообразие)

3. 3

4. 4 Грабеж корована • Найти данные • Получить • Обработать • … • Повторить

5. 5 Данные бывают Структурированные Неструктурированные Полуструктурированные

6. 6 Информация содержит • Тексты • Имена • Факты • все остальное • Изображения • Числа • Связи

7. 7 Доступ к информации Официальный Неофициальный Совсем неофициально

8. 8 Официальное использование Дампы и архивы данных • Базы данных ФИАС, Wikipedia, Rutracker

9. 9 Официальное использование Публичные API • Социальные сети • Некоторые СМИ (New York Times, …) • Другие источники (ЦБ РФ, 500px, …) 9

10. 10 Официальное использование Ссылки на данные • RSS • Sitemap 10

11. 11 Неофициальный доступ HTML • Ручная обработка каждого сайта через XPath (AgilityPack, AngleSharp) • Умные алгоритмы анализирующие структуру страниц (NReadability)

12. 12 Примеры – XPath //*[@id="firstHeading"] //*[@id="layout"]/div[3]/div[3]/div[2]/div[4]/div[2] //*[@class='companies_items']/*[@class='company_item']

13. 13 Примеры – NReadability

14. 14 Сложности Краулинг = (D)DoS Сайты не хотят делиться информацией Сайты защищаются

15. 15 Обход защиты Прикидываемся Google bot: • User-agent Прикидываемся пользователем • Ограничение одновременных запросов • User-agent и Headers • Cookie Прокси

16. 16 Тяжелый случай Эмуляция браузера, когда ничего другого не помогает: • Selenium • PhantomJS • Awesomeum 16

17. 17 Совсем неофициально Ревес-инжиниринг Internal API • Анализ верстки и JS • Traffic sniffing (Fiddler2, Web Developer Tools) • Декомпиляция приложений Обход ограничений • Rucaptcha.com • Виртуальные номера для СМС • Одноразовые email

18. 18 Как запустить в продакшн Асинхронные запросы Очереди

19. 19 Истории успеха

20. 20 Спасибо за внимание Александр Козько и Руслан Сафин alkozko@yandex.ru iruslansafin@gmail.com @alkozko @razonrus

Editor's Notes

В качестве определяющих характеристик для больших данных отмечают «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных)[5][6]. Полнота (все источники), Актуальность -> необходиомсть качать много и постоянно и быстро
The Surface Web (also called the Visible Web, Clearnet, Indexed Web, Indexable Web or Lightnet,[1]) is that portion of the World Wide Web that is readily available to the general public and searchable with standard web search engines. It is the opposite of the deep web.[2] Глубокая паутина (также известна как невидимая сеть) — множество веб-страниц Всемирной паутины, не индексируемых поисковыми системами. Термин произошёл от соотв. англ. invisible web[1]. Наиболее значительной частью глубокой паутины является глубинный веб (от англ. deep web, hidden web), состоящий из веб-страниц, динамически генерируемых по запросам к онлайн базам данных[2].
Нельзя считать информацию статичной – она не только растет вширь, но и движется, видоизменяется (сайты пополняют контент, обновляют изменяют существующие страницы, даже если контент не меняется – может изменяться мета-информация, связанная с контентом – количество цитирований, упоминаний, лайков, твитов, шейров данного контента). Сплошной бесконечный караван…
Это очень хорошо и удобно Используйте это если вам хватает Недостатки дампов как правило большой объем и если вам нужна небольшая часть, топриходится качать много больше необходимого, Непонятно как обновлять, если у вас развернут один дамп, как накатить новую версию, а что если они не совмесимы? Плюсы Полная доступность всей информации сразу и официально
Это очень хорошо и удобно Используйте это если вам хватает Недостатки апи Ограниченность - по доступным данным, по количеству запросов (можно обойти) Ваше приложение зависит от других людей (пример с инстаграмом) Плюсы Документированность Стабильность
Sitemap предоставляет только ссылки Получаем актуальную инфу о содержании сайта Не весь сайт может быть покрыт Sitemap Получаем информацию о обновлении страницы В RSS как правило для статей и есть ещё и допинформация о статьях Последние 10 (N) статей, надо постоянно проверять Множество форматов RSS\Atom Никто эти форматы не соблюдает, надо парсить полувручную
Много невалидного хтмл Умные эвристики
Полное соответствие действиям пользователя, по сути единственный способ получить страницы SPA Очень медленно, нестабильно и ресурсозатратно Надо сводить к минимуму
Disqus, 74.ру, livejournal Instagram ATI.SU АВИТО Google --Интернет-голосования Про капчу сказать что с браузером приходится делать скрин

Как грабить корованы

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Как грабить корованы

Similar to Как грабить корованы (7)

Как грабить корованы

Editor's Notes