#dotnetconf 15 мая 2016 http://dotnetconf.ru/materialy/korovan
В то время, когда наши космические корабли бороздят просторы Вселенной, а проекты с модным словом BigData растут как на дрожжах, остро встает вопрос — откуда и как эту самую BigData брать?
В нашем докладе мы расскажем о способах парсинга/краулинга/среза и прочего получения дейстивтельно большого количества информации из интернета. Рассмотрим различные способы решения ситуаций, когда сайты ограничивают или блокируют автоматический краулинг.
Ведь без данных, и BigData — не BigData.
Это моя презентация для воркшопа по основам журналистики данных на митапе Hacks/Hackers Minsk #2. В презентации - примеры лучших мира сего, основные шаги, и ссылки для дальнейшего обучения.
This is my presentation at the Data Journalism 101 workshop at Hacks/Hackers Minsk #2. The presentations contains examples of the best, as well as explains key steps in Data Journalism.
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...IT-Portfolio
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда стоит написать свою БД", Олег Краснов (cистемный Архитектор SEMrush)
Аннотация
В 2008 году система хранения SEMrush была построена на базе сочетания SQL и файлового хранилища. Это позволило выдерживать нагрузку примерно до 3 миллионов запросов в день. Но уже в 2009 году было видно, что интерес к сервису растет стремительно и очень скоро старая система хранения будет основным сдерживающим фактором. Мы провели ряд экспериментов и в результате исследования остановились на собственной структуре хранения данных. Новая система была создана в предельно короткие сроки и уже через 3 месяца была введена в строй. Эта система используется и по сей день, хотя нагрузка выросла на порядок.
В докладе будет освещены история и методы построения хранилища данных проекта SEMrush. В ходе выступления будет проведена ретроспектива требований. Также докладчик расскажет об особенностях применяемого хранилища данных и отличиях от стандартных методов и средств. В том числе, будут освещены перспективы данной технологии применительно к реалиям и новым потребностям проекта.
О компании
Сегодня SEMrush – ведуший сервис для анализа конкурентов. Он позволяет узнать кейворды, по которым любой домен или сайт попадает в AdWords, выдачу Google и Bing. В отличие от других инструментов, которые позволяют анализировать только ваши собственные данные, SEMrush дает возможность изучить рекламные тексты конкурентов и собирает сведения об их бюджетах на продвижение в поисковиках.
Это моя презентация для воркшопа по основам журналистики данных на митапе Hacks/Hackers Minsk #2. В презентации - примеры лучших мира сего, основные шаги, и ссылки для дальнейшего обучения.
This is my presentation at the Data Journalism 101 workshop at Hacks/Hackers Minsk #2. The presentations contains examples of the best, as well as explains key steps in Data Journalism.
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда сто...IT-Portfolio
20 апреля, DEV {highload} - конференция о Highload веб-разработке, "Когда стоит написать свою БД", Олег Краснов (cистемный Архитектор SEMrush)
Аннотация
В 2008 году система хранения SEMrush была построена на базе сочетания SQL и файлового хранилища. Это позволило выдерживать нагрузку примерно до 3 миллионов запросов в день. Но уже в 2009 году было видно, что интерес к сервису растет стремительно и очень скоро старая система хранения будет основным сдерживающим фактором. Мы провели ряд экспериментов и в результате исследования остановились на собственной структуре хранения данных. Новая система была создана в предельно короткие сроки и уже через 3 месяца была введена в строй. Эта система используется и по сей день, хотя нагрузка выросла на порядок.
В докладе будет освещены история и методы построения хранилища данных проекта SEMrush. В ходе выступления будет проведена ретроспектива требований. Также докладчик расскажет об особенностях применяемого хранилища данных и отличиях от стандартных методов и средств. В том числе, будут освещены перспективы данной технологии применительно к реалиям и новым потребностям проекта.
О компании
Сегодня SEMrush – ведуший сервис для анализа конкурентов. Он позволяет узнать кейворды, по которым любой домен или сайт попадает в AdWords, выдачу Google и Bing. В отличие от других инструментов, которые позволяют анализировать только ваши собственные данные, SEMrush дает возможность изучить рекламные тексты конкурентов и собирает сведения об их бюджетах на продвижение в поисковиках.
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...Ontico
HighLoad++ 2017
Зал «Конгресс-Холл», 7 ноября, 12:00
Тезисы:
http://www.highload.ru/2017/abstracts/2864.html
Большое количество современных веб-проектов переходит на микросервисную архитектуру. Она решает огромное количество проблем, присущих монолитным системам, однако накладывает качественно новые требования, в том числе и на аналитику данных.
В докладе будет рассказано о том, какие вызовы и возможности преподнесла нам микросервисная архитектура, а также показано, как clickstream может быть полезен не только аналитикам, но и разработчикам.
DDoS-атаки Рунета в 2011-2012 гг.: характер и тенденцииHLL
Артем Гавриченков (ximaera), ведущий разработчик сети фильтрации трафика Qrator, проводит обзор DDoS-атак за последние полтора года в рамках семинара компании HLL «DDoS-атаки и защита от них» (RIGF, 14 мая 2012, Москва).
Отчетную статью по докладу читайте на Хабрахабре: http://habrahabr.ru/company/highloadlab/blog/145137/
Выступление на Pgconf Москва 2015. История развития сервиса МойСклад, статистика эксплуатации, особенности внутренней реализации работы с СУБД PostgreSQL.
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...IT-Portfolio
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимизация архитектуры для работы 24/7", Олег Краснов (системный архитектор SEMrush)
Аннотация
Со времени предыдущего доклада прошло полгода и мы сделали огромный рывок вперёд. В 2008 году система хранения SEMrush была построена на базе сочетания SQL с файловым хранилищем и позволяла выдерживать нагрузку примерно в 3 миллиона запросов в день. К моменту прошлого выступления нагрузка возросла на порядок, а сейчас на подобной нагрузке было успешно введено обновление данных онлайн без потери производительности.
В докладе, через призму краткой ретроспективы, будут освещены изменения технологий обработки данных проекта SEMrush. В ходе выступления будет проведен обзор изменившихся требований к системе, как в плане надёжности, так и скорости реакции на запросы пользователей. Выступление будет дополнено реальными проблемами, программного обеспечения и оборудования, а также способами их решения. Кроме этого будет произведён обзор планов на ближайшее будущее.
О компании
Компания SEMrush является разработчиком программного обеспечения для анализа конкурентов и определения ключевых слов для SEO оптимизации, входит в тройку мировых лидеров разработчиков аналитических инструментов для изучения трафика. Существует на рынке с 2007 года. Сервис SEMrush предоставляет пользователям информацию, необходимую для анализа конкурентной среды и оптимизации поисковой выдачи. SEMrush незаменим для углубленного анализа ключевых слов, позиций конкурентов, AdWords кампаний.
Практика миграции реляционных баз данных в экосистему HadoopYury Petrov
Слайды моего доклада: "Практика миграции реляционных баз данных в экосистему Hadoop"
В докладе я доказываю, что возможен полный отказ от реляционных баз данных в пользу экосистемы Hadoop. В мире (к сожалению не в России) эта тема уже перекраивает рынок, уже наносится удар по традиционным базам данных.
Скоро ожидаются скринкасты.
Если вы начинаете проект миграции - задавайте мне вопросы - я с удовольствием на них отвечу.
Приглашайте меня в качестве консультанта и архитектора - я помогу собрать команду, обосновать инвестиции и запустить проект.
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСYury Petrov
В докладе я постараюсь донести до аудитории общую концепцию построения инфраструктуры Big Data, которую многие не видят.
Будут и инсайты и самый главный из них это то, что за долгое время работы с Big Data я таки вывел определение для этого термина
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...IT-Portfolio
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Когда надо изобретать свой велосипед? Строим NoSQL хранилище в приемлемые сроки", Александр Календарёв (разработчик РБК-Медиа Холдинг / Love Planet)
Аннотация
- Что из себя представляет Современная служба знакомств (крупная соцсеть в миниатюре).
- Какие задачи мы решаем и немного про общую архитектуру проекта.
- Обзор про существующие key/value решения
- Почему не нас не устроили memcachedb, redis, tarantool или MongoDВ...
- Какие велосипеды пришлось изобретать и что взяли готовое.
- Протокол обмена, почему выбрали memcached
- Как и зачем расширять существующие протоколы
- Как устроено хранилище изнутри (на базе key/value Hash & Tree), немного скучной теории про структуры данных, полезно тем, кто все же рискнет написать что-то своё.
- какие key/value АПИ можно еще использовать.
- Проблемы здоровья хранилища или зачем и как делать Мониторинг.
- возможность масштабирования, проблемы и пути решения.
Биография
Опыт в IT индустрии 15 лет, кандидат наук. Докладчик на Hi++ 2011, ADDConf-2, DevConf 2012, PHPConf 2009 и других. Автор блога highloadblog.ru. Круг интересов: хранение и обработка данных.
Скрытые данные. Какие данные спрятаны на госсайтахIvan Begtin
О том как находить скрытые данные в среди открытых данных. О API скрытых в недрах сайтов, о поиске опубликованных XML и CSV файлов и том какие данные скрываются в сканах документов
Хранилище данных Avito: аналитика для микросервисной архитектуры / Артем Дани...Ontico
HighLoad++ 2017
Зал «Конгресс-Холл», 7 ноября, 12:00
Тезисы:
http://www.highload.ru/2017/abstracts/2864.html
Большое количество современных веб-проектов переходит на микросервисную архитектуру. Она решает огромное количество проблем, присущих монолитным системам, однако накладывает качественно новые требования, в том числе и на аналитику данных.
В докладе будет рассказано о том, какие вызовы и возможности преподнесла нам микросервисная архитектура, а также показано, как clickstream может быть полезен не только аналитикам, но и разработчикам.
DDoS-атаки Рунета в 2011-2012 гг.: характер и тенденцииHLL
Артем Гавриченков (ximaera), ведущий разработчик сети фильтрации трафика Qrator, проводит обзор DDoS-атак за последние полтора года в рамках семинара компании HLL «DDoS-атаки и защита от них» (RIGF, 14 мая 2012, Москва).
Отчетную статью по докладу читайте на Хабрахабре: http://habrahabr.ru/company/highloadlab/blog/145137/
Выступление на Pgconf Москва 2015. История развития сервиса МойСклад, статистика эксплуатации, особенности внутренней реализации работы с СУБД PostgreSQL.
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...IT-Portfolio
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимизация архитектуры для работы 24/7", Олег Краснов (системный архитектор SEMrush)
Аннотация
Со времени предыдущего доклада прошло полгода и мы сделали огромный рывок вперёд. В 2008 году система хранения SEMrush была построена на базе сочетания SQL с файловым хранилищем и позволяла выдерживать нагрузку примерно в 3 миллиона запросов в день. К моменту прошлого выступления нагрузка возросла на порядок, а сейчас на подобной нагрузке было успешно введено обновление данных онлайн без потери производительности.
В докладе, через призму краткой ретроспективы, будут освещены изменения технологий обработки данных проекта SEMrush. В ходе выступления будет проведен обзор изменившихся требований к системе, как в плане надёжности, так и скорости реакции на запросы пользователей. Выступление будет дополнено реальными проблемами, программного обеспечения и оборудования, а также способами их решения. Кроме этого будет произведён обзор планов на ближайшее будущее.
О компании
Компания SEMrush является разработчиком программного обеспечения для анализа конкурентов и определения ключевых слов для SEO оптимизации, входит в тройку мировых лидеров разработчиков аналитических инструментов для изучения трафика. Существует на рынке с 2007 года. Сервис SEMrush предоставляет пользователям информацию, необходимую для анализа конкурентной среды и оптимизации поисковой выдачи. SEMrush незаменим для углубленного анализа ключевых слов, позиций конкурентов, AdWords кампаний.
Практика миграции реляционных баз данных в экосистему HadoopYury Petrov
Слайды моего доклада: "Практика миграции реляционных баз данных в экосистему Hadoop"
В докладе я доказываю, что возможен полный отказ от реляционных баз данных в пользу экосистемы Hadoop. В мире (к сожалению не в России) эта тема уже перекраивает рынок, уже наносится удар по традиционным базам данных.
Скоро ожидаются скринкасты.
Если вы начинаете проект миграции - задавайте мне вопросы - я с удовольствием на них отвечу.
Приглашайте меня в качестве консультанта и архитектора - я помогу собрать команду, обосновать инвестиции и запустить проект.
Инфраструктура Big data - от источников до быстрых витрин - версия для МИСиСYury Petrov
В докладе я постараюсь донести до аудитории общую концепцию построения инфраструктуры Big Data, которую многие не видят.
Будут и инсайты и самый главный из них это то, что за долгое время работы с Big Data я таки вывел определение для этого термина
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...IT-Portfolio
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Когда надо изобретать свой велосипед? Строим NoSQL хранилище в приемлемые сроки", Александр Календарёв (разработчик РБК-Медиа Холдинг / Love Planet)
Аннотация
- Что из себя представляет Современная служба знакомств (крупная соцсеть в миниатюре).
- Какие задачи мы решаем и немного про общую архитектуру проекта.
- Обзор про существующие key/value решения
- Почему не нас не устроили memcachedb, redis, tarantool или MongoDВ...
- Какие велосипеды пришлось изобретать и что взяли готовое.
- Протокол обмена, почему выбрали memcached
- Как и зачем расширять существующие протоколы
- Как устроено хранилище изнутри (на базе key/value Hash & Tree), немного скучной теории про структуры данных, полезно тем, кто все же рискнет написать что-то своё.
- какие key/value АПИ можно еще использовать.
- Проблемы здоровья хранилища или зачем и как делать Мониторинг.
- возможность масштабирования, проблемы и пути решения.
Биография
Опыт в IT индустрии 15 лет, кандидат наук. Докладчик на Hi++ 2011, ADDConf-2, DevConf 2012, PHPConf 2009 и других. Автор блога highloadblog.ru. Круг интересов: хранение и обработка данных.
Скрытые данные. Какие данные спрятаны на госсайтахIvan Begtin
О том как находить скрытые данные в среди открытых данных. О API скрытых в недрах сайтов, о поиске опубликованных XML и CSV файлов и том какие данные скрываются в сканах документов
11. 11
Неофициальный доступ
HTML
• Ручная обработка каждого сайта
через XPath (AgilityPack, AngleSharp)
• Умные алгоритмы анализирующие
структуру страниц (NReadability)
17. 17
Совсем неофициально
Ревес-инжиниринг Internal API
• Анализ верстки и JS
• Traffic sniffing (Fiddler2, Web Developer Tools)
• Декомпиляция приложений
Обход ограничений
• Rucaptcha.com
• Виртуальные номера для СМС
• Одноразовые email
В качестве определяющих характеристик для больших данных отмечают «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных)[5][6].
Полнота (все источники), Актуальность -> необходиомсть качать много и постоянно и быстро
The Surface Web (also called the Visible Web, Clearnet, Indexed Web, Indexable Web or Lightnet,[1]) is that portion of the World Wide Web that is readily available to the general public and searchable with standard web search engines. It is the opposite of the deep web.[2]
Глубокая паутина (также известна как невидимая сеть) — множество веб-страниц Всемирной паутины, не индексируемых поисковыми системами. Термин произошёл от соотв. англ. invisible web[1]. Наиболее значительной частью глубокой паутины является глубинный веб (от англ. deep web, hidden web), состоящий из веб-страниц, динамически генерируемых по запросам к онлайн базам данных[2].
Нельзя считать информацию статичной – она не только растет вширь, но и движется, видоизменяется (сайты пополняют контент, обновляют изменяют существующие страницы, даже если контент не меняется – может изменяться мета-информация, связанная с контентом – количество цитирований, упоминаний, лайков, твитов, шейров данного контента).
Сплошной бесконечный караван…
Это очень хорошо и удобно
Используйте это если вам хватает
Недостатки дампов
как правило большой объем и если вам нужна небольшая часть, топриходится качать много больше необходимого,
Непонятно как обновлять, если у вас развернут один дамп, как накатить новую версию, а что если они не совмесимы?
Плюсы
Полная доступность всей информации сразу и официально
Это очень хорошо и удобно
Используйте это если вам хватает
Недостатки апи
Ограниченность - по доступным данным, по количеству запросов (можно обойти)
Ваше приложение зависит от других людей (пример с инстаграмом)
Плюсы
Документированность
Стабильность
Sitemap
предоставляет только ссылки
Получаем актуальную инфу о содержании сайта
Не весь сайт может быть покрыт Sitemap
Получаем информацию о обновлении страницы
В RSS как правило для статей и есть ещё и допинформация о статьях
Последние 10 (N) статей, надо постоянно проверять
Множество форматов RSS\Atom
Никто эти форматы не соблюдает, надо парсить полувручную
Много невалидного хтмл
Умные эвристики
Полное соответствие действиям пользователя, по сути единственный способ получить страницы SPA
Очень медленно, нестабильно и ресурсозатратно
Надо сводить к минимуму
Disqus, 74.ру, livejournal
Instagram
ATI.SU
АВИТО
Google
--Интернет-голосования
Про капчу сказать что с браузером приходится делать скрин