Эффективные алгоритмы поиска подобных объектов для терабайтов данных / Евгени...Ontico
Segmento DMP хранит сотни миллионов анонимных профилей пользователей интернета. Часть из задач отдела Data Science связана с их кластеризацией и поиском нечетких дубликатов. Для успешного решения этих задач необходимо вычислить метрики сходства между профилями. Brute force подход на таких объемах данных уже не сработает, поэтому мы выбрали другой путь.
Тезисы - http://www.highload.ru/2015/abstracts/1862.html
APIшник Яндекс.Карт, Москва, 26.04.2012
Рассказ Марины Степановой (разработчика интерфейсов API Яндекс.Карт) о способах отображения большого количества объектов на карте, а также о новом кластеризаторе, который теперь есть в API 2.0.
2014.12.23 Николай Самохвалов, Ещё раз о JSON(b) в PostgreSQL 9.4Nikolay Samokhvalov
Тип данных JSONb – это, пожалуй, самая яркая новинка PostgreSQL 9.4, который вышел 18 декабря 2014.
Уже немало докладов и статей посвящено этому типу данных, работе с ним и индексации. Но как правило, информация в них перегружена специфичными для PostgreSQL терминами.
Запутались в моделях данных? В том, какие индексы могут вам помочь ускорить вашу работу с СУБД?
Этот доклад помогает сложить паттерн. Он для тех, кто начал использовать PostgreSQL совсем недавно или только планирует работать с ним. В нём рассказано о месте PostgreSQL в современном мире СУБД, о борьбе различных моделей данных за место под солнцем на этом рынке и то, как это отразилось на развитие Postgres.
Помимо прочего, рассказывается о том, какие вообще бывают деревья, как они помогают ускорять базы данных и почему PostgreSQL — просто райский лес для деревьев самого разного типа :)
См. также видео: http://postgresmen.ru/meetup/2014-12-23-parallels
«Система защиты от парсинга API 2ГИС» — Дмитрий Бархатов, 2ГИС2ГИС Технологии
Когда в базе 1.3 млн. контактов компаний по всей России, неудивительно, что её периодически кто-то пытается распарсить. Здесь возникает проблема: как отличить добропорядочных пользователей от ботов?
В своем докладе мы расскажем, как эволюционировала наша система защиты от парсинга. Мы рассмотрим следующие этапы и подходы:
— особая локация в Nginx;
— PHP + Redis (счетчик по ключу);
— Nginx + Redis (конфигурационный файл);
— Nginx + Lua + Redis : усложнение логики защиты без снижения скорости ответа.
Также мы собираемся рассказать про язык Lua в связке с Nginx не только в случае защиты от парсинга, но и в других частых кейсах, когда не хочется «поднимать» тяжёлое основное приложение.
Справочный API 2ГИС — крупнейший REST API в Рунете.
Более 300 партнёров, среди которых 2ГИС-Онлайн, Mail.ru, НГС, Е1.ru. Месячная аудитория — 14 млн.
Сервис предоставляет информацию об 1.3 млн. фирм и 1.8 млн. POI в 200 городах России, Падуе (Италия), нескольких городах в Украине и Казахстане.
Эффективные алгоритмы поиска подобных объектов для терабайтов данных / Евгени...Ontico
Segmento DMP хранит сотни миллионов анонимных профилей пользователей интернета. Часть из задач отдела Data Science связана с их кластеризацией и поиском нечетких дубликатов. Для успешного решения этих задач необходимо вычислить метрики сходства между профилями. Brute force подход на таких объемах данных уже не сработает, поэтому мы выбрали другой путь.
Тезисы - http://www.highload.ru/2015/abstracts/1862.html
APIшник Яндекс.Карт, Москва, 26.04.2012
Рассказ Марины Степановой (разработчика интерфейсов API Яндекс.Карт) о способах отображения большого количества объектов на карте, а также о новом кластеризаторе, который теперь есть в API 2.0.
2014.12.23 Николай Самохвалов, Ещё раз о JSON(b) в PostgreSQL 9.4Nikolay Samokhvalov
Тип данных JSONb – это, пожалуй, самая яркая новинка PostgreSQL 9.4, который вышел 18 декабря 2014.
Уже немало докладов и статей посвящено этому типу данных, работе с ним и индексации. Но как правило, информация в них перегружена специфичными для PostgreSQL терминами.
Запутались в моделях данных? В том, какие индексы могут вам помочь ускорить вашу работу с СУБД?
Этот доклад помогает сложить паттерн. Он для тех, кто начал использовать PostgreSQL совсем недавно или только планирует работать с ним. В нём рассказано о месте PostgreSQL в современном мире СУБД, о борьбе различных моделей данных за место под солнцем на этом рынке и то, как это отразилось на развитие Postgres.
Помимо прочего, рассказывается о том, какие вообще бывают деревья, как они помогают ускорять базы данных и почему PostgreSQL — просто райский лес для деревьев самого разного типа :)
См. также видео: http://postgresmen.ru/meetup/2014-12-23-parallels
«Система защиты от парсинга API 2ГИС» — Дмитрий Бархатов, 2ГИС2ГИС Технологии
Когда в базе 1.3 млн. контактов компаний по всей России, неудивительно, что её периодически кто-то пытается распарсить. Здесь возникает проблема: как отличить добропорядочных пользователей от ботов?
В своем докладе мы расскажем, как эволюционировала наша система защиты от парсинга. Мы рассмотрим следующие этапы и подходы:
— особая локация в Nginx;
— PHP + Redis (счетчик по ключу);
— Nginx + Redis (конфигурационный файл);
— Nginx + Lua + Redis : усложнение логики защиты без снижения скорости ответа.
Также мы собираемся рассказать про язык Lua в связке с Nginx не только в случае защиты от парсинга, но и в других частых кейсах, когда не хочется «поднимать» тяжёлое основное приложение.
Справочный API 2ГИС — крупнейший REST API в Рунете.
Более 300 партнёров, среди которых 2ГИС-Онлайн, Mail.ru, НГС, Е1.ru. Месячная аудитория — 14 млн.
Сервис предоставляет информацию об 1.3 млн. фирм и 1.8 млн. POI в 200 городах России, Падуе (Италия), нескольких городах в Украине и Казахстане.
Systems Ideas
Information Systems in Organizational Design and Applied Systems Thinking
Mustafa Degerli
October, 2016 – METU II
Definition of system
Types of system
Systems thinking
Habits of a systems thinker
Structures and processes
System environment
Hierarchy and resolution
Prediction and control
Emergent properties
System ownership
World-view
Nadciśnienie tętnicze - Dbajoserce.pl - Kampania SpołecznaSERVIER POLSKA
MATERIAŁ EDUKACYJNY
"CIŚNIENIE TĘTNICZE to siła z jaką fala krwi wypychana przez serce uderza o ścianę naczynia"
Do najczęstszych przyczyn nadciśnienia tętniczego należą:
- otyłość
- palenie tytoniu
- nadużywanie alkoholu
- nadmierne spożycie soli
- mała aktywność fizyczna
- stres
Étude de cas de la société BlaBlaCar : un cas de stratégie réussie dans l'économie collaborative. Analyse menée selon l'approche IDStrat qui décrypte à la fois le business model, la stratégie de marque et la stratégie de communication digitale de la société. Plus de Business Cases à télécharger sur www.idstrat.fr
What's Measured Improves: Metrics that matterRaj Indugula
“Every line is the perfect length if you don't measure it.”
- Marty Rubin
So your organization has embarked upon a transformation to be more nimble and responsive by employing the latest tools and thinking in the Agile and DevOps arena. In this transformational context, how do you know that your initiatives are effective? Empirical measurements should provide insights on business value flow and delivery efficiency, allowing teams and organizations to see how they are progressing toward achieving their goals, but all too often we find ourselves mired in measurement traps that don't quite provide the right guidance in steering our efforts.
Rooted in contemporary thinking and tested in practice, this talk explores the principles of good measurement, what to measure, what not to measure, and enumerates some key metrics to help guide and inform our Agile and DevOps efforts. If done right, metrics can present a true picture of performance, and any progression, digression of these metrics can drive learning and improvement.
Не бойся, это всего лишь данные... просто их многоRoman Dvornov
За последние 15 лет веб сильно изменился и ускорился. Но большинство по-прежнему боится большого количества данных и сложной логики на клиенте. Потому что "тормозит".
Я хочу сломать стереотипы и показать, как начать делать крутые штуки на client-side. Тысячи и сотни тысяч объектов, разные типы, зависимые вычисляемые свойства, агрегация, множество вариантов отображения. Все это в вашем браузере. Без тормозов, регистраций, смс.
Видео этого доклада на конференции DUMP, Екатеринбург, 14 марта 2014: https://vimeo.com/90836493
Правильная организация клиент-карточного взаимодействия — Антон КорзуновYandex
Как говорил один человек, нет данных — нет проблемы. Но проблема в том, что в современном мире данные есть, и их много . Ещё в современном мире очень любят данные отображать, например, на карте — только это не всегда хорошо получается.
Из доклада вы узнаете о типичных ошибках передачи данных на карту и простых способах этих ошибок избежать.
Алексей Андросов "Яндекс.Почта: архитектура фронтенда как она есть"Yandex
Алексей Андросов "Яндекс.Почта: архитектура фронтенда как она есть"
Я.Субботник в Челябинске в рамках конференции UWDC
О докладе:
Все, что вы хотели узнать про одностраничное ajax-приложение Яндекс.Почта, но боялись спросить. Изнанка фронтенда, загрузка данных, обновление страниц и взаимодействие с пользователями без регистрации, без смс. Бонус-трек: как работают сторонние приложения в рамках одной платформы.
Detecting logged in user's abnormal activityArvids Godjuks
Detection of abnormal user's activity is currently not performed in most popular Intrusion Detection Systems (IDS). However, it's not so rare when one user credentials are used by another user (for example, when password was stolen or watched). Also there are more and more sensitive data available through Internet.
To prevent this type of attacks we've developed an algorithm of building preferences based user behavior model.
It is using Markov chains to represent user behavioral information. For the time being, an experimental system that allows to analyze such method efficiency and detect irregular access to medical data is under development.
Since systems protected are a set of webservices, popular open source tools such as PHP, MySQL, GraphML, and Flare were used to implent it.
Systems Ideas
Information Systems in Organizational Design and Applied Systems Thinking
Mustafa Degerli
October, 2016 – METU II
Definition of system
Types of system
Systems thinking
Habits of a systems thinker
Structures and processes
System environment
Hierarchy and resolution
Prediction and control
Emergent properties
System ownership
World-view
Nadciśnienie tętnicze - Dbajoserce.pl - Kampania SpołecznaSERVIER POLSKA
MATERIAŁ EDUKACYJNY
"CIŚNIENIE TĘTNICZE to siła z jaką fala krwi wypychana przez serce uderza o ścianę naczynia"
Do najczęstszych przyczyn nadciśnienia tętniczego należą:
- otyłość
- palenie tytoniu
- nadużywanie alkoholu
- nadmierne spożycie soli
- mała aktywność fizyczna
- stres
Étude de cas de la société BlaBlaCar : un cas de stratégie réussie dans l'économie collaborative. Analyse menée selon l'approche IDStrat qui décrypte à la fois le business model, la stratégie de marque et la stratégie de communication digitale de la société. Plus de Business Cases à télécharger sur www.idstrat.fr
What's Measured Improves: Metrics that matterRaj Indugula
“Every line is the perfect length if you don't measure it.”
- Marty Rubin
So your organization has embarked upon a transformation to be more nimble and responsive by employing the latest tools and thinking in the Agile and DevOps arena. In this transformational context, how do you know that your initiatives are effective? Empirical measurements should provide insights on business value flow and delivery efficiency, allowing teams and organizations to see how they are progressing toward achieving their goals, but all too often we find ourselves mired in measurement traps that don't quite provide the right guidance in steering our efforts.
Rooted in contemporary thinking and tested in practice, this talk explores the principles of good measurement, what to measure, what not to measure, and enumerates some key metrics to help guide and inform our Agile and DevOps efforts. If done right, metrics can present a true picture of performance, and any progression, digression of these metrics can drive learning and improvement.
Не бойся, это всего лишь данные... просто их многоRoman Dvornov
За последние 15 лет веб сильно изменился и ускорился. Но большинство по-прежнему боится большого количества данных и сложной логики на клиенте. Потому что "тормозит".
Я хочу сломать стереотипы и показать, как начать делать крутые штуки на client-side. Тысячи и сотни тысяч объектов, разные типы, зависимые вычисляемые свойства, агрегация, множество вариантов отображения. Все это в вашем браузере. Без тормозов, регистраций, смс.
Видео этого доклада на конференции DUMP, Екатеринбург, 14 марта 2014: https://vimeo.com/90836493
Правильная организация клиент-карточного взаимодействия — Антон КорзуновYandex
Как говорил один человек, нет данных — нет проблемы. Но проблема в том, что в современном мире данные есть, и их много . Ещё в современном мире очень любят данные отображать, например, на карте — только это не всегда хорошо получается.
Из доклада вы узнаете о типичных ошибках передачи данных на карту и простых способах этих ошибок избежать.
Алексей Андросов "Яндекс.Почта: архитектура фронтенда как она есть"Yandex
Алексей Андросов "Яндекс.Почта: архитектура фронтенда как она есть"
Я.Субботник в Челябинске в рамках конференции UWDC
О докладе:
Все, что вы хотели узнать про одностраничное ajax-приложение Яндекс.Почта, но боялись спросить. Изнанка фронтенда, загрузка данных, обновление страниц и взаимодействие с пользователями без регистрации, без смс. Бонус-трек: как работают сторонние приложения в рамках одной платформы.
Detecting logged in user's abnormal activityArvids Godjuks
Detection of abnormal user's activity is currently not performed in most popular Intrusion Detection Systems (IDS). However, it's not so rare when one user credentials are used by another user (for example, when password was stolen or watched). Also there are more and more sensitive data available through Internet.
To prevent this type of attacks we've developed an algorithm of building preferences based user behavior model.
It is using Markov chains to represent user behavioral information. For the time being, an experimental system that allows to analyze such method efficiency and detect irregular access to medical data is under development.
Since systems protected are a set of webservices, popular open source tools such as PHP, MySQL, GraphML, and Flare were used to implent it.
Алексей Андросов "Архитектура фронтенда Яндекс.Почты"Yandex
Алексей Андросов "Архитектура фронтенда Яндекс.Почты"
Я.Субботник в Новосибирске
О докладе:
Яндекс.Почта – это большое ajax-приложение. Из доклада вы узнаете, как работает фронтенд почты изнутри, как загружаются данные, обновляется страница и происходит взаимодействие с пользователем, какой мы используем шаблонизатор и почему, как живут самые разные приложения (Яндекс.Подписки, История общения) в рамках одной почтовой платформы.
"Применение потоковых алгоритмов для составления портрета аудитории".
Международная научно-практическая конференция International Conference on Big Data and its Applications (ICBDA) выросла из мероприятия Big Data Russia и проводится один раз в год, объединяя на одной площадке создателей новых технологий в области больших данных, представителей бизнеса, а также научных сотрудников и молодых ученых.
Организаторы: Rusbase и Global Innovation Labs.
Организаторы ICBDA благодарят Data-Centric Alliance (DCA) за поддержку мероприятия, а также отдельное спасибо Artox Media и NVIDIA.
Марина Степанова "Как мы заставили API Яндекс.Карт работать быстрее"Yandex
Рассказ о том, почему стоит избегать преждевременных оптимизаций, о методиках измерения скорости и о том, за счет чего мы все-таки ускорили работу нашего API.
Марина Степанова "Кластеризатор в JS API Яндекс.Карт"Yandex
Рассказ о том, для чего и почему был сделан кластеризатор. Подробно про алгоритм кластеризации. А также про то, как добавлять и настраивать кластеризатор на карте.
Multithreading in java past and actualYevgen Levik
In this talk I’d like to give you an overview of java.util.concurrent package and represent useful Java concurrency tools. I’ll cover the core functionality and the state-of-the-art API (Executors, Accumulators, StampedLock etc).
Simple examples in github (https://github.com/levik666/OverviewInJavaUtilConcurrent)
ClickHouse: очень быстро и очень удобно / Виктор Тарнавский, Алексей Миловидо...Ontico
ClickHouse - высокопроизводительная база данных для больших данных и аналитики.
На ClickHouse основана Яндекс.Метрика - крупнейшая система веб-аналитики в России.
Ради чего мы написали свою базу данных? Ради скорости! ClickHouse работает невероятно быстро, быстрее всех известных нам конкурентов, и при этом может обрабатывать запросы по петабайтам данных.
Я расскажу про:
- Краткую историю создания проекта;
- Основные преимущества и особенности ClickHouse;
- Архитектура проекта; подход к хранению данных, отказоустойчивости, исполнению запросов;
- Как работает внутри, почему ClickHouse такой быстрый;
- Текущие кейсы использования в Метрике и других проектах Яндекса;
- Профит, который вы можете получить от ClickHouse.
JS Fest 2019/Autumn. Дмитрий Жарков. Blockchainize your SPA or Integrate Java...JSFestUA
Blockchain and decentralized applications are getting used more and more often. Many big enterprises like IBM, Walmart, Alibaba, FedX, British Airways, and others are already integrating blockchain into their ecosystems.
As most of the applications on the web, decentralized applications require a client to make interaction with them user-friendly. I would like to share how to connect/integrate JavaScript applications with decentralized, blockchain services. Take a look at what are the differences between decentralized and standard backends, what challenges and issues developers might meet.
Экстремальная оптимизация производительности на примере MongoDB Java DriverVitebsk DSC
При работе с базами данных мы часто сталкиваемся с тем, что ORM фреймворки, принося нам удобство и гибкость, требуют непомерную плату – серьезное падение производительности. Казалось бы, чтобы решить эту проблему, достаточно просто отказаться от ORM и использовать низкоуровневый API. Но иногда и этого бывает недостаточно…
Презентация подготовлена по материалам выступления Евгения Берлога на витебской конференции “Developer's Software Conference” (31.10.2015). Запись выступления: https://events.epam.com/events/dsc2015/talks/104.
Similar to Эффективные Алгоритмы Поиска Подобных Объектов Для Терабайтов Данных (20)
18. Как выбрать количество хэш-функций?
18
Например, что бы посчитать с ошибкой не большей чем 0.1 нам нужно 100
хэш-функций, но уже 10000 с ошибкой не большей чем 0.01.
19. Как выбрать параметры хэш-функций?
a, b - случайные целые
числа < max(x)
c - простое число, чуть
большее чем max(x), общее
для всех
19
30. Что у нас есть?
Матрица A
размерности MxN, где M >> N и 0 <= a <=1 и
кол-во ненулевых элементов в строке <= L << N
machinelearning.ru habrahabr.ru
1 4
8 1
7 9
30