23.05.15 Одесса. Impact Hub Odessa. Конференция AI&BigData Lab
Варвара Красавина (Computational Linguist, YouScan) "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения ключевых слов и словосочетаний"
Мы расскажем об алгоритме извлечения ключевых слов и словосочетаний из текста с помощью матрицы совместной встречаемости. Программа, реализующая этот алгоритм, используется для оптимизации поиска в LeadScanner – платформе, которая ищет сообщения с заданным содержанием в социальных сетях. Также рассмотрим и друге методы извлечения ключевых слов и словосочетаний – статистические и лингвистические.
1. Задачи по объединению текстов в группы.
1.1 Что такое кластеризация текстов, где она полезна, какие задачи решает.
1.2 Что такое классификация применительно к текстам, примеры использования.
2. Тематическое моделирование.
2.1. Генеративные языковые модели.
2.2. Вероятностные латентно-семантические модели (pLSA).
2.3. Латентное размещение Дирихле (LDA).
2.4. Обзор инструментов для тематического моделирования.
3. Решение задач кластеризации и рубрикации на потоке новостных текстов.
TopRater.com Машинное понимание миллионов отзывов / Павел Велихов (TopRater)Ontico
Мы строим сервис TopRater.com, который должен агрегировать в себе все мнения из Интернета относительно массы объектов e-commerce. Для этого мы "прочитали" миллионы отзывов и научились выделять из них сущности, аспекты, тональности и факты. При этом, хотя объемы данных кажутся маленькими для специалистов Big Data (всего несколько терабайт) — почти во всех задачах нам пришлось использовать технологии Big Data — сотни серверов на Google Cloud, Apache Spark, MPP Базы данных.
В докладе в форме "галопом по Европам" будет рассказано о гибридных подходах к NLP и машинному обучению, будут всякие интересные простые решения (некоторые широко известные, но, как показывает практика, часто забытые), ну и, конечно, немного про Deep Learning, а также про наш кластер и как там все организовано.
Современные средства NLP в поисковых задач - Стачка 2017Nikita Zhiltsov
Доклад посвящен современным средствам обработки текстов на основе машинного обучения, применяемым для некоторых задач поиска в проектах Rambler&Co (портал, ЖЖ). Докладчик делится опытом разработки решений на основе векторного представления word2vec и нейронных сетей, обучаемых на реальных данных. Будут рассмотрены примеры использования библиотек fastText, Keras и Tensorflow.
Подписывайтесь на мой Telegram-канал: http://t.me/ai_review
AI&BigData Lab 2016. Сергей Шельпук: Методология Data Science проектовGeeksLab Odessa
4.6.16 AI&BigData Lab
Upcoming events: goo.gl/I2gJ4H
Проекты в области анализа данных - вызов не только для инженеров, но и для менеджеров. Доклад будет посвящён особенностям таких проектов по сравнению с обычной разработкой, ролям в команде и построению взаимодействия с заказчиком в условиях неопределённости R&D.
For optimized reading: http://www.uadn.net/files/ua_hightech.pdf
A comprehensive 250-page review of software R&D and IT outsourcing activities in Ukraine, the country with the largest number of software engineers in CEE. http://www.uadn.net/files/ua_hightech.pdf
1. Задачи по объединению текстов в группы.
1.1 Что такое кластеризация текстов, где она полезна, какие задачи решает.
1.2 Что такое классификация применительно к текстам, примеры использования.
2. Тематическое моделирование.
2.1. Генеративные языковые модели.
2.2. Вероятностные латентно-семантические модели (pLSA).
2.3. Латентное размещение Дирихле (LDA).
2.4. Обзор инструментов для тематического моделирования.
3. Решение задач кластеризации и рубрикации на потоке новостных текстов.
TopRater.com Машинное понимание миллионов отзывов / Павел Велихов (TopRater)Ontico
Мы строим сервис TopRater.com, который должен агрегировать в себе все мнения из Интернета относительно массы объектов e-commerce. Для этого мы "прочитали" миллионы отзывов и научились выделять из них сущности, аспекты, тональности и факты. При этом, хотя объемы данных кажутся маленькими для специалистов Big Data (всего несколько терабайт) — почти во всех задачах нам пришлось использовать технологии Big Data — сотни серверов на Google Cloud, Apache Spark, MPP Базы данных.
В докладе в форме "галопом по Европам" будет рассказано о гибридных подходах к NLP и машинному обучению, будут всякие интересные простые решения (некоторые широко известные, но, как показывает практика, часто забытые), ну и, конечно, немного про Deep Learning, а также про наш кластер и как там все организовано.
Современные средства NLP в поисковых задач - Стачка 2017Nikita Zhiltsov
Доклад посвящен современным средствам обработки текстов на основе машинного обучения, применяемым для некоторых задач поиска в проектах Rambler&Co (портал, ЖЖ). Докладчик делится опытом разработки решений на основе векторного представления word2vec и нейронных сетей, обучаемых на реальных данных. Будут рассмотрены примеры использования библиотек fastText, Keras и Tensorflow.
Подписывайтесь на мой Telegram-канал: http://t.me/ai_review
AI&BigData Lab 2016. Сергей Шельпук: Методология Data Science проектовGeeksLab Odessa
4.6.16 AI&BigData Lab
Upcoming events: goo.gl/I2gJ4H
Проекты в области анализа данных - вызов не только для инженеров, но и для менеджеров. Доклад будет посвящён особенностям таких проектов по сравнению с обычной разработкой, ролям в команде и построению взаимодействия с заказчиком в условиях неопределённости R&D.
For optimized reading: http://www.uadn.net/files/ua_hightech.pdf
A comprehensive 250-page review of software R&D and IT outsourcing activities in Ukraine, the country with the largest number of software engineers in CEE. http://www.uadn.net/files/ua_hightech.pdf
Methods for building dialog agents and the technologies we used Grid Dynamics
Chatbots have now become an integral part of software development, which are closely related to both NLP and ML. The present report highlights the basic concepts and approaches of working with NLP by implementing dialogue agents (Intent classification, NER, Slot Filing), and you can also find out how to build an entire dialog system. No SaaS, only in-house solutions!
Машинное обучение в электронной коммерции - практика использования и подводны...Ontico
РИТ++ 2017, секция ML + IoT + ИБ
Зал Белу-Оризонти, 5 июня, 16:00
Тезисы:
http://ritfest.ru/2017/abstracts/2532.html
Простыми словами расскажем о популярных, эффективных и используемых в нашей компании техниках применения машинного обучения для привлечения и удержания клиентов:
- кластеризации товарного каталога,
- классификации клиентов (готовых перейти на платный тариф, готовых уйти, способных принести прибыль),
- повышении релевантности e-mail-рассылок.
Особое внимание уделим технике использования популярных платформ и библиотек:
- Apache Spark,
- Spark MLlib,
- Hadoop,
- Amazon Kinesns.
Отдельно остановимся на особенностях обработки "больших данных", выборе и разработке параллельных алгоритмов.
Как зарабатывать в нише ESSAY?
Какие бывают типы трафика в custom writing service? Нестандартные способы привлечь трафик в educational нише. Где брать ссылки, контент, как собирать семантическое ядро для essay - все это в моем докладе.
Освоение новых тематик в научно-технических переводах с привлечением специали...Eugene Bartov
Модель работы с экспертами-практиками в узкоспециализированных проектах в БТП "Альянс ПРО". Доклад подготовлен для Translation Forum Russia 2012 (г. Казань)
Карта граблей на поле сбора и доставки логов. Lazada-way.Yury Bushmelev
Слайды с моего доклада на HL++ 2017 о том, как мы в Лазаде строили систему сбора и доставки логов, с какими трудностями мы при этом столкнулись и какие выводы сделали.
Карта граблей на поле сбора и доставки логов. Lazada-way / Юрий Бушмелев (Laz...Ontico
HighLoad++ 2017
Зал «Пекин+Шанхай», 7 ноября, 17:00
Тезисы:
http://www.highload.ru/2017/abstracts/3036.html
Логи — важная часть системы, позволяющая понять, что она работает (либо не работает), как ожидается. В условиях микросервисной архитектуры работа с логами становится отдельной дисциплиной специальной олимпиады. Нужно решить сразу кучу вопросов:
- как писать логи из приложения;
- куда писать логи;
- как доставлять логи для хранения и обработки;
- как обрабатывать и хранить логи.
...
DataScience Lab, 13 мая 2017
Коррекция геометрических искажений оптических спутниковых снимков
Алексей Кравченко (Senior Data Scientist at Zoral Labs)
Мы рассмотрим разнообразие существующих спутниковых данных и способов их применения в сельском и лесном хозяйстве, картографировании земной поверхности. Далее сфокусируемся на задаче геометрической коррекции снимков как первом шаге процесса обработки спутниковых данных, включая геопривязку снимков, регистрацию изображений, субпиксельную идентификацию контрольных точек, совмещение каналов. Также расскажем о некоторых интересных и неожиданных подходах к определению ориентации и jitter спутников и построению маски облачности.
Все материалы: http://datascience.in.ua/report2017
DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...GeeksLab Odessa
DataScience Lab, 13 мая 2017
Kappa Architecture: How to implement a real-time streaming data analytics engine
Juantomás García (Data Solutions Manager at OpenSistemas, Madrid, Spain)
We will have an introduction of what is the kappa architecture vs lambda architecture. We will see how kappa architecture is a good solution to implement solutions in (almost) real time when we need to analyze data in streaming. We will show in a case of real use: how architecture is designed, how pipelines are organized and how data scientists use it. We will review the most used technologies to implement it from apache Kafka + spark using Scala to new tools like apache beam / google dataflow.
Все материалы: http://datascience.in.ua/report2017
More Related Content
Similar to AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения ключевых слов и словосочетаний"
Methods for building dialog agents and the technologies we used Grid Dynamics
Chatbots have now become an integral part of software development, which are closely related to both NLP and ML. The present report highlights the basic concepts and approaches of working with NLP by implementing dialogue agents (Intent classification, NER, Slot Filing), and you can also find out how to build an entire dialog system. No SaaS, only in-house solutions!
Машинное обучение в электронной коммерции - практика использования и подводны...Ontico
РИТ++ 2017, секция ML + IoT + ИБ
Зал Белу-Оризонти, 5 июня, 16:00
Тезисы:
http://ritfest.ru/2017/abstracts/2532.html
Простыми словами расскажем о популярных, эффективных и используемых в нашей компании техниках применения машинного обучения для привлечения и удержания клиентов:
- кластеризации товарного каталога,
- классификации клиентов (готовых перейти на платный тариф, готовых уйти, способных принести прибыль),
- повышении релевантности e-mail-рассылок.
Особое внимание уделим технике использования популярных платформ и библиотек:
- Apache Spark,
- Spark MLlib,
- Hadoop,
- Amazon Kinesns.
Отдельно остановимся на особенностях обработки "больших данных", выборе и разработке параллельных алгоритмов.
Как зарабатывать в нише ESSAY?
Какие бывают типы трафика в custom writing service? Нестандартные способы привлечь трафик в educational нише. Где брать ссылки, контент, как собирать семантическое ядро для essay - все это в моем докладе.
Освоение новых тематик в научно-технических переводах с привлечением специали...Eugene Bartov
Модель работы с экспертами-практиками в узкоспециализированных проектах в БТП "Альянс ПРО". Доклад подготовлен для Translation Forum Russia 2012 (г. Казань)
Карта граблей на поле сбора и доставки логов. Lazada-way.Yury Bushmelev
Слайды с моего доклада на HL++ 2017 о том, как мы в Лазаде строили систему сбора и доставки логов, с какими трудностями мы при этом столкнулись и какие выводы сделали.
Карта граблей на поле сбора и доставки логов. Lazada-way / Юрий Бушмелев (Laz...Ontico
HighLoad++ 2017
Зал «Пекин+Шанхай», 7 ноября, 17:00
Тезисы:
http://www.highload.ru/2017/abstracts/3036.html
Логи — важная часть системы, позволяющая понять, что она работает (либо не работает), как ожидается. В условиях микросервисной архитектуры работа с логами становится отдельной дисциплиной специальной олимпиады. Нужно решить сразу кучу вопросов:
- как писать логи из приложения;
- куда писать логи;
- как доставлять логи для хранения и обработки;
- как обрабатывать и хранить логи.
...
Similar to AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения ключевых слов и словосочетаний" (20)
DataScience Lab, 13 мая 2017
Коррекция геометрических искажений оптических спутниковых снимков
Алексей Кравченко (Senior Data Scientist at Zoral Labs)
Мы рассмотрим разнообразие существующих спутниковых данных и способов их применения в сельском и лесном хозяйстве, картографировании земной поверхности. Далее сфокусируемся на задаче геометрической коррекции снимков как первом шаге процесса обработки спутниковых данных, включая геопривязку снимков, регистрацию изображений, субпиксельную идентификацию контрольных точек, совмещение каналов. Также расскажем о некоторых интересных и неожиданных подходах к определению ориентации и jitter спутников и построению маски облачности.
Все материалы: http://datascience.in.ua/report2017
DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...GeeksLab Odessa
DataScience Lab, 13 мая 2017
Kappa Architecture: How to implement a real-time streaming data analytics engine
Juantomás García (Data Solutions Manager at OpenSistemas, Madrid, Spain)
We will have an introduction of what is the kappa architecture vs lambda architecture. We will see how kappa architecture is a good solution to implement solutions in (almost) real time when we need to analyze data in streaming. We will show in a case of real use: how architecture is designed, how pipelines are organized and how data scientists use it. We will review the most used technologies to implement it from apache Kafka + spark using Scala to new tools like apache beam / google dataflow.
Все материалы: http://datascience.in.ua/report2017
DataScience Lab 2017_Обзор методов детекции лиц на изображениеGeeksLab Odessa
DataScience Lab, 13 мая 2017
Обзор методов детекции лиц на изображение
Юрий Пащенко ( Research Engineer, Ring Labs)
В данном докладе мы предлагаем обзор наиболее новых и популярных методов обнаружения лиц, таких как Viola-Jones, Faster-RCNN, MTCCN и прочих. Мы обсудим основные критерии оценки качества алгоритма а также базы, включая FDDB, WIDER, IJB-A.
Все материалы: http://datascience.in.ua/report2017
DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...GeeksLab Odessa
DataScience Lab, 13 мая 2017
Сходство пациентов: вычистка дубликатов и предсказание пропущенных диагнозов
Виктор Сарапин (CEO at V.I.Tech)
Как эффективно определять дубликаты на десятках миллионов пациентов, и как определять пропущенные диагнозы и лечебные действия.
Все материалы доступны по ссылке: http://datascience.in.ua/report2017
DataScience Lab, 13 мая 2017
Recent deep learning approaches for speech generation
Дмитрий Белевцов (Techlead at IBDI)
В последние пол года появилось несколько важных моделей на базе глубоких нейронных сетей, способных успешно синтезировать человеческую речь на уровне отдельных сэмплов. Это позволило обойти многие недостатки классических спектральных подходов. В этом докладе я сделаю небольшой обзор архитектур наиболее популярных сетей, таких как Wavenet и SampleRNN.
Все материалы доступны по ссылке: http://datascience.in.ua/report2017
DataScience Lab, 13 мая 2017
Распределенные вычисления: использование BOINC в Data Science
Виталий Кошура (Software Developer at Lohika)
BOINC - это открытое программное обеспечение для распределенных вычислений. Данный доклад освещает использование приложения BOINC в различных областях науки, которые связаны с обработкой огромных массивов данных, на примере текущих активных исследовательских проектов.
Все материалы доступны по ссылке: http://datascience.in.ua/report2017
DataScience Lab, 13 мая 2017
Магистерская программа "Data Science" в УКУ
Орест Купин(Master's Student at UCU)
В этом докладе я расскажу вам о магистерской программе со специализацией в анализе данных в Украинском Католическом Университете. Я расскажу про структуру программы, основные курсы, а также опишу свой опыт как студента УКУ и поговорю об вызовах с которыми мы столкнулись в этом году.
Все материалы доступны по ссылке: http://datascience.in.ua/report2017
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...GeeksLab Odessa
DataScience Lab, 13 мая 2017
Cервинг моделей, построенных на больших данных с помощью Apache Spark
Степан Пушкарев (GM (Kazan) at Provectus / CTO at Hydrosphere.io)
После подготовки данных и обучения моделей на больших данных с использованием Apache Spark встает вопрос о том, как использовать обученные модели в реальных приложениях. Помимо модели важно не забывать про весь пайплайн пре-процессинга данных, который должен попасть в продакшн в том виде, в котором его спроектировал и реализовал дата саентист. Такие решения, как PMML/PFA, основанные на экспорте/импорте модели и алгоритма имеют очевидные недостатки и ограничения. В данном докладе мы предложим альтернативное решение, которое упрощает процесс использования моделей и пайплайнов в реальных боевых приложениях.
Все материалы доступны по ссылке: http://datascience.in.ua/report2017
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...GeeksLab Odessa
DataScience Lab, 13 мая 2017
BioVec: Word2Vec в задачах анализа геномных данных и биоинформатики
Дмитрий Новицкий (Старший научный сотрудник в ИПММС НАНУ)
Этот доклад посвящен bioVec: применению технологии word2vec в задачах биоинфоматики. Сначала мы напомним как работает Word2vec и аналогичные ему методы Word Embedding. Затем расскажем об особенностях Word2vec в применении к геномным последовательностям-- основному виду данных в биоинформатике. Как обучать bioVec, и применять эту технологию к задачам классификации белков, предсказания их функции и др. В заключении мы продемонстрируем примеры кода для обучения и использования bioVec.
Все материалы доступны по ссылке: http://datascience.in.ua/report2017
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко GeeksLab Odessa
DataScience Lab, 13 мая 2017
Data Sciences и Big Data в Телекоме
Александр Саенко (Software Engineer at SoftServe/CISCO)
Александр расскажет о некоторых интересных примерах использования Big Data и Data Science в Телекоме: оптимизация сотовой сети, улучшение клиентского опыта, модели прогнозирования местоположения мобильных устройств, предотвращения оттока абонентов, обнаружение фрода и других. Рассмотрит основные современные подходы к их решению на основе алгоритмов машинного обучения.
Все материалы доступны по ссылке: http://datascience.in.ua/report2017
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...GeeksLab Odessa
DataScience Lab, 13 мая 2017
Высокопроизводительные вычислительные возможности для систем анализа данных
Михаил Федосеев ( Архитектор инфраструктурных решений, LanTec)
В докладе мы поговорим о hardware стороне систем анализа данных для случаев построения приватных облаков или локальных высокопроизводительных вычислительных кластеров. Рассмотрим какие технологии и комплексные решения от компании Hewlett Packard Enterprise позволяют ускорить процесс анализа данных. Это не только зарекомендовавшие в своей области лучшие в своем сегменте сервера линейки HPE Apollo, а так же высокоскоростные сетевые коммутаторы HPE, но и дополнительные вспомогательные элементы решения, такие как мощные графические карты NVIDIA и хост-процессоры Xeon Phi. Так же будет рассмотрен стек HPE Core HPC Software Stack, который позволяет администраторам контролировать использование ресурсов системы.
Все материалы доступны по ссылке: http://datascience.in.ua/report2017
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...GeeksLab Odessa
DataScience Lab, 13 мая 2017
Мониторинг модных трендов с помощью глубокого обучения и TensorFlow, Ольга Романюк (Data Scientist at Eleks)
В течении последних 8 месяцев мы в Eleks работали над системой отслеживания модных трендов, основанной на глубинной остаточной нейронной сети с тождественным отображением. При тренировке сети мы использовали онлайн увеличение объема данных, а также распараллеливание данных по двум картам GPU. Мы создали эту систему с нуля при помощи TensorFlow. В презентации я расскажу о практической стороне проекта, нюансах реализации и подводных камнях, с которыми мы столкнулись во время работы.
Все материалы: http://datascience.in.ua/report2017
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...GeeksLab Odessa
DataScience Lab, 13 мая 2017
Кто здесь? Автоматическая разметка спикеров на телефонных разговорах
Юрий Гуц (Machine Learning Engineer, DataRobot)
Автоматическая аннотация спикеров — интересная задача в обработке мультимедиа-данных. Нам нужно ответить на вопрос "Кто говорит когда?", не зная ничего о количестве и личности спикеров, присутствующих на записи. В этом докладе мы рассмотрим работающие методы для аннотации спикеров на телефонных разговорах.
Все материалы: http://datascience.in.ua/report2017
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...GeeksLab Odessa
From bag of texts to bag of clusters
Терпиль Евгений / Павел Худан (Data Scientists / NLP Engineer at YouScan)
Мы рассмотрим современные подходы к кластеризации текстов и их визуализации. Начиная от классического K-means на TF-IDF и заканчивая Deep Learning репрезентациями текстов. В качестве практического примера, мы проанализируем набор сообщений из соц. сетей и попробуем найти основные темы обсуждения.
Все материалы: http://datascience.in.ua/report2017
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...GeeksLab Odessa
Графические вероятностные модели для принятия решений в проектном управлении
Ольга Татаринцева (Data Scientist at Eleks)
Как часто вам приходится принимать решения, используя знания в определенной предметной области? На сколько хороши такие решения? А теперь представьте, что вы собрали знания лучших экспертов в предметной области. Похоже, что ваши решения, основанные на этих знаниях, будут куда более взвешенными, не так ли? Мы будем говорить о системе ProjectHealth, которая была построена на основе опыта лучших экспертов в проектном управлении в компании Eleks. Для реализации поставленной задачи была использована графовая вероятностная модель, а именно байесовская сеть, имплементированная на Python. За время работы над проектом мы прошли шаги от извлечения требований, поиска данных и построения модели с нуля до реализации BI дашборда с возможностью углубиться в детали, доходя до сырых данных. Сейчас ProjectHealth экономит большое количество времени для топ менеджмента и ресурсов компании, так как мониторит состояние бизнеса в малейших деталях ежедневно и делает это как настоящий эксперт.
Все материалы: http://datascience.in.ua/report2017
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...GeeksLab Odessa
DataScienceLab, 13 мая 2017
Оптимизация гиперпараметров машинного обучения при помощи Байесовской оптимизации
Максим Бевза (Research Engineer at Grammarly)
Все алгоритмы машинного обучения нуждаются в настройке (тьюнинге). Часто мы используем Grid Search или Randomized Search или нашу интуицию для подбора гиперпараметров. Байесовская оптимизация поможет нам направить Randomized Search в те места, которые наиболее перспективны, так, чтобы тот же (или лучший) результат мы получили за меньшее количество итераций.
Все материалы: http://datascience.in.ua/report2017
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот GeeksLab Odessa
DataScienceLab, 13 мая 2017
Как знать всё о покупателях (или почти всё)?
Дарина Перемот (ML Engineer at SynergyOne)
Раскроем собственный ответ на вопрос "Чего же хочет покупатель?". Поделимся результатами исследований транзакций и расскажем, есть ли у вас домашний питомец. А так же, продемонстрируем, как машинное обучение уже сейчас помогает узнавать вас ближе.
Все материалы: http://datascience.in.ua/report2017
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...GeeksLab Odessa
JS Lab 2017, 25 марта
Mapbox GL: как работают современные интерактивные карты
Владимир Агафонкин (Lead JavaScript Engineer at MapBox)
Mapbox GL JS — открытая JS-библиотека для создания современных интерактивных карт на основе WebGL. В разработке более трех лет, она сочетает в себе множество удивительных технологий, сложных алгоритмов и идей для достижения плавной отрисовки тысяч векторных объектов с миллионами точек в реальном времени. В этом докладе вы узнаете, как работает библиотека внутри, и с какими сложностями сталкиваются разработчики современных WebGL-приложений. В докладе: отрисовка шрифтов, триангуляция линий и полигонов, пространственные индексы, определение коллизий, расстановка надписей, кластеризация точек, обрезка фигур, упрощение линий, упаковка спрайтов, компактные бинарные форматы, параллельная обработка данных в браузере, тестирование отрисовки и другие сложности.
Все материалы: http://jslab.in.ua/2017
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js GeeksLab Odessa
JS Lab2017, 25 марта, Одесса
Под микроскопом: блеск и нищета микросервисов на node.js
Илья Климов (CEO at Javascript.Ninja)
"- Что это?
- Микросервис!
- И что он делает?
- Микропадает".
Про микросервисы сейчас не рассуждает только ленивый. Все рассказывают про то, как микросервисы спасают от сложности разработки, снижают время развертывание и повышают общую надежность систем. Этот доклад - про подводные камни, которые ждут оседлавших волну этого хайпа с Node.JS. Мы поговорим про ошибки, которые стоили мне и моей компании бессонных ночей, потерянной прибыли и, временами, веры в могущество микросервисной архитектуры.
Все материалы: http://jslab.in.ua/
Организаторы: http://geekslab.org.ua/
6. Наша
задача/
• Найти
как
можно
больше
сообщений
• Сократить
количество
нерелевантных
сообщений
7. Автоматическое
извлечение
ключевых
слов
и
словосочетаний/
• Автоматическая
обработка
больших
объемов
текстов
• Легок
в
реализации
• Дает
хорошие
результаты
9. Отличие
от
других
методов/
• Понимание
терминов
«текст»
/
«корпус»
• TF-‐IDF
–
кластеризация
(противопоставляем
один
текст
корпуса
всем
остальным)
• У
нас
–
однородная
группа
10. В
чем
суть
метода/
• Задача:
извлечь
словосочетания,
которые
лучше
всего
характеризовали
бы
текст.
• Гипотеза:
если
какие-‐либо
два
слова
часто
встречаются
вместе
(в
одном
предложении)
и
редко
по
отдельности
(с
другими
словами),
то
между
ними
существует
семантическая
связь.
• Следовательно,
эти
два
слова
характеризуют
этот
текст
лучше,
чем
остальные
пары
11. Метод:
шаги/
• В
тексте
N
слов.
• Считаем
частоту
каждого
слова
в
тексте.
• Выбираем
из
них
K
наиболее
частотных
–
они
составляют
множество
G.
• Строим
матрицу
K*N.
• В
матрицу
записываем
частоту
совместной
встречаемости.
• Оцениваем
значимость
слова
по
критерию
Xi-‐Square.
16. Text
Preprocessing/
• Удаление стоп−слов
• text.Split();
• Что
считать
стоп-‐словами?
• Как
составить
список
стоп-‐слов?
• Split
по
предложениям
или
по
абзацам?