Поиск паттернов (Data Mining: Pattern Discovery) / Константин Игнатов (Qrator...Ontico
HighLoad++ 2017
Зал «Найроби+Касабланка», 7 ноября, 11:00
Тезисы:
http://www.highload.ru/2017/abstracts/3037.html
Паттерн — это повторяющаяся структура в данных. Это может быть подмножество, подстрока, подпоследовательность, последовательность или множество подстрок, подграф, элемент изображения или видео-фрагмент.
Чаще всего находят все достаточно часто встречающиеся паттерны в датасете и сортируют их по частоте появления. Так, например, можно найти наиболее встречаемые юзкейсы в логах работы системы.
...
Natural Language Processing (NLP) with .NET for #dotnetby meetup-29Sergey Tihon
(LUIS) from Azure Cognitive Services and IBM Watson. We will also take a look at popular NuGet packages like Stanford.NLP.NET, OpenNLP.NET, and others.
[Skolkovo Robotics 2015 Day 2] Владимир Веселов Bot and humans "Взаимодействи...Skolkovo Robotics Center
Skolkovo Robotics 2015 Презентация
Владимира Веселова на Robohack, одного из создателей чатбота Евгений Густман который в 2014 году прошел тест Тьюринга
Поиск паттернов (Data Mining: Pattern Discovery) / Константин Игнатов (Qrator...Ontico
HighLoad++ 2017
Зал «Найроби+Касабланка», 7 ноября, 11:00
Тезисы:
http://www.highload.ru/2017/abstracts/3037.html
Паттерн — это повторяющаяся структура в данных. Это может быть подмножество, подстрока, подпоследовательность, последовательность или множество подстрок, подграф, элемент изображения или видео-фрагмент.
Чаще всего находят все достаточно часто встречающиеся паттерны в датасете и сортируют их по частоте появления. Так, например, можно найти наиболее встречаемые юзкейсы в логах работы системы.
...
Natural Language Processing (NLP) with .NET for #dotnetby meetup-29Sergey Tihon
(LUIS) from Azure Cognitive Services and IBM Watson. We will also take a look at popular NuGet packages like Stanford.NLP.NET, OpenNLP.NET, and others.
[Skolkovo Robotics 2015 Day 2] Владимир Веселов Bot and humans "Взаимодействи...Skolkovo Robotics Center
Skolkovo Robotics 2015 Презентация
Владимира Веселова на Robohack, одного из создателей чатбота Евгений Густман который в 2014 году прошел тест Тьюринга
Python AST / Николай Карелин / VPI Development Center [Python Meetup 27.03.15]Python Meetup
Python AST: между исходным текстом и байт-кодом / Николай Карелин / Системный архитектор VPI Development Center
Николай познакомит слушателей с деталями устройства Python AST и, в частности, расскажет некоторые интересные факты о работе диалекта Hy.
Python Meetup - встречи минского сообщества любителей языка программирования Python.
Присоединяйся к нам!
Мы в twitter: https://twitter.com/pythonminsk
Мы на youtube: http://www.youtube.com/pythonMinsk
Мы на slideshare: http://www.slideshare.net/MinskPythonMeetup
DOC Использование особенностей языка запросов поиска Яндекса для исследований...Eugene Trofimenko
http://promosite.ru/conference/optimization-2008.php
Текст
Доклад на конференции "Поисковая оптимизация и продвижение сайтов в Интернете 2008". Яндекс - не только наиболее популярный поисковик в Рунете, но и наиболее открытый к исследованиям его алгоритмов. Рассмотрены особенности работы поиска по текстам ссылок, возможности для изучения трактовки Яндексом многозначных запросов и их расширения. Отдельные элементы переформулировки запросов Яндексом, полезные для оптимизации сайтов.
Программирование как способ выражения мыслей. Levon Avakyan
Я расскажу на простейших примерах как функционирует современный компьютер, какие языки программирования бывают, для чего они используются, какие парадигмы лежат в их основе. По сути, язык программирования это инструмент, с помощью которого можно рассказать машине, чего же мы от неё хотим, тем самым воплотив свои мысли.
Универсальный сигнатурный анализ кода на C#, Java, PHPИван Кочуркин
В данном докладе затронуты такие темы, как теория и проблемы парсинга, построение и обход абстрактных синтаксических деревьев (AST) и разработка предметно-ориентированного языка (DSL).
Рассматриваются такие проблемы парсинга, как разбор контекстно-зависимых языков, обработка ошибок и др. В качестве примера применения теории приведена грамматика PHP, разработанная для генератора парсеров ANTLR.
Далее рассматриваются структура унифицированного AST, методы его обхода и сопоставления с паттернами.
Завершающей частью презентации является описание DSL, разработанного с целью записи существующих и будущих паттернов. Также приведены примеры некоторых паттернов для лучшей усвояемости материала.
Дмитрий Прокопцев "Memory-mapped storage: ещё один подход к сериализации данных"Yandex
В докладе пойдёт речь о методе сериализации произвольных данных, который применяется в Яндексе. Этот метод основан на отображаемых в память (mmapped) файлах и не требует операции декодирования. Мы рассмотрим его преимущества и недостатки, поговорим об общих принципах такой сериализации и об устройстве отображаемых аналогов стандартных контейнеров.
Методы для вычисления базовой статистики текста
Работа с корпусами и лексикографическими ресурсами
Обработка естественного языка (токенизация, лемматизация, стемминг, pos-tagging, parsing)
Классификация
Машинный перевод
Работа с XML-документами
Представление знаний
Корпусная лингвистика: компиляция корпуса устной речиNLProc.by
Что такое корпус? Корпус устной речи?
Виды
Корпусы устной речи (фокус: слявянские языки)
Компиляция корпуса устной речи: основные этапы, принципы, инструменты
Python AST / Николай Карелин / VPI Development Center [Python Meetup 27.03.15]Python Meetup
Python AST: между исходным текстом и байт-кодом / Николай Карелин / Системный архитектор VPI Development Center
Николай познакомит слушателей с деталями устройства Python AST и, в частности, расскажет некоторые интересные факты о работе диалекта Hy.
Python Meetup - встречи минского сообщества любителей языка программирования Python.
Присоединяйся к нам!
Мы в twitter: https://twitter.com/pythonminsk
Мы на youtube: http://www.youtube.com/pythonMinsk
Мы на slideshare: http://www.slideshare.net/MinskPythonMeetup
DOC Использование особенностей языка запросов поиска Яндекса для исследований...Eugene Trofimenko
http://promosite.ru/conference/optimization-2008.php
Текст
Доклад на конференции "Поисковая оптимизация и продвижение сайтов в Интернете 2008". Яндекс - не только наиболее популярный поисковик в Рунете, но и наиболее открытый к исследованиям его алгоритмов. Рассмотрены особенности работы поиска по текстам ссылок, возможности для изучения трактовки Яндексом многозначных запросов и их расширения. Отдельные элементы переформулировки запросов Яндексом, полезные для оптимизации сайтов.
Программирование как способ выражения мыслей. Levon Avakyan
Я расскажу на простейших примерах как функционирует современный компьютер, какие языки программирования бывают, для чего они используются, какие парадигмы лежат в их основе. По сути, язык программирования это инструмент, с помощью которого можно рассказать машине, чего же мы от неё хотим, тем самым воплотив свои мысли.
Универсальный сигнатурный анализ кода на C#, Java, PHPИван Кочуркин
В данном докладе затронуты такие темы, как теория и проблемы парсинга, построение и обход абстрактных синтаксических деревьев (AST) и разработка предметно-ориентированного языка (DSL).
Рассматриваются такие проблемы парсинга, как разбор контекстно-зависимых языков, обработка ошибок и др. В качестве примера применения теории приведена грамматика PHP, разработанная для генератора парсеров ANTLR.
Далее рассматриваются структура унифицированного AST, методы его обхода и сопоставления с паттернами.
Завершающей частью презентации является описание DSL, разработанного с целью записи существующих и будущих паттернов. Также приведены примеры некоторых паттернов для лучшей усвояемости материала.
Дмитрий Прокопцев "Memory-mapped storage: ещё один подход к сериализации данных"Yandex
В докладе пойдёт речь о методе сериализации произвольных данных, который применяется в Яндексе. Этот метод основан на отображаемых в память (mmapped) файлах и не требует операции декодирования. Мы рассмотрим его преимущества и недостатки, поговорим об общих принципах такой сериализации и об устройстве отображаемых аналогов стандартных контейнеров.
Методы для вычисления базовой статистики текста
Работа с корпусами и лексикографическими ресурсами
Обработка естественного языка (токенизация, лемматизация, стемминг, pos-tagging, parsing)
Классификация
Машинный перевод
Работа с XML-документами
Представление знаний
Корпусная лингвистика: компиляция корпуса устной речиNLProc.by
Что такое корпус? Корпус устной речи?
Виды
Корпусы устной речи (фокус: слявянские языки)
Компиляция корпуса устной речи: основные этапы, принципы, инструменты
3. Инструмент для извлечения фактов
Томита-парсер
• В основе парсера лежит алгоритм GLR – парсинга
(http://ru.wikipedia.org/wiki/GLR-парсер)
• Автор алгоритма - Масару Томита, мы назвали
парсер в его честь.
• Извлечение фактов - извлечение структурированных
данных из текста на естественном языке.
• Извлечение фактов происходит при помощи
контекстно-свободных грамматик и словарей
ключевых слов.
8. Откуда берется исходный текст?
• из одного текстового файла
• из нескольких текстовых файлов
• папка
• .tar архив
• из STDIN
9. Фильм Оливера Стоуна "Александр" основан на
реальной жизни одного из самых выдающихся людей в
истории.
«Титаник» (Titanic) — фильм-катастрофа 1997
года, снятый Джеймсом Кэмероном, в котором
показана гибель легендарного лайнера «Титаник».
Главные роли в фильме исполнили Кейт Уинслет (Роза
Дьюитт Бьюкейтер) и Леонардо Ди Каприо (Джек
Доусон).
«Неприкасаемые» (Intouchables) — трагикомедийный
фильм 2011 года, основанный на реальных событиях.
Главные роли исполняют Франсуа Клюзе и Омар
Си, удостоенный за эту актёрскую работу национальной
премии «Сезар».
Исходный текст input.txt
10. Грамматика состоит из правил, которые
описывают цепочки
В правиле есть левая и правая
часть, разделенные символом ->
В левой части стоит один нетерминал, правая
состоит из терминалов и нетерминалов.
S -> Noun;
Правила в Томите
17. Фильм Оливера Стоуна "Александр" основан на реальной
жизни одного из самых выдающихся людей в истории .
"Титаник" ( Titanic ) — фильм-катастрофа 1997 года
, снятый Джеймсом Кэмероном , в котором показана
гибель легендарного лайнера "Титаник" .
Главные роли в фильме исполнили Кейт Уинслет ( Роза
Дьюитт Бьюкейтер ) и Леонардо Ди Каприо ( Джек Доусон
) .
«Неприкасаемые" ( Intouchables ) — трагикомедийный
фильм 2011 года , основанный на реальных событиях .
Главные роли исполняют Франсуа Клюзе и Омар Си
, удостоенный за эту актёрскую работу национальной
премии "Сезар" .
Результат output.txt
21. Регистр: h-reg1, h-reg2, h-reg3, l-reg
Многословная сущность: mw
Первое слово в предложении: fw
Вершина синтаксической группы: rt
И другие
Пометы-ограничения
23. #encoding "utf-8"
#GRAMMAR_ROOT S
Name -> Word<h-reg1, ~fw>;
Name -> Word<h-reg1, ~fw> Word<h-reg1>;
Name -> Word<h-reg1, ~fw> Word<h-reg1>
Word<h-reg1>;
S -> Name;
Грамматика film.cxx
25. * — символ повторяется 0 или более раз
S -> Adj* Noun;
=
S -> Noun;
S -> Adj Noun;
S -> Adj Adj Noun;
…
Позволяют получить более удобную сокращенную
запись правил грамматики
Операторы
26. + — символ повторяется 1 или более раз
S -> Adj+ Noun;
=
S -> Adj Noun;
S -> Adj Adj Noun;
S -> Adj Adj Adj Noun;
…
Операторы
27. () — символ входит в правило 0 или 1 раз
S -> (Adj) Noun;
=
S -> Noun;
S -> Adj Noun;
Операторы
30. import "base.proto"; всегда
import "facttypes_base.proto"; копируем
message Film: NFactType.TFact имя факта
{
required string Title = 1; поля факта
}
Описание фактов
facttypes.proto
34. Фильм Оливера Стоуна "Александр" основан на реальной жизни одного из
самых выдающихся людей в истории .
Film
{
Name = Оливер Стоуна "Александр“
}
"Титаник" ( Titanic ) — фильм-катастрофа 1997 года , снятый Джеймсом
Кэмероном , в котором показана гибель легендарного лайнера "Титаник" .
Film
{
Name = Titanic
}
Film
{
Name = 1997
}
Film
{
Name = Джеймс Кэмероном
}
Результат output.txt
35. Главные роли в фильме исполнили Кейт Уинслет (
Роза Дьюитт Бьюкейтер ) и Леонардо Ди Каприо (
Джек Доусон ) .
Film { Name = Кейт Уинслет}
Film { Name = Роза Дьюитт Бьюкейтер}
Film { Name = Леонардо Ди Каприо}
Film { Name = Джек Доусон}
Результат output.txt
52. Фильм Оливера Стоуна "Александр" основан на реальной
жизни одного из самых выдающихся людей в истории.
"Титаник" (Titanic) — фильм-катастрофа 1997 года, снятый
Джеймсом Кэмероном, в котором показана гибель
легендарного лайнера «Титаник». Главные роли в фильме
исполнили Кейт Уинслет (Роза Дьюитт Бьюкейтер) и
Леонардо Ди Каприо (Джек Доусон).
«Неприкасаемые»(Intouchables) — трагикомедийный
фильм 2011 года, основанный на реальных событиях.
Главные роли исполняют Франсуа Клюзе и Омар Си,
удостоенный за эту актёрскую работу национальной
премии «Сезар».
Посмотрим еще раз на входной
файл
53. 1. После названия фильма на русском может идти
оригинальное название в скобках. А может и не
идти
2. Между названием и дескриптором может стоять
тире
3. Дескриптор может быть как после, так и перед
названием
Надо учесть:
67. Правила, которые могут использоваться во многих
грамматиках, целесообразно выделять в отдельную
грамматику.
Например, грамматика дат.
Включение грамматик
76. Что можно извлечь?
Томита-парсер
Объект 1 Объект 2 Тип связи
Яндекс Аркадий Волож директор
Объекты в тексте:
- даты
- адреса
- телефоны
- ФИО
- название товара
- действие
- тональность…
Связи между этими объектами:
- События
- Мнения и отзывы
- Контактные данные
- Объявления
77. В проекте Яндекс.Новости
для геопривязки
сюжетов
для выделения
компаний и персон
для извлечения адресов
Извлечение фактов в Яндексе