SlideShare a Scribd company logo
Простые методы
выделения ключевых
слов и построения
рефератов
Котиков Дмитрий
Группа 425
Выделение ключевых слов
 Исходный текст
Курс рубля снизился к доллару и евро при открытии торгов
на Московской бирже во вторник, падению рубля
способствует продолжающееся снижение мировых цен на
нефть. Первые сделки по доллару прошли на Московской
бирже во вторник в диапазоне 63,10-64,83 рубля, по итогам
первой минуты торгов курс составил 63,38 рубля, что на 36
копеек выше уровня предыдущего закрытия.
 Нужно выделить из него ключевые
слова
Рубль, доллар, евро, курс, биржа…
2
Зачем?
 Извлечение информации
для обработки в дальнейшем
{
‘доллар’ : 63.38
‘дата’ : 27.10.2015
}
 Генерация тэгов и хэштегов
#курс #доллар #биржа
 Индексация текста
 Автоматическая генерация новых
текстов
3
Как?
 Разбиение текста на слова
Наивный вариант: по пробелам и знакам препинания.
Более продвинутый вариант: учитывать аббревиатуры,
сокращения и т.д.
 Приведение слов в нормальную форму
Глаголы – в инфинитив, существительные – в именительный
падеж и т.д.
 Выбор из полученного списка слов
наиболее подходящих
Например, выкинуть служебные части речи и отсортировать
по частотности (или более сложные алгоритмы).
4
Как?
 Выбор из полученного списка слов
наиболее подходящих
 Наивный метод: отсортировать по частоте
Проблема: часто встречаются служебные части
речи, необходим словарь для их исключения.
Пример: Danneo CMS
$adjectivearray = array(
"ые","ое","ие","как","для","что","или","это“, <…>
); <…>
if(strlen($word) >= $len && !is_numeric($word)){
$adjective = substr($word,-2);
if(!in_array($adjective,$adjectivearray) &&
!in_array($word,$adjectivearray)) <…>
5
Как?
 Выбор из полученного списка слов
наиболее подходящих
Веса tf.idf
tf – количество вхождений слова в документ
df – количество документов с данным словом
idf = log(N/df), где N – количество документов
в качестве документов можно взять предложения
Пример: rutermextract 0.2
>>> from rutermextract import TermExtractor
>>> term_extractor = TermExtractor()
>>> text = ...
>>> idf = ...
>>> terms = term_extractor(text, weight=lambda term:
idf.get(term.normalized, 1.0) * term.count)
6
Как?
 Выбор из полученного списка слов
наиболее подходящих
 Методы для структурированных документов
Модификация предыдущих двух методов, в
которых может учитываться:
Нахождение в заголовке.
Выделение в тексте (<strong>, <font color=…>)
Определённое форматирование абзаца
(<blockquote>, <p class=“note”>)
Расположение в определённой части текста
 Машинное обучение
7
Средства и решения
 Pymorhy2
Морфологический анализатор
 OpenCalais
Выделяет ключевые слова, строит семантическую сеть.
Не работает с русскоязычными текстами
 TextAnalyst 2.0
По функционалу похож на предыдущий и
поддерживает русский язык
 Site Content Analyzer 3
Работает с web-сайтами
8
Для моей работы
 Дан текст учебно-научной работы
 Нужно выделить из него по 2-3
предложения на слайд
 Из полученных слайдов составить
презентацию к докладу.
9
Идея реализации
 Достаточно выделить наиболее
популярные ключевые слова
 На их основании подобрать
подходящие предложения
 Полученные предложения вставить на
слайд в виде маркированного списка
(как на этом слайде).
 Это один из методов реферирования
10
Реферирование
Дан текст
На его основании построить
другой текст:
Меньшего объёма
Выражающий суть документа
Осмысленный и связный (опционально)
11
Реферирование
Дан текст
Курс рубля снизился к доллару и евро при открытии
торгов на Московской бирже во вторник, падению
рубля способствует продолжающееся снижение
мировых цен на нефть. Первые сделки по доллару
прошли на Московской бирже во вторник в диапазоне
63,10-64,83 рубля, по итогам первой минуты торгов
курс составил 63,38 рубля, что на 36 копеек выше
уровня предыдущего закрытия.
На его основании построить
другой текст:
Курс [доллара] составил 63,38 рубля 12
Реферирование: зачем?
 Аннотация к статье, книге
 Описание документа в результатах
поиска
 Новостные агрегаторы
(Яндекс.Новости)
 В моей работе: создание слайда из
раздела учебно-научной работы
13
Реферирование: как?
Квазиреферирование
Краткое изложение
содержания первичного
документа
14
Реферирование: как?
Квазиреферирование
Строим текст из предложений или
словосочетаний, которые уже имеются в тексте,
на основе выделенных ключевых слов
Относительно простой в реализации
Не всегда получается связный осмысленный
текст
15
Реферирование: как?
Квазиреферирование
 Cтатические методы
Основной критерий информативности для предложения
– частота появления ключевых слов (словосочетаний)
 Позиционные методы
Критерий – позиция элемента в документе (например, в
заголовке)
 Индикаторные методы
Критерий – специальные слова и словосочетания,
которые бы указывали на значимость предложения
Определение 1. Сайт — это система электронных
документов частного лица или организации
в компьютерной сети под общим адресом
16
Реферирование: как?
Квазиреферирование
W= L + K + S
 W – вес фрагмента (предложения)
 L – вес расположения (какой раздел, в каком
месте раздела)
 K – вес индикаторных конструкций вида
 S – сумма весов наших ключевых слов в
предложении.
17
Реферирование: как?
 Краткое изложение содержания
первичного документа
18
Первичный текст
База знаний
Реферат
Реферирование: как?
 Краткое изложение содержания
первичного документа
Строим текст на основе базы знаний, созданной при
анализе документа
 Первичный документ – файл, на основании
которого строим реферат
 Сложнее в реализации, затратный алгоритм
 Текст генерируется по заданному алгоритму, что
обеспечивает его связность по смыслу.
19
Реферирование: как?
Краткое изложение содержания
первичных документов
Метод синтаксического разбора
предложений
используются деревья разбора текста
Методы, опирающиеся на понимание
естественного языка
основываются на системах искусственного
интеллекта, в которых формируются семантические
структуры в виде концептуальных подграфов в базе
знаний.
20
Средства и решения
http://visualworld.ru/referat.jsp
Реферирование текста онлайн
TextAnalyst 2.0
Уже рассматривался при выделении ключевых
слов
Broadcast News Navigator
Средство поиска, просмотра и реферирования
новостей на английском языке.
21
Реферирование: пример
 http://visualworld.ru/referat.jsp
22
Реферирование: пример
 http://visualworld.ru/referat.jsp
23
Реферирование: пример
 http://visualworld.ru/referat.jsp
24
Для моей работы
 Дан текст учебно-научной работы
 Нужно выделить из него по 2-3
предложения на слайд
 Из полученных слайдов составить
презентацию к докладу.
25
Идея реализации
 В презентации изложение тезисное
 Предложения выстраиваются в виде
маркированного списка
 Не слишком важна связность
предложений по смыслу.
26
Идея реализации
 Для данной задачи удобнее
использовать квазиреферирование
 Относительно простой алгоритм
 Выдаёт не обязательно связные
предложения
27
Идея реализации
 По ключевым словам ищем
подходящие 2-3 предложения
(определения, формулировки
утверждений).
Учитываем важность ключевого слова по его
расположению (встречаемость в заголовке)
Индикаторные конструкции
<…> – это <…>,
<…> называется <…>, и т.д. 28
Итоги: идея реализации
 Разбиваем текст учебно-научной работы на
разделы, выбираем подходящие ключевые
слова в каждом разделе.
 В зависимости от важности и длины раздела
слайдов может быть несколько.
 На основании ключевых слов выбираем
наиболее важные предложения из каждого
раздела
 Полученные предложения вставляем на
слайд. 29
Спасибо за внимание!
30

More Related Content

What's hot

Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
Lidia Pivovarova
 
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...
Анализ  текста на основе лексико-синтаксичеких  шаблонов c сокращением многов...Анализ  текста на основе лексико-синтаксичеких  шаблонов c сокращением многов...
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...
Alexey Noskov
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
06 автоматические ответы на вопросы
06 автоматические ответы на вопросы06 автоматические ответы на вопросы
06 автоматические ответы на вопросы
Lidia Pivovarova
 
04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
Lidia Pivovarova
 
Проблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстовПроблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
Модули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ruМодули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ru
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системеData Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
Newprolab
 
Перефразировщик текста
Перефразировщик текстаПерефразировщик текста
Перефразировщик текста
Сергей Пономарев
 
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04Computer Science Club
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 

What's hot (20)

Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
Rule b platf
Rule b platfRule b platf
Rule b platf
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
 
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...
Анализ  текста на основе лексико-синтаксичеких  шаблонов c сокращением многов...Анализ  текста на основе лексико-синтаксичеких  шаблонов c сокращением многов...
Анализ текста на основе лексико-синтаксичеких шаблонов c сокращением многов...
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
06 автоматические ответы на вопросы
06 автоматические ответы на вопросы06 автоматические ответы на вопросы
06 автоматические ответы на вопросы
 
04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
 
Проблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстовПроблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстов
 
Query expansion
Query expansionQuery expansion
Query expansion
 
Tomita
TomitaTomita
Tomita
 
Модули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ruМодули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ru
 
Конкурс Родная речь 2014
Конкурс Родная речь 2014Конкурс Родная речь 2014
Конкурс Родная речь 2014
 
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системеData Science Weekend 2017.  Segmento, На пути к идеальной диалоговой системе
Data Science Weekend 2017. Segmento, На пути к идеальной диалоговой системе
 
Перефразировщик текста
Перефразировщик текстаПерефразировщик текста
Перефразировщик текста
 
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
Автоматическая коррекция ошибок сочетаемости слов в текстах на естественном я...
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 

Viewers also liked

Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусовArtem Lukanin
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусовArtem Lukanin
 
Sketch engine presentation
Sketch engine presentationSketch engine presentation
Sketch engine presentationiwan_rg
 

Viewers also liked (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусов
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
куликов Sketch engine ord
куликов Sketch engine ordкуликов Sketch engine ord
куликов Sketch engine ord
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Проектирование корпусов
Проектирование корпусовПроектирование корпусов
Проектирование корпусов
 
Языковые корпуса
Языковые корпусаЯзыковые корпуса
Языковые корпуса
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Sketch engine presentation
Sketch engine presentationSketch engine presentation
Sketch engine presentation
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 

Similar to Котиков Простые методы выделения ключевых слов и построения рефератов

Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большаковаNatalia Ostapuk
 
Основы С++ (операторы, типы данных, функции)
Основы С++ (операторы, типы данных, функции)Основы С++ (операторы, типы данных, функции)
Основы С++ (операторы, типы данных, функции)
Olga Maksimenkova
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4rit2011
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
QPsoft
 
NoSQL DataBase На коленке
NoSQL DataBase На коленкеNoSQL DataBase На коленке
NoSQL DataBase На коленке
Gleb Lebedev
 
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ITMO University
 
Software engineering. Введение в специальность. Проектирование, требования
Software engineering. Введение в специальность. Проектирование, требованияSoftware engineering. Введение в специальность. Проектирование, требования
Software engineering. Введение в специальность. Проектирование, требованияPavel Egorov
 
P3 ozo 1 kurs kav
P3 ozo 1 kurs kavP3 ozo 1 kurs kav
P3 ozo 1 kurs kav
avkraynyaya
 
Получаем текст веб-страниц из Python и как это работает
Получаем текст веб-страниц из Python и как это работаетПолучаем текст веб-страниц из Python и как это работает
Получаем текст веб-страниц из Python и как это работает
PyNSK
 
Writing a computer vision paper
Writing a computer vision paperWriting a computer vision paper
Writing a computer vision paperAnton Konushin
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферированияArtem Lukanin
 
Использование библиотеки анализа кода OpenC++: модификация, улучшение, исправ...
Использование библиотеки анализа кода OpenC++: модификация, улучшение, исправ...Использование библиотеки анализа кода OpenC++: модификация, улучшение, исправ...
Использование библиотеки анализа кода OpenC++: модификация, улучшение, исправ...
Tatyanazaxarova
 
Создание и анализ словаря финансово-экономических терминов методами интеллект...
Создание и анализ словаря финансово-экономических терминов методами интеллект...Создание и анализ словаря финансово-экономических терминов методами интеллект...
Создание и анализ словаря финансово-экономических терминов методами интеллект...
Сергей Макрушин
 
DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.
mikhaelsmirnov
 

Similar to Котиков Простые методы выделения ключевых слов и построения рефератов (20)

Ruwikt
RuwiktRuwikt
Ruwikt
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большакова
 
Основы С++ (операторы, типы данных, функции)
Основы С++ (операторы, типы данных, функции)Основы С++ (операторы, типы данных, функции)
Основы С++ (операторы, типы данных, функции)
 
гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4гибридная технология перевода. юлия епифанцева. зал.4
гибридная технология перевода. юлия епифанцева. зал.4
 
Презентация PROMT для РИТ
Презентация PROMT для РИТПрезентация PROMT для РИТ
Презентация PROMT для РИТ
 
NoSQL DataBase На коленке
NoSQL DataBase На коленкеNoSQL DataBase На коленке
NoSQL DataBase На коленке
 
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
 
Software engineering. Введение в специальность. Проектирование, требования
Software engineering. Введение в специальность. Проектирование, требованияSoftware engineering. Введение в специальность. Проектирование, требования
Software engineering. Введение в специальность. Проектирование, требования
 
P3 ozo 1 kurs kav
P3 ozo 1 kurs kavP3 ozo 1 kurs kav
P3 ozo 1 kurs kav
 
Получаем текст веб-страниц из Python и как это работает
Получаем текст веб-страниц из Python и как это работаетПолучаем текст веб-страниц из Python и как это работает
Получаем текст веб-страниц из Python и как это работает
 
Writing a computer vision paper
Writing a computer vision paperWriting a computer vision paper
Writing a computer vision paper
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
 
Использование библиотеки анализа кода OpenC++: модификация, улучшение, исправ...
Использование библиотеки анализа кода OpenC++: модификация, улучшение, исправ...Использование библиотеки анализа кода OpenC++: модификация, улучшение, исправ...
Использование библиотеки анализа кода OpenC++: модификация, улучшение, исправ...
 
Фвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных словФвтоматическая кластеризация значений многозначных слов
Фвтоматическая кластеризация значений многозначных слов
 
Создание и анализ словаря финансово-экономических терминов методами интеллект...
Создание и анализ словаря финансово-экономических терминов методами интеллект...Создание и анализ словаря финансово-экономических терминов методами интеллект...
Создание и анализ словаря финансово-экономических терминов методами интеллект...
 
DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.DBD lection 1. Intro in Database Design. In Russian.
DBD lection 1. Intro in Database Design. In Russian.
 
Lande, Jigalo
Lande, JigaloLande, Jigalo
Lande, Jigalo
 
Авиком
АвикомАвиком
Авиком
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (9)

Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
рогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированиюрогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированию
 
курышев рекомендательные системы
курышев рекомендательные системыкурышев рекомендательные системы
курышев рекомендательные системы
 
иванов анализ речевых команд
иванов анализ речевых командиванов анализ речевых команд
иванов анализ речевых команд
 
борисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данныхборисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данных
 
бицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языкебицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языке
 
презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)
 

Котиков Простые методы выделения ключевых слов и построения рефератов

  • 1. Простые методы выделения ключевых слов и построения рефератов Котиков Дмитрий Группа 425
  • 2. Выделение ключевых слов  Исходный текст Курс рубля снизился к доллару и евро при открытии торгов на Московской бирже во вторник, падению рубля способствует продолжающееся снижение мировых цен на нефть. Первые сделки по доллару прошли на Московской бирже во вторник в диапазоне 63,10-64,83 рубля, по итогам первой минуты торгов курс составил 63,38 рубля, что на 36 копеек выше уровня предыдущего закрытия.  Нужно выделить из него ключевые слова Рубль, доллар, евро, курс, биржа… 2
  • 3. Зачем?  Извлечение информации для обработки в дальнейшем { ‘доллар’ : 63.38 ‘дата’ : 27.10.2015 }  Генерация тэгов и хэштегов #курс #доллар #биржа  Индексация текста  Автоматическая генерация новых текстов 3
  • 4. Как?  Разбиение текста на слова Наивный вариант: по пробелам и знакам препинания. Более продвинутый вариант: учитывать аббревиатуры, сокращения и т.д.  Приведение слов в нормальную форму Глаголы – в инфинитив, существительные – в именительный падеж и т.д.  Выбор из полученного списка слов наиболее подходящих Например, выкинуть служебные части речи и отсортировать по частотности (или более сложные алгоритмы). 4
  • 5. Как?  Выбор из полученного списка слов наиболее подходящих  Наивный метод: отсортировать по частоте Проблема: часто встречаются служебные части речи, необходим словарь для их исключения. Пример: Danneo CMS $adjectivearray = array( "ые","ое","ие","как","для","что","или","это“, <…> ); <…> if(strlen($word) >= $len && !is_numeric($word)){ $adjective = substr($word,-2); if(!in_array($adjective,$adjectivearray) && !in_array($word,$adjectivearray)) <…> 5
  • 6. Как?  Выбор из полученного списка слов наиболее подходящих Веса tf.idf tf – количество вхождений слова в документ df – количество документов с данным словом idf = log(N/df), где N – количество документов в качестве документов можно взять предложения Пример: rutermextract 0.2 >>> from rutermextract import TermExtractor >>> term_extractor = TermExtractor() >>> text = ... >>> idf = ... >>> terms = term_extractor(text, weight=lambda term: idf.get(term.normalized, 1.0) * term.count) 6
  • 7. Как?  Выбор из полученного списка слов наиболее подходящих  Методы для структурированных документов Модификация предыдущих двух методов, в которых может учитываться: Нахождение в заголовке. Выделение в тексте (<strong>, <font color=…>) Определённое форматирование абзаца (<blockquote>, <p class=“note”>) Расположение в определённой части текста  Машинное обучение 7
  • 8. Средства и решения  Pymorhy2 Морфологический анализатор  OpenCalais Выделяет ключевые слова, строит семантическую сеть. Не работает с русскоязычными текстами  TextAnalyst 2.0 По функционалу похож на предыдущий и поддерживает русский язык  Site Content Analyzer 3 Работает с web-сайтами 8
  • 9. Для моей работы  Дан текст учебно-научной работы  Нужно выделить из него по 2-3 предложения на слайд  Из полученных слайдов составить презентацию к докладу. 9
  • 10. Идея реализации  Достаточно выделить наиболее популярные ключевые слова  На их основании подобрать подходящие предложения  Полученные предложения вставить на слайд в виде маркированного списка (как на этом слайде).  Это один из методов реферирования 10
  • 11. Реферирование Дан текст На его основании построить другой текст: Меньшего объёма Выражающий суть документа Осмысленный и связный (опционально) 11
  • 12. Реферирование Дан текст Курс рубля снизился к доллару и евро при открытии торгов на Московской бирже во вторник, падению рубля способствует продолжающееся снижение мировых цен на нефть. Первые сделки по доллару прошли на Московской бирже во вторник в диапазоне 63,10-64,83 рубля, по итогам первой минуты торгов курс составил 63,38 рубля, что на 36 копеек выше уровня предыдущего закрытия. На его основании построить другой текст: Курс [доллара] составил 63,38 рубля 12
  • 13. Реферирование: зачем?  Аннотация к статье, книге  Описание документа в результатах поиска  Новостные агрегаторы (Яндекс.Новости)  В моей работе: создание слайда из раздела учебно-научной работы 13
  • 15. Реферирование: как? Квазиреферирование Строим текст из предложений или словосочетаний, которые уже имеются в тексте, на основе выделенных ключевых слов Относительно простой в реализации Не всегда получается связный осмысленный текст 15
  • 16. Реферирование: как? Квазиреферирование  Cтатические методы Основной критерий информативности для предложения – частота появления ключевых слов (словосочетаний)  Позиционные методы Критерий – позиция элемента в документе (например, в заголовке)  Индикаторные методы Критерий – специальные слова и словосочетания, которые бы указывали на значимость предложения Определение 1. Сайт — это система электронных документов частного лица или организации в компьютерной сети под общим адресом 16
  • 17. Реферирование: как? Квазиреферирование W= L + K + S  W – вес фрагмента (предложения)  L – вес расположения (какой раздел, в каком месте раздела)  K – вес индикаторных конструкций вида  S – сумма весов наших ключевых слов в предложении. 17
  • 18. Реферирование: как?  Краткое изложение содержания первичного документа 18 Первичный текст База знаний Реферат
  • 19. Реферирование: как?  Краткое изложение содержания первичного документа Строим текст на основе базы знаний, созданной при анализе документа  Первичный документ – файл, на основании которого строим реферат  Сложнее в реализации, затратный алгоритм  Текст генерируется по заданному алгоритму, что обеспечивает его связность по смыслу. 19
  • 20. Реферирование: как? Краткое изложение содержания первичных документов Метод синтаксического разбора предложений используются деревья разбора текста Методы, опирающиеся на понимание естественного языка основываются на системах искусственного интеллекта, в которых формируются семантические структуры в виде концептуальных подграфов в базе знаний. 20
  • 21. Средства и решения http://visualworld.ru/referat.jsp Реферирование текста онлайн TextAnalyst 2.0 Уже рассматривался при выделении ключевых слов Broadcast News Navigator Средство поиска, просмотра и реферирования новостей на английском языке. 21
  • 25. Для моей работы  Дан текст учебно-научной работы  Нужно выделить из него по 2-3 предложения на слайд  Из полученных слайдов составить презентацию к докладу. 25
  • 26. Идея реализации  В презентации изложение тезисное  Предложения выстраиваются в виде маркированного списка  Не слишком важна связность предложений по смыслу. 26
  • 27. Идея реализации  Для данной задачи удобнее использовать квазиреферирование  Относительно простой алгоритм  Выдаёт не обязательно связные предложения 27
  • 28. Идея реализации  По ключевым словам ищем подходящие 2-3 предложения (определения, формулировки утверждений). Учитываем важность ключевого слова по его расположению (встречаемость в заголовке) Индикаторные конструкции <…> – это <…>, <…> называется <…>, и т.д. 28
  • 29. Итоги: идея реализации  Разбиваем текст учебно-научной работы на разделы, выбираем подходящие ключевые слова в каждом разделе.  В зависимости от важности и длины раздела слайдов может быть несколько.  На основании ключевых слов выбираем наиболее важные предложения из каждого раздела  Полученные предложения вставляем на слайд. 29