Презентация занятия Тамары Кулинкович "Оформление и защита результатов исследования: памятка перед защитой" для Школы бизнес-исследований www.businessresearch.by
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...GeeksLab Odessa
23.05.15 Одесса. Impact Hub Odessa. Конференция AI&BigData Lab
Варвара Красавина (Computational Linguist, YouScan) "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения ключевых слов и словосочетаний"
Мы расскажем об алгоритме извлечения ключевых слов и словосочетаний из текста с помощью матрицы совместной встречаемости. Программа, реализующая этот алгоритм, используется для оптимизации поиска в LeadScanner – платформе, которая ищет сообщения с заданным содержанием в социальных сетях. Также рассмотрим и друге методы извлечения ключевых слов и словосочетаний – статистические и лингвистические.
Презентация занятия Тамары Кулинкович "Оформление и защита результатов исследования: памятка перед защитой" для Школы бизнес-исследований www.businessresearch.by
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...GeeksLab Odessa
23.05.15 Одесса. Impact Hub Odessa. Конференция AI&BigData Lab
Варвара Красавина (Computational Linguist, YouScan) "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения ключевых слов и словосочетаний"
Мы расскажем об алгоритме извлечения ключевых слов и словосочетаний из текста с помощью матрицы совместной встречаемости. Программа, реализующая этот алгоритм, используется для оптимизации поиска в LeadScanner – платформе, которая ищет сообщения с заданным содержанием в социальных сетях. Также рассмотрим и друге методы извлечения ключевых слов и словосочетаний – статистические и лингвистические.
Освоение новых тематик в научно-технических переводах с привлечением специали...Eugene Bartov
Модель работы с экспертами-практиками в узкоспециализированных проектах в БТП "Альянс ПРО". Доклад подготовлен для Translation Forum Russia 2012 (г. Казань)
Normalization of Non-Standard Words with Finite State Transducers for Russi...Artem Lukanin
This document discusses text normalization for Russian speech synthesis. It introduces Normatex, an open-source Russian text normalization system using finite state transducers. Normatex expands non-standard words like numbers, abbreviations, and acronyms. It achieved 84.33% recall and 93.95% precision on a test corpus. The document outlines challenges in Russian normalization like inflection and ambiguity, and describes how Normatex handles cardinal and ordinal numbers, acronyms, and abbreviations.
Text Processing with Finite State Transducers in UnitexArtem Lukanin
This document discusses text processing using finite state transducers in Unitex. It provides an overview of Unitex, describing what it is, what corpora and finite state transducers are. It then demonstrates how to use Unitex to preprocess text from a file, tokenize it, apply dictionaries, and build finite state graphs to match and tag hyponyms and hypernyms in Russian texts. References are provided at the end.
2. Свёртывание информации
• Задачи
– Индексирование
– Аннотирование
– Реферирование
– Конспектирование
– Фрагментирование
• Это сжатие, или компрессия, текста
первичного документа при его
переработке в текст вторичного
документа
3. Типы свертывания информации
• Аннотация
–150-200 знаков
–указательный реферат
(indicative abstract)
• Реферат
–1500-2000 знаков
–информативный реферат
(informative abstract)
Связный текст, который кратко выражает
центральную тему или предмет какого-то
документа
Связный текст, который кроме этого кратко
выражает цель, применяемые методы и
основные результаты описанного
исследования или разработки
4. Типология
• выдержки vs резюме
– фрагменты документа
– заново переписанный текст
• общий vs основан на запросе vs
ориентирован на пользователя
– в одинаковой мере раскрыты все основные
темы
– основан на запросе “what are the causes of
the war?”
– пользователь интересуется химией
• для новичка vs для эксперта
– включение предпосылок
– только новая информация
5. Типология
• однодокументный vs многодокументный
– научная статья
– сборник докладов конференции
• текстовая форма vs перечисление vs таблица
vs структурированная информация
– абзац
– список основных положений, тезисов
– числовая информация в таблице
– с заголовками
• на языке документа vs на другом языке
– одноязычное реферирование
– перевод реферата
7. Направления
• Квазиреферирование
– экстракция из первичных документов
наиболее информативных фрагментов и их
склейка
• Собственно автоматическое
реферирование
– выделение существенной информации и
порождение новых текстов
8. Направления
• Квазиреферирование
– анализ поверхностно-синтаксических
отношений в тексте
• Собственно автоматическое
реферирование
– обращение к глубинно-семантическим
процессам
– экспериментальные исследования, до
широкой реализации еще не дошло
9. Экстрактивные методы
• Акцент на выделение характерных
фрагментов – предложений
• С помощью фразовых шаблонов
• И статистики
• В большинстве методов применяется
модель линейных весовых
коэффициентов – каждому блоку текста
назначаются веса
• Самые «тяжёлые» блоки склеиваются
10. Расчёт веса блока текста
• Weight(U):= Location(U) + CuePhrase(U)
+ StatTerm(U) + AddTerm(U)
• Location: в начале, в середине или в
конце; в вводной части или в
заключении
• CuePhrase: «в заключение», «в данной
статье», «согласно результатам
анализа» и т.д.
11. Расчёт веса блока текста
• Weight(U):= Location(U) + CuePhrase(U)
+ StatTerm(U) + AddTerm(U)
• StatTerm: статистическая важность
автоматическая индексация (например,
метрика tf.idf)
• AddTerm: есть ли в блоке текста также
термины из
– заголовка,
– колонтитула,
– 1-го параграфа,
– пользовательского запроса
12. Обобщенная архитектура
реферирования без опоры на
знания
Билл Диксон поступил на работу в Procter & Gamble в
1994 году. В 1996 году он стал ее вице-президентом
Исходный
текст
Измерения
статистической
важности
Сопоставление
шаблонов
Расчёт
частоты
Расчёт
частоты
Выделе-
ние
Выбор
Анализ Синтез
13. Статистические методы
Метод Луна (Luhn, 1958)
1. часто встречающиеся в тексте слова
являются наиболее значимыми
2. чем больше часто встречающихся слов
оказывается рядом, тем более
существенную информацию содержит
предложение
– Игнорируются смысловые связи между
словами
+ простота анализа, однородность
получаемых результатов
14. Метод ACSI-Matic (Assistant Chief
of Staff for Intelligence)
• Метод Луна незначительно
модифицирован
– N R NN R NNN R NN
– 1 + 1/4 + 1 + 1/8 + 1= 3 + 3/8
• R – слова, частота встречаемости
которых превосходит среднюю частоту
слов в документе
• 10% предложений (<=20) – размер
реферата
15. Метод ACSI-Matic (Assistant Chief
of Staff for Intelligence)
• Предложения с большими весами подлежали
включению в реферат
• Со средним — помечались как «резервные»
• Если число встретившихся в двух
предложениях синонимов и близких по
значению слов > 25% от общего количества
слов в предложении, то такие предложения
считались избыточными и вычеркивались
• В этом случае для реферата выбирались
предложения из резерва
• Этот процесс длился до тех пор, пока не
устранялись избыточные или не
заканчивались «резервные» предложения
16. Метод Освальда
• Использовался инструмент,
применяемый при индексировании:
• Предложения анализируемого текста
сопоставлялись с заданными
перечнями слов, объединёнными по
смыслу
• Отбирались предложения с
наибольшим количеством совпавших с
перечнем слов
• Отобранные предложения далее
обрабатывались по методу Г. Луна
17. Метод Освальда
• выявление слов, отражающих содержание
документа;
• выявление «мультитермов», т.е. устойчивых
словосочетаний, при условии, что они
встречаются в тексте чаще одного раза;
• выявление предложений с двумя и более
мультитермами;
• расположение мультитермов в порядке
частоты встречаемости;
• отбор предложений с наибольшим
количеством основных слов и мультитермов
18. Методы статистических
ассоциаций
• Л. Дойл и М. Квиллиан
• применили для отражения содержания
документов ассоциативные методы
создания семантически связанных
групп (пучков) терминов (word clusters)
• совместная встречаемость терминов в
предложениях
• В реферат включаются не только
основные термины, но и другие
элементы текста
19. Ассоциативные карты Л. Дойла
• Сначала создаётся исходная матрица
(ключевые слова текста) и матрица
взаимосвязанных элементов.
• Использовав коэффициент корреляции
Пирсона, Л. Дойл вычислил коэффициенты
подобия между терминами отдельных
документов
• Реферат представлял собой реферат
телеграфного стиля (короткие назывные
предложения или набор ключевых слов
(дескрипторов)
20. Семантические карты
М. Квиллиана
• М. Квиллиан предложил использовать
не ассоциативные карты, составленные
на основе статистических показателей,
а семантические карты.
• При этом учитывались взаимосвязи не
между отдельными словами, а между
информативными концептами
21. Экстрактивные методы
• Дистрибутивный метод Эрла (Earl)
• Метод автоматического реферирования
документов (Automatic Document
Abstracting Method — ADAM)
• Дж. Раш, Р. Сальвадор и А. Замора
«Метод отказа от предложений»
(method for rejecting sentenses)
• Метод текстовых связей
22. Методы с опорой на знания
Два основных подхода метода формирования
краткого изложения