SlideShare a Scribd company logo
1 of 12
Автоматический анализ текста для аннотирования изображения Баев Александр Андреевич Научный руководитель: к.ф.-м.н, с.н.с. Лукашевич Наталья Валентиновна
Введение ,[object Object],[object Object],[object Object]
Постановка задачи ,[object Object],[object Object],[object Object],[object Object]
Пример статьи На подмосковной железной дороге произошел взрыв На железнодорожной ветке в подмосковном городе Видное произошел взрыв. Как сообщили  РИА Новости  в правоохранительных органах в понедельник, 6 октября, в результате повреждены 2,4 метра рельсов. Никто не пострадал.  "Интерфакс"  уточняет, что взрыв произошел вечером в воскресенье - сигнал о нем поступил в 23:45.  По данным милиции, мощность неустановленного взрывного устройства составляла два килограмма в тротиловом эквиваленте. Оно было заложено на подъездной ветке к комбинату "Москокс".  По факту произошедшего возбуждено уголовное дело по статье 213 (хулиганство). В оперативно-следственной группе, расследующей это дело, "Интерфаксу" сообщили, что, помимо хулиганства, рассматривают несколько версий произошедшего, включая конкурентную борьбу и теракт.  Всего: 100  статей с  www.rbk.ru 150  статей с  www.lenta.ru
1. Формирование списка слов и терминов. ,[object Object],Текст Термины Слова ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Параметры для вычисления веса:
Формулы вычисления коэффициентов ,[object Object],где  Cap, Name, Pep  –  параметры заголовок, имя собственное и личность  соответственно.  Freq ср  – средняя частотность слов в тексте,  а  iFreq –  обратная частотность: где  n  – частотность слова в базе слов из 1000000 статей,  max (N)  – максимальная частотность в этой базе  ,[object Object],Где   Vis  –  параметр визуальность
2. Сборка единого списка сущностей ,[object Object],[object Object],ЖЕЛЕЗНОДОРОЖНЫЙ ПУТЬ ЖЕЛЕЗНОДОРОЖНАЯ ВЕТКА  2 СУДЕБНОЕ ДЕЛО РАССЛЕДОВАНИЕ ПРЕСТУПЛЕНИЙ РАССМОТРЕТЬ, РАЗОБРАТЬ СЛЕДСТВЕННАЯ ГРУППА РАССЛЕДОВАТЬ (ОСУЩЕСТВИТЬ СЛЕД МИЛИЦИЯ ЖЕЛЕЗНЫЙ  1 ДОРОГА  1 ЖЕЛЕЗНОДОРОЖНЫЙ  1 ВЕТКА  2 ПРАВООХРАНИТЕЛЬНЫЙ  1 МИЛИЦИЯ  1 ОПЕРАТИВНО-СЛЕДСТВЕННЫЙ  1 ГРУППА  1 ДЕЛО  2 ПРАВООХРАНИТЕЛЬНЫЕ ОРГАНЫ
3. Контекстная зависимость Contextual dependence : w1, w2 –  слова. f(w1), f(w2), f(w1,w2) –  кол-во страниц, выданных поисковой системой   на запрос со словом  w1, w2  и  ‘w1 && w2’  соответственно. M –  размер индекса поисковой  машины . ,[object Object],[object Object]
Алгоритм работы Текст статьи Термины Слова Вычисление веса Вычисление веса Сборка сущностей Чистка по связям Контекстная зависимость Три объекта - подписи ЯП   –  C# СУБД   –  MSQL 2005
Методы оценки результатов ,[object Object],Q –  количество статей,  M –  ручная оценка сущностей. ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Оценка результатов ,[object Object],[object Object],[object Object],MRR Точность Полнота F- мера 1 0,38 0,28 0,5 0,35 2 0,46 0,38 0,65 0,48 3 0,5 0,42 0,7 0,52
Заключение ,[object Object],[object Object],[object Object],[object Object]

More Related Content

Similar to Автоматический анализ текста для аннотирования изображения

04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информацииLidia Pivovarova
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information ExtractionLidia Pivovarova
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3Vladimir Krylov
 
Евгений Свердлов
Евгений СвердловЕвгений Свердлов
Евгений СвердловLidia Pivovarova
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...AIST
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов Lidia Pivovarova
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text AlalizeOchirov Tsyren
 
Personilized search
Personilized searchPersonilized search
Personilized searchNLPseminar
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииIlia Karpov
 

Similar to Автоматический анализ текста для аннотирования изображения (20)

04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
Chernyak_defense
Chernyak_defenseChernyak_defense
Chernyak_defense
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information Extraction
 
OntoEd
OntoEdOntoEd
OntoEd
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3
 
Евгений Свердлов
Евгений СвердловЕвгений Свердлов
Евгений Свердлов
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Определение новизны информации в новостном кластере
Определение новизны информации в новостном кластереОпределение новизны информации в новостном кластере
Определение новизны информации в новостном кластере
 
Dialog
DialogDialog
Dialog
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Ontology and Text Alalize
Ontology and Text AlalizeOntology and Text Alalize
Ontology and Text Alalize
 
Автоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу словАвтоматическая кластеризация близких по смыслу слов
Автоматическая кластеризация близких по смыслу слов
 
Personilized search
Personilized searchPersonilized search
Personilized search
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 

Автоматический анализ текста для аннотирования изображения

  • 1. Автоматический анализ текста для аннотирования изображения Баев Александр Андреевич Научный руководитель: к.ф.-м.н, с.н.с. Лукашевич Наталья Валентиновна
  • 2.
  • 3.
  • 4. Пример статьи На подмосковной железной дороге произошел взрыв На железнодорожной ветке в подмосковном городе Видное произошел взрыв. Как сообщили РИА Новости в правоохранительных органах в понедельник, 6 октября, в результате повреждены 2,4 метра рельсов. Никто не пострадал. "Интерфакс" уточняет, что взрыв произошел вечером в воскресенье - сигнал о нем поступил в 23:45. По данным милиции, мощность неустановленного взрывного устройства составляла два килограмма в тротиловом эквиваленте. Оно было заложено на подъездной ветке к комбинату "Москокс". По факту произошедшего возбуждено уголовное дело по статье 213 (хулиганство). В оперативно-следственной группе, расследующей это дело, "Интерфаксу" сообщили, что, помимо хулиганства, рассматривают несколько версий произошедшего, включая конкурентную борьбу и теракт. Всего: 100 статей с www.rbk.ru 150 статей с www.lenta.ru
  • 5.
  • 6.
  • 7.
  • 8.
  • 9. Алгоритм работы Текст статьи Термины Слова Вычисление веса Вычисление веса Сборка сущностей Чистка по связям Контекстная зависимость Три объекта - подписи ЯП – C# СУБД – MSQL 2005
  • 10.
  • 11.
  • 12.