SlideShare a Scribd company logo
1 of 25
Анализ текста с помощью MODELBUILDER Инвентарь словосочетаний и повторяющиеся речевые события
Нина Филипповаnina.philippova@gmail.com
Андрей Щёкин ashmind@gmail.com
Model Builder 	Программное обеспечение, разработанное для анализа построения текстов, позволяющее найти уникальные и повторяющиеся речевые события на разных уровнях (слово, словосочетние, фунцкия, конструкция). http://labs.ashmind.com/imb
Задачи Поиск уникальных и повторяющихся речевых событий Их количественная обработка Аннотация словоформ* Поиск уникальных и повторяющихся речевых конструктов на базе аннотации* Генерация моделей на базе найденных конструкций* Экспорт результатов *дополнительные задачи
речевые события
Речевые события Однословные Неоднословные Уникальные Повторяющиеся  Воспроизводимые Типичные ...
Единицы речи Только воспроизводимые Главная проблема, с которой сталкиваетсялингвистический анализ, – это определениеграниц и статуса лингвистических единиц, начиная с морфемы и заканчивая предложением и текстом.
Текст Вербальная сторона коммуникации Пример использования разных речевых единиц для разных задач Источникзнаний о том, как строится речь 
Анализ текста с помощью Model Builder
Технические требования Windows XP, Vista or 7 .NET Framework 3.5 SP1* * может быть установлен по ссылке
Файлы проекта <имя_файла>.txt* <имя_файла>.txt.annotated <имя_файла>.txt.anproject *файл должен быть сохранен в кодировке  UTF-8
Опции поиска Step—шаг, в рамках которого программа ищет в тексте последовательности. Length—максимальное количество слов в последовательности: если используется опция Exact, Model Builder ищет только последовательности с заданным значением Length; если опция Exact не используется, Model Builder ищет последовательности длиной от 1 до заданного значения.
Основные сценарии Поиск однословных речевых событий (token)  Поиск многословных последовательностей (n-gram) Поиск конструкций на базе разметки Объединение конструкций в модели
Сценарий 1. Поиск однословных речевых событий (token)  Результатом такого поиска является конкорданс, который составляют слова и словоформы.
Calculate – запускает поиск, а также пересчитывает результаты после настройки опций.
Столбик рядом с тектом показывет все употребления слова, выделенного на панели справа.  По щелчку левой клавиши мыши можно перейти к любому месту в тексте.
Сценарий 2. Поиск многословных последовательностей (n-gram) 	Все последовательности, удовлетворяющие заданным условиям, представлены на панели результатов и отсортированы по частотности (Count).   
MODEL BUILDER всегда сравнивает результаты последнего поиска с предыдущим. Плюсами отмечены  новые последовательности.
Сценарий 3. Поиск конструкций  	В средней панели для каждой словоформы можно указать ее функцию или класс, к которому она принадлежит.
Использование аннотации 	При поиске последовательностей Model Builder может заменять слово на его функцию и показывать конструкции, состоящие из слов и функций или только функций, 	например: S(субъект) P(предикат) O(объект) вместо Николай любит фрукты.
Сценарий 4. Объединение конструкций в модели Для последнего сценария используется текст, в котором  дополнительно отмечены границы «непредложенческих» высказываний, а также предикативных и номинативных основ с зависимыми словами. 	Перед тем, как построить модели, нужно найти конструкции без использования функцииExact.
Спасибо за внимание!

More Related Content

Viewers also liked

Syntax Mark-Up (Russian Language)
Syntax Mark-Up (Russian Language)Syntax Mark-Up (Russian Language)
Syntax Mark-Up (Russian Language)Lutic
 
Kuran ı Anlamak
Kuran ı AnlamakKuran ı Anlamak
Kuran ı Anlamakyenibiz
 
CòPia De Parc Saavedraii
CòPia De Parc SaavedraiiCòPia De Parc Saavedraii
CòPia De Parc Saavedraiia_la_porra
 
Yoga and work life balance
Yoga and work life balanceYoga and work life balance
Yoga and work life balanceDeepak Khaire
 
Pacote De Biscoitosj
Pacote De BiscoitosjPacote De Biscoitosj
Pacote De Biscoitosjguestf77bdb
 
Optikai Csalodasok
Optikai CsalodasokOptikai Csalodasok
Optikai Csalodasoksandra33
 
Zaman Yönetimi
Zaman YönetimiZaman Yönetimi
Zaman Yönetimiyenibiz
 
Vivekananda Kendra Hyderabad
Vivekananda Kendra HyderabadVivekananda Kendra Hyderabad
Vivekananda Kendra HyderabadDeepak Khaire
 
Social networking api for Android Developers
Social networking api for Android DevelopersSocial networking api for Android Developers
Social networking api for Android DevelopersSatyam Twanabasu
 
Handling Conflict At Workplace
Handling Conflict At WorkplaceHandling Conflict At Workplace
Handling Conflict At WorkplaceDeepak Khaire
 

Viewers also liked (12)

Syntax Mark-Up (Russian Language)
Syntax Mark-Up (Russian Language)Syntax Mark-Up (Russian Language)
Syntax Mark-Up (Russian Language)
 
Kuran ı Anlamak
Kuran ı AnlamakKuran ı Anlamak
Kuran ı Anlamak
 
Copyleft
CopyleftCopyleft
Copyleft
 
pallaso
pallasopallaso
pallaso
 
CòPia De Parc Saavedraii
CòPia De Parc SaavedraiiCòPia De Parc Saavedraii
CòPia De Parc Saavedraii
 
Yoga and work life balance
Yoga and work life balanceYoga and work life balance
Yoga and work life balance
 
Pacote De Biscoitosj
Pacote De BiscoitosjPacote De Biscoitosj
Pacote De Biscoitosj
 
Optikai Csalodasok
Optikai CsalodasokOptikai Csalodasok
Optikai Csalodasok
 
Zaman Yönetimi
Zaman YönetimiZaman Yönetimi
Zaman Yönetimi
 
Vivekananda Kendra Hyderabad
Vivekananda Kendra HyderabadVivekananda Kendra Hyderabad
Vivekananda Kendra Hyderabad
 
Social networking api for Android Developers
Social networking api for Android DevelopersSocial networking api for Android Developers
Social networking api for Android Developers
 
Handling Conflict At Workplace
Handling Conflict At WorkplaceHandling Conflict At Workplace
Handling Conflict At Workplace
 

Similar to Model Builder (Russian Language)

Конспект лекций по курсу "Шаблоны разработки ПО"
Конспект лекций по курсу "Шаблоны разработки ПО"Конспект лекций по курсу "Шаблоны разработки ПО"
Конспект лекций по курсу "Шаблоны разработки ПО"Sergey Nemchinsky
 
Сила парадигмы: обзор парадигм программирования
Сила парадигмы: обзор парадигм программированияСила парадигмы: обзор парадигм программирования
Сила парадигмы: обзор парадигм программированияVasiliy Sabadazh
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
Шаблоны разработки ПО. Часть 1. Введние
Шаблоны разработки ПО. Часть 1. ВведниеШаблоны разработки ПО. Часть 1. Введние
Шаблоны разработки ПО. Часть 1. ВведниеSergey Nemchinsky
 
Практический анализ и визуальное моделирование на UML
Практический анализ и визуальное моделирование на UMLПрактический анализ и визуальное моделирование на UML
Практический анализ и визуальное моделирование на UMLNikolai Kireev
 
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)Стас Поломарь
 
Writing a computer vision paper
Writing a computer vision paperWriting a computer vision paper
Writing a computer vision paperAnton Konushin
 
Симуляционное моделирование и семантические технологии
Симуляционное моделирование и семантические технологииСимуляционное моделирование и семантические технологии
Симуляционное моделирование и семантические технологииSergey Gorshkov
 
Разработка ПО. Введение в специальность 3. Требования
 Разработка ПО. Введение в специальность 3. Требования Разработка ПО. Введение в специальность 3. Требования
Разработка ПО. Введение в специальность 3. ТребованияPavel Egorov
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
Понятия технологии разработки объектно-ориентированных информационных систем ...
Понятия технологии разработки объектно-ориентированных информационных систем ...Понятия технологии разработки объектно-ориентированных информационных систем ...
Понятия технологии разработки объектно-ориентированных информационных систем ...Aimurat Adilbekov
 
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ITMO University
 
Практические аспекты разработки ПО #3
Практические аспекты разработки ПО #3Практические аспекты разработки ПО #3
Практические аспекты разработки ПО #3Denis Umnov
 
C++ осень 2012 лекция 7
C++ осень 2012 лекция 7C++ осень 2012 лекция 7
C++ осень 2012 лекция 7Technopark
 
Деловая переписка
Деловая перепискаДеловая переписка
Деловая перепискаNetpeak
 
Практический анализ по RUP
Практический анализ по RUPПрактический анализ по RUP
Практический анализ по RUPSQALab
 

Similar to Model Builder (Russian Language) (20)

Авиком
АвикомАвиком
Авиком
 
Конспект лекций по курсу "Шаблоны разработки ПО"
Конспект лекций по курсу "Шаблоны разработки ПО"Конспект лекций по курсу "Шаблоны разработки ПО"
Конспект лекций по курсу "Шаблоны разработки ПО"
 
Сила парадигмы: обзор парадигм программирования
Сила парадигмы: обзор парадигм программированияСила парадигмы: обзор парадигм программирования
Сила парадигмы: обзор парадигм программирования
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
Шаблоны разработки ПО. Часть 1. Введние
Шаблоны разработки ПО. Часть 1. ВведниеШаблоны разработки ПО. Часть 1. Введние
Шаблоны разработки ПО. Часть 1. Введние
 
Интегрированная среда для языка Рефал
Интегрированная среда для языка РефалИнтегрированная среда для языка Рефал
Интегрированная среда для языка Рефал
 
Практический анализ и визуальное моделирование на UML
Практический анализ и визуальное моделирование на UMLПрактический анализ и визуальное моделирование на UML
Практический анализ и визуальное моделирование на UML
 
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
Алгоритмы аннотирования, влияние на сниппеты (IBC 14)
 
Writing a computer vision paper
Writing a computer vision paperWriting a computer vision paper
Writing a computer vision paper
 
Симуляционное моделирование и семантические технологии
Симуляционное моделирование и семантические технологииСимуляционное моделирование и семантические технологии
Симуляционное моделирование и семантические технологии
 
UML: Kinds of Diagram
UML:  Kinds of DiagramUML:  Kinds of Diagram
UML: Kinds of Diagram
 
Разработка ПО. Введение в специальность 3. Требования
 Разработка ПО. Введение в специальность 3. Требования Разработка ПО. Введение в специальность 3. Требования
Разработка ПО. Введение в специальность 3. Требования
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
Понятия технологии разработки объектно-ориентированных информационных систем ...
Понятия технологии разработки объектно-ориентированных информационных систем ...Понятия технологии разработки объектно-ориентированных информационных систем ...
Понятия технологии разработки объектно-ориентированных информационных систем ...
 
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
ОСНОВНЫЕ ПРИНЦИПЫ РЕШЕНИЯ ЗАДАЧИ ПРЕОБРАЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО КОД...
 
Практические аспекты разработки ПО #3
Практические аспекты разработки ПО #3Практические аспекты разработки ПО #3
Практические аспекты разработки ПО #3
 
C++ осень 2012 лекция 7
C++ осень 2012 лекция 7C++ осень 2012 лекция 7
C++ осень 2012 лекция 7
 
Деловая переписка
Деловая перепискаДеловая переписка
Деловая переписка
 
Практический анализ по RUP
Практический анализ по RUPПрактический анализ по RUP
Практический анализ по RUP
 

Model Builder (Russian Language)

  • 1. Анализ текста с помощью MODELBUILDER Инвентарь словосочетаний и повторяющиеся речевые события
  • 4. Model Builder Программное обеспечение, разработанное для анализа построения текстов, позволяющее найти уникальные и повторяющиеся речевые события на разных уровнях (слово, словосочетние, фунцкия, конструкция). http://labs.ashmind.com/imb
  • 5. Задачи Поиск уникальных и повторяющихся речевых событий Их количественная обработка Аннотация словоформ* Поиск уникальных и повторяющихся речевых конструктов на базе аннотации* Генерация моделей на базе найденных конструкций* Экспорт результатов *дополнительные задачи
  • 7. Речевые события Однословные Неоднословные Уникальные Повторяющиеся Воспроизводимые Типичные ...
  • 8. Единицы речи Только воспроизводимые Главная проблема, с которой сталкиваетсялингвистический анализ, – это определениеграниц и статуса лингвистических единиц, начиная с морфемы и заканчивая предложением и текстом.
  • 9. Текст Вербальная сторона коммуникации Пример использования разных речевых единиц для разных задач Источникзнаний о том, как строится речь 
  • 10. Анализ текста с помощью Model Builder
  • 11. Технические требования Windows XP, Vista or 7 .NET Framework 3.5 SP1* * может быть установлен по ссылке
  • 12. Файлы проекта <имя_файла>.txt* <имя_файла>.txt.annotated <имя_файла>.txt.anproject *файл должен быть сохранен в кодировке UTF-8
  • 13. Опции поиска Step—шаг, в рамках которого программа ищет в тексте последовательности. Length—максимальное количество слов в последовательности: если используется опция Exact, Model Builder ищет только последовательности с заданным значением Length; если опция Exact не используется, Model Builder ищет последовательности длиной от 1 до заданного значения.
  • 14. Основные сценарии Поиск однословных речевых событий (token) Поиск многословных последовательностей (n-gram) Поиск конструкций на базе разметки Объединение конструкций в модели
  • 15. Сценарий 1. Поиск однословных речевых событий (token) Результатом такого поиска является конкорданс, который составляют слова и словоформы.
  • 16. Calculate – запускает поиск, а также пересчитывает результаты после настройки опций.
  • 17. Столбик рядом с тектом показывет все употребления слова, выделенного на панели справа. По щелчку левой клавиши мыши можно перейти к любому месту в тексте.
  • 18. Сценарий 2. Поиск многословных последовательностей (n-gram) Все последовательности, удовлетворяющие заданным условиям, представлены на панели результатов и отсортированы по частотности (Count).  
  • 19. MODEL BUILDER всегда сравнивает результаты последнего поиска с предыдущим. Плюсами отмечены новые последовательности.
  • 20. Сценарий 3. Поиск конструкций В средней панели для каждой словоформы можно указать ее функцию или класс, к которому она принадлежит.
  • 21. Использование аннотации При поиске последовательностей Model Builder может заменять слово на его функцию и показывать конструкции, состоящие из слов и функций или только функций, например: S(субъект) P(предикат) O(объект) вместо Николай любит фрукты.
  • 22.
  • 23. Сценарий 4. Объединение конструкций в модели Для последнего сценария используется текст, в котором дополнительно отмечены границы «непредложенческих» высказываний, а также предикативных и номинативных основ с зависимыми словами. Перед тем, как построить модели, нужно найти конструкции без использования функцииExact.
  • 24.

Editor's Notes

  1. Настройка опцийStep: 1Length:1Functions: Do not use
  2. Настройка опцийStep: 4Length:4Exact: выделеноFunctions: Use if specified