Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

об альтернативах коллокациям

632 views

Published on

  • Be the first to comment

  • Be the first to like this

об альтернативах коллокациям

  1. 1. Об альтернативах коллокациям Кочеткова Н. А. Научный руководитель Клышинский Э. С.
  2. 2. Виды словосочетаний Свободные Связные Разрывные Глагольное управление Неразрывные Коллокации
  3. 3. Объемы словарей сочетаемости Название Объем, статей Словарь сочетаемости слов русского языка / Под ред. П. Н. Денисова, В. В. Морковкина. 3-е изд., испр. М., АСТ, 2002. 816 с. 2500 Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка - http://dict.ruslang.ru/abstr_noun.php 10000 Невзорова О.А., Невзоров В.Н., Зинькина Ю.В., Пяткин Н.В. Интегральная технология разрешения омонимии в системе анализа текстовых документов «ЛоТА» 30000
  4. 4. <ul><li>Из-за чего необходимо автоматизировать процесс извлечения баз сочетаемости : </li></ul><ul><li>Большая трудоемкость составления словарей сочетаемости </li></ul><ul><li>Недостаточный для машинной обработки объем существующих словарей </li></ul><ul><li>Узкая специализация словарей </li></ul><ul><li>Необходимость приведения словарей к представлению, удобному для машинной обработки. </li></ul>
  5. 5. Гипотезы в основе метода <ul><li>Синтаксическое подчинение некоторых групп слов может быть выявлено без проведения синтаксического анализа. Это справедливо для морфологически однозначных слов (однозначность части речи). </li></ul><ul><li>В тексте большого объема однозначные группы слов будут встречаться достаточно часто для получения статистически значимых результатов. </li></ul>
  6. 6. Анализируемые группы <ul><li>Следующая за единственным глаголом группа существительного синтаксически подчиняется данному глаголу. </li></ul><ul><li>В 16-летнем возрасте Перл поступил в Бруклинский политехнический институт. </li></ul><ul><li>Выделится </li></ul><ul><li>поступил;в;Бруклинский;политехнический;институт </li></ul><ul><li>В базу попадет сочетание: </li></ul><ul><li>Глагол+предлог+существительное </li></ul><ul><li>ПОСТУПИТЬ;В;ИНСТИТУТ; </li></ul>
  7. 7. Анализируемые группы <ul><li>2. Единственная группа существительного, расположенная в начале предложения перед единственным глаголом, синтаксически подчиняется данному глаголу. </li></ul><ul><li>Эти исследования привели к открытию тау-лептона. </li></ul><ul><li>Выделятся сочетания 2 и 1 типов: </li></ul><ul><li>привели;исследования </li></ul><ul><li>привели;к;открытию </li></ul><ul><li>В базу попадет сочетание: </li></ul><ul><li>Глагол+предлог+существительное </li></ul><ul><li>ПРИВЕСТИ;ИССЛЕДОВАНИЕ; </li></ul><ul><li>ПРИВЕСТИ;К;ОТКРЫТИЕ; </li></ul>
  8. 8. Анализируемые группы <ul><li>3. Прилагательные, расположенные перед первым в предложении существительным или между глаголом и существительным, синтаксически подчиняются данному существительному. </li></ul><ul><li>В 16-летнем возрасте Перл поступил в Бруклинский политехнический институт. </li></ul><ul><li>Выделится </li></ul><ul><li>поступил;в;Бруклинский;политехнический;институт </li></ul><ul><li>В базу попадет сочетание: </li></ul><ul><li>прилагательное+существительное </li></ul><ul><li>ИНСТИТУТ;БРУКЛИНСКИЙ; </li></ul><ul><li>ИНСТИТУТ;ПОЛИТЕХНИЧЕСКИЙ; </li></ul>
  9. 9. Анализируемые группы <ul><li>4. Эти же положения могут быть применены к деепричастиям. </li></ul><ul><li>С 1951 г. Рейнс занимался исследованием нейтрино, используя атомный реактор в Хэнфорде (штат Вашингтон) как источник нейтрино. </li></ul><ul><li>Выделится </li></ul><ul><li>используя;атомный;реактор </li></ul><ul><li>В базу попадет сочетание: </li></ul><ul><li>Деепричастие+предлог+существительное </li></ul><ul><li>ИСПОЛЬЗОВАТЬ;РЕАКТОР; </li></ul>
  10. 10. Анализируемые группы <ul><li>5. Эти же положения могут быть применены к причастиям. </li></ul><ul><li>Рейнс создал группу, работающую в области физики реакторных нейтрино. </li></ul><ul><li>Выделится </li></ul><ul><li>работающую;в;области </li></ul><ul><li>В базу попадет сочетание: </li></ul><ul><li>Причастие+предлог+существительное </li></ul><ul><li>РАБОТАТЬ;В;ОБЛАСТЬ; </li></ul>
  11. 11. Граф конечного автомата 0 1 2 3 Гл. Гл. Пред. Прил. Сущ. Пред. Сущ. Др. Прил. Сущ . Гл. Др . Пред. Прил. Гл. Пред. Прил. Сущ. Др. 0 - начальное состояние 1 - ждем существительное после глагола 2 - ждем существительное до глагола 3 - ждем глагол Зеленый - занести в базу Красный – сброс Черный - переход
  12. 12. Метод создания базы сочетаемости слов <ul><li>Выделить из текста последовательности слов, отвечающие предложенным шаблонам. </li></ul><ul><li>Для каждой уникальной последовательности должна быть подсчитана ее встречаемость, которая в дальнейшем используется для определения статистической значимости результата. </li></ul>
  13. 13. Объем обработанных источников Источник Объем, млн словоупотреблений Библиотека Мошкова 680 РИА Новости 156 Доп. корпус прозы 120 Независимая газета 89 Лента.ру 33 Российская газета 29 PCWeek 28 РБК 21 Компьюлента 9 Итого 1165
  14. 14. Недостаток метода: <ul><li>Омонимичными является большое количество предлогов, например, «по» (река По), «при» (повелительное наклонение единственного числа от «переть») и так далее. </li></ul>
  15. 15. Причины возникновения ошибок <ul><li>Часть из ошибок объясняется не совсем корректной обработкой некоторых видов конструкций. </li></ul><ul><li>Так в предложении «Хочу от лица коллектива поздравить юбиляра» конструкция «от лица» ошибочно относилась к глаголу «хотеть». </li></ul><ul><li>Ассоциации, гиперболы и другие выразительные средства литературного языка. Будучи оторванными от контекста, подобные конструкции удивляют, хотя их выделение с точки зрения приведенных выше шаблонов проводится вполне корректно. </li></ul><ul><ul><li>Месяц гладит камыши </li></ul></ul><ul><ul><li>Сквозь сирени шалаши... </li></ul></ul><ul><li>Ошибки авторов </li></ul>
  16. 16. Числитель показывает общее количество обнаруженных вхождений, знаменатель – количество уникальных сочетаний . Статистика употреблений по частям речи Результаты (по количеству вхождений) Пара Всего вхождений, млн > 1 повторения, млн > 2 повторений, млн Глагол+сущ. 65 / 8,3 60,3 / 3,5 57,7 / 2,3 Деепр.+сущ. 3,5 / 0,88 2,8 / 0,31 2,6 / 0,18 Сущ.+прил. 9,9 / 1,3 9,2 / 0,56 8,8 / 0,36 Часть речи Приняло участие Всего в морфологии Глагол 21500 26400 Сущ. 53300 83000 Прил. 23700 45300
  17. 17. Результаты (процент ошибок) <ul><li>Количество ошибок не превышает 1%. </li></ul><ul><li>В области наиболее частотных сочетаний ошибки метода составляют порядка 0,1%, тогда как сочетания, встретившиеся только один раз, выделяются с примерно 1-2% ошибок. </li></ul>
  18. 18. Выводы <ul><li>Несмотря на то, что для построения баз было использовано около 1,5% всех словоупотреблений, большой объем корпуса позволил получить представительный результат. </li></ul><ul><li>Проведенные эксперименты показали, что выдвинутые гипотезы вполне корректны, хотя и носят вероятностный характер. </li></ul><ul><li>Точность получаемых результатов составляет порядка 99%. </li></ul>

×