Клышинский 8.12

На каком языке этот текст?

Ответ математиков

Клышинский Э.С.
ИПМ им. М.В. Келдыша РАН

Санкт-Петербург
08.12.2012

Необходимость определения языка
Машинный Многоязыковой
перевод анализ текстов

Фактографический
Определение
анализ на основе
языка текста
новостей

Составление
Определение
подшивок
диалекта
документов

Существующие решения
Определение языка текста

• Словарные методы, основанные на
применении морфологического словаря.
• Решающие правила, учитывающие
особенности языка
• Методы, основанные на выделении
подстрок длины n (n-граммные методы).


• Словарные методы
При наличии морфологических словарей
для всех языков можно попытаться
проанализировать небольшой фрагмент
текста. Язык, для которого разобралась
наибольшая часть фрагмента, выигрывает.


Но есть нюанс.
Словарей не так много, как хотелось бы, а
интерфейсов к ним гораздо больше, чем
хотелось бы.


• Словарные методы – характерные слова
Например, использование артиклей или
форм глагола «быть».
англ. the, фр. le, la, нем. die, der, das, ит. Il
англ. a, an, фр. un, une,, нем. ein, нидерл.
een, франц. un, исп. un, порт. um, тур. bir


«Другие языки, такие как русский,
большинство других славянских языков (за
исключением болгарского и македонского),
санскрит, латинский, китайский, японский,
тамильский, тайский, формально не имеют
артиклей вовсе». (Википедия)


Но есть top-100 слов, вероятность встретить
которые очень велика.
Этот словарь может быть составлен
автоматически по набору текстов на
заданном языке. tf*idf, только наоборот.


• Решающие правила на основе
характеристичных букв и их сочетаний
dh – хинди
tsch – немецкий
ё – русский, албанский, таджикский
カタカナ – катакана (яп.)


Но есть нюанс.
Стандарт ИКАО по оформлению
проездных документов. Счастье, что не
текстов! И японцы в латинице всё равно
характерны.


• Методы основанные на построении
языковой модели на основе n-грамм

По заранее классифицированным текстам
рассчитывается вероятность встретить
данное сочетание.



Классическая задача классификации:
проводится обучение, после чего требуется
отнести объект к одному из классов.

«Это всем известно и никому не интересно».

Определение языка имени
собственного
«Что в имени тебе моем?» - сказал другой
классик.

Необходимость определения языка
Синтез речи Выделение
заимствований
Определение в тексте
языка
происхождения Транскрипция
имени имен
собственного собственных

Выделение
Идентификация
именованных
именованных
сущностей
сущностей

Выделение имени собственного
Есть несколько правил, которые серьезно
помогают.
1. Имя собственное пишется с большой
буквы.
Жаль не везде.
Мухаммед ибн Муса Хорезми

И не всё, что пишется с Большой Буквы есть
Имя Собственное.

Есть несколько правил, которые серьезно
помогают.
2. Префикс, указывающий на положение в
обществе, звание, должность…

dr, mr, mrs, г-н, директор <название>, озеро,
город, …

Получается по-разному.

Малая Вишера - родительный падеж от

Малай Вишер


Вообще, этим много кто занимается.

Оставайтесь с нами!
Татьяна Ландо (Яндекс). Автоматическое
извлечение фактов из текста на примере
сервиса Яндекс.Пресс-портреты.
03 Апрель 2010, Семинар NLP, Санкт-Петербург

Идентификация носителя имени

Steinberger J., Lenkova P., Kabadjov M., Steinberger R., van der Goot E.
Multilingual Statistical News Summarisation: Preliminary Experiments
with English // In Proc. of the 8th International Conference Recent
Advances in Natural Language Processing


Обучение КА производится с помощью:
• Алгоритма Дейкстры (для распознающего КА)
• EM-алгоритма (для преобразующих КА)

K. Knight and J. Graehl. 1998. Machine transliteration.
Computational Linguistics, 24(4):599–612.

Другие алгоритмы идентификации:
• Транскрипция с последующим (не)четким
поиском;
• Алгоритм Левенштейна на базе имен;
• Применение методов l- и lk-грамм при поиске в
базе имен;
•…

Недостатки методов
определения языка текста
• Небольшая длина имени
• Отсутствие полных словарей
имен собственных
• Невозможность использования баз данных
(например, результатов переписи) в связи с
многонациональностью имен


Холмс, но, черт возьми, как?

Определение языка имени собственного
Как было сказано, мы не можем
использовать словари – они неполны.

Но в принципе можем использовать результаты
переписи.
«Выделено девять подвидов тигра, из которых к
началу XXI века сохранились лишь шесть — общее
поголовье порядка 4000—6500 особей, …»
«Согласно данным Ассоциации зоопарков и
аквариумов мира, примерно 12 000 особей тигров
содержится в США в качестве домашних
животных.» (Википедия)

Но в принципе можем использовать результаты
переписи.

Политкорректно
получилось,
да?


• Решающие правила на основе характерных
букв и их сочетаний

Вероятность обнаружить характеристичное
сочетание в отдельном имени невелика.



Зачастую приходится работать с именами,
записанными на чистой латинице.



Метод применим при наличии
размеченной базы имен.

Вероятностная модель
• p(ci, ci-1, ci-2) – вероятность встретить
триграмму;
• p(ci| ci-1, ci-2) – условная вероятность
появления символа ci при условии, что он
находится после символов ci-1, ci-2.
• p(ci| ci-1, ci-2) * p(ci| ci-1, ci+1) * p(ci| ci+1, ci+2) –
условная вероятность встретить символ ci с
учетом четырех соседних.

Методы основанные на построении языковой
модели на основе n-грамм
•
•
•
•
•
•

Зависимость от количества языков

Зависимость от количества языков
Обратите внимание, произведение
вероятностей на достаточно большом тексте
обязательно даст ноль. Пользуйтесь
логарифмами. Или суммой.

Зависимость от метода расчета
Основной
БОЛГАРИЯ
Основной
ДАНИЯ
Основной ЕГИПЕТ
ИЗРАИЛЬ
Основной
ИРАН

Основной
ИРЛАНДИЯ
ИСПАНИЯ
Основной КИТАЙ
ЛИТВА
Основной
НИДЕРЛАНДЫ
Основной ПОРТУГАЛьский
ФИНЛЯНДИЯ
Основной
ФРАНЦИЯ
Основной ЯПОНИЯ
английский
Основной
немецкий
Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной Основной

Сумма вероятностей, обучение

Основной
БОЛГАРИЯ
Основной ДАНИЯ
ЕГИПЕТ
Основной
ИЗРАИЛЬ
Основной ИРАН
ИРЛАНДИЯ
Основной
ИСПАНИЯ
ЛИТВА
Основной
ФИНЛЯНДИЯ
Основной ФРАНЦИЯ

Основной немецкий
Основной Основной Основной Основной Основной Основной Основной Основной

Произведение вероятностей, обучение

Основной
БОЛГАРИЯ
Основной
ИЗРАИЛЬ
ИРАН
Основной
ИРЛАНДИЯ
Основной ИСПАНИЯ
КИТАЙ
Основной
ЛИТВА
Основной НИДЕРЛАНДЫ
ПОРТУГАЛьский
Основной
ФИНЛЯНДИЯ
Основной
ЯПОНИЯ
Основной
немецкий
Основной Основной Основной Основной Основной Основной Основной

Сумма вероятностей, тест

Основной
БОЛГАРИЯ
Основной
ДАНИЯ
ИЗРАИЛЬ
Основной ИРЛАНДИЯ
ИСПАНИЯ
ЛИТВА
Основной
ФИНЛЯНДИЯ
Основной
ФРАНЦИЯ
Основной Основной Основной Основной Основной Основной Основной

Произведение вероятностей, тест

Еще раз, для сравнения
Основной
БОЛГАРИЯ
ЕГИПЕТ
Основной
ИЗРАИЛЬ
ИРЛАНДИЯ
Основной
ИСПАНИЯ
ЛИТВА
Основной
ФИНЛЯНДИЯ

Основной Основной Основной Основной Основной Основной Основной Основной

Произведение вероятностей, обучение

Вот такая вот арифметика

Нечеткая классификация (3 языка)
Основной
БОЛГАРИЯ
ЕГИПЕТ
Основной
ИЗРАИЛЬ
ИРЛАНДИЯ
Основной
ИСПАНИЯ
ЛИТВА
Основной
ФИНЛЯНДИЯ
Основной
ФРАНЦИЯ
Основной
Основной Основной Основной Основной Основной Основной немецкий
Основной

Произведение вероятностей, тест

А что про это думают те, кто лучше нас?

Vatanen T., Väyrynen J. J., Virpioja S. Language Identification of
Short Text Segments with N-gram Models // In Proceedings of
the Seventh conference on International Language Resources
and Evaluation (LREC'10), p. 3423–3430.


Thomas S., Verma A. Language Identification of Person Names
using CF-IOF based Weighing Function // In Proc. of Annual
Conference of the International Speech Communication
Association - INTERSPEECH , pp. 1769-1772, 2007


26 языков – это уже серьезно.
Chen S.F., Maison B. Using Place Name Data to Train Language
Identification Models // In Proc. of the 2012 Conference of the
North American Chapter of the Association for Computational
Linguistics: Human Language Technologies pp. 367-371

Выводы
• Лучший результат был получен с
использованием мультипликативного
критерия
• Неплохо себя показывают
комбинированные меры.
• Качество распознавания зависит от
количества языков логарифмически.

Еще Выводы
• На самом деле сильно влияет
используемый корпус. Все приведенные на
графиках результаты были получены при
полном отсутствии диакритических знаков.
• Чуть лучше получается идентифицировать
только фамилии, так как они реже
заимствуются.
• Сперва определить группу языков, а потом
язык иногда помогает.

Спасибо за внимание!

В докладе использовались кадры из фильма

Клышинский 8.12

Recommended

Recommended

More Related Content

More from Natalia Ostapuk

More from Natalia Ostapuk (20)

Клышинский 8.12