2. Что обсуждаем?
2
1. Существование текстовых факторов
2. Текстовые приоритеты
3. Формулы учитывающие частоту употребления, объем
4. Качество текста
5. n-грамные языковые модели, биграммы, триграммы, коллокации
6. Вопросы слушателей
3. Текстовые факторы
3
1. Самые первые и понятные
2. Существует более 50 различных текстовых факторов
3. Запросозависимые и запросонезависимые факторы
4. Факторы учитывающие как частоту термина, так расположение
4. Текстовые приоритеты
4
Существует три принятых текстовых приоритета
1. Phrase — все слова из запроса подряд встречаются в документе.
2. Strict — все слова из запроса есть в документе с учётом
контекстных ограничений.
3. All — все остальные найденные документы
6. Формулы типа TF-IDF и BM25
6
1. TF×IDF
2. BM25
Основные параметры
q — слово запроса, D — документ, f — частота термина,
|D| — длина документа в словах,
avgdl — средняя длина документа в коллекции,
k и b — свободные коэффициенты.
7. Формулы типа TF-IDF и BM25
7
Модификации формулы BM25
1. Расчет BM25 по фрагменту документа (BM25F).
2. С учётом и без учёта синонимов.
3. С различными весами слов (выделения, title, начало документа).
9. Качество текста
9
Возможные факторы
1. Естественность текста по отношению к языку.
2. Дисперсия длин предложений, средняя длина слов.
3. Доля уникальных биграмм, триграмм.
4. Доля прилагательных, существительных, …
5. …
10. Языковые модели
10
n-грамные языковые модели
1. На практике чаще используются n = 1 (уни-), 2 (би-), 3 (три-).
2. Вероятность появления слова n в последовательности зависит
только от предыдущих n-1 слов.