ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...Сергей Пономарев
Настоящая статья описывает метод построения отношений вида «синоним», «гиперним» и «гипоним» в смешанной онтологической сети. Построенные отношения использовались для решения задач определения семантической близости и ассоциаций между словами в рамках тестирования на полях форума «Диалог-2015».
ПОСТРОЕНИЕ ОТНОШЕНИЙ В СМЕШАННОЙ ОНТОЛОГИЧЕСКОЙ СЕТИ ДЛЯ РЕШЕНИЯ ЗАДАЧ ТЕСТИР...Сергей Пономарев
Настоящая статья описывает метод построения отношений вида «синоним», «гиперним» и «гипоним» в смешанной онтологической сети. Построенные отношения использовались для решения задач определения семантической близости и ассоциаций между словами в рамках тестирования на полях форума «Диалог-2015».
Аналитика SEO: часть 2. Ссылочные факторы ранжированияДмитрий Севальнев
1) Появление ссылочных факторов ранжирования, анкор-лист.
2) Факторы учитывающие количество и процент вхождений слов запроса
3) Какие они «хорошие» и «плохие» ссылки? Безанкорные ссылки.
4) Учёт тематики и региональной связи «донор-акцептор».
5) Возраст ссылочной массы и динамика прироста ссылок.
6) Вопросы слушателей.
В гостях: Станислав Ставский.
Видео доступно по ссылке: http://www.youtube.com/user/pixelplusru/videos
Python для тематического моделирования комментариев ВКонтакте, Дмитрий Сергее...Mail.ru Group
Как собрать 10 миллионов комментариев, используя API ВКонтакте и YouTube, посмотрим, о чем говорят пользователи, слушающие разные жанры музыки, и дадим ответы на такие важные вопросы как:
- Может ли тематическое моделирование помочь с кластеризацией жанров?
- Есть ли что-то общее у слушателей шансона и джаза?
- Как измерить близость Киркорова к Антохе МС?
The document describes a hybrid ontological network used for learning by analogy. The network contains over 1 million nodes and 639 million links of 64 different types extracted from multiple sources and statistical text processing. It provides redundant and highly interrelated information. The network is used in a question answering system to generate answers to questions. Through iterative training on question-answer pairs, the system induces rules that allow it to apply analogical reasoning to answer new questions by finding paths between terms in the network.
Аналитика SEO: часть 2. Ссылочные факторы ранжированияДмитрий Севальнев
1) Появление ссылочных факторов ранжирования, анкор-лист.
2) Факторы учитывающие количество и процент вхождений слов запроса
3) Какие они «хорошие» и «плохие» ссылки? Безанкорные ссылки.
4) Учёт тематики и региональной связи «донор-акцептор».
5) Возраст ссылочной массы и динамика прироста ссылок.
6) Вопросы слушателей.
В гостях: Станислав Ставский.
Видео доступно по ссылке: http://www.youtube.com/user/pixelplusru/videos
Python для тематического моделирования комментариев ВКонтакте, Дмитрий Сергее...Mail.ru Group
Как собрать 10 миллионов комментариев, используя API ВКонтакте и YouTube, посмотрим, о чем говорят пользователи, слушающие разные жанры музыки, и дадим ответы на такие важные вопросы как:
- Может ли тематическое моделирование помочь с кластеризацией жанров?
- Есть ли что-то общее у слушателей шансона и джаза?
- Как измерить близость Киркорова к Антохе МС?
The document describes a hybrid ontological network used for learning by analogy. The network contains over 1 million nodes and 639 million links of 64 different types extracted from multiple sources and statistical text processing. It provides redundant and highly interrelated information. The network is used in a question answering system to generate answers to questions. Through iterative training on question-answer pairs, the system induces rules that allow it to apply analogical reasoning to answer new questions by finding paths between terms in the network.
LEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORKСергей Пономарев
This article describes the general principles of question-answering (QA) system, which produces answers to questions by analogy with the answers and the questions at training sets. As a knowledge base the system uses a number of ontological information of words and expressions from open-access sources and statistic information, collected by processing large text corpora.
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Дмитрий Севальнев
=План доклада=
1. Аналитика
- переколдовка запроса
- веса слов и контекстные ограничения
- отсечение СПЕКТРА и новостной примеси в выдаче Яндекса
- поиск синонимов
- отслеживание изменений словаря синонимов
2. Практика
- учёт синонимов в текстовой оптимизации сайта
- расширение семантического ядра
- объединение запросов в группы
Вниманию участников мастер-класса были представлены основные механизмы SEO-оптимизации и продвижения.
- Как оптимально составить семантическое ядро?
- На что стоит обратить внимание при проработке структуры сайта?
- Как и с помощью каких инструментов отследить эффективность SEO?
На эти и другие вопросы отвечала Ирина Филимонова - руководитель отдела маркетинга сайтов «КиноПоиск» и «Яндекс.Телепрограммы». Работает в интернет-маркетинге шесть лет; имеет опыт SEO-оптимизации и продвижения как на стороне клиента, так в агентствах; преподает в учебном центре при МГТУ имени Н.Э. Баумана.
Мероприятие состоялось 31 мая 2017 года в медиацентре «АСИ – Благосфера».
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев ДмитрийДмитрий Севальнев
Подробнее: http://www.pixelplus.ru/samostoyatelno/seo-poshagovo/
Проводим эксперименты по SEO!
Поле для экспериментов
- Индексация.
- Текстовое ранжирование.
- Ссылочное ранжирование.
- Изменение алгоритмов поисковых систем.
- Поведенческие факторы.
- Социальные факторы.
- Факторы, связанные с обработкой и анализом URL.
- Геоклассификация.
- И другие группы…
Презентация с бесплатного вебинара от Netpeak "Принципы работы поисковой системы".
Докладчик Алексей Данилин — SEO-специалист компании Netpeak.
Netpeak — интернет-маркетинг для вашего бизнеса.
• • • • • • •
Читайте про интернет-маркетинг в Блоге Netpeak: http://blog.netpeak.ru/
Узнайте больше о Netpeak: http://netpeak.net/
2. • Возьмём Викисловарь, и закодируем его в виде графа, где узлами
являются слова, а рёбрами – именованные связи между словами.
• Связи будем кодировать в виде “яблоко > [гипероним] > плод” и “плод >
[~гипероним] > яблоко”. Всего Викисловарь даёт порядка 315 тысяч
вершин и 4.5 миллионов связей между ними.
• Расширим базу, загрузив в неё доступные в открытом доступе словари
(толковые, энциклопедические, синонимов, взаимозаменяемых
выражений, арго и т.д.), а также тезаурусы.
• Проведём парсинг 10 Гб художественных текстов и новостных
сообщений, занесём в базу накопленные согласованные N-граммы.
• В результате получим базу, содержащую в себе более 1 млн. вершин и
порядка 150 миллионов связей между вершинами 32-х типов. База
именованных связей между понятиями – триплетов, является
онтологией. А база, накопленная на основании автоматического
парсинга разнородных источников и статистической обработки текстов,
является народной онтологией.
Теория: http://en.wikipedia.org/wiki/Folksonomy#Folksontology
3. • Среднее число связей на вершину – 150, при этом, для
распространённых слов и понятий количество связей
достигает сотен тысяч, а для нераспространённых –
единиц и десятков. Важно, что база имеет высокую
связность, и всегда можно найти множество вариантов
пути от одной вершины к другой. Это справедливо даже
для слов, не представленных ни в одном из словарей и
тезаурусов. Такие слова как минимум имеют связи
через статистику использования – N-граммы.
Теория:
http://en.wikipedia.org/wiki/Folksonomy#Folksontology
4. Предположим, некто ввёл в Яндексе поисковый запрос
Изучив результаты выдачи, некто решил конкретизировать
свой запрос и ввёл
Имеется ли возможность определить, что минивэны
релевантны запросу “большая семейная машина” для
таргетирования рекламы и улучшения результатов поиска?
5. Для этого в базе народной онтологии необходимо найти
такой путь от вершин “большая”, “семейная” и “машина”,
чтобы они сходились на вершине “минивэн” с высокой
достоверностью. Рассмотрим возможный вариант такого
пути:
1. машина > [синоним] > автомобиль
2. большой > [~N-грамма прил.-сущ.] > минивэн
3. семейный > [~N-грамма прил.-сущ.] > минивэн
4. автомобиль > [~определяющее слово] > минивэн
Источником первой связи являются словари, источниками
остальных связей – парсинг текстов.
6. Таким образом, изучив историю запросов пользователя Яндекса, мы смогли
построить некоторый алгоритм вычисления уточнённого запроса. Попробуем
применить этот алгоритм.
1. способ > [синоним] > алгоритм
2. быстрый > [~N-грамма прил.-сущ.] > поразрядная сортировка
3. сортировки > [прямое соответствие лемм] > поразрядная сортировка
4. алгоритм > [~определяющее слово] > поразрядная сортировка
В итоге, имеем ожидаемое уточнение запроса “быстрый способ сортировки”
до запроса “поразрядная сортировка”. Можно сформировать подсказку вида
Возможно, Вас заинтересует поразрядная сортировка
и таргетировать рекламу.
7. На примере показано, что:
• Пользователи Яндекса могут обучать Яндекс стратегии поиска, в
результате Яндекс способен предполагать следующий уточняющий
запрос, давать подсказки, повышая юзабилити, и таргетировать рекламу;
• Пути в базе народной онтологии универсальны и применимы к запросам
из разных предметных областей;
• Пути, описывающие стратегию поиска пользователей Яндекса, можно
генерировать и уточнять автоматически.
При автоматической генерации пути, соответствующего паре “запрос” –
“уточнённый запрос”, генерируется не единственный, как в примере, путь, а
набор путей, взвешенных весовыми коэффициентами. При обработке
однотипных пар “запрос” – “уточнённый запрос” коэффициенты
настраиваются методами машинного обучения под максимальную
релевантность результата. Другими словами, при автоматической генерации
формируется правило, принимающее на своём входе набор путей,
взвешивающее их весовыми коэффициентами и подстраивающее
коэффициенты для уменьшения ошибки. Да, это он -
https://ru.wikipedia.org/wiki/Персептрон Только оперирует персептрон не
числовыми значениями входов, а словами.