Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
Лекция Екатерины Гладких в Школе вебмастеров: «Плохие методы продвижения сайта»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как завязывают с портянками
Как использовать wordstat, чтобы превратить текст в SEO-портянку. Как Яндекс определяет текстовый спам и какие ограничения могут быть применены к сайтам, злоупотребляющим ключевыми словами.
Эффектное размещение SEO-ссылок
Какие бывают SEO-ссылки и как они классифицируются в базе Яндекса. В чём отличие SEO-ссылок от рекламы. Как размещать SEO-ссылки наиболее эффектно. Методы борьбы против ссылочного спама – АГС и Минусинск. Снятие ссылок.
Поведенческие факторы, медитативные практики
Популярные сервисы накрутки: как это работает и как это не работает. Методы накрутки и методы борьбы с мошенничеством. Примеры пользовательских сессий и кто на самом деле посещает ваш сайт. Как выйти из-под санкций за накрутку поведенческих факторов.
Интернет развивается с огромной скоростью и одной из основных тенденций последнего времени является перенос десктопных приложений в облака и работа с ними через браузер. Ключевыми особенностями таких «живых» сайтов являются интерактивнось и скорость отклика.
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
Лекция Екатерины Гладких в Школе вебмастеров: «Плохие методы продвижения сайта»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как завязывают с портянками
Как использовать wordstat, чтобы превратить текст в SEO-портянку. Как Яндекс определяет текстовый спам и какие ограничения могут быть применены к сайтам, злоупотребляющим ключевыми словами.
Эффектное размещение SEO-ссылок
Какие бывают SEO-ссылки и как они классифицируются в базе Яндекса. В чём отличие SEO-ссылок от рекламы. Как размещать SEO-ссылки наиболее эффектно. Методы борьбы против ссылочного спама – АГС и Минусинск. Снятие ссылок.
Поведенческие факторы, медитативные практики
Популярные сервисы накрутки: как это работает и как это не работает. Методы накрутки и методы борьбы с мошенничеством. Примеры пользовательских сессий и кто на самом деле посещает ваш сайт. Как выйти из-под санкций за накрутку поведенческих факторов.
Интернет развивается с огромной скоростью и одной из основных тенденций последнего времени является перенос десктопных приложений в облака и работа с ними через браузер. Ключевыми особенностями таких «живых» сайтов являются интерактивнось и скорость отклика.
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
Лекция Александра Смирнова в Школе вебмастеров: «Основные принципы индексирования сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как поиск находит страницу, её путь до появления в поиске
Поисковые системы постоянно собирают информацию о страницах в интернете. Как же это происходит и как добавить страницы своего сайта в поиск? Проверка индексирования сайта.
Как управлять роботом (зеркала, sitemap, robots.txt)
Множество сайтов в интернете доступны сразу по нескольким адресам. Как указать поисковому роботу на основной и как скорректировать индексирование?
Особенности индексирования
Современные сайты используют различные технологии в своей работе. Рассмотрим, как настроить их правильно и сделать контент доступным для робота.
Как улучшить индексирование (дубли, HTTP-ответ, удаление из поиска)
В поиск попадают различные страницы, которые известны роботу. Какие нужны, а какие нет? Как повлиять на их индексирование?
В конце апреля на конференции «Российские интернет-технологии» (РИТ++/2011) компания PROMT представила доклад о своей новой разработке в области машинного перевода.
Гибридная технология PROMT совмещает в себе метод машинного перевода, основанный на правилах (его сейчас используют разнообразные решения PROMT и онлайн-сервис компании Translate.Ru), и статистический метод.
Это позволяет сохранить основное преимущество традиционной технологии PROMT – создание связного и грамматически правильного перевода – и прибавить к нему сильные стороны статистического метода – быстрое добавление терминологии из двуязычного текста и обеспечение гладкости получаемого текста.
2. Основные процедуры обработки ЕЯ
корпус в его современном понимании – это всегда
компьютерная база данных
в процессе его создания используются
специальные процедуры и программы
Токенизация – разбиение потока символов в
естественном языке на отдельные значимые
единицы (токены, словоформы) – необходимое
условие для дальнейшей обработки
естественного языка
3. Токенизация
Ни один ЕЯ не обладает совершенной пунктуацией
В англ. языке chap.
сокращенная форма слова chapter
chap, расположенное в конце предложения
Jan.
сокращенная форма слова January
имя собственное, расположенное в конце предложения
Точка в конце предложения оформляется в
отдельный тэг
4. Основные процедуры обработки ЕЯ
Лемматизация – процесс образования первоначальной
формы слова, исходя из других его словоформ.
Во многих языках слово может встречаться в нескольких
формах с различными флексиями.
Например, английский глагол walk может быть
представлен следующими формами: walk, walked, walks,
walking.
Базовая форма, walk, зафиксированная в словаре,
называется леммой слова.
5. Основные процедуры обработки ЕЯ
Стемминг – нахождении стема (основы) слова.
Стеммер обрабатывает отдельное слово без знания
контекста, и, таким образом, не может
дифференцировать слова, которые имеют разные
значения в силу отнесенности к разным частям речи.
Стеммеры обычно более просты для реализации и
быстрее обрабатывают данные, а более низкая точность
их работы может не иметь решающего значения для
многих приложений.
better -> bett, good -> good
6. Основные процедуры обработки ЕЯ
[The] [quick] [brown] [fox] [jumped] [over] [the] [lazy]
[dogs].
Один из наиболее популярных стеммеров,
SnowballAnalyzer, выдает следующие стемы:
[quick] [brown] [fox] [jump] [over] [lazy] [dog].
Леммы слов данного предложения будут следующими:
[the] [quick] [brown] [fox] [jump] [over] [the] [lazy] [dog].
Лемматизация связана с идентификацией частей речи и
включает в себя сокращение слов из корпуса до
соответствующих им лексем.
7. Лемматизация
Именно лемматизация позволяет исследователю
выделять и изучать все варианты отдельной лексемы без
необходимости введения всех возможных вариантов.
All women were walking in the streets.
токены (словоформы) представлены слева в скобках <>
звездочка '*' – слово в тексте начинается с заглавной буквы
"<*all>"
"all" <*> <Quant> DET PRE SG/PL
"<women>"
"woman" N NOM PL
8. Лемматизация
"<were>"
"be" <SV> <SVC/N> <SVC/A> V PAST VFIN
"<walking>"
"walk" <SV> <SVO> PCP1
"<in>"
"in" PREP
"<the>"
"the" <Def> DET CENTRAL ART SG/PL
"<streets>"
"street" N NOM PL
"<$.>"
9. Основные процедуры обработки ЕЯ
Парсинг – это процесс сопоставления линейной
последовательности лексем (слов, токенов) языка с его
формальной грамматикой.
Результатом обычно является дерево зависимостей
(синтаксическое дерево).
Статистические подходы: парсер тренируется на
снабженных вручную пометами синтаксических деревьях
(tree-banks)
Подходы, основанные на правилах или основанные на
ограничениях: прямо моделируют специфические
лингвистические теории.
10. Парсинг
Большинство предложений неоднозначны в любой
теории.
На основе правил (или перечня ограничений) должна
быть разработана стратегия снятия неоднозначности.
Многие стратегии снятия неоднозначности полагаются на:
количественные данные – частоту данной структуры в данном
корпусе (тип),
ограничения на выборку для данных лексических единиц, которые
были получены или выделены из корпусных данных, и т.д.
11. Основные процедуры обработки ЕЯ
Необходимо рассматривать два условия при обсуждении
предварительной обработки корпусов:
1. Каждый шаг подготовки текста к обработке заставляет
составителя корпуса принимать лингвистические
решения, которые влияют на последующие шаги и на
оценку корпуса.
Конечный пользователь должен быть в курсе этих решений, чтобы
найти то, что он ищет.
New York и Baden Baden – одно или два слова?
Что делать с такими явлениями, как немецкие глаголы с
отделяемыми приставками?
12. Основные процедуры обработки ЕЯ
2. Конечного пользователя нужно поставить в известность о
том, какая работа была проделана на стадии
предварительной обработки и о возможных погрешностях
любые ошибки в кодировке, особенно системные, могут повлиять
на результаты, полученные пользователями корпуса
13. Разметка корпуса
Разметка корпусов (tagging, annotation) представляет
собой трудоемкую операцию, особенно учитывая
размеры современных корпусов.
Некоторые виды разметки, в частности, анафорической,
просодической, основная часть работы проводится
вручную.
Для морфологического и синтаксического анализа
существуют различные программные средства, которые
принято называть соответственно тэггеры (taggers) и
парсеры (parsers).
14. Разметка корпуса
Автоматический морфологический анализатор (тэггер)
приписывает каждой лексической единице
грамматические характеристики
часть речи, лемма и набор граммем (например, род, число, падеж,
одушевленность/неодушевленность, переходность и т.д.).
Автоматический синтаксический анализатор фиксирует
синтаксические связи между словами и
словосочетаниями, а синтаксическим единицам
приписывает соответствующие характеристики
тип предложения, синтаксическая функция словосочетания и т.д.
15. Снятие неоднозначности
Автоматический анализ ЕЯ небезошибочен и многозначен
– он, как правило, дает несколько вариантов анализа для
одной лексической единицы (слова, словосочетания,
предложения).
В этом случае говорят о грамматической омонимии.
Снятие неоднозначности (морфологической,
синтаксической) – одна из важнейших и сложнейших
задач компьютерной лингвистики.
При создании корпусов для снятия неоднозначности
используются автоматические и ручные способы.
16. Снятие неоднозначности
Корпусы нового поколения включают сотни миллионов
слов, поэтому выдвигаются принципы разработки систем,
которые бы минимизировали вмешательство человека.
Автоматическое разрешение морфологической или
синтаксической неоднозначности, как правило,
основывается на использовании информации более
высокого уровня (синтаксического, семантического) с
применением статистических методов.
17. Снятие неоднозначности
Для указания леммы словоформы достаточно сравнить
слова по морфологическому словарю.
Если форма может быть членом более чем одной
категории, необходимо снятие морфологической
неоднозначности.
Например, слова words, forms, can, use, present и process могут
быть как существительными, так и глаголами.
Достичь точной разметки английского корпуса можно
путём анализа контекста или анализа более высокого
уровня.
19. Морфологическая разметка
part-of-speech tagging (POS-tagging), дословно –
частеречная разметка
также указываются признаки грамматических
категорий, свойственных данной части речи
большинство крупных корпусов являются
морфологически размеченными корпусами
успехи в компьютерной морфологии позволяют
автоматически с большой степенью правильности
размечать корпусы больших размеров
20. Морфологическая разметка
Метка включает лемму, признак части речи,
признаки грамматических категорий
В 1980 году появилась размеченная версия
Брауновского корпуса, в которой была проведена
лемматизация словоформ, маркировка их
поверхностно-синтаксических функций и т.д.
23. Синтаксическая разметка
является результатом парсинга, выполняемого на
основе данных морфологического анализа
описывает синтаксические связи между лексичес-
кими единицами и различные синтаксические
конструкции (например, придаточное предложе-
ние, глагольное словосочетание и т.д.)
В отличие от морфологии, способы представле-
ния синтаксической структуры и синтаксических
отношений не столь унифицированы.
24. Синтаксическая разметка
Наблюдается разнообразие синтаксических
теорий и формализмов:
грамматика зависимостей;
грамматика непосредственно составляющих;
грамматика структурных схем;
традиционные синтаксические учения о членах
предложения;
функциональная грамматика;
семантический синтаксис и др.
25.
26. Семантическая разметка
предусматривает спецификацию значения слов,
разрешение омонимии и синонимии,
категоризацию слов (разряды), выделение
тематических классов, признаков каузативности,
оценочных и деривационных характеристик и т.д.
Семантические тэги чаще всего обозначают
семантические категории, к которым относится
данное слово или словосочетание, и более узкие
подкатегории, специфицирующие его значение.
27. Семантическая разметка НКРЯ
каждой словоформе приписываются пометы трёх
типов:
1. разряд (имя собственное, возвратное
местоимение и т.д.);
2. лексико-семантические характеристики
(тематический класс лексемы, признаки
каузативности, оценки и т.д.);
3. деривационные характеристики («диминутив»,
«отадъективное наречие» и т.д.).
28. Семантическая разметка НКРЯ
лексико-семантические тэги сгруппированы по
следующим полям:
таксономия (тематический класс лексемы) – для
имен существительных, прилагательных, глаголов и
наречий;
мереология (указание на отношения «часть –
целое», «элемент – множество») – для предметных
и непредметных имен;
29. Семантическая разметка НКРЯ
топология (топологический статус обозначаемого
объекта) – для предметных имен;
каузация – для глаголов;
служебный статус – для глаголов;
оценка – для предметных и непредметных имен,
прилагательных и наречий.
30. Семантическая разметка НКРЯ
Словообразовательные характеристики включают
несколько типов:
морфо-семантические словообразовательные признаки
(например, «каритив», «семельфактив»);
разряд производящего слова (например, отглагольное
существительное или отадъективное наречие);
лексико-семантический (таксономический) тип производящего
слова (например, наречие, образованное от прилагательного
размера);
морфологический тип словообразования (субстантивация,
сложное слово)