язык работы с КМАС (Yafoll сообщение 1)Alex Shkotin
Вводится понятие конечной многоосновной алгебраической системы (КМАС/FMAS), а также язык для работы с такими системами - YAFOLL (Yet Another First Order Logic Language).
Показывается применимость таких систем для построения математической модели части реальности, т.е. математической конструкции к которой можно обращаться с вопросами о свойствах объектов и процессов предметной области.
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
Лекция Екатерины Гладких в Школе вебмастеров: «Плохие методы продвижения сайта»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как завязывают с портянками
Как использовать wordstat, чтобы превратить текст в SEO-портянку. Как Яндекс определяет текстовый спам и какие ограничения могут быть применены к сайтам, злоупотребляющим ключевыми словами.
Эффектное размещение SEO-ссылок
Какие бывают SEO-ссылки и как они классифицируются в базе Яндекса. В чём отличие SEO-ссылок от рекламы. Как размещать SEO-ссылки наиболее эффектно. Методы борьбы против ссылочного спама – АГС и Минусинск. Снятие ссылок.
Поведенческие факторы, медитативные практики
Популярные сервисы накрутки: как это работает и как это не работает. Методы накрутки и методы борьбы с мошенничеством. Примеры пользовательских сессий и кто на самом деле посещает ваш сайт. Как выйти из-под санкций за накрутку поведенческих факторов.
язык работы с КМАС (Yafoll сообщение 1)Alex Shkotin
Вводится понятие конечной многоосновной алгебраической системы (КМАС/FMAS), а также язык для работы с такими системами - YAFOLL (Yet Another First Order Logic Language).
Показывается применимость таких систем для построения математической модели части реальности, т.е. математической конструкции к которой можно обращаться с вопросами о свойствах объектов и процессов предметной области.
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
Лекция Екатерины Гладких в Школе вебмастеров: «Плохие методы продвижения сайта»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как завязывают с портянками
Как использовать wordstat, чтобы превратить текст в SEO-портянку. Как Яндекс определяет текстовый спам и какие ограничения могут быть применены к сайтам, злоупотребляющим ключевыми словами.
Эффектное размещение SEO-ссылок
Какие бывают SEO-ссылки и как они классифицируются в базе Яндекса. В чём отличие SEO-ссылок от рекламы. Как размещать SEO-ссылки наиболее эффектно. Методы борьбы против ссылочного спама – АГС и Минусинск. Снятие ссылок.
Поведенческие факторы, медитативные практики
Популярные сервисы накрутки: как это работает и как это не работает. Методы накрутки и методы борьбы с мошенничеством. Примеры пользовательских сессий и кто на самом деле посещает ваш сайт. Как выйти из-под санкций за накрутку поведенческих факторов.
Интернет развивается с огромной скоростью и одной из основных тенденций последнего времени является перенос десктопных приложений в облака и работа с ними через браузер. Ключевыми особенностями таких «живых» сайтов являются интерактивнось и скорость отклика.
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
Лекция Александра Смирнова в Школе вебмастеров: «Основные принципы индексирования сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как поиск находит страницу, её путь до появления в поиске
Поисковые системы постоянно собирают информацию о страницах в интернете. Как же это происходит и как добавить страницы своего сайта в поиск? Проверка индексирования сайта.
Как управлять роботом (зеркала, sitemap, robots.txt)
Множество сайтов в интернете доступны сразу по нескольким адресам. Как указать поисковому роботу на основной и как скорректировать индексирование?
Особенности индексирования
Современные сайты используют различные технологии в своей работе. Рассмотрим, как настроить их правильно и сделать контент доступным для робота.
Как улучшить индексирование (дубли, HTTP-ответ, удаление из поиска)
В поиск попадают различные страницы, которые известны роботу. Какие нужны, а какие нет? Как повлиять на их индексирование?
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
Лекция Сергея Царика и Антона Роменского в Школе вебмастеров: «Основные принципы ранжирования»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как работает поиск
При запросе пользователя к поисковой системе происходит множество процессов, которые позволяют дать наиболее релевантный ответ. Рассмотрим основные механизмы формирования выдачи: формулы, Матрикснет, персонализацию и обновления.
Что учитывается при ранжировании сайтов
Так как сайты разные и по-разному решают пользовательские задачи, при ранжировании поисковой системе нужно учитывать множество факторов. Поговорим о том, что обязательно должно быть на сайте для правильной индексации.
Ещё о факторах ранжирования
Какой контент действительно важен и как его правильно представить. Для правильного ранжирования сайта важно разобраться с его региональной привязкой. Разберёмся, какой регион присваивать сайту и как сделать это правильно.
Реальный кейс долгосрочной работы над позициями
Посмотрим на реальном примере, как изменялись основные жизненные характеристики (трафик, конверсии) сайта на пути в топ выдачи поисковых систем.
ES6 — уровень реализации и возможности использования — Денис ТужикYandex
Утверждение нового стандарта JavaScript не за горами, и мы должны быть готовы к изменениям, которые он принесёт в язык. Я расскажу об актуальном статусе реализации ES6, а также о том, как начать пользоваться нововведениями уже сейчас.
Интернет развивается с огромной скоростью и одной из основных тенденций последнего времени является перенос десктопных приложений в облака и работа с ними через браузер. Ключевыми особенностями таких «живых» сайтов являются интерактивнось и скорость отклика.
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
Лекция Александра Смирнова в Школе вебмастеров: «Основные принципы индексирования сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как поиск находит страницу, её путь до появления в поиске
Поисковые системы постоянно собирают информацию о страницах в интернете. Как же это происходит и как добавить страницы своего сайта в поиск? Проверка индексирования сайта.
Как управлять роботом (зеркала, sitemap, robots.txt)
Множество сайтов в интернете доступны сразу по нескольким адресам. Как указать поисковому роботу на основной и как скорректировать индексирование?
Особенности индексирования
Современные сайты используют различные технологии в своей работе. Рассмотрим, как настроить их правильно и сделать контент доступным для робота.
Как улучшить индексирование (дубли, HTTP-ответ, удаление из поиска)
В поиск попадают различные страницы, которые известны роботу. Какие нужны, а какие нет? Как повлиять на их индексирование?
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
Лекция Сергея Царика и Антона Роменского в Школе вебмастеров: «Основные принципы ранжирования»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как работает поиск
При запросе пользователя к поисковой системе происходит множество процессов, которые позволяют дать наиболее релевантный ответ. Рассмотрим основные механизмы формирования выдачи: формулы, Матрикснет, персонализацию и обновления.
Что учитывается при ранжировании сайтов
Так как сайты разные и по-разному решают пользовательские задачи, при ранжировании поисковой системе нужно учитывать множество факторов. Поговорим о том, что обязательно должно быть на сайте для правильной индексации.
Ещё о факторах ранжирования
Какой контент действительно важен и как его правильно представить. Для правильного ранжирования сайта важно разобраться с его региональной привязкой. Разберёмся, какой регион присваивать сайту и как сделать это правильно.
Реальный кейс долгосрочной работы над позициями
Посмотрим на реальном примере, как изменялись основные жизненные характеристики (трафик, конверсии) сайта на пути в топ выдачи поисковых систем.
ES6 — уровень реализации и возможности использования — Денис ТужикYandex
Утверждение нового стандарта JavaScript не за горами, и мы должны быть готовы к изменениям, которые он принесёт в язык. Я расскажу об актуальном статусе реализации ES6, а также о том, как начать пользоваться нововведениями уже сейчас.
В конце апреля на конференции «Российские интернет-технологии» (РИТ++/2011) компания PROMT представила доклад о своей новой разработке в области машинного перевода.
Гибридная технология PROMT совмещает в себе метод машинного перевода, основанный на правилах (его сейчас используют разнообразные решения PROMT и онлайн-сервис компании Translate.Ru), и статистический метод.
Это позволяет сохранить основное преимущество традиционной технологии PROMT – создание связного и грамматически правильного перевода – и прибавить к нему сильные стороны статистического метода – быстрое добавление терминологии из двуязычного текста и обеспечение гладкости получаемого текста.
Применение статического анализа при разработке программTatyanazaxarova
Статический анализ - это способ проверки исходного кода программы на корректность. Процесс статического анализа состоит из трех этапов. Сначала анализируемый код разбивается на лексемы - константы, идентификаторы, и т. д. Эта операция выполняется лексером. Затем лексемы передаются синтаксическому анализатору, который выстраивает по этим лексемам дерево кода. Наконец, проводится статический анализ построенного дерева. В данной обзорной статье приведено описание трех методов статического анализа: анализ с обходом дерева кода, анализ потока данных и анализ потока данных с выбором путей.
2. Для чего нужен автоматический
морфологический разбор слов?
Парсинг (синтаксический разбор) – это
стандартный метод, используемый в АОЕЯ.
Но сначала каждому входящему в
предложение слову должна быть приписана
определенная информация.
Чтобы разобрать предложение The cat
chased the rat, анализатор должен знать, что
слово cat – это существительное в ед.ч.,
chased – форма прошедшего времени
глагола и т.д.
3. Английский язык
Можно просто составить лексикон, в котором
будут перечислены все словоформы с
указанием части речи и такой информации,
как число и время.
Число всех словоформ будет не столь
велико.
Исчисляемые существительные имеют
только 2 формы – ед. и мн.ч., а правильные
глаголы имеют всего 4 формы: базовая,
форма на -s, форма на -ed и форма на -ing.
4. финский, турецкий, кечуа
практически невозможно составить
лексикон
каждое существительное или глагол
могут иметь сотни словоформ
нужен морфологический анализатор,
который, используя морфологическую
систему языка, смог бы вычислять
часть речи словоформы со всеми ее
категориями словоизменения
5. Английский язык
ограниченная система словоизменения, но
достаточно сложная и продуктивная система
словообразования
из слова compute производятся такие слова,
как computer, computerize, computerization,
recomputerize, noncomputerized и т.д.
Невозможно перечислить в лексиконе все
производные слова (включая неологизмы),
которые могут встретиться в тексте.
6. Двухуровневая модель
морфологии
Настоящий прорыв в области морфологического
разбора был сделан в 1983 году Киммо Коскеньеми,
который опубликовал свою диссертацию Two-level
morphology: A general computational model for wordform recognition and generation (Koskenniemi 1983)
Модель базировалась на традиционном
разграничении
морфотактики, которая перечисляет все возможные
морфемы и определяет, в каком порядке они могут
следовать друг за другом в слове, и
морфофонемики, которая объясняет альтернативные
формы морфем в соответствии с фонологическим
контекстом, в котором они появляются
7. Двухуровневая модель
морфологии
слово chased разбирается
морфотактически на основу chase и
суффикс -ed
ясно, что конечная e выпадает из
основы при добавлении суффикса -ed;
таким образом, chase и chas –
алломорфы или альтернативные
формы одной и той же морфемы
8. Двухуровневая модель
морфологии
Модель Коскеньеми двухуровневая в том
смысле, что слово представляет собой
прямое побуквенное соответствие между его
лексической (или глубинной) и поверхностной
формами.
К примеру, слово chased представляется в
этой модели следующим образом (где + это
разделитель морфем, а 0 – нулевой символ):
Lexical form:
c h a s e + e d
Surface form:
c h a s 0 0 e d
9. Анализатор KIMMO
Лаури Картунен и др. реализовали двухуровневую
модель Коскеньеми на языке LISP и назвали ее
KIMMO (Karttunen 1983)
В ней было 2 аналитических компонента: компонент
правил и лексический компонент, или лексикон
Компонент правил содержал двухуровневые
правила, которые объясняли регулярные
фонологические и орфографические чередования,
такие как chase – chas
В лексиконе были перечислены все морфемы
(основы и аффиксы) в их лексической форме и
определены их морфотактические ограничения
10. Анализатор KIMMO
Эти 2 компонента использовались двумя
процедурами, генератором и распознавателем.
Генератор принимал на входе лексическую форму,
такую как `spy+s и возвращал поверхностную форму
spies.
Распознаватель принимал на входе поверхностную
форму такую как spies и возвращал глубинную
форму, разделенную на морфемы, в данном случае
`spy+s, плюс описание, такое как N+PLURAL
Формы соотносятся по правилу преобразования:
Лексическая форма:
` s p y + 0 s
Поверхностная форма: 0 s p i 0 e s
12. Двухуровневые правила
Нужны специальные правила для
преобразования `:0, y:i, +:0 и 0:e
Правило для y:i в упрощѐнном виде выглядит
так:
y:i => @:C___+:0
Как видно, окружающий место
преобразования ___ контекст также указан в
виде двухуровневых соответствий
Т.к. двухуровневые правила имеют доступ и к
глубинным и к поверхностным контекстам
несколько правил могут применяться
параллельно без указанного порядка
13. Двухуровневые правила
транслируются в конечные преобразователи
Например, таблица преобразования для
правила y:i => @:C___+:0 выглядит так:
|@ y + @
|C i 0 @
--+------1:|2 0 1 1
2:|2 3 2 1
3.|0 0 1 0
14. Анализатор PC-KIMMO
В 1990, в Summer Institute of Linguistics
создали программу PC-KIMMO version 1,
реализующую двухуровневую модель как и в
программе KIMMO (Antworth 1990).
Она была написана на языке C и запускалась
на компьютерах IBM PC и Macintosh, а также
на компьютерах под управлением
операционной системы UNIX.
PC-KIMMO хорошо работала с тем, для чего
создавалась – разбор слов на
маркированные морфемы.
15. Анализатор PC-KIMMO
Но у нее был один существенный недостаток:
она не могла определить часть речи слова и
его словоизменительные категории.
К примеру, PC-KIMMO могла разбить слово
enlargements на последовательность морфем
en+large+ment+s и дать описание каждой
морфемы, но она не могла определить, что
слово целиком представляет собой
существительное во мн.ч.
Это означает, что PC-KIMMO не могла
передавать результаты непосредственно в
синтаксический анализатор.
16. Унифицированная грамматика
слов
В 1993, появилась 2 версия программы PC-KIMMO,
которая была разработана специально, чтобы
исправить недостаток предыдущей версии.
Это было сделано за счет добавления 3-го
аналитического компонента, грамматики слов.
Грамматика слов – это анализатор, основанный на
формализме PATR-II (Shieber 1986), который выдает
деревья морфем со структурой их признаков.
Когда поверхностная форма слова подается на вход
Распознавателя PC-KIMMO, правила и лексикон
разбивают его на последовательность морфемных
структур (или возможно несколько
последовательностей, если найдено более 1 анализа
слова).
17. Унифицированная грамматика
слов
Морфемная структура состоит из
лексической формы, ее описания, категории
и признаков. К примеру, слово enlargements
раскладывается на последовательность
следующих морфемных структур:
Form: en+
Gloss: VR1+
Cat:
PREFIX
Feat: [fromcat: AJ
tocat: V
finite: !-]
large
AJ
ROOT
[lexcat: AJ
aform: !POS]
+ment
+NR25
SUFFIX
[fromcat: V
tocat: N
number: !SG]
+s
+PL
INFL
[fromcat: N
tocat: N
number: SG
reg: +]
18. Унифицированная грамматика
слов
Данный анализ передается дальше грамматике слов, которая в
свою очередь возвращает дерево разбора со структурой
признаков:
Word
______|_______
Stem
INFL
_____|______
+s
Stem
SUFFIX
+PL
___|____
+ment
PREFIX
Stem
+NR25
en+
|
VR1+
ROOT
`large
AJ
Word:
[ lexcat: N
number: PL ]
19. Унифицированная грамматика
слов
В то время как каждый узел дерева имеет
структуру признаков данной морфемы,
структура признаков самого верхнего узла
является самой важной, так как она
показывает признаки целого слова.
Структура признаков слова enlargements
определяет 2 признака.
Первый признак lexcat имеет значение N,
означающий, что лексическая категория
(часть речи) слова – существительное.
Второй признак number имеет значение PL –
мн.ч.