Факторизационные модели в рекомендательных системахromovpa
Факторизационные модели, модели разложения матриц для коллаборативной фильтрации в рекомендательных системах. В презентации рассматриваются теоретические аспекты и алгоритмы.
С доклада на спецсеминаре "Machine Learning & Information Retrieval" в Школе Анализа Данных Яндекса.
Лекция №6 "Линейные модели для классификации и регрессии" Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №6 "Линейные модели для классификации и регрессии"
Лектор - Николай Анохин
Обобщенные линейные модели. Постановка задачи оптимизации. Примеры критериев. Градиентный спуск. Регуляризация. Метод Maximum Likelihood. Логистическая регрессия.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Факторизационные модели в рекомендательных системахromovpa
Факторизационные модели, модели разложения матриц для коллаборативной фильтрации в рекомендательных системах. В презентации рассматриваются теоретические аспекты и алгоритмы.
С доклада на спецсеминаре "Machine Learning & Information Retrieval" в Школе Анализа Данных Яндекса.
Лекция №6 "Линейные модели для классификации и регрессии" Technosphere1
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №6 "Линейные модели для классификации и регрессии"
Лектор - Николай Анохин
Обобщенные линейные модели. Постановка задачи оптимизации. Примеры критериев. Градиентный спуск. Регуляризация. Метод Maximum Likelihood. Логистическая регрессия.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Техносфера Mail.ru Group, МГУ им. М.В. Ломоносова. Курс "Алгоритмы интеллектуальной обработки больших объемов данных", Лекция №4 "Задача классификации"
Лектор - Николай Анохин
Постановка задач классификации и регрессии. Теория принятия решений. Виды моделей. Примеры функций потерь. Переобучение. Метрики качества классификации. MDL. Решающие деревья. Алгоритм CART.
Видео лекции курса https://www.youtube.com/playlist?list=PLrCZzMib1e9pyyrqknouMZbIPf4l3CwUP
Предсказание оттока игроков из World of TanksYandex
Одна из наиболее часто возникающих задач в бизнес-аналитике для компаний — это предсказание оттока клиентов. Ведь если заранее знать, что клиент собирается уйти к конкуренту, его можно попытаться остановить. Задача будет рассмотрена на примере прогнозирования оттока игроков из World of Tanks.
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
Лекция Сергея Царика в Школе вебмастеров: «Как принять/организовать работу по поисковой оптимизации сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Основные этапы и методы поисковой оптимизации
Рассмотрим проработку стратегии продвижения, планирование ресурсов на проект, поймем как нужно прорабатывать семантическое ядро для продвижения, разберемся с очередностью всех работ.
Разложим по полочкам основные приемы оптимизации в связке с внутренними и внешними факторами ранжирования поисковых систем, а также в связке с поведенческими факторами и характеристиками. Разберемся с тем, что же должен делать оптимизатор для достижения топа.
Что должно включать в себя ТЗ на поисковую оптимизацию
Разберемся с основными блоками технического задания от оптимизатора, с тем, каким оно должно быть с точки зрения подачи информации и ее глубины.
Сравнение in-house подхода и агентства
Рассмотрим все «за» и «против» оптимизатора в штате компании и вне её.
На основе каких метрик нужно оценивать эффективность оптимизаторской работы
Выделим ключевые показатели эффективности работы оптимизатора, рассмотрим процесс их измерения, динамику, разберемся с возможными «миксами» и их связкой с мотивацией подрядчика.
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
Лекция Юлия Тихоход в Школе вебмастеров: «Структурированные данные на поиске»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Что такое микроразметка и в чём её польза
Что такое микроразметка (семантическая разметка, семантическая микроразметка) и кому она нужна. Очень кратко — всё, что я знаю о применении семантической разметки поисковыми системами и другими веб-сервисами.
Передача данных в машиночитаемом виде
Какие ещё есть способы передать данные о сайте поисковым системам кроме микроразметки, особенности разных способов. Что бывает с плохими вебмастерами, которые пытаются обмануть поисковые системы и передать неверные данные.
Типы разметки
Из чего состоит микроразметка, какие бывают словари и синтаксисы. Популярные сочетания словарей и синтаксисов, как правильно выбирать нужную комбинацию для своего сайта.
Передача данных об интернет-магазине
Разбор семантической разметки: что в принципе доступно для разметки в интернет-магазине, что это даёт, а что можно не размечать вовсе.
Проверка правильности микроразаметки
Ошибки в микроразметке, способы их обнаружения и исправления. Популярные валидаторы микроразметки. Какие ошибки непременно нужно исправлять, а что можно игнорировать.
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
Лекция Сергея Лысенко в Школе вебмастеров: «Представление сайта в поиске»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Основные элементы сниппетов: как влиять на их формирование
Как по внешнему виду и содержанию визитки судят, стоит ли «связываться», так и по представлению сайта на странице выдачи пользователи решают, стоит ли переходить на сайт. Как изменить представление сайта в выдаче поисковых систем? Что может повлиять на CTR и что для этого нужно сделать? Рассмотрим фавиконки, навигационные цепочки, быстрые ссылки и многое, многое другое.
Зачем нам заголовок: как им управлять
Что должно быть в заголовке, а чего уж точно не стоит делать. Как избавиться от мусора и расставить акценты. И как это скажется на представлении сайта в поиске.
Основной контент аннотации и мета-описания: что нам они дают
Сниппет — зачем он нужен? Как обрабатываются данные для аннотаций? Что в сниппете помогает, а что мешает пользователю сориентироваться? Как подсказать поисковой системе, что выводить в сниппете? От Open Graf до schema.org. Инструменты, возможности, рекомендации.
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
Лекция Екатерины Гладких в Школе вебмастеров: «Плохие методы продвижения сайта»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как завязывают с портянками
Как использовать wordstat, чтобы превратить текст в SEO-портянку. Как Яндекс определяет текстовый спам и какие ограничения могут быть применены к сайтам, злоупотребляющим ключевыми словами.
Эффектное размещение SEO-ссылок
Какие бывают SEO-ссылки и как они классифицируются в базе Яндекса. В чём отличие SEO-ссылок от рекламы. Как размещать SEO-ссылки наиболее эффектно. Методы борьбы против ссылочного спама – АГС и Минусинск. Снятие ссылок.
Поведенческие факторы, медитативные практики
Популярные сервисы накрутки: как это работает и как это не работает. Методы накрутки и методы борьбы с мошенничеством. Примеры пользовательских сессий и кто на самом деле посещает ваш сайт. Как выйти из-под санкций за накрутку поведенческих факторов.
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
Лекция Сергея Царика и Антона Роменского в Школе вебмастеров: «Основные принципы ранжирования»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как работает поиск
При запросе пользователя к поисковой системе происходит множество процессов, которые позволяют дать наиболее релевантный ответ. Рассмотрим основные механизмы формирования выдачи: формулы, Матрикснет, персонализацию и обновления.
Что учитывается при ранжировании сайтов
Так как сайты разные и по-разному решают пользовательские задачи, при ранжировании поисковой системе нужно учитывать множество факторов. Поговорим о том, что обязательно должно быть на сайте для правильной индексации.
Ещё о факторах ранжирования
Какой контент действительно важен и как его правильно представить. Для правильного ранжирования сайта важно разобраться с его региональной привязкой. Разберёмся, какой регион присваивать сайту и как сделать это правильно.
Реальный кейс долгосрочной работы над позициями
Посмотрим на реальном примере, как изменялись основные жизненные характеристики (трафик, конверсии) сайта на пути в топ выдачи поисковых систем.
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
Лекция Александра Смирнова в Школе вебмастеров: «Основные принципы индексирования сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как поиск находит страницу, её путь до появления в поиске
Поисковые системы постоянно собирают информацию о страницах в интернете. Как же это происходит и как добавить страницы своего сайта в поиск? Проверка индексирования сайта.
Как управлять роботом (зеркала, sitemap, robots.txt)
Множество сайтов в интернете доступны сразу по нескольким адресам. Как указать поисковому роботу на основной и как скорректировать индексирование?
Особенности индексирования
Современные сайты используют различные технологии в своей работе. Рассмотрим, как настроить их правильно и сделать контент доступным для робота.
Как улучшить индексирование (дубли, HTTP-ответ, удаление из поиска)
В поиск попадают различные страницы, которые известны роботу. Какие нужны, а какие нет? Как повлиять на их индексирование?
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
Лекция Александра Лукина в Школе вебмастеров: «Мобильное приложение: как и зачем»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Проектирование. Быть или не быть
Обсудим обоснование для разработки мобильного приложения — какую ценность оно может принести для проекта и бизнеса. Определим основные типы приложений и сценарии использования. Рассмотрим основные технологии и выбор оптимальных для конкретных задач. ТЗ — как оценить и какие особенности необходимо учесть.
Разработка. Важные детали
На что обратить внимание на этапе разработки и тестирования, заметки по специфике мобильных экосистем. Выбираем арсенал SDK для всестороннего анализа проекта в полёте.
Публикация и продвижение
Кратко рассмотрим специфику Google Play и AppStore. Проведём экскурс в мир мобильного маркетинга, подчеркнём сходства с вебом и отличия от него. Рассмотрим ключевые метрики для анализа продукта и процесса продвижения, а также способы их повышения.
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
Лекция Олега Ножичкина в Школе вебмастеров: «Сайты на мобильных устройствах»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Статистика и тренды по мобильному интернету
Основные показатели мобильного интернет-рынка. Тенденции роста мобильной аудитории.
Новые алгоритмы ранжирования поисковых систем
Адаптация сайта к мобильным пользователям и её влияние на позиции в поисковой выдаче.
Возможности для бизнеса в мобильном вебе
Мобильный сайт позволяет воспользоваться дополнительными возможностями взаимодействия с пользователем. Рассмотрим конкретные примеры.
Мобильный сайт и приложение — в чём разница
Чем отличается мобильное приложение от мобильно сайта. Какие преимущества и недостатки у каждого варианта.
Представление сайтов на мобильных устройствах
Адаптивные сайты. Мобильные сайты. Сайты для десктопа. Чем они отличаются, какие преимущества у каждого типа и нужно ли переключаться между мобильной и десктоп-версиями?
Удобный мобильный сайт для пользователя
Поведение пользователей на мобильном сайте. Отличия от десктопа, достижение целей и простые правила увеличения конверсии.
Специфика разработки мобильного сайта
Особенности проектирования, разработки и тестирования сайтов.
Инструменты для разработки мобильных сайтов
Готовые инструменты для проектирования и тестирования. Примеры фреймворков.
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
Лекция Юрия Батиевского в Школе вебмастеров: «Качественная аналитика сайта»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Что мы хотим от аналитики сайта
На какие вопросы должна отвечать аналитика сайта. Как аналитика сайта связана с аналитикой бизнеса. На какие блоки можно поделить аналитику онлайн-процессов. Какой должна быть идеальная аналитическая система.
Анализ общих показателей бизнеса
Как построить систему аналитики бизнеса в интернете. Ключевые показатели эффективности (KPI). Построение воронки продаж. Business Intelligence — сквозная аналитика всех процессов.
Обзор инструментов для анализа сайта и аудитории
Яндекс.Метрика и Google Analytics как основа веб-аналитики. Инструменты для веб-мастеров. Инструменты для анализа действий пользователей (Kiss-metrics, Woopra, Mixpanel). Системы для подсчета целевых действий, CPA и ROMI.
Анализ каналов привлечения клиентов
Как анализировать источники трафика. Популярные инструменты для анализа.
Пройти тест по теме
Процесс развертывания системы аналитики сайта
Подготовка к установке систем веб-аналитики. Тонкости установки и настройки трекеров. Подключение коллтрекинга и дополнительных инструментов фиксации целевых действий. Настройка пользовательских сценариев. Пример по анализу пользовательского сценария.
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
Лекция Петра Аброськина в Школе вебмастеров: «Что можно и что нужно измерять на сайте».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Базовые принципы веб-аналитики
Как работает веб-аналитика и какие подводные камни есть в учёте и анализе данных. Как правильно работать с данными.
Основные метрики и термины
Посетители, визиты, глубина просмотра, время на сайте — какие метрики важны и чем они отличаются.
Как выбрать правильный KPI
Самый важный этап в веб-аналитике и продвижении сайта. Какие цели выбрать интернет-магазину, сайту услуг, контентному проекту и т.д.
Ключевые группы отчетов и применение знаний на практике
Семь главных типов отчётов для бизнеса. Анализ контекстной рекламы, SEO и контента сайта — на конкретных примерах.
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
Лекция Алексея Бородкина в Школе вебмастеров: «Как правильно поставить ТЗ на создание сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
ТЗ: две буквы с большим потенциалом
Что такое техническое задание. Какое место оно занимает в веб-разработке. Какие цели преследует. И каким требованиям оно должно отвечать.
Что нужно сделать, прежде чем садиться за ТЗ
Зачем нужна подготовка к написанию ТЗ. Какую информацию нужно собрать и как выстроить этот процесс. На каком этапе веб-разработки нужно писать ТЗ — и что будет, если этот момент упустить. Какое отношение имеют к ТЗ прототипы, пользовательские истории и прочие инструменты проектирования.
Хорошее ТЗ
Как соединить в один документ описание интерфейсов, структуру данных и много чего ещё. Структура правильного, хорошего ТЗ с подробным разбором каждого пункта. С какой стороны приступать и как эффективнее всего выстроить работу.
Кто должен писать ТЗ
Кто может написать хорошее ТЗ. Где найти такого человека и как встроить его в общие процессы. Что делать, если ТЗ пишет сам заказчик.
Плохое ТЗ
Популярные ошибки. Чем они ужасны и как их избежать.
Жизнь с ТЗ
По какой схеме нужно согласовывать ТЗ. Как применять его в дальнейшей работе. Кому не нужно показывать ТЗ ни при каких обстоятельствах. Что делать, если ТЗ никому не нравится.
ТЗ по ГОСТ: ад на Земле
Краткая история развития ТЗ со времён Брежнева и до наших дней. Почему я старательно избегаю слова «ТЗ». Почему вы должны нервно вздрагивать при слове «ГОСТ». Что делать, если вы работаете с госзаказчиком.
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
Лекция Петра Волкова в Школе вебмастеров: «Как защитить свой сайт».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Актуальные типы угроз и динамика их развития
Компрометация сервера и её последствия. Распределённые атаки типа «отказ в обслуживании». Подмена или добавление рекламы на стороне клиента. Атаки, направленные на пользователей. Проблемы, связанные со внешним содержимым.
Управление рисками безопасности веб-сайтов
Разные типы сайтов подвержены разным типам рисков информационной безопасности. Понимание целей и подходов злоумылшенников как ключ к эффективному снижению рисков. Методы монетизации атак на сайты.
Доступный инструментарий и методики для обеспечения безопасности
Открытые инструменты форензики для типовых и сложных проектов. Системы обнаружения вторжений, подходы к проектированию безопасности в архитектуре и процессах.
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
Лекция Дмитрия Сатина в Школе вебмастеров: «Как правильно составить структуру сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Структура сайта, ориентированная на человека; построение структуры, карточная сортировка
Содержимое сайтов часто организовано так, как кажется удобным разработчику или контент-менеджеру компании. Чаще всего такие структуры неудобны для реальных посетителей, потому что не совпадают с их знаниями, не поясняют, как устроен материал, и не помогают найти желаемое. Структура, ориентированная на пользователя, повышает вероятность того, что посетители найдут нужную информацию или товар и сделают это быстро.
Стройте структуру, исходя из пользовательских сценариев. Выделение на сайте разделов, соответствующих структуре компании или схеме процесса закупки, как правило, усложняет навигацию для пользователя. Правильная структура учитывает уровень знаний покупателя и использует понятные ему термины и способы группировки.
Разные типы структур, средства навигации, дальнейший поиск информации на странице
Структуры сайтов, на которых ищут что-то определённое, отличаются от тех, что используются на сайтах, посетители которых ещё не уверены, что именно они хотят или как называется нужная вещь. Строгие структуры — например, организация по наименованию товара, производителю, — предполагают один способ группировки. При нестрогой организации данные можно группировать по теме, по жизненной ситуации и так далее. Используйте средства навигации, которые помогают понять, как организован материал. Решая, какой будет визуальная реализация навигации на сайте, необходимо учитывать количество разделов и связи �
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
Лекция Дмитрия Васильева в Школе вебмастеров: «Технические особенности создания сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Сайт — расплывчатое понятие
Раньше под словом «сайт» понимался набор HTML-страниц, расположенных в домене второго или третьего уровня. Появление социальных сетей размыло это понятие.
Как выбрать домен
Различные варианты, и какой из них подойдёт именно вашему сайту: доменные зоны, читаемые и нечитаемые домены, кириллица и латиница.
Подходы к созданию сайтов
Первые сайты делались на чистом HTML. Сейчас такой способ ещё встречается, но подавляющее большинство веб-страниц создаются при помощи CMS, фреймворков, конструкторов.
Составные сущности: структура, макеты дизайна, интерактивные элементы, контент, система прав. Размещение сайта на хостинге. Российские и зарубежные, дорогие и дешевые, облачные и традиционные провайдеры. Кратко о тонкостях взаимодействия с ними.
Что такое HTTPS
Всё более популярный безопасный протокол доступа к сайту. Нужен ли он вам и в каких случаях. Как выбрать платформу для сайта, основные системы управления сайтом (CMS) и конструкторы.
Сайт после запуска
Сайты создаются с конкретной целью, обычно связанной с получением дохода. Как контент сайта и его технические характеристики напрямую могут влиять на бизнес-эффективность.
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
Лекция Елены Першиной в Школе вебмастеров: «Конструкторы для отдельных элементов сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
О пользе тех или иных технологий
Взгляд в будущее, короткий обзор других полезных технологий и «опасностей», которые подстерегают на пути к правильному их выбору.
Как выбрать поиск для сайта
Поиск для сайта — важный инструмент навигации. Чтобы оценить качество поиска по своему сайту, посмотрите на количество уходов со страницы результатов. Полнота, скорость индексирования, обработка запросов (исправление ошибок, опечаток, неправильной раскладки) — без этого невозможно представить качественный поиск.
Как выбрать карты для сайта
Уход посетителя с сайта на «большие» Яндекс.Карты за точной информацией об организации может обернуться потерей клиента, который уже был готов к покупке. Чтобы этого не допустить, лучше сделать интерактивную карту прямо на сайте.
Автоматизация оплаты на сайте
Люди привыкают платить картой, сегодня даже уличные киоски принимают их. Поэтому многим посетителям кажется «подозрительным» интернет-магазин, в котором недоступны электронные платежи. Начать приём банковских карт в онлайне очень просто, главное выбрать для этого подходящую технологию.
Перевод важных страниц
На каких языках говорит ваша аудитория, много ли у вас посетителей из-за рубежа? Ответы на эти вопросы даст Яндекс.Метрика. Именно она поможет оценить, нужно ли тратиться на профессионального переводчика и готовить отдельные описания товаров или новости на других языках. Во многих случаях для совершения покупки достаточно и простого машинного перевода. Узнайте, как его настроить, чтобы ключевые разделы сайта автоматически переводились для иностранных посетителей.
Социальная интеграция
Как заставить пользователей говорить о себе в социальных сетях? В первую очередь нужно сделать хороший продукт или услугу, но и без удобного инструмента для «шаринга» в соцсетях — никуда. Рекомендации о том, как выбрать и установить такой инструмент к себе на сайт.
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
Лекция Катерины Ерошиной в Школе вебмастеров: «Контент для интернет-магазинов».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Виды контента для интернет-магазинов
Основные страницы, карточки товаров, каталог в целом. Письма покупателям. Статьи для интернет-магазина.
Основные сервисные страницы: что нужно знать покупателю
О страницах доставки, оплаты, контактов, условий работы.
Страница товара интернет-магазина: какой нужен текст, чтобы товар нашли
Признаки товаров. Сниппеты товарных позиций. Когда текст не нужен вообще. Постоянная и техническая информация на карточке.
Блог и внешние публикации интернет-магазина
О чем писать, чтобы подогреть интерес к магазину. Сторителлинг. UGC: методы вовлечения (кратко).
Персонализация интернет-магазина: стать ближе к покупателю
Красивый пример личного бренда директора магазина.
Копирайтинг для интернет-магазина: на чём можно и нельзя экономить
Что делать, если у вас 100 000 товарных позиций и они постоянно меняются.
Хорошее ТЗ копирайтеру для наполнения интернет-магазина
Что должен знать копирайтер, чтобы не писать ерунду.
Как оценить работу копирайтера
Стандартные проверки. Контроль качества текста средствами аналитики.
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
Лекция Катерины Ерошиной в Школе вебмастеров: «Как написать хороший текст для сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Назначение и типы текстов на сайте и вне его
Цель текста — влиять на поведение пользователя. Самое простое — информировать, самое сложное — привести к покупке. Виды текстов для внешних публикаций. Белые книги и другие способы подтвердить экспертизу.
Контент-план для наполнения, развития сайта и внешних публикаций
Как проектировать контент для нового сайта. Как наращивать информационную массу сайта. Внешние контакты с потребителем.
Разные уровни вовлечения: информируем, продаём, помогаем
Пройти по пути покупателя, выдавать информацию, необходимую для совершения следующего шага. Ловушки на этом пути.
Информационный стиль: применение с пониманием
Чистить текст без фанатизма. Эмоциональное вовлечение. Рациональное обоснование.
Структура и вёрстка
Заголовки и подзаголовки, списки, абзацы, иерархия подачи информации.
SEO-аспекты и LSI-копирайтинг
Понимание ценности ключей. Зачем копирайтеру нужно семантическое ядро.
Оценка качества текста (чеклист)
Уникальность, фактическая достоверность, соответствие целям, информационная плотность, грамотность.
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
Лекция Алексея Иванова в Школе вебмастеров: «Usability и дизайн: как не помешать пользователю».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Что такое юзабилити и почему оно важно
Поведение пользователей на сайте и достижение ими запланированных целей зависит не только от контента, но и от удобства сайта.
Информационное и функциональное наполнение сайта
Перед созданием сайта нужно правильно определить, какая информация и какой функционал должны быть на сайте. При этом нужно исходить не из того, что у вас есть, а из того, что будет нужно будущим посетителям вашего сайта.
Проектирование входных страниц
В зависимости от целей сайта и источников посетителей нужно сформулировать требования к входным страницам сайта и их содержанию.
Сценарии поведения пользователя
Для правильного распределения информации нужно описать сценарии взаимодействия с сайтом для разных групп посетителей. Рассмотрим методы совмещения разных сценариев на одном сайте.
Пройти тест по теме
Управление конверсией
В большинстве случаев мы ждем от посетителя сайта какого-то целевого действия. Это может быть регистрация, отправка заявки, звонок или что-то ещё. Вы увидите способы мотивации посетителей к совершению целевого действия для различных типов сайтов.
Пройти тест по теме
Основные принципы распределения информации
В рамках этого блока вы увидите, как нужно распределять информацию на странице, чтобы посетители увидели всё, что вы хотите им показать.
Мобильная версия сайта и принципы юзабилити
Всё больше посетителей приходят на сайт с мобильных устройств. Рассмотрим основные особенности взаимодействия с информацией с мобильного устройства и подходы к адаптации сайта под них.
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
Лекция Алексея Иванова в Школе вебмастеров Яндекса: «Сайт. Зачем он и каким должен быть».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Типы сайтов и потребности аудитории
В зависимости от решаемых задач, сайты можно разделить на несколько характерных типов с разными функциями и контентом. Перед созданием сайта важно понять, чего ждут посетители и какими хотят видеть веб-страницы. При этом на один и тот же сайт может попадать разная аудитория, которая ведёт себя по-разному и каждая имеет свои потребности. Для каждого сегмента нужно разработать отдельные сценарии взаимодействия с информацией на вашей площадке.
Сайт с точки зрения бизнеса
Чаще всего сайт создается для решения конкретных бизнес-задач. Рассмотрим различные типы монетизации сайтов и особенности каждого из них.
Основные показатели и методы измерения
Одно из главных преимуществ цифровых каналов — детальная аналитика взаимодействия посетителей с сайтом. В данном блоке рассмотрим основные инструменты измерения, ключевые показатели сайта, на которые нужно обращать внимание, и подходы к интерпретации полученных данных для принятия решений.
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
К.В. Воронцов "Регрессивный анализ и метод главных компонент"
1. Непараметрическая регрессия
Многомерная линейная регрессия
Метод главных компонент
Нелинейная регрессия
Регрессия
К. В. Воронцов
vokov@forecsys.ru
http://www.ccas.ru/voron
14 апреля 2010
К. В. Воронцов (www.ccas.ru/voron) Регрессия
2. Непараметрическая регрессия
Многомерная линейная регрессия
Метод главных компонент
Нелинейная регрессия
Метод наименьших квадратов
X — объекты (часто Rn ); Y — ответы (часто R, реже Rm );
X ℓ = (xi , yi )i=1 — обучающая выборка;
ℓ
yi = y (xi ), y : X → Y — неизвестная зависимость;
a(x) = f (x, α) — модель зависимости,
α ∈ Rp — вектор параметров модели.
Метод наименьших квадратов (МНК):
ℓ
ℓ 2
Q(α, X ) = wi f (xi , α) − yi → min,
α
i=1
где wi — вес, степень важности i-го объекта.
Q(α∗ , X ℓ ) — остаточная сумма квадратов
(residual sum of squares, RSS).
К. В. Воронцов (www.ccas.ru/voron) Регрессия
3. Непараметрическая регрессия
Многомерная линейная регрессия
Метод главных компонент
Нелинейная регрессия
Метод максимума правдоподобия
Модель данных с некоррелированным гауссовским шумом:
y (xi ) = f (xi , α) + εi , εi ∼ N (0, σi2 ), i = 1, . . . , ℓ.
Метод максимума правдоподобия (ММП):
ℓ
1 1 2
L(ε1 , . . . , εℓ |α) = √ exp − ε → max;
σi 2π 2σi2 i α
i=1
ℓ
1 1 2
− ln L(ε1 , . . . , εℓ |α) = const(α) + f (xi , α) − yi → min;
2 σi2 α
i=1
Теорема
Решения МНК и ММП, совпадают, причём веса объектов
обратно пропорциональны дисперсии шума, wi = σi−2 .
К. В. Воронцов (www.ccas.ru/voron) Регрессия
4. Непараметрическая регрессия
Многомерная линейная регрессия
Метод главных компонент
Нелинейная регрессия
Содержание
1 Непараметрическая регрессия
Формула Надарая–Ватсона
Выбор ядра K и ширины окна h
Отсев выбросов
2 Многомерная линейная регрессия
Решение задачи наименьших квадратов
Сингулярное разложение
Регуляризация (гребневая регрессия)
Лассо Тибширани
3 Метод главных компонент
Постановка задачи
Основная теорема
Решение задачи наименьших квадратов
4 Нелинейная регрессия
Нелинейная модель регрессии
Логистическая регрессия
Нелинейные преобразования признаков
К. В. Воронцов (www.ccas.ru/voron) Регрессия
5. Непараметрическая регрессия
Формула Надарая–Ватсона
Многомерная линейная регрессия
Выбор ядра K и ширины окна h
Метод главных компонент
Отсев выбросов
Нелинейная регрессия
Формула Надарая–Ватсона
Приближение константой a(x) = α в окрестности x ∈ X :
ℓ
2
Q(α; X ℓ ) = wi (x) α − yi → min;
α∈R
i=1
где wi (x) = K ρ(x,xi ) — веса объектов xi относительно x;
h
K (r ) — ядро, невозрастающее, ограниченное, гладкое;
h — ширина окна сглаживания.
Формула ядерного сглаживания Надарая–Ватсона:
ℓ ℓ
ρ(x,xi )
yi wi (x) yi K h
i=1 i=1
ah (x; X ℓ ) = ℓ
= ℓ
.
ρ(x,xi )
wi (x) K h
i=1 i=1
К. В. Воронцов (www.ccas.ru/voron) Регрессия
6. Непараметрическая регрессия
Формула Надарая–Ватсона
Многомерная линейная регрессия
Выбор ядра K и ширины окна h
Метод главных компонент
Отсев выбросов
Нелинейная регрессия
Обоснование формулы Надарая–Ватсона
Теорема
Пусть выполнены следующие условия:
1) выборка X ℓ = (xi , yi )ℓ простая, из распределения p(x, y );
i=1
∞
2) ядро K (r ) ограничено: 0 K (r ) dr < ∞, lim rK (r ) = 0;
r →∞
3) зависимость E(y |x) не имеет вертикальных асимптот:
E(y 2 |x) = Y y 2 p(y |x) dy < ∞ при любом x ∈ X ;
4) последовательность hℓ убывает, но не слишком быстро:
lim hℓ = 0, lim ℓhℓ = ∞.
ℓ→∞ ℓ→∞
Тогда имеет место сходимость по вероятности:
P
ahℓ (x; X ℓ ) → E(y |x) в любой точке x ∈ X ,
в которой E(y |x), p(x) и D(y |x) непрерывны и p(x) > 0.
К. В. Воронцов (www.ccas.ru/voron) Регрессия
7. Непараметрическая регрессия
Формула Надарая–Ватсона
Многомерная линейная регрессия
Выбор ядра K и ширины окна h
Метод главных компонент
Отсев выбросов
Нелинейная регрессия
Ядро K (r )
— существенно влияет на гладкость функции ah (x),
— слабо влияет на качество аппроксимации.
Ширина окна h
— существенно влияет на качество аппроксимации.
При неравномерной сетке {xi } — переменная ширина окна:
ρ(x, xi )
wi (x) = K ,
h(x)
где h(x) = ρ(x, x (k+1) ), x (k+1) — k-й сосед объекта x.
Оптимизация ширины окна по скользящему контролю:
ℓ
2
LOO(h, X ℓ ) = ah xi ; X ℓ {xi } − yi → min .
h
i=1
К. В. Воронцов (www.ccas.ru/voron) Регрессия
8. Непараметрическая регрессия
Формула Надарая–Ватсона
Многомерная линейная регрессия
Выбор ядра K и ширины окна h
Метод главных компонент
Отсев выбросов
Нелинейная регрессия
Локально взвешенное сглаживание
(LOWESS — LOcally WEighted Scatter plot Smoothing)
Основная идея:
чем больше величина ошибки εi = ah xi ; X ℓ {xi } − yi , тем
в большей степени прецедент (xi , yi ) является выбросом, и тем
меньше должен быть его вес wi (x).
Эвристика:
˜
домножить веса wi (x) на коэффициенты γi = K (εi ),
˜
где K — ещё одно ядро, вообще говоря, отличное от K (r ).
Рекомендация:
˜ ε
квартическое ядро K (ε) = KQ 6 med{εi } ,
где med{εi } — медиана вариационного ряда ошибок.
К. В. Воронцов (www.ccas.ru/voron) Регрессия
9. Непараметрическая регрессия
Формула Надарая–Ватсона
Многомерная линейная регрессия
Выбор ядра K и ширины окна h
Метод главных компонент
Отсев выбросов
Нелинейная регрессия
Алгоритм LOWESS
Вход: X ℓ — обучающая выборка;
Выход: коэффициенты γi , i = 1, . . . , ℓ;
1: инициализация: γi := 1, i = 1, . . . , ℓ;
2: повторять
3: для всех объектов i = 1, . . . , ℓ
4: вычислить оценки скользящего контроля:
ℓ
ρ(xi ,xj )
y j γj K h(xi )
j=1, j=i
ai := ah xi ; X ℓ {xi } = ℓ
;
ρ(xi ,xj )
γj K h(xi )
j=1, j=i
5: для всех объектов i = 1, . . . , ℓ
6: ˜
γi := K |ai − yi | ;
7: пока коэффициенты γi не стабилизируются;
К. В. Воронцов (www.ccas.ru/voron) Регрессия
10. Непараметрическая регрессия Решение задачи наименьших квадратов
Многомерная линейная регрессия Сингулярное разложение
Метод главных компонент Регуляризация (гребневая регрессия)
Нелинейная регрессия Лассо Тибширани
Многомерная линейная регрессия
f1 (x), . . . , fn (x) — числовые признаки;
Модель многомерной линейной регрессии:
n
f (x, α) = αj fj (x), α ∈ Rn .
j=1
Матричные обозначения:
f1 (x1 ) . . . fn (x1 ) y1 α1
F = ... ... ... , y = . . . , α = . . . .
ℓ×n ℓ×1 n×1
f1 (xℓ ) . . . fn (xℓ ) yℓ αn
Функционал квадрата ошибки:
ℓ
2 2
Q(α, X ℓ ) = f (xi , α) − yi = Fα − y → min .
α
i=1
К. В. Воронцов (www.ccas.ru/voron) Регрессия
11. Непараметрическая регрессия Решение задачи наименьших квадратов
Многомерная линейная регрессия Сингулярное разложение
Метод главных компонент Регуляризация (гребневая регрессия)
Нелинейная регрессия Лассо Тибширани
Нормальная система уравнений
Необходимое условие минимума в матричном виде:
∂Q
(α) = 2F т (F α − y ) = 0,
∂α
откуда следует нормальная система задачи МНК:
F тF α = F тy ,
где F т F — ковариационная матрица набора признаков f1 , . . . , fn .
n×n
Решение системы: α∗ = (F т F )−1 F т y = F + y .
Значение функционала: Q(α∗ ) = PF y − y 2 ,
где PF = FF + = F (F т F )−1 F т — проекционная матрица.
К. В. Воронцов (www.ccas.ru/voron) Регрессия
12. Непараметрическая регрессия Решение задачи наименьших квадратов
Многомерная линейная регрессия Сингулярное разложение
Метод главных компонент Регуляризация (гребневая регрессия)
Нелинейная регрессия Лассо Тибширани
Сингулярное разложение
Произвольная ℓ×n-матрица представима в виде
сингулярного разложения (singular value decomposition, SVD):
F = VDU т .
Основные свойства сингулярного разложения:
1 ℓ×n-матрица V = (v1 , . . . , vn ) ортогональна, V т V = In ,
столбцы vj — собственные векторы матрицы FF т ;
2 n×n-матрица U = (u1 , . . . , un ) ортогональна, U т U = In ,
столбцы uj — собственные векторы матрицы F т F ;
√ √
3 n×n-матрица D диагональна, D = diag λ1 , . . . , λn ,
λj 0 — собственные значения матриц F т F и FF т .
К. В. Воронцов (www.ccas.ru/voron) Регрессия
13. Непараметрическая регрессия Решение задачи наименьших квадратов
Многомерная линейная регрессия Сингулярное разложение
Метод главных компонент Регуляризация (гребневая регрессия)
Нелинейная регрессия Лассо Тибширани
Решение МНК через сингулярное разложение
Псевдообратная F + , вектор МНК-решения α∗ ,
МНК-аппроксимация целевого вектора F α∗ :
n
1
F + = (UDV т VDU т )−1 UDV т = UD −1 V т = uj vjт ;
j=1
λj
n
1
α∗ = F + y = UD −1 V т y = uj (vjт y );
j=1
λj
n
F α∗ = PF y = (VDU т )UD −1 V т y = VV т y = vj (vjт y );
j=1
n
1 т 2
α∗ 2
= D −1 V т y 2
= (v y ) .
λj j
j=1
К. В. Воронцов (www.ccas.ru/voron) Регрессия
14. Непараметрическая регрессия Решение задачи наименьших квадратов
Многомерная линейная регрессия Сингулярное разложение
Метод главных компонент Регуляризация (гребневая регрессия)
Нелинейная регрессия Лассо Тибширани
Проблема мультиколлинеарности
Если имеются λj → 0, то
МНК-решение α∗ неустойчиво и неинтерпретируемо:
α → ∞;
ответы на новых объектах y ′ = F ′ α∗ неустойчивы;
в то время как на обучении, казалось бы, «всё хорошо»:
Q(α∗ ) = F α∗ − y 2 → 0;
мультиколлинеарность влечёт переобучение.
Три стратегии устранения мультиколлинеарности:
Регуляризация: α → min;
Преобразование признаков: f1 , . . . , fn → g1 , . . . , gm , m ≪ n;
Отбор признаков: f1 , . . . , fn → fj1 , . . . , fjm , m ≪ n.
К. В. Воронцов (www.ccas.ru/voron) Регрессия
15. Непараметрическая регрессия Решение задачи наименьших квадратов
Многомерная линейная регрессия Сингулярное разложение
Метод главных компонент Регуляризация (гребневая регрессия)
Нелинейная регрессия Лассо Тибширани
Штраф за увеличение нормы вектора весов α :
2
Qτ (α) = F α − y + 1
2σ α 2,
1
где τ = σ — неотрицательный параметр регуляризации.
Вероятностная интерпретация: априорное распределение
вектора α — гауссовское с ковариационной матрицей σIn .
Модифицированное МНК-решение (τ In — «гребень»):
ατ = (F т F + τ In )−1 F т y .
∗
Преимущество сингулярного разложения:
можно подбирать параметр τ , вычислив SVD только один раз.
К. В. Воронцов (www.ccas.ru/voron) Регрессия
16. Непараметрическая регрессия Решение задачи наименьших квадратов
Многомерная линейная регрессия Сингулярное разложение
Метод главных компонент Регуляризация (гребневая регрессия)
Нелинейная регрессия Лассо Тибширани
Регуляризованный МНК через сингулярное разложение
Вектор регуляризованного МНК-решения ατ∗
∗
и МНК-аппроксимация целевого вектора F ατ :
n
λj
ατ = U(D 2 + τ In )−1 DV т y =
∗
uj (vjт y );
λj + τ
j=1
n
∗ ∗ λj λj
F ατ = VDU т ατ = V diag V тy = vj (vjт y );
λj + τ λj + τ
j=1
n
∗ 2 1
ατ = D 2 (D 2 + τ In )−1 D −1 V т y 2
= (v т y )2 .
λj + τ j
j=1
F ατ = F α∗ , но зато решение становится гораздо устойчивее.
∗
К. В. Воронцов (www.ccas.ru/voron) Регрессия
17. Непараметрическая регрессия Решение задачи наименьших квадратов
Многомерная линейная регрессия Сингулярное разложение
Метод главных компонент Регуляризация (гребневая регрессия)
Нелинейная регрессия Лассо Тибширани
Выбор параметра регуляризации τ
Контрольная выборка: X k = (xi′ , yi′ )k ;
i=1
′ ′
′
f1 (x1 ) . . . fn (x1 ) y1
F′ = ... ... ... , y ′ = . . . .
k×n ′ ) . . . f (x ′ ) k×1 ′
f1 (xk n k yk
Вычисление функционала Q на контрольных данных T раз
потребует O(kn2 + knT ) операций:
√ 2
λj
Q(ατ , X k ) = F ′ ατ − y ′
∗ ∗ 2
= F ′ U diag λj +τ V т y −y ′ .
k×n n×1
Зависимость Q(τ ) обычно имеет характерный минимум.
К. В. Воронцов (www.ccas.ru/voron) Регрессия
18. Непараметрическая регрессия Решение задачи наименьших квадратов
Многомерная линейная регрессия Сингулярное разложение
Метод главных компонент Регуляризация (гребневая регрессия)
Нелинейная регрессия Лассо Тибширани
Регуляризация сокращает «эффективную размерность»
Сжатие (shrinkage) или сокращение весов (weight decay):
n n
1 1 т 2
ατ 2
∗
= (v т y )2 < α ∗ 2
= (v y ) .
λj + τ j λj j
j=1 j=1
Почему говорят о сокращении эффективной размерности?
Роль размерности играет след проекционной матрицы:
tr F (F т F )−1 F т = tr(F т F )−1 F т F = tr In = n.
При использовании регуляризации:
n
т −1 т λj λj
tr F (F F + τ In ) F = tr diag = < n.
λj + τ λj + τ
j=1
К. В. Воронцов (www.ccas.ru/voron) Регрессия
19. Непараметрическая регрессия Решение задачи наименьших квадратов
Многомерная линейная регрессия Сингулярное разложение
Метод главных компонент Регуляризация (гребневая регрессия)
Нелинейная регрессия Лассо Тибширани
Лассо Тибширани — другой подход к регуляризации
LASSO — Least Absolute Shrinkage and Selection Operator
2
Q(α) = F α − y
→ min;
α
n
|αj | κ;
j=1
Лассо приводит к отбору признаков! Почему?
После замены переменных
+ −
αj = αj − αj ; + −
+ −
αj 0; αj 0.
|αj | = αj + αj ;
ограничения принимают канонический вид:
n
+ − + −
αj + αj κ; αj 0; αj 0.
j=1
+ −
Чем меньше κ, тем больше j таких, что αj = αj = 0.
К. В. Воронцов (www.ccas.ru/voron) Регрессия
20. Непараметрическая регрессия Решение задачи наименьших квадратов
Многомерная линейная регрессия Сингулярное разложение
Метод главных компонент Регуляризация (гребневая регрессия)
Нелинейная регрессия Лассо Тибширани
Сравнение гребневой регрессии и Лассо
Зависимость {αj } от σ Зависимость {αj } от κ
Задача диагностики рака (prostate cancer, UCI)
T.Hastie, R.Tibshirani, J.Friedman. The Elements of Statistical Learning.
Springer, 2001.
К. В. Воронцов (www.ccas.ru/voron) Регрессия
21. Непараметрическая регрессия
Постановка задачи
Многомерная линейная регрессия
Основная теорема
Метод главных компонент
Решение задачи наименьших квадратов
Нелинейная регрессия
Метод главных компонент: постановка задачи
f1 (x), . . . , fn (x) — исходные числовые признаки;
g1 (x), . . . , gm (x) — новые числовые признаки, m n;
Требование: старые признаки должны линейно
восстанавливаться по новым:
m
ˆ
fj (x) = gs (x)ujs , j = 1, . . . , n, ∀x ∈ X ,
s=1
как можно точнее на обучающей выборке x1 , . . . , xℓ :
ℓ n
ˆ 2
fj (xi ) − fj (xi ) → min
{gs (xi )},{ujs }
i=1 j=1
К. В. Воронцов (www.ccas.ru/voron) Регрессия
22. Непараметрическая регрессия
Постановка задачи
Многомерная линейная регрессия
Основная теорема
Метод главных компонент
Решение задачи наименьших квадратов
Нелинейная регрессия
Матричные обозначения
Матрицы «объекты–признаки», старая и новая:
f1 (x1 ) . . . fn (x1 ) g1 (x1 ) . . . gm (x1 )
F = ... ... ... ; G = ... ... ... .
ℓ×n ℓ×m
f1 (xℓ ) . . . fn (xℓ ) g1 (xℓ ) . . . gm (xℓ )
Матрица линейного преобразования новых признаков в старые:
u11 . . . u1m
хотим
U = . . . . . . . . . ; ˆ
F = GU т ≈ F .
n×m
un1 . . . unm
Найти: и новые признаки G , и преобразование U:
ℓ n
ˆ 2 2
fj (xi ) − fj (xi ) = GU т − F → min,
G ,U
i=1 j=1
К. В. Воронцов (www.ccas.ru/voron) Регрессия
23. Непараметрическая регрессия
Постановка задачи
Многомерная линейная регрессия
Основная теорема
Метод главных компонент
Решение задачи наименьших квадратов
Нелинейная регрессия
Основная теорема метода главных компонент
Теорема
2
Если m rk F , то минимум GU т − F достигается, когда
столбцы U — это с.в. матрицы F т F , соответствующие
m максимальным с.з. λ1 , . . . , λm , а матрица G = FU.
При этом:
1 матрица U ортонормирована: U т U = Im ;
2 матрица G ортогональна: G т G = Λ = diag(λ1 , . . . , λm );
3 UΛ = F т FU; G Λ = FF т G ;
n
2 2
4 GU т − F = F − tr Λ = λj .
j=m+1
К. В. Воронцов (www.ccas.ru/voron) Регрессия
24. Непараметрическая регрессия
Постановка задачи
Многомерная линейная регрессия
Основная теорема
Метод главных компонент
Решение задачи наименьших квадратов
Нелинейная регрессия
Связь с сингулярным разложением
Если взять m = n, то:
2
1 GU т − F = 0;
2 ˆ
представление F = GU т = F точное и совпадает
√
с сингулярным разложением при G = V Λ:
√
F = GU т = V ΛU т ; U т U = Im ; V т V = Im .
3 линейное преобразование U работает в обе стороны:
F = GU т ; G = FU.
Поскольку новые признаки некоррелированы (G т G = Λ),
преобразование U называется декоррелирующим
(или преобразованием Карунена–Лоэва).
К. В. Воронцов (www.ccas.ru/voron) Регрессия
25. Непараметрическая регрессия
Постановка задачи
Многомерная линейная регрессия
Основная теорема
Метод главных компонент
Решение задачи наименьших квадратов
Нелинейная регрессия
Эффективная размерность выборки
Упорядочим с.з. F т F по убыванию: λ1 ... λn 0.
Эффективная размерность выборки — это
наименьшее целое m, при котором
GU т − F 2 λm+1 + · · · + λn
Em = = ε.
F 2 λ1 + · · · + λn
Критерий «крутого склона»: находим m: Em−1 ≫ Em :
0.4
0.3
0.2
0.1
0
-0.1 m-1 m m+1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 λ
К. В. Воронцов (www.ccas.ru/voron) Регрессия
26. Непараметрическая регрессия
Постановка задачи
Многомерная линейная регрессия
Основная теорема
Метод главных компонент
Решение задачи наименьших квадратов
Нелинейная регрессия
Решение задачи НК в новых признаках
Заменим F на её приближение GU т :
2 2
G U т α −y = Gβ − y → min .
β
β
Связь нового и старого вектора коэффициентов:
α = Uβ; β = U т α.
Решение задачи наименьших квадратов относительно β
(единственное отличие — m слагаемых вместо n):
m
1
β ∗ = D −1 V т y = uj (vjт y );
j=1
λj
m
G β ∗ = VV т y = vj (vjт y );
j=1
К. В. Воронцов (www.ccas.ru/voron) Регрессия
27. Непараметрическая регрессия
Нелинейная модель регрессии
Многомерная линейная регрессия
Логистическая регрессия
Метод главных компонент
Нелинейные преобразования признаков
Нелинейная регрессия
Нелинейная модель регрессии
Нелинейная модель регрессии f (x, α), α ∈ Rp .
Функционал среднеквадратичного отклонения:
ℓ
ℓ 2
Q(α, X ) = f (xi , α) − yi → min .
α
i=1
Метод Ньютона–Рафсона.
1. Начальное приближение α0 = (α1 , . . . , αp ).
0 0
2. Итерационный процесс
−1
αt+1 := αt − ηt Q ′′ (αt ) Q ′ (αt ),
Q ′ (αt ) — градиент функционала Q в точке αt ,
Q ′′ (αt ) — гессиан функционала Q в точке αt ,
ηt — величина шага (можно полагать ηt = 1).
К. В. Воронцов (www.ccas.ru/voron) Регрессия
28. Непараметрическая регрессия
Нелинейная модель регрессии
Многомерная линейная регрессия
Логистическая регрессия
Метод главных компонент
Нелинейные преобразования признаков
Нелинейная регрессия
Метод Ньютона-Рафсона
Компоненты градиента:
ℓ
∂Q(α) ∂f (xi , α)
=2 f (xi , α) − yi .
∂αj ∂αj
i=1
Компоненты гессиана:
ℓ ℓ
∂ 2 Q(α) ∂f (xi , α) ∂f (xi , α) ∂ 2 f (xi , α)
=2 −2 f (xi , α) − yi .
∂αj ∂αk ∂αj ∂αk ∂αj ∂αk
i=1 i=1
при линеаризации полагается = 0
Не хотелось бы обращать гессиан на каждой итерации...
Линеаризация f (xi , α) в окрестности текущего αt :
p
∂f (xi , αj )
f (xi , α) = f (xi , αt ) + t
αj − αj .
∂αj
j=1
К. В. Воронцов (www.ccas.ru/voron) Регрессия
29. Непараметрическая регрессия
Нелинейная модель регрессии
Многомерная линейная регрессия
Логистическая регрессия
Метод главных компонент
Нелинейные преобразования признаков
Нелинейная регрессия
Метод Ньютона-Гаусса
Матричные обозначения:
∂f j=1,p
Ft = ∂αj (xi , αt ) i=1,ℓ — ℓ×p-матрица первых производных;
ft = f (xi , αt ) i=1,ℓ
— вектор значений f .
Формула t-й итерации метода Ньютона–Гаусса:
αt+1 := αt − ht (Ftт Ft )−1 Ftт (f t − y ) .
β
β — это решение задачи многомерной линейной регрессии
2
Ft β − (f t − y ) → min .
β
Нелинейная регрессия сведена к серии линейных регрессий.
Скорость сходимости — как и у метода Ньютона–Рафсона,
но для вычислений можно применять стандартные методы.
К. В. Воронцов (www.ccas.ru/voron) Регрессия
30. Непараметрическая регрессия
Нелинейная модель регрессии
Многомерная линейная регрессия
Логистическая регрессия
Метод главных компонент
Нелинейные преобразования признаков
Нелинейная регрессия
Логистическая регрессия (напоминание)
Y = {−1, +1} — два класса, xi , w ∈ Rn .
Функционал аппроксимированного эмпирического риска:
ℓ
Q(w ) = − log σ w т xi yi → min,
i=1 w
где σ(z) = (1 + e −z )−1 — сигмоидная функция.
Логарифмическая функция потерь L (Mi ) = log 1 + e −Mi
3.5
3.0
2.5
2.0
1.5
1.0
0.5
0
-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 Mi = w т xi yi
К. В. Воронцов (www.ccas.ru/voron) Регрессия
31. Непараметрическая регрессия
Нелинейная модель регрессии
Многомерная линейная регрессия
Логистическая регрессия
Метод главных компонент
Нелинейные преобразования признаков
Нелинейная регрессия
Метода Ньютона-Рафсона
Метода Ньютона-Рафсона для минимизации функционала Q(w ):
−1
w t+1 := w t − ht Q ′′ (w t ) Q ′ (w t ),
Элементы градиента — вектора первых производных Q ′ (w t ):
∂Q(w ) ℓ
= − (1 − σi )yi fj (xi ), j = 1, . . . , n.
∂wj i=1
Элементы гессиана — матрицы вторых производных Q ′′ (w t ):
∂ 2 Q(w ) ℓ
= (1 − σi )σi fj (xi )fk (xi ), j, k = 1, . . . , n,
∂wj ∂wk i=1
где σi = σ(yi w т xi ).
К. В. Воронцов (www.ccas.ru/voron) Регрессия
32. Непараметрическая регрессия
Нелинейная модель регрессии
Многомерная линейная регрессия
Логистическая регрессия
Метод главных компонент
Нелинейные преобразования признаков
Нелинейная регрессия
Матричные обозначения
Fℓ×n = fj (xi ) — матрица «объекты–признаки»;
Γℓ×ℓ = diag (1 − σi )σi — диагональная матрица;
˜
F = ΓF — взвешенная матрица «объекты–признаки»;
yi = yi (1 − σi )/σi , y = (˜i )ℓ — взвешенный вектор ответов.
˜ ˜ y i=1
Тогда в методе Ньютона-Рафсона:
−1 ˜ ˜ ˜ ˜ ˜ ˜
Q ′′ (w ) Q ′ (w ) = −(F т Γ2 F )−1 F т Γ˜ = −(F т F )−1 F т y = −F + y .
y
Это совпадает с МНК-решением линейной задачи регрессии
со взвешенными объектами и модифицированными ответами:
ℓ
˜ 2 2
Q(w ) = F w −˜
y = (1 − σi )σi w т x−yi (1 − σi )/σi → min .
w
i=1 γi ˜
yi
К. В. Воронцов (www.ccas.ru/voron) Регрессия
33. Непараметрическая регрессия
Нелинейная модель регрессии
Многомерная линейная регрессия
Логистическая регрессия
Метод главных компонент
Нелинейные преобразования признаков
Нелинейная регрессия
Интерпретация
На каждом шаге метода Ньютона-Рафсона решается
задача многомерной линейной регрессии:
ℓ
2
Q(w ) = (1 − σi )σi w т x − yi (1 − σi )/σi → min .
w
i=1 γi ˜
yi
Интерпретация:
σi — вероятность правильного ответа на объекте xi ;
чем ближе xi к границе, тем больше вес γi ;
чем выше вероятность ошибки, тем больше yi .
˜
ВЫВОД: на каждой итерации происходит более точная
настройка на «наиболее трудных» объектах.
К. В. Воронцов (www.ccas.ru/voron) Регрессия
34. Непараметрическая регрессия
Нелинейная модель регрессии
Многомерная линейная регрессия
Логистическая регрессия
Метод главных компонент
Нелинейные преобразования признаков
Нелинейная регрессия
МНК с итерационным перевзвешиванием объектов
IRLS — Iteratively Reweighted Least Squares
Вход: F , y — матрица «объекты–признаки» и вектор ответов;
Выход: w — вектор коэффициентов линейной комбинации.
1: w := (F т F )−1 F т y — нулевое приближение, обычный МНК;
2: для t := 1, 2, 3, . . .
3: σi = σ(yi w т xi ) для всех i = 1, . . . , ℓ;
4: γi := (1 − σi )σi для всех i = 1, . . . , ℓ;
5: ˜
F := diag(γ1 , . . . , γℓ )F ;
6: yi := yi
˜ (1 − σi )/σi для всех i = 1, . . . , ℓ;
7: выбрать градиентный шаг ht ;
8: ˜ ˜ ˜ ˜
w := w + ht (F т F )−1 F т y ;
9: если {σi } мало изменились то выйти из цикла;
К. В. Воронцов (www.ccas.ru/voron) Регрессия
35. Непараметрическая регрессия
Нелинейная модель регрессии
Многомерная линейная регрессия
Логистическая регрессия
Метод главных компонент
Нелинейные преобразования признаков
Нелинейная регрессия
Обобщение линейной модели регрессии
Пусть ϕj : R → R — некоторые нелинейные преобразования
исходных признаков. Модель регрессии:
n
f (x, α) = ϕj (fj (x)).
j=1
В частности, при ϕj (fj (x)) = αj fj (x) это линейная регрессия.
ИДЕЯ: будем по очереди уточнять функции ϕj по обучающей
ℓ
выборке fj (xi ), zi i=1 :
ℓ n 2
ℓ
Q(ϕj , X ) = ϕj (fj (xi )) − yi − ϕk (fk (xi )) → min .
k=1,k=j ϕj
i=1
zi =const(ϕj )
К. В. Воронцов (www.ccas.ru/voron) Регрессия
36. Непараметрическая регрессия
Нелинейная модель регрессии
Многомерная линейная регрессия
Логистическая регрессия
Метод главных компонент
Нелинейные преобразования признаков
Нелинейная регрессия
Метод backfitting [Хасти, Тибширани, 1986]
Вход: F , y — матрица «объекты–признаки» и вектор ответов;
Выход: ϕj (x) — все функции преобразования признаков.
1: нулевое приближение:
α := решение задачи МЛР с признаками fj (x);
ϕj (x) := αj fj (x), j = 1, . . . , n;
2: повторять
3: для j = 1, . . . , n
n
4: zi := yi − ϕk (fk (xi )), i = 1, . . . , ℓ;
k=1,k=j
ℓ
2
5: ϕj := arg min ϕ(fj (x)) − zi ;
ϕ i=1
ℓ
2
6: Qj := ϕj (fj (x)) − zi ;
i=1
7: пока значения Qj не стабилизируются
К. В. Воронцов (www.ccas.ru/voron) Регрессия