This document summarizes research on multimedia information seeking through search and hyperlinking. It describes background on using search and hyperlinks for information access on multimedia content. It outlines the MediaEval benchmark which evaluates new algorithms for multimedia tasks. It then details the search and hyperlinking tasks conducted at MediaEval in 2012 and 2013, which explored using search to retrieve video segments and hyperlinks to connect related segments. Evaluation methods and results from these tasks are also summarized.
Михаил Щербаков - Нестандартное использование Puppet в деплойментеYandex
This document discusses using Puppet in non-traditional ways for deploying distributed applications across heterogeneous servers. It outlines pushing configuration from a central node using MCollective instead of relying on Puppet's master-agent architecture. Issues with the traditional approach are noted along with experiments trying different methods to dynamically generate configurations, including passing parameters via facts instead of using site.pp. The goal is to eliminate single points of failure and scalability bottlenecks. Future steps proposed include deploying in stages based on dependency graphs and allowing other configuration management tools.
В лекции рассказано о доступных средствах по отладке веб-сайтов, их возможностях, а также способах их использования. Также речь пойдет о том, как искать ошибки у пользователей в продакшене и контролировать качество продукта.
"OpenStack — more than just software". Tom Fifield, OpenStackYandex
OpenStack is a cloud computing platform that provides access to computing, networking, and storage resources. It consists of a collection of RESTful web services that work together to manage all aspects of a cloud, including launching virtual machines, attaching storage, and configuring networks. When a user requests a new server, the compute service coordinates with the image, networking, and storage services to start a new virtual machine on a compute node that has the necessary resources available.
This document summarizes research on multimedia information seeking through search and hyperlinking. It describes background on using search and hyperlinks for information access on multimedia content. It outlines the MediaEval benchmark which evaluates new algorithms for multimedia tasks. It then details the search and hyperlinking tasks conducted at MediaEval in 2012 and 2013, which explored using search to retrieve video segments and hyperlinks to connect related segments. Evaluation methods and results from these tasks are also summarized.
Михаил Щербаков - Нестандартное использование Puppet в деплойментеYandex
This document discusses using Puppet in non-traditional ways for deploying distributed applications across heterogeneous servers. It outlines pushing configuration from a central node using MCollective instead of relying on Puppet's master-agent architecture. Issues with the traditional approach are noted along with experiments trying different methods to dynamically generate configurations, including passing parameters via facts instead of using site.pp. The goal is to eliminate single points of failure and scalability bottlenecks. Future steps proposed include deploying in stages based on dependency graphs and allowing other configuration management tools.
В лекции рассказано о доступных средствах по отладке веб-сайтов, их возможностях, а также способах их использования. Также речь пойдет о том, как искать ошибки у пользователей в продакшене и контролировать качество продукта.
"OpenStack — more than just software". Tom Fifield, OpenStackYandex
OpenStack is a cloud computing platform that provides access to computing, networking, and storage resources. It consists of a collection of RESTful web services that work together to manage all aspects of a cloud, including launching virtual machines, attaching storage, and configuring networks. When a user requests a new server, the compute service coordinates with the image, networking, and storage services to start a new virtual machine on a compute node that has the necessary resources available.
Основы машинного обучения, базовые понятия (например переобучение и способы его предотвращения), различные архитектуры сетей, и, в частности, сверточные сети. Так же рассмотрены методы оптимизации вычислений в подобных архитектурах: quantization, binary-net и другие.
Алгоритмы классификации в машинном обученииWitology
В докладе рассмотрены наиболее популярные алгоритмы классификации в машинном обучении, их преимущества и недостатки, а также приведены результаты использования алгоритмов на реальных данных, в частности, в задаче классификации текстов по классам эмоций.
Алгоритмы и структуры данных BigData для графов большой размерностиAlexey Zinoviev
Article "Algorithms and Data Structures Big Data for large-scale graphs" presented on School-conference on Mathematical Problems of Informatics http://omskconf2013.oscsbras.ru/index.html by Alexey Zinoviev
EÆcient Tree Layout in a Multilevel Memory HierarchySteph.docxmydrynan
EÆcient Tree Layout in a Multilevel Memory Hierarchy�
Stephen Alstrupy Michael A. Benderz Erik D. Demainex
Martin Farach-Colton{ J. Ian Munrok Theis Rauhey
Mikkel Thorup��
November 12, 2002
Abstract
We consider the problem of laying out a tree with �xed parent/child structure in
hierarchical memory. The goal is to minimize the expected number of block transfers
performed during a search along a root-to-leaf path, subject to a given probability
distribution on the leaves. This problem was previously considered by Gil and Itai,
who developed optimal algorithms when the block-transfer size B is known. We show
how to extend any approximately optimal algorithm to the cache-oblivious setting in
which the block-transfer size is unknown to the algorithm. The query performance of
the cache-oblivious layout is within a constant factor of the query performance of the
optimal known-block-size layout. Computing the cache-oblivious layout requires only
logarithmically many calls to the layout algorithm with known block size. Finally, we
analyze two greedy strategies, and show that they have a performance ratio between
(lgB= lg lgB) and O(lgB) when compared to the optimal layout.
1 Introduction
The B-tree [3] is the classic optimal search tree for external memory, but it is only optimal
when accesses are uniformly distributed. In practice most distributions are nonuniform, e.g.,
distributions with heavy tails arise almost universally througout computer science.
�A preliminary version of this paper appeared in ESA 2002 [7].
yIT University of Copenhagen, Glentevej 65-67, DK-2400 Copenhagen NV, Denmark; email: fstephen,
[email protected]
zDepartment of Computer Science, State University of New York, Stony Brook, NY 11794-4400, USA;
email: [email protected] Supported in part by Sandia National Laboratories and the National Science
Foundation grants EIA-0112849 and CCR-0208670.
xMIT Laboratory for Computer Science, 200 Technology Square, Cambridge, MA 02139, USA; email:
[email protected] Supported in part by NSF Grant EIA-0112849.
{Department of Computer Science, Rutgers University, Piscataway, NJ 08855, USA; email: [email protected]
rutgers.edu. Supported in part by NSF Grant CCR-9820879.
kSchool of Computer Science, University of Waterloo, Waterloo, Ontario N2L 3G1, Canada; email:
[email protected]
��AT&T Labs|Research, Shannon Laboratory, Florham Park, NJ 07932, USA; email: [email protected]
research.att.com.
1
Consequently, there is a large body of work on optimizing search trees for nonuniform
distributions in a variety of contexts:
1. Known distribution on a RAM | optimal binary search trees [1, 18] and variations [15],
and Hu�man codes [16].
2. Unknown distribution on a RAM | splay trees [17, 21].
3. Known distribution in external memory | optimal binary search trees in the HMM
model [22].
4. Unknown distribution in external memory | alternatives to splay trees [17].1
Fixed Tree Topology. Search trees frequently encode decision tre ...
Предсказание оттока игроков из World of TanksYandex
Одна из наиболее часто возникающих задач в бизнес-аналитике для компаний — это предсказание оттока клиентов. Ведь если заранее знать, что клиент собирается уйти к конкуренту, его можно попытаться остановить. Задача будет рассмотрена на примере прогнозирования оттока игроков из World of Tanks.
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
Лекция Сергея Царика в Школе вебмастеров: «Как принять/организовать работу по поисковой оптимизации сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Основные этапы и методы поисковой оптимизации
Рассмотрим проработку стратегии продвижения, планирование ресурсов на проект, поймем как нужно прорабатывать семантическое ядро для продвижения, разберемся с очередностью всех работ.
Разложим по полочкам основные приемы оптимизации в связке с внутренними и внешними факторами ранжирования поисковых систем, а также в связке с поведенческими факторами и характеристиками. Разберемся с тем, что же должен делать оптимизатор для достижения топа.
Что должно включать в себя ТЗ на поисковую оптимизацию
Разберемся с основными блоками технического задания от оптимизатора, с тем, каким оно должно быть с точки зрения подачи информации и ее глубины.
Сравнение in-house подхода и агентства
Рассмотрим все «за» и «против» оптимизатора в штате компании и вне её.
На основе каких метрик нужно оценивать эффективность оптимизаторской работы
Выделим ключевые показатели эффективности работы оптимизатора, рассмотрим процесс их измерения, динамику, разберемся с возможными «миксами» и их связкой с мотивацией подрядчика.
More Related Content
Similar to Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
Основы машинного обучения, базовые понятия (например переобучение и способы его предотвращения), различные архитектуры сетей, и, в частности, сверточные сети. Так же рассмотрены методы оптимизации вычислений в подобных архитектурах: quantization, binary-net и другие.
Алгоритмы классификации в машинном обученииWitology
В докладе рассмотрены наиболее популярные алгоритмы классификации в машинном обучении, их преимущества и недостатки, а также приведены результаты использования алгоритмов на реальных данных, в частности, в задаче классификации текстов по классам эмоций.
Алгоритмы и структуры данных BigData для графов большой размерностиAlexey Zinoviev
Article "Algorithms and Data Structures Big Data for large-scale graphs" presented on School-conference on Mathematical Problems of Informatics http://omskconf2013.oscsbras.ru/index.html by Alexey Zinoviev
EÆcient Tree Layout in a Multilevel Memory HierarchySteph.docxmydrynan
EÆcient Tree Layout in a Multilevel Memory Hierarchy�
Stephen Alstrupy Michael A. Benderz Erik D. Demainex
Martin Farach-Colton{ J. Ian Munrok Theis Rauhey
Mikkel Thorup��
November 12, 2002
Abstract
We consider the problem of laying out a tree with �xed parent/child structure in
hierarchical memory. The goal is to minimize the expected number of block transfers
performed during a search along a root-to-leaf path, subject to a given probability
distribution on the leaves. This problem was previously considered by Gil and Itai,
who developed optimal algorithms when the block-transfer size B is known. We show
how to extend any approximately optimal algorithm to the cache-oblivious setting in
which the block-transfer size is unknown to the algorithm. The query performance of
the cache-oblivious layout is within a constant factor of the query performance of the
optimal known-block-size layout. Computing the cache-oblivious layout requires only
logarithmically many calls to the layout algorithm with known block size. Finally, we
analyze two greedy strategies, and show that they have a performance ratio between
(lgB= lg lgB) and O(lgB) when compared to the optimal layout.
1 Introduction
The B-tree [3] is the classic optimal search tree for external memory, but it is only optimal
when accesses are uniformly distributed. In practice most distributions are nonuniform, e.g.,
distributions with heavy tails arise almost universally througout computer science.
�A preliminary version of this paper appeared in ESA 2002 [7].
yIT University of Copenhagen, Glentevej 65-67, DK-2400 Copenhagen NV, Denmark; email: fstephen,
[email protected]
zDepartment of Computer Science, State University of New York, Stony Brook, NY 11794-4400, USA;
email: [email protected] Supported in part by Sandia National Laboratories and the National Science
Foundation grants EIA-0112849 and CCR-0208670.
xMIT Laboratory for Computer Science, 200 Technology Square, Cambridge, MA 02139, USA; email:
[email protected] Supported in part by NSF Grant EIA-0112849.
{Department of Computer Science, Rutgers University, Piscataway, NJ 08855, USA; email: [email protected]
rutgers.edu. Supported in part by NSF Grant CCR-9820879.
kSchool of Computer Science, University of Waterloo, Waterloo, Ontario N2L 3G1, Canada; email:
[email protected]
��AT&T Labs|Research, Shannon Laboratory, Florham Park, NJ 07932, USA; email: [email protected]
research.att.com.
1
Consequently, there is a large body of work on optimizing search trees for nonuniform
distributions in a variety of contexts:
1. Known distribution on a RAM | optimal binary search trees [1, 18] and variations [15],
and Hu�man codes [16].
2. Unknown distribution on a RAM | splay trees [17, 21].
3. Known distribution in external memory | optimal binary search trees in the HMM
model [22].
4. Unknown distribution in external memory | alternatives to splay trees [17].1
Fixed Tree Topology. Search trees frequently encode decision tre ...
Similar to Сергей Терехов — Активное обучение при малой доле примеров с известными ответами (20)
Предсказание оттока игроков из World of TanksYandex
Одна из наиболее часто возникающих задач в бизнес-аналитике для компаний — это предсказание оттока клиентов. Ведь если заранее знать, что клиент собирается уйти к конкуренту, его можно попытаться остановить. Задача будет рассмотрена на примере прогнозирования оттока игроков из World of Tanks.
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
Лекция Сергея Царика в Школе вебмастеров: «Как принять/организовать работу по поисковой оптимизации сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Основные этапы и методы поисковой оптимизации
Рассмотрим проработку стратегии продвижения, планирование ресурсов на проект, поймем как нужно прорабатывать семантическое ядро для продвижения, разберемся с очередностью всех работ.
Разложим по полочкам основные приемы оптимизации в связке с внутренними и внешними факторами ранжирования поисковых систем, а также в связке с поведенческими факторами и характеристиками. Разберемся с тем, что же должен делать оптимизатор для достижения топа.
Что должно включать в себя ТЗ на поисковую оптимизацию
Разберемся с основными блоками технического задания от оптимизатора, с тем, каким оно должно быть с точки зрения подачи информации и ее глубины.
Сравнение in-house подхода и агентства
Рассмотрим все «за» и «против» оптимизатора в штате компании и вне её.
На основе каких метрик нужно оценивать эффективность оптимизаторской работы
Выделим ключевые показатели эффективности работы оптимизатора, рассмотрим процесс их измерения, динамику, разберемся с возможными «миксами» и их связкой с мотивацией подрядчика.
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
Лекция Юлия Тихоход в Школе вебмастеров: «Структурированные данные на поиске»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Что такое микроразметка и в чём её польза
Что такое микроразметка (семантическая разметка, семантическая микроразметка) и кому она нужна. Очень кратко — всё, что я знаю о применении семантической разметки поисковыми системами и другими веб-сервисами.
Передача данных в машиночитаемом виде
Какие ещё есть способы передать данные о сайте поисковым системам кроме микроразметки, особенности разных способов. Что бывает с плохими вебмастерами, которые пытаются обмануть поисковые системы и передать неверные данные.
Типы разметки
Из чего состоит микроразметка, какие бывают словари и синтаксисы. Популярные сочетания словарей и синтаксисов, как правильно выбирать нужную комбинацию для своего сайта.
Передача данных об интернет-магазине
Разбор семантической разметки: что в принципе доступно для разметки в интернет-магазине, что это даёт, а что можно не размечать вовсе.
Проверка правильности микроразаметки
Ошибки в микроразметке, способы их обнаружения и исправления. Популярные валидаторы микроразметки. Какие ошибки непременно нужно исправлять, а что можно игнорировать.
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
Лекция Сергея Лысенко в Школе вебмастеров: «Представление сайта в поиске»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Основные элементы сниппетов: как влиять на их формирование
Как по внешнему виду и содержанию визитки судят, стоит ли «связываться», так и по представлению сайта на странице выдачи пользователи решают, стоит ли переходить на сайт. Как изменить представление сайта в выдаче поисковых систем? Что может повлиять на CTR и что для этого нужно сделать? Рассмотрим фавиконки, навигационные цепочки, быстрые ссылки и многое, многое другое.
Зачем нам заголовок: как им управлять
Что должно быть в заголовке, а чего уж точно не стоит делать. Как избавиться от мусора и расставить акценты. И как это скажется на представлении сайта в поиске.
Основной контент аннотации и мета-описания: что нам они дают
Сниппет — зачем он нужен? Как обрабатываются данные для аннотаций? Что в сниппете помогает, а что мешает пользователю сориентироваться? Как подсказать поисковой системе, что выводить в сниппете? От Open Graf до schema.org. Инструменты, возможности, рекомендации.
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
Лекция Екатерины Гладких в Школе вебмастеров: «Плохие методы продвижения сайта»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как завязывают с портянками
Как использовать wordstat, чтобы превратить текст в SEO-портянку. Как Яндекс определяет текстовый спам и какие ограничения могут быть применены к сайтам, злоупотребляющим ключевыми словами.
Эффектное размещение SEO-ссылок
Какие бывают SEO-ссылки и как они классифицируются в базе Яндекса. В чём отличие SEO-ссылок от рекламы. Как размещать SEO-ссылки наиболее эффектно. Методы борьбы против ссылочного спама – АГС и Минусинск. Снятие ссылок.
Поведенческие факторы, медитативные практики
Популярные сервисы накрутки: как это работает и как это не работает. Методы накрутки и методы борьбы с мошенничеством. Примеры пользовательских сессий и кто на самом деле посещает ваш сайт. Как выйти из-под санкций за накрутку поведенческих факторов.
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
Лекция Сергея Царика и Антона Роменского в Школе вебмастеров: «Основные принципы ранжирования»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как работает поиск
При запросе пользователя к поисковой системе происходит множество процессов, которые позволяют дать наиболее релевантный ответ. Рассмотрим основные механизмы формирования выдачи: формулы, Матрикснет, персонализацию и обновления.
Что учитывается при ранжировании сайтов
Так как сайты разные и по-разному решают пользовательские задачи, при ранжировании поисковой системе нужно учитывать множество факторов. Поговорим о том, что обязательно должно быть на сайте для правильной индексации.
Ещё о факторах ранжирования
Какой контент действительно важен и как его правильно представить. Для правильного ранжирования сайта важно разобраться с его региональной привязкой. Разберёмся, какой регион присваивать сайту и как сделать это правильно.
Реальный кейс долгосрочной работы над позициями
Посмотрим на реальном примере, как изменялись основные жизненные характеристики (трафик, конверсии) сайта на пути в топ выдачи поисковых систем.
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
Лекция Александра Смирнова в Школе вебмастеров: «Основные принципы индексирования сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Как поиск находит страницу, её путь до появления в поиске
Поисковые системы постоянно собирают информацию о страницах в интернете. Как же это происходит и как добавить страницы своего сайта в поиск? Проверка индексирования сайта.
Как управлять роботом (зеркала, sitemap, robots.txt)
Множество сайтов в интернете доступны сразу по нескольким адресам. Как указать поисковому роботу на основной и как скорректировать индексирование?
Особенности индексирования
Современные сайты используют различные технологии в своей работе. Рассмотрим, как настроить их правильно и сделать контент доступным для робота.
Как улучшить индексирование (дубли, HTTP-ответ, удаление из поиска)
В поиск попадают различные страницы, которые известны роботу. Какие нужны, а какие нет? Как повлиять на их индексирование?
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
Лекция Александра Лукина в Школе вебмастеров: «Мобильное приложение: как и зачем»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Проектирование. Быть или не быть
Обсудим обоснование для разработки мобильного приложения — какую ценность оно может принести для проекта и бизнеса. Определим основные типы приложений и сценарии использования. Рассмотрим основные технологии и выбор оптимальных для конкретных задач. ТЗ — как оценить и какие особенности необходимо учесть.
Разработка. Важные детали
На что обратить внимание на этапе разработки и тестирования, заметки по специфике мобильных экосистем. Выбираем арсенал SDK для всестороннего анализа проекта в полёте.
Публикация и продвижение
Кратко рассмотрим специфику Google Play и AppStore. Проведём экскурс в мир мобильного маркетинга, подчеркнём сходства с вебом и отличия от него. Рассмотрим ключевые метрики для анализа продукта и процесса продвижения, а также способы их повышения.
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
Лекция Олега Ножичкина в Школе вебмастеров: «Сайты на мобильных устройствах»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Статистика и тренды по мобильному интернету
Основные показатели мобильного интернет-рынка. Тенденции роста мобильной аудитории.
Новые алгоритмы ранжирования поисковых систем
Адаптация сайта к мобильным пользователям и её влияние на позиции в поисковой выдаче.
Возможности для бизнеса в мобильном вебе
Мобильный сайт позволяет воспользоваться дополнительными возможностями взаимодействия с пользователем. Рассмотрим конкретные примеры.
Мобильный сайт и приложение — в чём разница
Чем отличается мобильное приложение от мобильно сайта. Какие преимущества и недостатки у каждого варианта.
Представление сайтов на мобильных устройствах
Адаптивные сайты. Мобильные сайты. Сайты для десктопа. Чем они отличаются, какие преимущества у каждого типа и нужно ли переключаться между мобильной и десктоп-версиями?
Удобный мобильный сайт для пользователя
Поведение пользователей на мобильном сайте. Отличия от десктопа, достижение целей и простые правила увеличения конверсии.
Специфика разработки мобильного сайта
Особенности проектирования, разработки и тестирования сайтов.
Инструменты для разработки мобильных сайтов
Готовые инструменты для проектирования и тестирования. Примеры фреймворков.
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
Лекция Юрия Батиевского в Школе вебмастеров: «Качественная аналитика сайта»
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Что мы хотим от аналитики сайта
На какие вопросы должна отвечать аналитика сайта. Как аналитика сайта связана с аналитикой бизнеса. На какие блоки можно поделить аналитику онлайн-процессов. Какой должна быть идеальная аналитическая система.
Анализ общих показателей бизнеса
Как построить систему аналитики бизнеса в интернете. Ключевые показатели эффективности (KPI). Построение воронки продаж. Business Intelligence — сквозная аналитика всех процессов.
Обзор инструментов для анализа сайта и аудитории
Яндекс.Метрика и Google Analytics как основа веб-аналитики. Инструменты для веб-мастеров. Инструменты для анализа действий пользователей (Kiss-metrics, Woopra, Mixpanel). Системы для подсчета целевых действий, CPA и ROMI.
Анализ каналов привлечения клиентов
Как анализировать источники трафика. Популярные инструменты для анализа.
Пройти тест по теме
Процесс развертывания системы аналитики сайта
Подготовка к установке систем веб-аналитики. Тонкости установки и настройки трекеров. Подключение коллтрекинга и дополнительных инструментов фиксации целевых действий. Настройка пользовательских сценариев. Пример по анализу пользовательского сценария.
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
Лекция Петра Аброськина в Школе вебмастеров: «Что можно и что нужно измерять на сайте».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Базовые принципы веб-аналитики
Как работает веб-аналитика и какие подводные камни есть в учёте и анализе данных. Как правильно работать с данными.
Основные метрики и термины
Посетители, визиты, глубина просмотра, время на сайте — какие метрики важны и чем они отличаются.
Как выбрать правильный KPI
Самый важный этап в веб-аналитике и продвижении сайта. Какие цели выбрать интернет-магазину, сайту услуг, контентному проекту и т.д.
Ключевые группы отчетов и применение знаний на практике
Семь главных типов отчётов для бизнеса. Анализ контекстной рекламы, SEO и контента сайта — на конкретных примерах.
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
Лекция Алексея Бородкина в Школе вебмастеров: «Как правильно поставить ТЗ на создание сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
ТЗ: две буквы с большим потенциалом
Что такое техническое задание. Какое место оно занимает в веб-разработке. Какие цели преследует. И каким требованиям оно должно отвечать.
Что нужно сделать, прежде чем садиться за ТЗ
Зачем нужна подготовка к написанию ТЗ. Какую информацию нужно собрать и как выстроить этот процесс. На каком этапе веб-разработки нужно писать ТЗ — и что будет, если этот момент упустить. Какое отношение имеют к ТЗ прототипы, пользовательские истории и прочие инструменты проектирования.
Хорошее ТЗ
Как соединить в один документ описание интерфейсов, структуру данных и много чего ещё. Структура правильного, хорошего ТЗ с подробным разбором каждого пункта. С какой стороны приступать и как эффективнее всего выстроить работу.
Кто должен писать ТЗ
Кто может написать хорошее ТЗ. Где найти такого человека и как встроить его в общие процессы. Что делать, если ТЗ пишет сам заказчик.
Плохое ТЗ
Популярные ошибки. Чем они ужасны и как их избежать.
Жизнь с ТЗ
По какой схеме нужно согласовывать ТЗ. Как применять его в дальнейшей работе. Кому не нужно показывать ТЗ ни при каких обстоятельствах. Что делать, если ТЗ никому не нравится.
ТЗ по ГОСТ: ад на Земле
Краткая история развития ТЗ со времён Брежнева и до наших дней. Почему я старательно избегаю слова «ТЗ». Почему вы должны нервно вздрагивать при слове «ГОСТ». Что делать, если вы работаете с госзаказчиком.
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
Лекция Петра Волкова в Школе вебмастеров: «Как защитить свой сайт».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Актуальные типы угроз и динамика их развития
Компрометация сервера и её последствия. Распределённые атаки типа «отказ в обслуживании». Подмена или добавление рекламы на стороне клиента. Атаки, направленные на пользователей. Проблемы, связанные со внешним содержимым.
Управление рисками безопасности веб-сайтов
Разные типы сайтов подвержены разным типам рисков информационной безопасности. Понимание целей и подходов злоумылшенников как ключ к эффективному снижению рисков. Методы монетизации атак на сайты.
Доступный инструментарий и методики для обеспечения безопасности
Открытые инструменты форензики для типовых и сложных проектов. Системы обнаружения вторжений, подходы к проектированию безопасности в архитектуре и процессах.
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
Лекция Дмитрия Сатина в Школе вебмастеров: «Как правильно составить структуру сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Структура сайта, ориентированная на человека; построение структуры, карточная сортировка
Содержимое сайтов часто организовано так, как кажется удобным разработчику или контент-менеджеру компании. Чаще всего такие структуры неудобны для реальных посетителей, потому что не совпадают с их знаниями, не поясняют, как устроен материал, и не помогают найти желаемое. Структура, ориентированная на пользователя, повышает вероятность того, что посетители найдут нужную информацию или товар и сделают это быстро.
Стройте структуру, исходя из пользовательских сценариев. Выделение на сайте разделов, соответствующих структуре компании или схеме процесса закупки, как правило, усложняет навигацию для пользователя. Правильная структура учитывает уровень знаний покупателя и использует понятные ему термины и способы группировки.
Разные типы структур, средства навигации, дальнейший поиск информации на странице
Структуры сайтов, на которых ищут что-то определённое, отличаются от тех, что используются на сайтах, посетители которых ещё не уверены, что именно они хотят или как называется нужная вещь. Строгие структуры — например, организация по наименованию товара, производителю, — предполагают один способ группировки. При нестрогой организации данные можно группировать по теме, по жизненной ситуации и так далее. Используйте средства навигации, которые помогают понять, как организован материал. Решая, какой будет визуальная реализация навигации на сайте, необходимо учитывать количество разделов и связи �
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
Лекция Дмитрия Васильева в Школе вебмастеров: «Технические особенности создания сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Сайт — расплывчатое понятие
Раньше под словом «сайт» понимался набор HTML-страниц, расположенных в домене второго или третьего уровня. Появление социальных сетей размыло это понятие.
Как выбрать домен
Различные варианты, и какой из них подойдёт именно вашему сайту: доменные зоны, читаемые и нечитаемые домены, кириллица и латиница.
Подходы к созданию сайтов
Первые сайты делались на чистом HTML. Сейчас такой способ ещё встречается, но подавляющее большинство веб-страниц создаются при помощи CMS, фреймворков, конструкторов.
Составные сущности: структура, макеты дизайна, интерактивные элементы, контент, система прав. Размещение сайта на хостинге. Российские и зарубежные, дорогие и дешевые, облачные и традиционные провайдеры. Кратко о тонкостях взаимодействия с ними.
Что такое HTTPS
Всё более популярный безопасный протокол доступа к сайту. Нужен ли он вам и в каких случаях. Как выбрать платформу для сайта, основные системы управления сайтом (CMS) и конструкторы.
Сайт после запуска
Сайты создаются с конкретной целью, обычно связанной с получением дохода. Как контент сайта и его технические характеристики напрямую могут влиять на бизнес-эффективность.
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
Лекция Елены Першиной в Школе вебмастеров: «Конструкторы для отдельных элементов сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
О пользе тех или иных технологий
Взгляд в будущее, короткий обзор других полезных технологий и «опасностей», которые подстерегают на пути к правильному их выбору.
Как выбрать поиск для сайта
Поиск для сайта — важный инструмент навигации. Чтобы оценить качество поиска по своему сайту, посмотрите на количество уходов со страницы результатов. Полнота, скорость индексирования, обработка запросов (исправление ошибок, опечаток, неправильной раскладки) — без этого невозможно представить качественный поиск.
Как выбрать карты для сайта
Уход посетителя с сайта на «большие» Яндекс.Карты за точной информацией об организации может обернуться потерей клиента, который уже был готов к покупке. Чтобы этого не допустить, лучше сделать интерактивную карту прямо на сайте.
Автоматизация оплаты на сайте
Люди привыкают платить картой, сегодня даже уличные киоски принимают их. Поэтому многим посетителям кажется «подозрительным» интернет-магазин, в котором недоступны электронные платежи. Начать приём банковских карт в онлайне очень просто, главное выбрать для этого подходящую технологию.
Перевод важных страниц
На каких языках говорит ваша аудитория, много ли у вас посетителей из-за рубежа? Ответы на эти вопросы даст Яндекс.Метрика. Именно она поможет оценить, нужно ли тратиться на профессионального переводчика и готовить отдельные описания товаров или новости на других языках. Во многих случаях для совершения покупки достаточно и простого машинного перевода. Узнайте, как его настроить, чтобы ключевые разделы сайта автоматически переводились для иностранных посетителей.
Социальная интеграция
Как заставить пользователей говорить о себе в социальных сетях? В первую очередь нужно сделать хороший продукт или услугу, но и без удобного инструмента для «шаринга» в соцсетях — никуда. Рекомендации о том, как выбрать и установить такой инструмент к себе на сайт.
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
Лекция Катерины Ерошиной в Школе вебмастеров: «Контент для интернет-магазинов».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Виды контента для интернет-магазинов
Основные страницы, карточки товаров, каталог в целом. Письма покупателям. Статьи для интернет-магазина.
Основные сервисные страницы: что нужно знать покупателю
О страницах доставки, оплаты, контактов, условий работы.
Страница товара интернет-магазина: какой нужен текст, чтобы товар нашли
Признаки товаров. Сниппеты товарных позиций. Когда текст не нужен вообще. Постоянная и техническая информация на карточке.
Блог и внешние публикации интернет-магазина
О чем писать, чтобы подогреть интерес к магазину. Сторителлинг. UGC: методы вовлечения (кратко).
Персонализация интернет-магазина: стать ближе к покупателю
Красивый пример личного бренда директора магазина.
Копирайтинг для интернет-магазина: на чём можно и нельзя экономить
Что делать, если у вас 100 000 товарных позиций и они постоянно меняются.
Хорошее ТЗ копирайтеру для наполнения интернет-магазина
Что должен знать копирайтер, чтобы не писать ерунду.
Как оценить работу копирайтера
Стандартные проверки. Контроль качества текста средствами аналитики.
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
Лекция Катерины Ерошиной в Школе вебмастеров: «Как написать хороший текст для сайта».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Назначение и типы текстов на сайте и вне его
Цель текста — влиять на поведение пользователя. Самое простое — информировать, самое сложное — привести к покупке. Виды текстов для внешних публикаций. Белые книги и другие способы подтвердить экспертизу.
Контент-план для наполнения, развития сайта и внешних публикаций
Как проектировать контент для нового сайта. Как наращивать информационную массу сайта. Внешние контакты с потребителем.
Разные уровни вовлечения: информируем, продаём, помогаем
Пройти по пути покупателя, выдавать информацию, необходимую для совершения следующего шага. Ловушки на этом пути.
Информационный стиль: применение с пониманием
Чистить текст без фанатизма. Эмоциональное вовлечение. Рациональное обоснование.
Структура и вёрстка
Заголовки и подзаголовки, списки, абзацы, иерархия подачи информации.
SEO-аспекты и LSI-копирайтинг
Понимание ценности ключей. Зачем копирайтеру нужно семантическое ядро.
Оценка качества текста (чеклист)
Уникальность, фактическая достоверность, соответствие целям, информационная плотность, грамотность.
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
Лекция Алексея Иванова в Школе вебмастеров: «Usability и дизайн: как не помешать пользователю».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Что такое юзабилити и почему оно важно
Поведение пользователей на сайте и достижение ими запланированных целей зависит не только от контента, но и от удобства сайта.
Информационное и функциональное наполнение сайта
Перед созданием сайта нужно правильно определить, какая информация и какой функционал должны быть на сайте. При этом нужно исходить не из того, что у вас есть, а из того, что будет нужно будущим посетителям вашего сайта.
Проектирование входных страниц
В зависимости от целей сайта и источников посетителей нужно сформулировать требования к входным страницам сайта и их содержанию.
Сценарии поведения пользователя
Для правильного распределения информации нужно описать сценарии взаимодействия с сайтом для разных групп посетителей. Рассмотрим методы совмещения разных сценариев на одном сайте.
Пройти тест по теме
Управление конверсией
В большинстве случаев мы ждем от посетителя сайта какого-то целевого действия. Это может быть регистрация, отправка заявки, звонок или что-то ещё. Вы увидите способы мотивации посетителей к совершению целевого действия для различных типов сайтов.
Пройти тест по теме
Основные принципы распределения информации
В рамках этого блока вы увидите, как нужно распределять информацию на странице, чтобы посетители увидели всё, что вы хотите им показать.
Мобильная версия сайта и принципы юзабилити
Всё больше посетителей приходят на сайт с мобильных устройств. Рассмотрим основные особенности взаимодействия с информацией с мобильного устройства и подходы к адаптации сайта под них.
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
Лекция Алексея Иванова в Школе вебмастеров Яндекса: «Сайт. Зачем он и каким должен быть».
https://academy.yandex.ru/events/webmasters_school/yawebm2015/
Типы сайтов и потребности аудитории
В зависимости от решаемых задач, сайты можно разделить на несколько характерных типов с разными функциями и контентом. Перед созданием сайта важно понять, чего ждут посетители и какими хотят видеть веб-страницы. При этом на один и тот же сайт может попадать разная аудитория, которая ведёт себя по-разному и каждая имеет свои потребности. Для каждого сегмента нужно разработать отдельные сценарии взаимодействия с информацией на вашей площадке.
Сайт с точки зрения бизнеса
Чаще всего сайт создается для решения конкретных бизнес-задач. Рассмотрим различные типы монетизации сайтов и особенности каждого из них.
Основные показатели и методы измерения
Одно из главных преимуществ цифровых каналов — детальная аналитика взаимодействия посетителей с сайтом. В данном блоке рассмотрим основные инструменты измерения, ключевые показатели сайта, на которые нужно обращать внимание, и подходы к интерпретации полученных данных для принятия решений.
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
1. Редкие сигналы учителя и
Активное обучение
Semi-supervised and Active
Learning
Сергей Терехов
ООО "НейрОК ТехСофт", http://www.neurokts.ru E-mail: alife@narod.ru
2. В этой лекции:
Рассматривается проблема целенаправленного отбора
обучающих примеров с известной информацией о классах.
Предлагаются методы эффективного использования всех
имеющихся данных, независимо от наличия меток классов.
Развитые подходы применяются к задаче классификации
дефектов труб магистральных нефтепроводов по данным
магнитной внутритрубной дефектоскопии.
The problem of directed optimal selection of labeled training samples (Active Learning) is
considered. Practical methods of utilization of all available data via Semi-Supervised
Learning are proposed. The developed approach is applied to recognition and
classification of pipeline defects from measurements of magnetic flux leakage
defectoscopes.
3. План
● Проблема обучения на данных с редкими метками
● Гибридное обучение с метками и без меток (semi-
supervised learning):
○ Алгоритмы классификации на графах
○ Нейросетевой классификатор с оценкой плотности
● Активный отбор данных при обучении (active learning)
○ Общая задача планирования сбора информации
○ Ранжирование и активный выбор примеров
● Анализ дефектоскопических данных
○ Практическая задача: классификация дефектов
промышленного трубопровода
4. Обучение "с учителем" и
"самостоятельно". Чему учиться?
● Типичная ситуация: доступный корпус данных весьма
обширен, однако основной объем наблюдений не
содержит смысловых меток. Традиционная постановка
базовых задач обучения машин (классификации,
регрессии, прогнозирования и др.) крайне затруднена.
● Semi-supervised - промежуточное положение между
обучением с учителем и самоорганизацией без учителя.
● Если можно выбирать,
то чему учиться?
Active learning
5. Три основных проблемных вопроса
1. Пространство входных признаков.
Входные компоненты данных необходимо эффективно
описывать безотносительно меток-выходов. Имеющейся
информации о выходах заведомо недостаточно для
адаптивного формирования входных признаков в процессе
обучения.
6. Три основных проблемных вопроса
2. Использование примеров без меток при обучении.
Это предложение, на первый взгляд, может выглядеть
парадоксальным - чем может помочь входной пример, если
значение выхода для него не известно?
В действительности, информация о распределении входов
может значительно сужать класс вероятных моделей, что и
может быть использовано, если сигналы учителя редки.
7. Три основных проблемных вопроса
3. Стратегия сбора новых данных о выходах.
Направленный отбор данных для оценивания должен
максимизировать информативность выходов ("сигналов
учителя") при последующем обучении.
Сбор данных - тяжелый труд
8. Гибридное обучение
● Идея: Разумеется, отдельные примеры без меток, сами
по себе, не могут повысить правдоподобие в задаче
классификации с учителем. Однако, пространственное
распределение множества обучающих примеров без
меток может существенно изменять наши априорные
представления о границах классов.
● Формализация:
○ Данные образуют компактные кластерные структуры,
○ Вероятные границы классов не пересекают
областей, густо населенных данными,
○ Близкие в пространстве признаков примеры
предпочтительно относятся к одному классу.
9. Пример влияния примеров без меток
на априорное решение
● Ситуация A: два
примера с метками.
● Ситуация Б: те же
примеры с метками
плюс информация о
расположении
примеров без меток.
● Априорные границы
классов - разные
10. Роль предположений в гибридном
обучении
● В приведенном примере выполнены все основные
предположения о характере данных, которые
благоприятствуют эффективному использованию
примеров без меток в задачах классификации
(структуры, границы классов - там, где нет данных, и
компактность классов).
● Значительное уклонение данных в прикладной задаче
от таких предположений может приводить к ухудшению
точности классификации при учете примеров без меток.
11. Гибридные алгоритмы на графах
● Граф, узлами которого служат все обучающие примеры
(и с метками, и без), а ребрами соединены пары
''близких'' примеров, позволяет выделить однородные
области, заполненные данными.
● Классификаторы:
○ поиск границ классов, пересекающих минимальное
число ребер графа
○ поиск гармонической функции со значениями,
равными +-1 в узлах и известными метками, и
взвешенной сумме значений в соседних узлах, если
метка данного узла не задана.
13. Проблемы с алгоритмами на графах
● Графовые алгоритмы дают лишь трансдуктивное обучение.
○ Другими словами, значения функции-классификатора определены только в
точках имеющихся данных. Все интересующие примеры (и с метками, и без)
должны быть заранее определены. При добавлении новых данных
необходимо заново перестроить классификатор.
● В приложениях, в условиях шума в данных, весьма непросто
построить хороший граф соседства.
○ Проблема особенно обостряется, если в разных областях пространства
данных ближайшие примеры отстоят друг от друга на разных масштабах.
Эта проблема не так остра для графов на основе ближайших соседей,
однако в этом случае фиксирование числа соседей может нарушать
естественную кластерную структуру в малозаселенных областях данных.
Построение сбалансированного графа в общем случае представляет собой
нерешенную задачу.
● Сложности с масштабированием при росте объема данных.
○ Надежные вычисления (и, прежде всего, построение самого графа) при
объеме данных выше нескольких десятков тысяч примеров затруднены.
14. Графы хороши в "естественных"
графовых задачах
Перспективными для графовых
методов являются приложения,
в которых структура графа
определена и задана
изначально.
Примером такой задачи,
актуальной в последнее время,
служат графы социальных
сетей. Эта тематика весьма
обширна и заслуживает
отдельной лекции.
Social Network Mining
http://www.cs.purdue.edu/homes/neville/courses/aaai08-tutorial.html
15. Нейросетевой классификатор для
данных с метками и без меток
Обратимся к методам обучения на
примерах с редкими метками, в
которых плотность данных
моделируется и используется
локально (поточечно).
Нейронная сеть может быть
традиционными способами легко
обучена только на порции
примеров с метками. Однако, если
доля примеров с метками заметно
мала, то.....
Задача А.Н. Горбаня
1 1 1
1 ? 1
1 1 1
17. Мало меток: Два вопроса
● Трудно надеяться на хорошие обобщающие свойства такой
модели - нейронная сеть не в состоянии сформировать
существенные для задачи категории в выходных слоях.
● Еще б'ольшие проблемы возникают на входах. При
полноценном обучении (на достаточной выборке данных)
входные нейроны, в теории, автоматически формируют набор
информативных признаков. Даже при богатых данных этот
процесс, в действительности, достаточно сложен, и
полученные признаки могут оказаться далекими от
оптимальных.
В нашем случае редких меток для формирования
содержательных входных признаков имеющейся информации
о метках заведомо недостаточно.
18. Простая и ясная идея
● Попутно с задачей классификации решать и задачу
аппроксимации плотности (оценка носителя данных)
● Использовать для решения задачи классификации
готовый базис входных слоев, который формируется
при адаптации нейронной сети к пространственному
распределению (плотности) данных. Для оценки
плотности могут быть использованы все имеющиеся
примеры (в том числе, без меток)
19. NDBC: Neural Density Based Classifier
● Многослойная нейронная сеть прямого
распространения
● Входы: входные сигналы обычного нейросетевого
классификатора
● Выходы:
○ K выходов для кодирования K классов
○ Дополнительный выход, пропорциональный
локальной плотности данных (Терехов, 2002)
● Обучение: с учителем, на смеси исходных данных и
фоновых шумовых (случаных) примеров
20. Почему это будет работать?
Разумеется, информативный базис для задачи оценивания
условной вероятности p(y|x) трудно построить на основе
апроксимации только p(x), однако в последнем случае
будет рационально описана топология входного
пространства.
Примеры, относящиеся к одной связной области, будут
порождать схожую активность в выходных нейронных
слоях. Тогда формально достаточно одного примера с
меткой, чтобы правильно классифицировать всю
однородную область.
Также автоматически гарантируется и отсутствие
рассечения плотной однородной области границей классов
- в построенном по p(x) базисе просто нет соответствующих
элементов.
21. Аппроксимация плотности
Рассматривается (лекция 2002 г.), как обучение с учителем
на удвоенном множестве примеров (исходные примеры +
случайные примеры). Для исходных примеров целевой
выход +1, для случайных -1.
Значение выхода a(x) сходится к локальной плотности:
P(x) ~ Po (1+a(x)) / (1-a(x))
Здесь нам нужна не сама плотность, а нейронный базис,
получающийся в результате аппроксимации.
http://alife.narod.ru/lectures/density2002/Density2002.pdf
22. Особенности обучения
Веса выхода, ответственного за моделирование плотности,
обучаются всегда. Веса нейронов, занятого исходной
задачей классификации, используются для формирования
градиента только если пример снабжен известной меткой
класса. После каждого примера из входного потока для
обучения предъявляется пример со случайным входом (без
метки).
Первый выход нейросети интенсивно участвует в обучении,
оценивая плотность истинных на фоне случайных
примеров. В скрытых слоях нейронов происходит
формирование базиса входных признаков. Остальные
выходы используют текущее состояние этого базиса для
классификации в соответствии с метками классов.
23. Попутная аппроксимация плотности
как регуляризатор
Попутная аппроксимация плотности выполняет роль
специфической регуляризации. Действительно, класс
функций, описывающих решающие правила
классификатора при условии одновременной
аппроксимации плотности примеров, сужен в сравнении с
классом функций без этого условия. Таким образом, в
соответствии с теорией А.Н.Тихонова, попутная
аппроксимация плотности является регуляризатором для
исходной задачи.
Упражнение: доказать.
Упражнение (***): опровергнуть, либо ....
Упражнение (***): к чему все-таки сходится выход,
предназначенный для аппроксимации плотности?
24. Полезно
Аппроксиматор плотности играет самостоятельную
практическую роль в задаче классификации. А именно, его
выход для новых примеров указывает на степень их
принадлежности к исходной обучающей совокупности
данных.
Таким образом, мы получаем не только сам результат
классификации, но и количественную меру его надежности.
Это неоценимо в приложениях, связанных с оценками
риска при прогнозировании. Платой за такие удобства
служит удвоение набора обучающих данных и несколько
более сложная архитектура нейронной сети.
25. Вредно
Если обучающие примеры получены регулярной
процедурой (например, сетка) для обычного фиттинга
некоторой зависимости. Распределение входов не
информативно.
?
27. Можно было бы
для формирования входных признаков использовать и
оригинальные модели deep autoencoding (Hinton) или
восстановления (по Яхно). Однако они связаны, так или
иначе, с полным восстановлением входа на выходе, если
нейронная сеть ''узнала'' данный входной образ. Такое
восстановление гораздо более затратно, чем
формирование скалярного сигнала ''узнавания'' от
аппроксиматора плотности, который достаточен для
подкрепления при обучении распознаванию и
классификации.
● Не требуется (изнурительная энергетически)
конкуренция нейронов
● Трудно (?) обнаружить в биосистемах, т.к. механизм
основан на отдельных специфичных (командных)
нейронах.
28. Активный отбор данных при
обучении
В предыдущей главе был предложен практический
инструмент, позволяющий эффективно использовать при
обучении всю имеющуюся информацию о данных.
Обратимся теперь к вопросу о сборе новой информации.
При этом, по-прежнему, будем предполагать, что нет
дефицита в данных с неизвестной принадлежностью к
классам. Поэтому сконцентрируемся только на проблеме
сбора новых меток для уже имеющихся примеров.
29. Общая задача оптимального
планирования при сборе данных
Нашей целью является такой процесс получения новых
меток, который скорейшим образом способствует
уменьшению ошибки последовательно обучающегося на
новой информации классификатора.
Эта задача относится к области оптимального
планирования, которая допускает несколько базовых
постановок, в зависимости от горизонта плана и характера
неопределенности в ценности будущих испытаний.
Design of Experiments (DoE)
30. Подходы
● Для пространств невысоких размерностей:
фиксированные планы эксперимента, например,
латинские гиперкубы.
● Если зафиксирован полный ресурс (бюджет) на
экспериментирование, то задача может быть
сформулирована, как задача стохастической
оптимизации.
● В случае, когда информационные вклады отдельных
наблюдений (здесь - меток классов) независимы или
имеют определенную корреляционную структуру,
задача сводится к известной задаче о многоруком
бандите (см. популярное изложение http://www.neurokts.
ru/docs/Multi_Armed_Bandit_Story.pdf).
31. Ранжирование и активный выбор
примеров
1. Производится обучение классификатора на всей имеющейся
совокупности данных с метками и без меток.
2. Построенная модель применяется (в режиме распознавания)
ко всем данным без меток. Результаты классификации
оцениваются по одному из выбранных информационных
критериев (ниже) и сортируются в порядке убывания оценки.
Удаляются примеры, индикатор локальной плотности для
которых ниже выбранного порогового значения.
3. Пример с наивысшим рейтингом предлагается эксперту для
назначения метки класса.
4. Принимается решение о пригодности текущей модели, либо о
продолжении сбора данных для уточнения модели. В
последнем случае процесс повторяется.
32. Роль эксперта в человеко-машинной
системе
Такой логике, в основном, следуют весьма актуальные в
последнее время сценарии интерактивного обучения машин и
человеко-машинных систем (interactive machine learning).
Непосредственная вовлеченность эксперта или пользователя в
процесс синтеза интеллектуальной модели может стать
решающим фактором успеха прикладного проекта, и значительно
повышает уровень доверия к искусственной системе (хотя она
продолжает оставаться ''черным ящиком'').
Основная задача рекомендательного алгоритма отбора данных
сводится, формально, к уменьшению длины последовательности
обработанных экспертом примеров, и, неформально, к
нахождению ''интересных'' примеров, отражающих
разносторонние аспекты исследуемой системы или процесса.
34. Критерии и принципы отбора данных
● Основной критерий (SVM) - это степень близости
примера к текущей оцениваемой границе классов
(энтропия прогнозируемого распределения
вероятностей классов в данной точке).
● Критерий разницы между вероятностью класса
победителя и следующего за ним наиболее вероятного
класса.
● Другие (эвристические) критерии могут использовать
энтропию активностей в слоях скрытых нейронов.
Хаотическая активность большого числа нейронов
может возникать, если пример ''новый'', и для него еще
не сформировался компактный код.
35. Критерии 2
При обучении с одновременной оценкой матожидания и
дисперсии выходов (пример -- ранее описанная автором в
лекциях система CNet), для предпочтительного назначения
меток могут рекомендоваться примеры с высокой
дисперсией (неопределенностью) выходов. Этот критерий
идентичен подходу, применяемому в алгоритмах на основе
условных гауссовых процессов и опорных векторов
(Relevance Vector Machine и Informative Vector Machine).
Могут использоваться и иные, например, геометрические,
принципы рейтингования, как то удаленность примера от
других примеров с известными метками, либо выбор
примера, способного изменить класс у максимального
числа примеров, если их классифицировать методом
ближайшего соседа.
36. Модельная задача (3 класса)
Точность решения задачи классификации при последовательном
добавлении обучающих примеров с метками. Стратегии активного
обучения: отбор по максимуму энтропии выходов (кружки, сплошная
линия), опережение первого победителя над вторым (кружки, штрих-
пунктир), случайный выбор (плюсы, сплошная линия) и отбор по
энтропии с попутной аппроксимацией плотности (сплошная линия без
маркеров).
38. Измерения - магнитные и
ультразвуковые внутритрубные
дефектоскопы
http://en.wikipedia.org/wiki/Magnetic_flux_leakage
39.
40.
41.
42. Суть вопроса
Описанные в предыдущих разделах подходы применялись к
промышленным задачам классификации дефектов стенок
промышленных нефтепроводов. Информационным
сигналом являются локальные искажения потока
постоянного магнитного поля, насыщающего стенку трубы.
Измерения проводятся промышленными внутритрубными
дефектоскопами, следующими в потоке нефти,
промагничивающими стенки и измеряющими сигналы утечки
потока. В специальной литературе этот метод диагностики
носит название ''метод утечки магнитного потока'' (MFL -
magnetic flux leakage).
Измерения лишьопосредованно отражают форму и
характер дефекта, 3D --> 2D
43. Суть вопроса 2
При использовании методов магнитной дефектоскопии
основная проблема состоит в установлении связи
двумерного магнитного отклика вблизи плоскости
расположения дефекта, например у стенки трубы, с
истинными трехмерными параметрами дефекта, такого как
коррозийная потеря металла, механическая риска и др.
Задача получения 3D информации из 2D сигнала является
некорректно поставленной, и ее устойчивое решение в
данном частном случае может опираться на априорную
статистику характерных сигналов, параметры дефектов для
которых известны.
44. Этапы промышленной задачи
Собственно этапу классификации предшествовали
технологические этапы обнаружения и распознавания
областей дефектов на фоне сигналов от конструкционных
элементов трубопровода и источников ''шума'' вследствие
неидеальности трубы и самих диагностических приборов.
Затем, для выявленных областей аномалий магнитного
сигнала, проводилось их количественное описание на
основе системы информативных признаков (выбор которых
представляет собой отдельную сложную задачу).
45. Постановка задачи в рамках лекции
Каждый из выбранных для анализа 647 дефектов был
представлен 24 признаками, включающими свойства
магнитной системы, параметры формы магнитного
сигнала, контекст расположения и другие свойства.
Глубины проникновения в стенку для этих дефектов
считались известными
В контексте данной лекции, задача представлена в виде
классификации векторов признаков в семейство из трех
классов, отвечающих различным глубинам дефектов. Эта
подзадача важна как для разработки последующей
нелинейной регрессионной модели, прогнозирующей
размеры дефектов, так и для других задач распознавания
(например, классификации дефектов по их типам).
46. Активное обучение
Обучение нейросетевого
классификатора с двумя
скрытыми слоями нейронов с
попутной аппроксимацией
плотности. Использовалась
Байесова регуляризация
весов нейронов с априорным
распределением Лапласа.
Последовательный активный
отбор обучающих меток
основывался на энтропии
выходов.
Точность классификации дефектов
по глубине (в %) в зависимости от
объема выборки данных с метками.
47. Значимость входов
Весовые коэффициенты
входного слоя обученной
нейронной сети с глубокой
регуляризацией. Входы (по
горизонтали) упорядочены по
убыванию коэффициента
линейной корреляции с
выходами. Видно, что
решение основано на
использовании 7 входов из
24. При этом 4 из 10
нейронов практически не
задействованы. Эта
информация получается
автоматически, вследствие
корректной регуляризации.
48. Основной результат
Основной результат - задача классификации успешно
решена с использованием лишь 30-35 примеров с метками
(около 5% от объема исходных данных). Эти примеры не
произвольны, а выявлены путем направленного активного
процесса анализа данных.
49. Итоги
В практических приложениях, как для промышленных потребителей, так и
при интерпретации результатов научных экспериментов, полный корпус
имеющихся данных, обычно, заметно богаче, чем выборка наблюдений с
известными классами. Задача классификации фундаментальна, и для ее
решения целесообразно использовать всю доступную информацию.
Затратный процесс сбора информативных меток классов необходимо
оптимизировать. В лекции предложены подходы и методы оптимального
отбора обучающих примеров, основанные на совмещении этого отбора с
процессом последовательно уточняющегося обучения классификатора.
Направления активного обучения и гибридного обучения (с метками и без)
бурно развиваются в последнее время. Эти исследования являются, по
мнению автора, замечательным примером, когда теоретические построения
и результаты напрямую сопрягаются с практическими потребностями
пользователей обучающихся машин и алгоритмов.