Как работают Яндекс.Новости<br />ТатьянаИсаева<br />
Задачи Яндекс.Новостей<br />Миссия Яндекса – отвечать на заданные и незаданные вопросы пользователей<br />Яндекс.Новости:<...
Модель сервиса<br /><ul><li> Обеспечивают быструю трансляцию контента(~40 тыс. сообщений всутки)
 Получают читателей (1,5 млн переходов в сутки)</li></ul>Издания<br /><ul><li> Узнают новости на Яндексе(15 млн человек в ...
 Читают подробности у источников (1 млнчеловек в сутки)
 Задают вопросы о новостях (500 тыс. запросов в сутки)</li></ul>Читатели<br />3<br />
Принципы Яндекс.Новостей<br /><ul><li>Полностью автоматический сервис
Партнерский сервис
Единые требования для всех партнеров
Зеркало русскоязычной медиа-среды</li></ul>Цели: отразить новостную картину дня и дать ссылки на источники, содержащие наи...
Релевантный новостной ответ<br />  Алгоритм, формирующий ответ на новостные запросы пользователей, ориентируется на следую...
Требования к сообщению<br />Формат (не подходят для трансляции реклама; не обработанные силами редакции пресс-релизы; ново...
Что такое *дубликат <br />  Дубликаты – документы, в большой степени совпадающие с оригинальным сообщением. Они автоматиче...
Статистика «копипейста»<br />Доля дубликатов сообщений в российских интернет-СМИ - 20%<br />Доля изданий, которые ни разу ...
Сюжет в Яндекс.Новостях<br />9<br />
Схема создания сюжета<br />Создание поискового запроса из ключевых слов документа, построение матрицы близости документов<...
Выбор заголовка сюжета<br />Соответствие региону пользователя<br />Лексическая и фактологическая «ядерность»<br />Актуальн...
Создание аннотации сюжета (дайджеста)<br />  Из всех сообщений сюжета автоматически выделяются наиболее значимые объекты,и...
Аннотация сюжета. Информативность<br />13<br />
Заголовок сюжета. «Ядерность» лексики<br />14<br />
Выбор основных заголовков сюжета<br />Цитирование источника в сюжете<br />Дата публикации<br />Вес источника<br />Цель:Дол...
Выбор заголовков для первой страницы. Цитируемость в сюжете<br />16<br />
Определение жанра сообщения<br />Лента – короткие новостные сообщения<br />Новость – более развёрнутое сообщение<br />Инте...
Upcoming SlideShare
Loading in …5
×

Как работают Яндекс.Новости

2,170 views
2,024 views

Published on

Published in: Business, Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,170
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
23
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Как работают Яндекс.Новости

  1. 1. Как работают Яндекс.Новости<br />ТатьянаИсаева<br />
  2. 2. Задачи Яндекс.Новостей<br />Миссия Яндекса – отвечать на заданные и незаданные вопросы пользователей<br />Яндекс.Новости:<br /><ul><li>На главной страницеЯндекса удовлетворяют потребность пользователей в актуальной информации</li></ul>Незаданный вопрос: «Что сейчас происходит?»<br /><ul><li>В Поиске отвечают на явно сформулированные вопросы пользователей</li></ul>Заданные вопросы: «синагога в Твери», «Хамовнический суд», «танцующий мост в Волгограде»<br />2<br />
  3. 3. Модель сервиса<br /><ul><li> Обеспечивают быструю трансляцию контента(~40 тыс. сообщений всутки)
  4. 4. Получают читателей (1,5 млн переходов в сутки)</li></ul>Издания<br /><ul><li> Узнают новости на Яндексе(15 млн человек в сутки)
  5. 5. Читают подробности у источников (1 млнчеловек в сутки)
  6. 6. Задают вопросы о новостях (500 тыс. запросов в сутки)</li></ul>Читатели<br />3<br />
  7. 7. Принципы Яндекс.Новостей<br /><ul><li>Полностью автоматический сервис
  8. 8. Партнерский сервис
  9. 9. Единые требования для всех партнеров
  10. 10. Зеркало русскоязычной медиа-среды</li></ul>Цели: отразить новостную картину дня и дать ссылки на источники, содержащие наиболее полную информацию о событиях<br />4<br />4<br />
  11. 11. Релевантный новостной ответ<br /> Алгоритм, формирующий ответ на новостные запросы пользователей, ориентируется на следующие свойства сообщений:<br />принадлежность первоисточнику<br />оперативность <br />цитируемость<br />информативность<br />Источники, у которых доминируют такие сообщения, предлагаются пользователям в первую очередь.<br />5<br />
  12. 12. Требования к сообщению<br />Формат (не подходят для трансляции реклама; не обработанные силами редакции пресс-релизы; новости сайта; аудио- и видеоматериалы, не сопровождаемые связным печатным текстом; таблицы и списки, не сопровождаемые связным печатным текстом)<br />Технология (если текст сообщения на сайте был изменён, необходимо поместить его в экспортный файл в изменённом виде или прислать запрос на удаление неактуального сообщения)<br />Требования законодательства (аккуратное цитирование; нормы литературного русского языка)<br />6<br />
  13. 13. Что такое *дубликат <br /> Дубликаты – документы, в большой степени совпадающие с оригинальным сообщением. Они автоматически определяются до формирования сюжета, не представлены в сюжетах и не участвуют в поиске по сервису.<br /> Из каждой группы дубликатов остается по одному сообщению («мастеру»), которое может быть представлено на страницах сюжета и в результатах поиска. «Мастер» определяется:<br />по времени публикации сообщения на сайте;<br />по сравнительному анализу текстов;<br />по цитированию источника (учитываются гиперссылки, текстовые упоминания).<br />7<br />
  14. 14. Статистика «копипейста»<br />Доля дубликатов сообщений в российских интернет-СМИ - 20%<br />Доля изданий, которые ни разу не перепечатывали чужие материалы «вчистую» - тоже 20%<br />Доля сообщений, содержащих ссылки на первоисточники (названия других СМИ или гиперссылки) – всего 8%<br />По данным аналитического отчета Яндекса «Медиасфера Рунета», зима 2009 <br />http://download.yandex.ru/company/yandex_on_russian_internet_media_winter_2009.pdf<br />
  15. 15. Сюжет в Яндекс.Новостях<br />9<br />
  16. 16. Схема создания сюжета<br />Создание поискового запроса из ключевых слов документа, построение матрицы близости документов<br />Аннотирование сюжета: выбор заголовкаи фрагментовсообщений, содержащих основные факты сюжета<br />Выбор основных заголовков сюжета<br />Выбор статей и интервью<br />10<br />
  17. 17. Выбор заголовка сюжета<br />Соответствие региону пользователя<br />Лексическая и фактологическая «ядерность»<br />Актуальность фактов<br />Информативность и читаемость<br />Цель: первый по времени заголовок, наиболее полно отражающий актуальную фактическую сторону сюжета, не содержащий нехарактерных для сюжета слов и фактов.<br />11<br />
  18. 18. Создание аннотации сюжета (дайджеста)<br /> Из всех сообщений сюжета автоматически выделяются наиболее значимые объекты,имена людей, названия организаций, географические объекты, даты и числа. Они, наряду с ключевыми словами сюжета и новостными запросами, определяют выбор текстов для аннотации.<br /> Цель: показать предложения из сообщений, содержащие основные факты события<br />12<br />
  19. 19. Аннотация сюжета. Информативность<br />13<br />
  20. 20. Заголовок сюжета. «Ядерность» лексики<br />14<br />
  21. 21. Выбор основных заголовков сюжета<br />Цитирование источника в сюжете<br />Дата публикации<br />Вес источника<br />Цель:Должны быть представлены первоисточник(и), наиболее цитируемые источники и заголовки, отражающие актуальное состояние сюжета<br />15<br />
  22. 22. Выбор заголовков для первой страницы. Цитируемость в сюжете<br />16<br />
  23. 23. Определение жанра сообщения<br />Лента – короткие новостные сообщения<br />Новость – более развёрнутое сообщение<br />Интервью – диалог, оформленный по правилам пунктуации русского языка<br />Статья – большой по объёму текст (от 500 слов), представляющий собой анализ события, ситуации etc, в котором представлены разные точки зрения<br />17<br />
  24. 24. Выбор главных новостных сюжетов<br /> Цель: отобрать самые освещаемые в СМИ, общезначимые, актуальные и вызывающие интерес пользователей события.<br />18<br />
  25. 25. Определение веса сюжета<br />Вес отдельного сообщения<br />Динамикасюжета<br />Интереспользователей<br /><ul><li>Время создания
  26. 26. Вес источника
  27. 27. Соответствие тематики сюжета специализации агентства
  28. 28. Плотность потока сообщений
  29. 29. Динамика кликабельностиновости на главной странице
  30. 30. Время жизни в топе
  31. 31. Количество новостных запросов к Яндексу
  32. 32. Записи в блогах
  33. 33. Место новости на сайтах партнёров</li></ul>19<br />
  34. 34. Весисточника<br />Цитируемость учитывает, насколько часто ссылаются на источник другие новостные ресурсы <br /> Оперативность учитывает, насколько часто источник быстро реагирует на события<br /> Вес источников автоматически пересчитывается каждую неделю<br />20<br />
  35. 35. Топ-10 самых цитируемых агентств (в алфавитном порядке)<br />«Ведомости»<br /> «Интерфакс»<br /> «ИТАР-ТАСС»<br /> «Коммерсант»<br /> «Комсомольская правда»<br />Lenta.ru<br /> «Первый канал»<br /> РБК<br /> РИА «Новости»<br /> «Российская газета»<br />По данным еженедельно обновляемого отчёта, формируемого<br /> роботом Яндекс.Новостей<br />21<br />
  36. 36. Робот и человек в Яндекс.Новостях<br />Человек<br />Робот<br />Принимает решение о сотрудничестве<br />Удаляет ссылку на сообщение из базы данных Яндекс.Новостей в случае, если текст сообщения изменён или отсутствует на сайте источника<br />Скачивает и индексирует новостные сообщения<br />Определяет и исключает из поиска по Яндекс.Новостям дубли<br />Определяет жанр сообщения<br />Выделяет ключевые слова и факты<br />Объединяет сообщения в сюжет<br />Определяет рубрику<br />Ранжирует сюжеты<br />22<br />
  37. 37. Спасибо за внимание!Вопросы?info@news.yandex.ru<br />Татьяна Исаева, руководитель службы по работе с партнерами Яндекс.Новостей<br />

×