Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Как работают Яндекс.Новости<br />ТатьянаИсаева<br />
Задачи Яндекс.Новостей<br />Миссия Яндекса – отвечать на заданные и незаданные вопросы пользователей<br />Яндекс.Новости:<...
Модель сервиса<br /><ul><li> Обеспечивают быструю трансляцию контента(~40 тыс. сообщений всутки)
 Получают читателей (1,5 млн переходов в сутки)</li></ul>Издания<br /><ul><li> Узнают новости на Яндексе(15 млн человек в ...
 Читают подробности у источников (1 млнчеловек в сутки)
 Задают вопросы о новостях (500 тыс. запросов в сутки)</li></ul>Читатели<br />3<br />
Принципы Яндекс.Новостей<br /><ul><li>Полностью автоматический сервис
Партнерский сервис
Единые требования для всех партнеров
Зеркало русскоязычной медиа-среды</li></ul>Цели: отразить новостную картину дня и дать ссылки на источники, содержащие наи...
Релевантный новостной ответ<br />  Алгоритм, формирующий ответ на новостные запросы пользователей, ориентируется на следую...
Требования к сообщению<br />Формат (не подходят для трансляции реклама; не обработанные силами редакции пресс-релизы; ново...
Что такое *дубликат <br />  Дубликаты – документы, в большой степени совпадающие с оригинальным сообщением. Они автоматиче...
Статистика «копипейста»<br />Доля дубликатов сообщений в российских интернет-СМИ - 20%<br />Доля изданий, которые ни разу ...
Сюжет в Яндекс.Новостях<br />9<br />
Схема создания сюжета<br />Создание поискового запроса из ключевых слов документа, построение матрицы близости документов<...
Выбор заголовка сюжета<br />Соответствие региону пользователя<br />Лексическая и фактологическая «ядерность»<br />Актуальн...
Создание аннотации сюжета (дайджеста)<br />  Из всех сообщений сюжета автоматически выделяются наиболее значимые объекты,и...
Аннотация сюжета. Информативность<br />13<br />
Заголовок сюжета. «Ядерность» лексики<br />14<br />
Выбор основных заголовков сюжета<br />Цитирование источника в сюжете<br />Дата публикации<br />Вес источника<br />Цель:Дол...
Выбор заголовков для первой страницы. Цитируемость в сюжете<br />16<br />
Определение жанра сообщения<br />Лента – короткие новостные сообщения<br />Новость – более развёрнутое сообщение<br />Инте...
Upcoming SlideShare
Loading in …5
×

Как работают Яндекс.Новости

2,363 views

Published on

Published in: Business, Technology
  • Be the first to comment

Как работают Яндекс.Новости

  1. 1. Как работают Яндекс.Новости<br />ТатьянаИсаева<br />
  2. 2. Задачи Яндекс.Новостей<br />Миссия Яндекса – отвечать на заданные и незаданные вопросы пользователей<br />Яндекс.Новости:<br /><ul><li>На главной страницеЯндекса удовлетворяют потребность пользователей в актуальной информации</li></ul>Незаданный вопрос: «Что сейчас происходит?»<br /><ul><li>В Поиске отвечают на явно сформулированные вопросы пользователей</li></ul>Заданные вопросы: «синагога в Твери», «Хамовнический суд», «танцующий мост в Волгограде»<br />2<br />
  3. 3. Модель сервиса<br /><ul><li> Обеспечивают быструю трансляцию контента(~40 тыс. сообщений всутки)
  4. 4. Получают читателей (1,5 млн переходов в сутки)</li></ul>Издания<br /><ul><li> Узнают новости на Яндексе(15 млн человек в сутки)
  5. 5. Читают подробности у источников (1 млнчеловек в сутки)
  6. 6. Задают вопросы о новостях (500 тыс. запросов в сутки)</li></ul>Читатели<br />3<br />
  7. 7. Принципы Яндекс.Новостей<br /><ul><li>Полностью автоматический сервис
  8. 8. Партнерский сервис
  9. 9. Единые требования для всех партнеров
  10. 10. Зеркало русскоязычной медиа-среды</li></ul>Цели: отразить новостную картину дня и дать ссылки на источники, содержащие наиболее полную информацию о событиях<br />4<br />4<br />
  11. 11. Релевантный новостной ответ<br /> Алгоритм, формирующий ответ на новостные запросы пользователей, ориентируется на следующие свойства сообщений:<br />принадлежность первоисточнику<br />оперативность <br />цитируемость<br />информативность<br />Источники, у которых доминируют такие сообщения, предлагаются пользователям в первую очередь.<br />5<br />
  12. 12. Требования к сообщению<br />Формат (не подходят для трансляции реклама; не обработанные силами редакции пресс-релизы; новости сайта; аудио- и видеоматериалы, не сопровождаемые связным печатным текстом; таблицы и списки, не сопровождаемые связным печатным текстом)<br />Технология (если текст сообщения на сайте был изменён, необходимо поместить его в экспортный файл в изменённом виде или прислать запрос на удаление неактуального сообщения)<br />Требования законодательства (аккуратное цитирование; нормы литературного русского языка)<br />6<br />
  13. 13. Что такое *дубликат <br /> Дубликаты – документы, в большой степени совпадающие с оригинальным сообщением. Они автоматически определяются до формирования сюжета, не представлены в сюжетах и не участвуют в поиске по сервису.<br /> Из каждой группы дубликатов остается по одному сообщению («мастеру»), которое может быть представлено на страницах сюжета и в результатах поиска. «Мастер» определяется:<br />по времени публикации сообщения на сайте;<br />по сравнительному анализу текстов;<br />по цитированию источника (учитываются гиперссылки, текстовые упоминания).<br />7<br />
  14. 14. Статистика «копипейста»<br />Доля дубликатов сообщений в российских интернет-СМИ - 20%<br />Доля изданий, которые ни разу не перепечатывали чужие материалы «вчистую» - тоже 20%<br />Доля сообщений, содержащих ссылки на первоисточники (названия других СМИ или гиперссылки) – всего 8%<br />По данным аналитического отчета Яндекса «Медиасфера Рунета», зима 2009 <br />http://download.yandex.ru/company/yandex_on_russian_internet_media_winter_2009.pdf<br />
  15. 15. Сюжет в Яндекс.Новостях<br />9<br />
  16. 16. Схема создания сюжета<br />Создание поискового запроса из ключевых слов документа, построение матрицы близости документов<br />Аннотирование сюжета: выбор заголовкаи фрагментовсообщений, содержащих основные факты сюжета<br />Выбор основных заголовков сюжета<br />Выбор статей и интервью<br />10<br />
  17. 17. Выбор заголовка сюжета<br />Соответствие региону пользователя<br />Лексическая и фактологическая «ядерность»<br />Актуальность фактов<br />Информативность и читаемость<br />Цель: первый по времени заголовок, наиболее полно отражающий актуальную фактическую сторону сюжета, не содержащий нехарактерных для сюжета слов и фактов.<br />11<br />
  18. 18. Создание аннотации сюжета (дайджеста)<br /> Из всех сообщений сюжета автоматически выделяются наиболее значимые объекты,имена людей, названия организаций, географические объекты, даты и числа. Они, наряду с ключевыми словами сюжета и новостными запросами, определяют выбор текстов для аннотации.<br /> Цель: показать предложения из сообщений, содержащие основные факты события<br />12<br />
  19. 19. Аннотация сюжета. Информативность<br />13<br />
  20. 20. Заголовок сюжета. «Ядерность» лексики<br />14<br />
  21. 21. Выбор основных заголовков сюжета<br />Цитирование источника в сюжете<br />Дата публикации<br />Вес источника<br />Цель:Должны быть представлены первоисточник(и), наиболее цитируемые источники и заголовки, отражающие актуальное состояние сюжета<br />15<br />
  22. 22. Выбор заголовков для первой страницы. Цитируемость в сюжете<br />16<br />
  23. 23. Определение жанра сообщения<br />Лента – короткие новостные сообщения<br />Новость – более развёрнутое сообщение<br />Интервью – диалог, оформленный по правилам пунктуации русского языка<br />Статья – большой по объёму текст (от 500 слов), представляющий собой анализ события, ситуации etc, в котором представлены разные точки зрения<br />17<br />
  24. 24. Выбор главных новостных сюжетов<br /> Цель: отобрать самые освещаемые в СМИ, общезначимые, актуальные и вызывающие интерес пользователей события.<br />18<br />
  25. 25. Определение веса сюжета<br />Вес отдельного сообщения<br />Динамикасюжета<br />Интереспользователей<br /><ul><li>Время создания
  26. 26. Вес источника
  27. 27. Соответствие тематики сюжета специализации агентства
  28. 28. Плотность потока сообщений
  29. 29. Динамика кликабельностиновости на главной странице
  30. 30. Время жизни в топе
  31. 31. Количество новостных запросов к Яндексу
  32. 32. Записи в блогах
  33. 33. Место новости на сайтах партнёров</li></ul>19<br />
  34. 34. Весисточника<br />Цитируемость учитывает, насколько часто ссылаются на источник другие новостные ресурсы <br /> Оперативность учитывает, насколько часто источник быстро реагирует на события<br /> Вес источников автоматически пересчитывается каждую неделю<br />20<br />
  35. 35. Топ-10 самых цитируемых агентств (в алфавитном порядке)<br />«Ведомости»<br /> «Интерфакс»<br /> «ИТАР-ТАСС»<br /> «Коммерсант»<br /> «Комсомольская правда»<br />Lenta.ru<br /> «Первый канал»<br /> РБК<br /> РИА «Новости»<br /> «Российская газета»<br />По данным еженедельно обновляемого отчёта, формируемого<br /> роботом Яндекс.Новостей<br />21<br />
  36. 36. Робот и человек в Яндекс.Новостях<br />Человек<br />Робот<br />Принимает решение о сотрудничестве<br />Удаляет ссылку на сообщение из базы данных Яндекс.Новостей в случае, если текст сообщения изменён или отсутствует на сайте источника<br />Скачивает и индексирует новостные сообщения<br />Определяет и исключает из поиска по Яндекс.Новостям дубли<br />Определяет жанр сообщения<br />Выделяет ключевые слова и факты<br />Объединяет сообщения в сюжет<br />Определяет рубрику<br />Ранжирует сюжеты<br />22<br />
  37. 37. Спасибо за внимание!Вопросы?info@news.yandex.ru<br />Татьяна Исаева, руководитель службы по работе с партнерами Яндекс.Новостей<br />

×