Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Несколько интересных фактовоб экспертной оценкеОльга МегорскаяРуководитель группы асессоровЯ.Субботник, Санкт-Петербург, 3...
Экспертная оценка вИнтернете2
Где это используется?• Интернет-поиск• Научные исследования• Интернет-бизнес, в т.ч. спам  3
Асессоры Яндекса• Релевантность: случайные запросы + документы к  ним• Относительные оценки• Классификации и пр  4
Абсолютная шкала:релевантность документов5
Абсолютная шкала:картинки/видео6
Попарное сравнение7
CrowdSourcingAmazon Mechanical Turk8
Amazon Mechanical Turk9
Итак, факты!10
№1:Оптимисты VS Пессимисты11
• Оптимисты: когда сомневаются, завышают оценку• Пессимисты: когда сомневаются, занижают оценку• Негативные оценки - чаще ...
Пессимизм приходит с опытом70,0%60,0%50,0%                                                                     Positive   ...
№2:Дороже – не значит лучше14
• Две стратегии: «сделать побольше, пока не  выгнали» VS «аккуратная работа, долгое  сотрудничество»• Задания с высокой ст...
№3:Оценки сами говорят о своемкачестве16
Контроль качества: ручной иавтоматический• Входной контроль• Постпроверка случайной выборки заданий• Предпроверенные задан...
Сравнение «лучше/хуже/одинаково»              Нормальный10     1   2   3    4   5   6   7   8   9   10   11-1             ...
№4:Эксперты среди экспертов19
Если нужны специальныезнания, а их нет:• Если человек плохо разбирается в теме, он  склонен завышать оценку• Релевантным к...
[Фортепиано с нуля+нотнаяграмота](Москва)21
№5:Чего не могут эксперты22
23
Вакансия: писатель положительныхотзывов24
Фальшивые отзывы•    Используют больше превосходных степеней•    Меньше конкретных определений•    Избегают пространственн...
Ссылки•    Towards Building a High-Quality Workforce with Mechanical Turk, 2010     PaulWais, Shivaram Lingamneni, Duncan ...
Спасибо!27
Ольга МегорскаяРуководитель группы асессоровomegorskaya@yandex-team.ru
Upcoming SlideShare
Loading in …5
×

Ольга Мегорская "Несколько интересных фактов об экспертной оценке"

953 views

Published on

Ольга Мегорская "Несколько интересных фактов об экспертной оценке"
Я.Субботник в Санкт-Петербурге
О докладе:
Служба асессоров Яндекса – это развитая система сбора экспертных оценок. За время работы над ней мы узнали много интересного не только о качестве поиска Яндекса, но и о самих асессорах. В этот раз мы бы хотели поделиться с вами нашими наблюдениями. Мы расскажем о том, чем отличаются оценки оптимистов и пессимистов и чем вторые лучше первых; о том, что при попарном сравнении находятся «любители левого» и «любители правого»; о том, как можно автоматически выявить недобросовестного асессора, и еще о некоторых интересных фактах из области экспертной оценки.

Published in: Technology
  • Be the first to comment

Ольга Мегорская "Несколько интересных фактов об экспертной оценке"

  1. 1. Несколько интересных фактовоб экспертной оценкеОльга МегорскаяРуководитель группы асессоровЯ.Субботник, Санкт-Петербург, 3 декабря 2011 года
  2. 2. Экспертная оценка вИнтернете2
  3. 3. Где это используется?• Интернет-поиск• Научные исследования• Интернет-бизнес, в т.ч. спам 3
  4. 4. Асессоры Яндекса• Релевантность: случайные запросы + документы к ним• Относительные оценки• Классификации и пр 4
  5. 5. Абсолютная шкала:релевантность документов5
  6. 6. Абсолютная шкала:картинки/видео6
  7. 7. Попарное сравнение7
  8. 8. CrowdSourcingAmazon Mechanical Turk8
  9. 9. Amazon Mechanical Turk9
  10. 10. Итак, факты!10
  11. 11. №1:Оптимисты VS Пессимисты11
  12. 12. • Оптимисты: когда сомневаются, завышают оценку• Пессимисты: когда сомневаются, занижают оценку• Негативные оценки - чаще верные12
  13. 13. Пессимизм приходит с опытом70,0%60,0%50,0% Positive Negative40,0%30,0%20,0% 400 900 1300 1700 2100 2500 2900 2300 370013
  14. 14. №2:Дороже – не значит лучше14
  15. 15. • Две стратегии: «сделать побольше, пока не выгнали» VS «аккуратная работа, долгое сотрудничество»• Задания с высокой стоимостью привлекают первых• Поэтому повышение стоимости задания может увеличить скорость его выполнения, но не повышает качество работы15
  16. 16. №3:Оценки сами говорят о своемкачестве16
  17. 17. Контроль качества: ручной иавтоматический• Входной контроль• Постпроверка случайной выборки заданий• Предпроверенные задания («голденсет»)• Ловушки• Согласованность• Распределение оценок17
  18. 18. Сравнение «лучше/хуже/одинаково» Нормальный10 1 2 3 4 5 6 7 8 9 10 11-1 Хитрый 1 0 1 2 3 4 5 6 7 8 9 10 11 -1 Ленивый 1 0 1 2 3 4 5 6 7 8 9 10 11 12 18 -1
  19. 19. №4:Эксперты среди экспертов19
  20. 20. Если нужны специальныезнания, а их нет:• Если человек плохо разбирается в теме, он склонен завышать оценку• Релевантным кажется документ, который объясняет смысл запроса, а не отвечает на него• Релевантность документа часть оценивают по наличию слов запроса20
  21. 21. [Фортепиано с нуля+нотнаяграмота](Москва)21
  22. 22. №5:Чего не могут эксперты22
  23. 23. 23
  24. 24. Вакансия: писатель положительныхотзывов24
  25. 25. Фальшивые отзывы• Используют больше превосходных степеней• Меньше конкретных определений• Избегают пространственных определений• Чаще упоминают не относящиеся к самому объекту отзыва вещи• Чаще упоминают первое лицо25
  26. 26. Ссылки• Towards Building a High-Quality Workforce with Mechanical Turk, 2010 PaulWais, Shivaram Lingamneni, Duncan Cook, Jason Fennell, Benjamin Goldenberg, Daniel Lubarov, David Marin, and Hari Simons Yelp, Inc• An Analysis of Assessor Behavior in Crowdsourced Preference Judgments, 2010 Dongqing Zhu and Ben Carterette; Department of Computer & Information Sciences University of Delaware• The Effect of Assessor Errors on IR System Evaluation, 2010 Ben Carterette, Dept. of Computer and Information Sciences University of Delaware; Ian Soboroff, National Institute of Standards and Technology, Gaithersburg, MD• How evaluator domain expertise affects search result relevance judgments, 2007 Kenneth A. Kinney, Scott B. Huffman, and Juting Zhai. Google, Inc. Mountain View, CA• Crowdsourcing Document Relevance Assessment with Mechanical Turk, 2010 Catherine Grady and Matthew Lease, School of Information, University of Texas at Austin• Finding Deceptive Opinion Spam by Any Stretch of the Imagination, 2011 Myle Ott Yejin Choi Claire Cardie, Department of Computer Science, Cornell University; Jeffrey T. Hancock, Department of Communication, Cornell University26
  27. 27. Спасибо!27
  28. 28. Ольга МегорскаяРуководитель группы асессоровomegorskaya@yandex-team.ru

×