4. 4
Введение
●
Краудсорсинг — способ получения услуг, идей и информации
путём соучастия большого количества людей в Интернете.
– Впервые термин употреблён в 2006 году.
– Определений очень много.
●
Признаки: толпа, заказчик, задача, платформа
(Hosseini et al., 2014).
●
Ранние примеры:
– iStockphoto (2000), Wikipedia (2001),Amazon Mechanical Turk (2005).
6. 6
Жанры и приложения
●
Жанры краудсорсинга (Wang et al., 2013):
– «Игры с целью» — работа в игровой форме.
– «Механизированный труд» — простые задания за микроплатежи.
– «Мудрость толпы» — коллективное создание ресурса.
●
Коммерческий краудсорсинг:
– «Витология», Wikivote!, Amazon, etc.
14. 14
Плюсы и минусы
●
Дешевле, чем нанимать специалистов.
– $368 vs. $2190 (Heer & Bostock, 2010).
●
Не все задачи хорошо формализуются.
– “Keep it simple, stupid.”
●
Необходимость агрегации результата.
●
Требования к инфраструктуре.
●
Закон Мёрфи.
16. 16
Генерация заданий
●
Задания — в виде закрытых или открытых вопросов.
●
Лучше выдавать несколько раз.
●
Много стратегий назначения:
– случаное назначение,
– назначение с учётом сложности заданий,
– назначение с учётом профилей пользователей.
●
Делайте задания максимально понятными.
18. 18
Пример: OpenCorpora
●
OpenCorpora — корпус русского языка, создаваемый при
помощи краудсорсинга.
– Жанр: механизированный труд.
– http://opencorpora.org/
●
Разметка: морфология, именованные сущности.
●
Любой желающий может прийти и помочь.
●
Задания группируются в пулы.
20. 20
Пример: OpenCorpora
●
Каждое предложение размечается несколькими участниками.
●
Пул закрывается, когда каждое предложение размечено
нужное количество раз.
●
Результат вычитывается модератором.
●
Насколько это хорошо?
21. 21
Пример: OpenCorpora
●
Хорошо, раз проект продолжает жить.
●
Теперь представим, что пул содержит 300 предложений, а
после работы участников осталась пара неразмеченных.
– Выходит тупик.
●
Как выйти из положения?
22. 22
Пример: OpenCorpora
●
Во-первых, фокусировать внимание пользователей при
помощи интерфейса.
– «Не заставляйте меня думать.»
●
Во-вторых, использовать рекомендательные системы для
заданий.
– Вместо рекомендации товаров — задания
(Yuen et al., 2014).
24. 24
Работа участников
●
Краудсорсинг — это бизнес.
●
Бизнес — это деньги.
●
Деньги привлекают разных людей.
– В том числе плохих людей.
●
Мошенники и спамеры — плохие
люди.
– Надо их искать (и наказывать).
25. 25
Работа участников
●
Спам в краудсорсинге — это случайные ответы на
оплачиваемые задания. Это не единственная проблема.
●
Распределение участников MTurk:
– добросовестные участники: 55 %,
– случайные спамеры: 21 %,
– почти случайные спамеры: 9 %,
– однородные спамеры: 9 %,
– неаккуратные участники: 6 %.
27. 27
Пример: Yet Another RussNet
●
Yet Another RussNet — тезаурус русского языка, создаваемый
при помощи краудсорсинга.
– Жанр: мудрость толпы.
– http://russianword.net/
●
Разметка: сборка синсетов из слов.
●
Веб-интерфейс для людей с некоторым языковым кругозором.
29. 29
Пример: Yet Another RussNet
●
Немотивированные студенты создавали синсеты для понятий,
которые уже есть.
●
Это плохо.
30. 30
Пример: Yet Another RussNet
●
Вспомним про закон Мёрфи.
●
Единственное, что можно сделать— отказаться от текущего
жанра и упростить процесс.
●
Теперь данный интерфейс ориентирован на редакторов.
●
Обычные участники получат простой и «однокнопочный»
интерфейс.
32. 32
Обработка ответов
●
Цените время участников, и они будут рады помочь.
●
Допустим, получено много ответов на выполненные задания.
●
Как агрегировать эти данные?
●
Как оценить согласованность ответов?
33. 33
Обработка ответов
●
Выбор ответов: голос большинства.
– Это же очевидно!
– ...но на небольшом количестве ответов сложные модели
бесполезны (Karger et al., 2014).
●
Согласованность ответов:
– каппа Флейсса (нет пропусков, шкала наименований),
– альфа Криппендорфа (с пропусками, любая шкала).
●
Любите язык программирования R!
37. 37
Пример: NLPub (RUSSE)
●
Участник получал 15 пар в «случайном» порядке.
– Сначала сортировались с учётом количества ответов.
Затем — с учётом стандартного отклонения.
●
Для некоторых пар стандартное отклонение не убывало с течением
времени.
39. 39
Пример: NLPub (RUSSE)
●
Значение = 0,49α (хорошая согласованность).
●
На данных краудсорсинга выиграл word2vec.
– Лучший результат: 0,76 (средняя точность).
– На других наборах данных — около 0,98.
●
Постоянно следите за ответами участников.
●
Помните про согласованность и однозначность ответов!
42. 42
Заключение
●
Краудсорсинг является недорогим и эффективным
способом сбора данных.
– Серебряной пули не существует.
●
Не заставляйте людей думать и уважайте их время!
– Помните про закон Мёрфи.
●
Участвуйте в краудсорсинге и сами!
43. 43
Спасибо за внимание!
●
Дмитрий Усталов, ИММ УрО РАН.
– https://ustalov.name/
– dmitry@eveel.ru
Автор благодарит Фонд Михаила Прохорова,
Российский гуманитарный научный фонд,
а также Microsoft Research.