Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Лексическая статистика в оценке качества коммерческих текстов

15,701 views

Published on

Ирина Борисова, лингвист отдела поисковой аналитики, Викимарт.

Published in: Technology

Лексическая статистика в оценке качества коммерческих текстов

  1. 1. Лексическая статистика в оценке качества коммерческих текстов Ирина Борисова Wikimart 18.02.2012
  2. 2. О чем пойдет речь? 1. Задачи лингвистики в e-commerce: пример Wikimart 2. Сложности с коммерческими текстами 3. Лексикостатистические метрики в оценке качества текста и уровня спама 4. Извлечение пользовательских предпочтений для улучшения качества текста
  3. 3. Лингвистика в e-commerceWikimart в Рунете Онлайн торговый центр 1752 магазина собственный ритейл 6000+ заказов в сутки Активность за 14.02.2012: 652,154 просмотров 160,027 уникальных посетителей
  4. 4. Лингвистика в e-commerceWikimart для лингвиста Данные: Большой объем текстовых данных (7 миллионов страниц моделей и предложений) Корпуса коммерческих тематических текстов: торговые описания информация о производителе пользовательский контент поисковые запросы отзывы
  5. 5. Лингвистика в e-commerceWikimart для лингвиста Задачи: 1. Оценка качества текста 2. Анализ поисковых запросов 2.1 Определение тематики поискового запроса 2.2 Оценка коммерческих тенденций в поисковых запросах 3. Извлечение пользовательских предпочтений из отзывов
  6. 6. Коммерческие тексты: где зарыта собака? Текст низкого качества: тематически нерелевантный стиль грамматика орфография оформление
  7. 7. ПримерВступление к описанию модели антирадара Какой же человек не любит быстрой езды... Но законы российской Федерации этого не позволяют. Да лихачество приветствовать не стоит, но бывают моменты, когда человек опаздывает и может совсем незначительно превысить скорость. Ну и последствия всем прекрасно известны, штраф, а может дойти и до лишения прав. Но благодаря разработкам ученых, всего этого можно избежать.
  8. 8. Коммерческие тексты: где зарыта собака? Спамосодержащий (спамный) текст: написан исключительно для задач поискового продвижения, а не для читателя перенасыщен поисковыми запросами по теме общечастотными словами из коммерческих запросов (купить, москва, отзывы, интернет, магазин и др.)
  9. 9. ПримерВступление к описанию категории wi-fi роутеров Wireless считается одним из лучших точек доступа. Беспроводной роутер, он же wifi предназначен для подключения к сети или Интернету. Часто можно встретить объявления роутер купить или куплю роутер, потому что этот вид точек доступа очень популярен. К тому же, wimax в москве давно не редкость. К особенно надежным точкам доступа относят: 3g wifi роутер, adsl роутер, wifi ap solo, wifi роутер с usb. В комплект поставки кроме wifi устройства может входить usb 2.0 wlan, usb wifi фдаптер с антенной, wifi антенна, wifi антенна направленная внешняя и wifi контроллер. В условиях постоянного развитяи технического прогресса wifi устройство приобретают все большую популярность. В комплекте с wireless 150 входит wireless lan 802.11 b g, wireless usb адаптер и wireless usb hub. Многие потребители часто задаютсмя вопросами какой роутер выбрать, какой роутер купить, какой роутер лучше.
  10. 10. Что и как оценивать? Формат: длина текста, абзаца, предложения, плотность знаков пунктуации Тематика: доля слов из семантического ядра категории, среднее гармоническое между повторами Лексика: уникальные и повторяющиеся уни-, би- и триграммы, расстояние между повторами, соотношение с общечастотной лексикой в корпусе Стиль: разнообразие частей речи, вводные слова, уникальные стоп-слова 38 метрик Корпусы: Википедия, категории Викимарта, корпус тематических текстов очень низкого качества (spam_rev)
  11. 11. Пример spam_rev Действие данного обогревателя была возможность ощутить в подруги. Была зима, и она включила данный обогреватель. Практически за несколько минут мы почувствовали должный эффект от него. Он очень полезен в те моменты, когда еще не включили отопление, но в квартире уже довольно холодно. Неоспоримым плюсом данной модели является то, что она не издает практически никакого шума. Я задумалась о приобретении именно этой модели. Также очень удобным является и то, что в обогревателе есть специальный термостат, который помогает следить за уровнем температуры и при необходимости дает возможность отрегулировать её.
  12. 12. РезультатыЧисло слов без стоп-слов Wikipedia ave 775.36 st.dev. 23.79 Wikimart ave 818.38 st.dev. 55.94 Spam reviews ave 642.67 st.dev. 36.67
  13. 13. РезультатыЧисло предложений Wikipedia ave 76.06 st.dev. 11.76 Wikimart ave 86.19 st.dev. 19.04 Spam reviews ave 67 st.dev. 6
  14. 14. РезультатыЧисло слов с заглавной буквы Wikipedia ave 167.88 st.dev. 36.03 Wikimart ave 168.18 st.dev. 47.11 Spam reviews ave 61 st.dev. 5
  15. 15. РезультатыЧисло слов на латинице Wikipedia ave 39.6 st.dev. 29.52 Wikimart ave 93.38 st.dev. 73.13 Spam reviews ave 4.83 st.dev. 3.44
  16. 16. РезультатыЧисло слов в предложении Wikipedia ave 13.83 st.dev. 2.13 Wikimart ave 13.6 st.dev. 3.6 Spam reviews ave 14.62 st.dev. 1.26
  17. 17. РезультатыTTR: число уникальных слов к общему числу словоупотреблений Wikipedia ave 0.41 st.dev. 0.04 Wikimart ave 0.3 st.dev. 0.1 Spam reviews ave 0.28 st.dev.0.02
  18. 18. РезультатыДоля слов из топ-200 самых частотных слов всего корпуса Wikipedia ave 0.53 st.dev. 0.05 Wikimart ave 0.38 st.dev. 0.07 Spam reviews ave 0.74 st.dev. 0.03
  19. 19. РезультатыСреднее расстояние между повторяющимися словами Wikipedia ave 113.12 st.dev. 19.39 Wikimart ave 164.91 st.dev. 29.68 Spam reviews ave 134.41 st.dev. 20.33
  20. 20. РезультатыЧисло словоупотреблений на часть речи Wikipedia ave 48.41 st.dev. 5.84 Wikimart ave 39.87 st.dev. 11.31 Spam reviews ave 35.73 st.dev. 2.84
  21. 21. РезультатыЧисло уникальных стоп-слов Wikipedia ave 0.09 st.dev. 0.02 Wikimart ave 0.1 st.dev. 0.04 Spam reviews ave 0.07 st.dev. 0.01
  22. 22. Спам-санкции! Ручная оценка текстов Поиск максимально эффективных метрик Формат: длина текста (более 500 слов) название брендов и слов из коммерческих запросов в теге strong плотность брендов корпус названий брендов и производителей синонимы пословное совпадение (36 000 единиц) плотность неуникальных биграмм и триграмм в тексте
  23. 23. Превышение порога плотности биграмм в текстеПлотность неуникальных биграмм - 0,282 Козье молоко — бесценный косметический продукт, полностью восстанавливающий здоровье и функциональную активность клеток кожи. Еще в древние времена люди знали целебную силу козьего молока и его омолаживающие свойства. В настоящее время ученые полностью подтверждают уникальность состава козьего молока: это ценные аминокислоты <...> Температура плавления козьего масла ниже 37 С, поэтому биостимуляторы и питательные вещества легко проникают в глубокие слои кожи, насыщая ее натуральными контролерами увлажненности (пантенол, мочевина, рибофлавин). Отсюда уникальная результативность козьего молока: устранение раздражения, отечности, купероза, отбеливание, увлажнение, питание кожи. Лактоантиоксиданты козьего молока делают кожу нежной и эластичной, предотвращая ее старение. Серия «Козье молоко» изготовлена на основе цельного козьего молока.
  24. 24. Превышение порога плотности брендов в текстеПлотность названий брендов - 0, 058 Впервые Por Larranaga Panetelas была выпущена в 1834 году на фабрике La Corona, это одна из старейших марок сигар. В разное время производилась на разных фабриках. Табак для неё выращивают в провинции Pinar del Rio на знаменитых на весь мир плантациях Vuelta Abajo. Своё имя сигары Larranaga Por Panetelas получили от основателя бренда испанца Ignacio Larranaga (Игнасио Лараньяга), и носят его до сих пор. С самых первых дней своего существования, благодаря высокому качеству и красоте, эти сигары приобрели широчайшую известность. А из-за своей более чем доступной и демократичной цены — ещё и огромную популярность. Panetelas Por Larranaga относятся к классу Mild-medium, то есть мягко-средней крепости. В незажженном состоянии у PanetelasLarranaga Por достаточно интенсивный аромат, в котором на первый план выходят пряные и животные составляющие.
  25. 25. Эффективность в подсчете метрик Скорость: 0, 01-0,15 с/текст (500-1000 символов) 30% времени - фильтр стоп-слов 17% описаний Точность по выборке - 92% Полнота (?) - автоматическая оценка поисковой машины = выход из-под санкций
  26. 26. Улучшение качества текстов: коллокации Синтактические единицы, представляющие собой семантическое целое Би- и триграммы PMI Корпус отзывов (категорийный)
  27. 27. Извлечение пользовательских предпочтенийОсновные типы Функциональность: регулятор крепости кофе, долго держит заряд, лоток для овощей Сочетаемость: есть все разъемы, со всеми форматами, со старыми играми «Коммуникабельность»: инструкция для сборки, на русском языке, интуитивно понятный интерфейс Условия использования: на мокром льду, за МКАДом, при недостаточном освещении Опыт использования: лежит в руке, приятный на ощупь, совсем не шумный, крепится к стеклу Личное: это мой первый, по сравнению с, до этого был, на мой взгляд Экономическое: за эти деньги, соотношение цена-качество Эмоциональное: я очень доволен, танцы с бубном, довольна как слон
  28. 28. Использование в задачах e-commerce Определение специфики категории и покупателя Рекомендации к использованию в описаниях модели или категории SEM / SMM Теги в категориях
  29. 29. Заключение и перспективы Эффект лексической статистики в оценке качества текста: спамный текст = плохо написанный текст Интеграция данных в систему модерации на сайте (фидбек службе управления контентом) Интеграция метрик в ML Расширение корпусов коммерческих текстов (Wikimart) Mechanical Turk

×