Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Принципы излечения и структурирования информации из описательного текста / Евгений Ветров (Choister)

391 views

Published on

  • Be the first to comment

  • Be the first to like this

Принципы излечения и структурирования информации из описательного текста / Евгений Ветров (Choister)

  1. 1. Принципы извлечения иструктурирования информациииз описательного текстаЕвгений Ветров
  2. 2. Пустой Слайд
  3. 3. Data Mining Extraction
  4. 4. Извлечение ХарактеристикСтруктурирование
  5. 5. Семантическая Разметка
  6. 6. The Rock
  7. 7. Demo
  8. 8. Next Challenge
  9. 9. Результат• ~ 0.015 ER• В продакшене (beta)
  10. 10. Первый ШагPoS
  11. 11. PoS TaggingПродаю /Verbквартиру /Nounнедалеко /Adverbот /PrepositionТаганки /Proper_Noun
  12. 12. Семантический анализпредложений
  13. 13. Стилистика ОЧЕНЬ важна
  14. 14. Стилистика. Case #1
  15. 15. Стилистика. Case #2
  16. 16. Divide et Impera• Выделение предложений• Выделение фраз
  17. 17. TokenizationПродаю двухкомнатную квартиру 50 кв.Продаю /wordдвух /numberквартиру /word50 /numberкв /word. /point
  18. 18. Форматирование текста
  19. 19. Punctuation Hell• 10,000 рублей• 2.5 млн• 20,40,30 и 15 м2
  20. 20. Значение где-то рядом
  21. 21. Вариации имени свойстваапартаменты = квартира = кв.кв. = квадратный метркомната = комн. = ком. = к.
  22. 22. Синонимы и акронимы• Словари и Тезаурусы• Частотный Анализ
  23. 23. Частотный анализ
  24. 24. Частотный анализ
  25. 25. Boolean FeaturesПродажа… ипотекаПродажа… ипотека невозможна
  26. 26. Self descriptive values
  27. 27. Исключения из правил• Ленинская площадь 20• на 1-ом этаже спортзал
  28. 28. Верификация результата• Инварианты10 этаж 5 этажного дома• Регрессионный анализ
  29. 29. Типы ошибок извлечения• Характеристика не извлечена• Неправильное значение хар-ки• Несуществующая хар-ка
  30. 30. Наборы данных• Обучающий набор• Тестовый набор
  31. 31. ИТОГО• Ориентированность надомен• Статистика
  32. 32. Спасибо!Буду рад ответить на ваши вопросы:Евгений Ветров – eugene@choister.net

×