SlideShare a Scribd company logo
1 of 15
Зачем нужен Sketch Engine
лексикографам?
• Деление на значения
• Описание значения
• Описание конструкций и сочетаемости
• Языковые примеры
Каковы достоинства и недостатки веб-
базированных корпусов Sketch Engine
• Большой объем =>
точная статистика
• Легкодоступность
текстов
• Возможность
постоянного
обновления
• Нет равномерного
представления разных
слоев языка =>
статистике не всегда
можно доверять
• «Грязный» - много
ошибок в разметке,
много повторений,
много нецензурной
лексики
Почему плохо, что есть повторения?
• Это влияет на статистику
Почему плохо, что много
нецензурной лексики?
• Корпуса используются не только
лексикографами, но и преподавателями
языка, а также людьми, изучающими язык
• Учебные ресурсы должны быть «чистыми»
• Запросы на нейтральные темы часто дают
нецензурные выдачи
Решение
• Sketch Engine – закрытый платный ресурс для
лексикографов с 20 млрд грязным корпусом
• Skell Sketch Engine – открытый бесплатный
ресурс с 1 млрд чистым корпусом, тремя
простыми видами поиска и выдачей коротких
примеров – удобно для широкого, не слишком
искушенного пользователя, для понимания
того, как используется языковая единица, для
создания языковых тренажеров
Русского Skell’а нет
• Если вы почистите 1 млрд корпус, то он
будет
• На НКРЯ пока нет таких удобных опций,
которые предоставляет Skell – коллокации
по грамматическим отношениям, близкие
слова, короткие примеры
• Skell очень нужен!
Чистка корпуса
• Две задачи –
• Нецензурная лексика
• Повторы

More Related Content

Similar to зачем нужен чистый корпус

AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...GeeksLab Odessa
 
Автоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийАвтоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийSoftengi
 
Терминология как основной способ поиска разработчиков или как не опозорится п...
Терминология как основной способ поиска разработчиков или как не опозорится п...Терминология как основной способ поиска разработчиков или как не опозорится п...
Терминология как основной способ поиска разработчиков или как не опозорится п...SBTech
 
InterSystems Community and Projects in CIS November 2015
InterSystems Community and Projects in CIS November 2015InterSystems Community and Projects in CIS November 2015
InterSystems Community and Projects in CIS November 2015InterSystems
 
Андрей Чебукин "Построение успешных API"
Андрей Чебукин "Построение успешных API"Андрей Чебукин "Построение успешных API"
Андрей Чебукин "Построение успешных API"Fwdays
 
LimeOn - Презентация система электронного перевода Soylem 3.1
LimeOn - Презентация система электронного перевода Soylem 3.1LimeOn - Презентация система электронного перевода Soylem 3.1
LimeOn - Презентация система электронного перевода Soylem 3.1LimeOn Global Company
 
Algorithms and programming lecture in ru
Algorithms and programming lecture in ruAlgorithms and programming lecture in ru
Algorithms and programming lecture in russuser0562f1
 
Алгоритмизация и программирование С/С++
Алгоритмизация и  программирование С/С++Алгоритмизация и  программирование С/С++
Алгоритмизация и программирование С/С++ssuser0562f1
 
Проект платформы для образовательных приложений
Проект платформы для образовательных приложенийПроект платформы для образовательных приложений
Проект платформы для образовательных приложенийВиктор Крысов (Viktor Krysov)
 
Фронтенд в Яндексе
Фронтенд в ЯндексеФронтенд в Яндексе
Фронтенд в ЯндексеYandex
 
WUD2008 - Наталья Спрогис - Как пройти в библиотеку? (Опыт разработки картогр...
WUD2008 - Наталья Спрогис - Как пройти в библиотеку? (Опыт разработки картогр...WUD2008 - Наталья Спрогис - Как пройти в библиотеку? (Опыт разработки картогр...
WUD2008 - Наталья Спрогис - Как пройти в библиотеку? (Опыт разработки картогр...wud
 
как учить программировать[1]
как учить программировать[1]как учить программировать[1]
как учить программировать[1]Pavel Penkov
 
автоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчавтоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчanna_vereshchagina
 
Визуальное проектирования интернет-проектов - Михаил Кашафутдинов
Визуальное проектирования интернет-проектов - Михаил КашафутдиновВизуальное проектирования интернет-проектов - Михаил Кашафутдинов
Визуальное проектирования интернет-проектов - Михаил Кашафутдиновit-park
 
Что делать аналитику без проектировщика интерфейсов?
Что делать аналитику без проектировщика интерфейсов?Что делать аналитику без проектировщика интерфейсов?
Что делать аналитику без проектировщика интерфейсов?Alexander Ovtcharenko
 
Фронтенд в Яндексе
Фронтенд в ЯндексеФронтенд в Яндексе
Фронтенд в ЯндексеYandex
 
Фронтенд в Яндексе
Фронтенд в ЯндексеФронтенд в Яндексе
Фронтенд в ЯндексеYandex
 
Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.
Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.
Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.IT-Доминанта
 
Использование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложенииИспользование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложенииDenis Latushkin
 
Лучшие практики на практике
Лучшие практики на практикеЛучшие практики на практике
Лучшие практики на практикеDenis Tuchin
 

Similar to зачем нужен чистый корпус (20)

AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
 
Автоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложенийАвтоматизированный подход к локализации корпоративных приложений
Автоматизированный подход к локализации корпоративных приложений
 
Терминология как основной способ поиска разработчиков или как не опозорится п...
Терминология как основной способ поиска разработчиков или как не опозорится п...Терминология как основной способ поиска разработчиков или как не опозорится п...
Терминология как основной способ поиска разработчиков или как не опозорится п...
 
InterSystems Community and Projects in CIS November 2015
InterSystems Community and Projects in CIS November 2015InterSystems Community and Projects in CIS November 2015
InterSystems Community and Projects in CIS November 2015
 
Андрей Чебукин "Построение успешных API"
Андрей Чебукин "Построение успешных API"Андрей Чебукин "Построение успешных API"
Андрей Чебукин "Построение успешных API"
 
LimeOn - Презентация система электронного перевода Soylem 3.1
LimeOn - Презентация система электронного перевода Soylem 3.1LimeOn - Презентация система электронного перевода Soylem 3.1
LimeOn - Презентация система электронного перевода Soylem 3.1
 
Algorithms and programming lecture in ru
Algorithms and programming lecture in ruAlgorithms and programming lecture in ru
Algorithms and programming lecture in ru
 
Алгоритмизация и программирование С/С++
Алгоритмизация и  программирование С/С++Алгоритмизация и  программирование С/С++
Алгоритмизация и программирование С/С++
 
Проект платформы для образовательных приложений
Проект платформы для образовательных приложенийПроект платформы для образовательных приложений
Проект платформы для образовательных приложений
 
Фронтенд в Яндексе
Фронтенд в ЯндексеФронтенд в Яндексе
Фронтенд в Яндексе
 
WUD2008 - Наталья Спрогис - Как пройти в библиотеку? (Опыт разработки картогр...
WUD2008 - Наталья Спрогис - Как пройти в библиотеку? (Опыт разработки картогр...WUD2008 - Наталья Спрогис - Как пройти в библиотеку? (Опыт разработки картогр...
WUD2008 - Наталья Спрогис - Как пройти в библиотеку? (Опыт разработки картогр...
 
как учить программировать[1]
как учить программировать[1]как учить программировать[1]
как учить программировать[1]
 
автоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отчавтоматическое построение оригинал макетов учебников как отч
автоматическое построение оригинал макетов учебников как отч
 
Визуальное проектирования интернет-проектов - Михаил Кашафутдинов
Визуальное проектирования интернет-проектов - Михаил КашафутдиновВизуальное проектирования интернет-проектов - Михаил Кашафутдинов
Визуальное проектирования интернет-проектов - Михаил Кашафутдинов
 
Что делать аналитику без проектировщика интерфейсов?
Что делать аналитику без проектировщика интерфейсов?Что делать аналитику без проектировщика интерфейсов?
Что делать аналитику без проектировщика интерфейсов?
 
Фронтенд в Яндексе
Фронтенд в ЯндексеФронтенд в Яндексе
Фронтенд в Яндексе
 
Фронтенд в Яндексе
Фронтенд в ЯндексеФронтенд в Яндексе
Фронтенд в Яндексе
 
Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.
Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.
Основные понятия связанные с разработкой ПО: просто о сложном. Лаабе Дмитрий.
 
Использование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложенииИспользование сторонних библиотек в веб-приложении
Использование сторонних библиотек в веб-приложении
 
Лучшие практики на практике
Лучшие практики на практикеЛучшие практики на практике
Лучшие практики на практике
 

More from Ekaterina Chernyak (18)

Chernyak_defense
Chernyak_defenseChernyak_defense
Chernyak_defense
 
Backgammon
BackgammonBackgammon
Backgammon
 
Desktop game agar.io
Desktop game agar.ioDesktop game agar.io
Desktop game agar.io
 
Gayazov
GayazovGayazov
Gayazov
 
Koptsov.web.introduction
Koptsov.web.introductionKoptsov.web.introduction
Koptsov.web.introduction
 
Intro to NLP (RU)
Intro to NLP (RU)Intro to NLP (RU)
Intro to NLP (RU)
 
L1
L1L1
L1
 
Intro to NLP. Lecture 2
Intro to NLP.  Lecture 2Intro to NLP.  Lecture 2
Intro to NLP. Lecture 2
 
L3 v2
L3 v2L3 v2
L3 v2
 
редактор параллельных разметок
редактор параллельных разметокредактор параллельных разметок
редактор параллельных разметок
 
Hse project introduction_22012015
Hse project introduction_22012015Hse project introduction_22012015
Hse project introduction_22012015
 
Yacovlev
YacovlevYacovlev
Yacovlev
 
Suhoroslov
SuhoroslovSuhoroslov
Suhoroslov
 
Koptsov
KoptsovKoptsov
Koptsov
 
Gusakov
GusakovGusakov
Gusakov
 
Hse.projects 17.01.2015
Hse.projects 17.01.2015Hse.projects 17.01.2015
Hse.projects 17.01.2015
 
Ignat vita artur
Ignat vita arturIgnat vita artur
Ignat vita artur
 
Ivan p
Ivan pIvan p
Ivan p
 

зачем нужен чистый корпус

  • 1. Зачем нужен Sketch Engine лексикографам? • Деление на значения • Описание значения • Описание конструкций и сочетаемости • Языковые примеры
  • 2.
  • 3. Каковы достоинства и недостатки веб- базированных корпусов Sketch Engine • Большой объем => точная статистика • Легкодоступность текстов • Возможность постоянного обновления • Нет равномерного представления разных слоев языка => статистике не всегда можно доверять • «Грязный» - много ошибок в разметке, много повторений, много нецензурной лексики
  • 4. Почему плохо, что есть повторения? • Это влияет на статистику
  • 5.
  • 6.
  • 7. Почему плохо, что много нецензурной лексики? • Корпуса используются не только лексикографами, но и преподавателями языка, а также людьми, изучающими язык • Учебные ресурсы должны быть «чистыми» • Запросы на нейтральные темы часто дают нецензурные выдачи
  • 8.
  • 9. Решение • Sketch Engine – закрытый платный ресурс для лексикографов с 20 млрд грязным корпусом • Skell Sketch Engine – открытый бесплатный ресурс с 1 млрд чистым корпусом, тремя простыми видами поиска и выдачей коротких примеров – удобно для широкого, не слишком искушенного пользователя, для понимания того, как используется языковая единица, для создания языковых тренажеров
  • 10.
  • 11.
  • 12.
  • 13.
  • 14. Русского Skell’а нет • Если вы почистите 1 млрд корпус, то он будет • На НКРЯ пока нет таких удобных опций, которые предоставляет Skell – коллокации по грамматическим отношениям, близкие слова, короткие примеры • Skell очень нужен!
  • 15. Чистка корпуса • Две задачи – • Нецензурная лексика • Повторы