О проблемах использования эмбеддинговых моделей (в т.ч. BERT, XLNet) для анализа научно-технических текстов. Рассмотрены способы оценки их эффективности и кейс расширения базы знаний на примере одного научно-технологического направления.
Анализ данных для распознавания коронарных сосудов и предсказания ишемической болезни сердца. Созданное ПО увеличивает процесс распознавания до 76%. Время распознавания одного сета - 295 секунд.
Нейросеть должна не только правильно классифицировать корректные запросы, но также отфильтровывать заведомо неправильные. Необходимо, чтобы обученная сеть на нерелевантные запросы давала ответ «не знаю», а не предлагала наиболее подходящую услугу. Например, на вопрос «где получить паспорт?», сетка должна назвать номер кабинета и услугу, а на вопрос «где получить паспорт пирата?» ответить «не знаю».
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...Global Innovation Labs
Вы знали, что в следствии цифрофизации бизнес процессов нефтяные компании стали создавать петабайты данных и сегодня 70% проектов направленных на повышение эффективности зависят от качества данных?
Как устроен процесс управления качеством данных и какие инструменты для этого используются расскажет Александр Ерофеев CDO блока разведки и добычи компании Газпром нефть.
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerceGlobal Innovation Labs
Пальто с 300 кОрманами, или как искать ошибки.
LAMODA — это один из основных игроков онлайн-торговли в России с более чем 5 миллионами товаров в каталоге. И это не только сайт. Это - свои склады размером с футбольные поля, свои курьеры и парк автомобилей, свой отдел e-production с фото-студией и моделями. Компания не только делает свои фотографии товаров, но и сама создает описание и заполняет атрибуты. К сожалению, ручной процесс не исключает ошибок.
Как автоматизировать поиск ошибок в контенте и как методы анализа данных в этом помогают?
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...Global Innovation Labs
Когда стоит выбирать ClickHouse.
1. Когда у вас много фактов без обновлений:
- web-аналитика
- реклама
- e-commerce and finance
- мониторинг
- телеком, анализ логов
2. Витрины данных:
- нет JOIN со спилами
- очень хорошо переносит клиентскую нагрузку
- легко масштабируется
- быстрая агрегация витрин
- OBDC, JDBC, HTTP клиентские интерфейсы
Анализ данных для распознавания коронарных сосудов и предсказания ишемической болезни сердца. Созданное ПО увеличивает процесс распознавания до 76%. Время распознавания одного сета - 295 секунд.
Нейросеть должна не только правильно классифицировать корректные запросы, но также отфильтровывать заведомо неправильные. Необходимо, чтобы обученная сеть на нерелевантные запросы давала ответ «не знаю», а не предлагала наиболее подходящую услугу. Например, на вопрос «где получить паспорт?», сетка должна назвать номер кабинета и услугу, а на вопрос «где получить паспорт пирата?» ответить «не знаю».
Александр Ерофеев. Газпромнефть. Управление качеством данных, инструмент и пр...Global Innovation Labs
Вы знали, что в следствии цифрофизации бизнес процессов нефтяные компании стали создавать петабайты данных и сегодня 70% проектов направленных на повышение эффективности зависят от качества данных?
Как устроен процесс управления качеством данных и какие инструменты для этого используются расскажет Александр Ерофеев CDO блока разведки и добычи компании Газпром нефть.
Петр Ермаков. LAMODA. Автоматическая валидация контента в e-commerceGlobal Innovation Labs
Пальто с 300 кОрманами, или как искать ошибки.
LAMODA — это один из основных игроков онлайн-торговли в России с более чем 5 миллионами товаров в каталоге. И это не только сайт. Это - свои склады размером с футбольные поля, свои курьеры и парк автомобилей, свой отдел e-production с фото-студией и моделями. Компания не только делает свои фотографии товаров, но и сама создает описание и заполняет атрибуты. К сожалению, ручной процесс не исключает ошибок.
Как автоматизировать поиск ошибок в контенте и как методы анализа данных в этом помогают?
Андрей Коняев. ArenaData. Построение аналитики на ClickHouse — преимущества и...Global Innovation Labs
Когда стоит выбирать ClickHouse.
1. Когда у вас много фактов без обновлений:
- web-аналитика
- реклама
- e-commerce and finance
- мониторинг
- телеком, анализ логов
2. Витрины данных:
- нет JOIN со спилами
- очень хорошо переносит клиентскую нагрузку
- легко масштабируется
- быстрая агрегация витрин
- OBDC, JDBC, HTTP клиентские интерфейсы
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Global Innovation Labs
Как правильно ставить цели в план по развитию маркетинг-аналитики — определить дальнейшие шаги развития маркетинг-аналитики в компании.
Обзор главных технологий и компетенций, о которых стоит помнить на каждом из этапов плана. Вы будете заранее готовы и сможете забюджетировать нужные ресурсы.
К чему стоит быть готовым при внедрении прогнозов в маркетинг аналитике? Вы сможете составить план развития маркетинг-аналитики, учитывая возможные проблемы на этом пути.
Какие источники данных позволяют наиболее точно прогнозировать выполнение маркетинг-плана? Вы сможете контролировать процесс выполнения плана и понимать в каких сегментах ваши зоны роста, а где - риски.
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Global Innovation Labs
Вредные советы о лучших способах убить производительность аналитической СУБД.
1. Передавайте много данных по сети.
2. Обрабатывайте лишние объемы данных.
3. Пренебрегайте мониторингом.
4. Никогда не используйте сжатие данных!
5. И, конечно же, забывайте про резервирование
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниGlobal Innovation Labs
1. Потребности бизнеса, клиентов и рынка в массовом скоринге
2. Первый технологический стек, первый прототип
3. Полезные новейшие возможности облаков для скоринга и других применений ML
4. Выбор фич
5. Несбалансированные данные - как не сойти с ума
6. Оптимизация моделей скоринга
7. Внедрение скоринга в продукт
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Global Innovation Labs
Как построить эффективный медийный продукт на основе данных.
При грамотной настройке "умной выдачи" и "умной рекламы" рост эффективности РК по сегментам показывает до 40%.
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Global Innovation Labs
1. Большие данные о действиях пользователей в продуктах можно превратить в траектории и обрабатывать с помощью ML
2. ML позволяет быстро получать поведенческую сегментацию и строить наглядные интерпретируемые карты
3. Сегменты с проблемным поведением позволяют локализовать точки роста бизнеса и разместить их в клиентском пути
4. Касания и клики в рекламных каналах могут быть обработаны тем же пайплайном, чтобы точнее оценить качество трафика и эффективнее бюджетировать каналы.
Исследование ценностей и целей российских женщин при помощи нейросетей.
Как определить динамику изменения целей и ценностей, создать новые продукты и скорректировать имеющиеся.
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Global Innovation Labs
О том, как корпорации "следят" за нами. Обработка BigData требует средств, технологий и кадров. В первую очередь деньги вложат те, кто сможет быстро продать анализ вашей персональной информации: Google, Яндекс, Facebook, Сбербанк и т.д.
Государство - всегда догоняющий игрок.
Правительственные идеи тотального контроля лишь клонируют или расширяют корпоративные разработки.
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Global Innovation Labs
Каким образом решить задачу увеличения конверсии CRM-кампаний по банковскому продукту для среднего и малого бизнеса. Как собрать внутренние и внешние источники данных. Какой использовать инструментарий. Какой выбрать алгоритм и оптимизацию гиперпараметров для максимизации прогнозирующей производительности конечной модели.
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Global Innovation Labs
Треть рабочего времени сотрудников теряется в попытках помочь друг друга.
Люди одной микрогруппы хорошо понимают друг друга и плохо понимают людей из других микрогрупп.
При внедрении ИИ текучка среди специалистов в первый месяц снизилась с 30% в месяц до 20%. Производительность увеличилась в 8 раз.
Как сделать лингвистический анализ судебных споров, в которых участвует компания, и вычислить, какие дополнительные активы или обязательства возникнут у нее в качестве дисконтированной на срок судебного разбирательства суммы потенциального выигрыша или проигрыша, вероятность которого вычисляется на основе аналогичных исков в том же суде с тем же предметом спора.
Яна Крухмалева. ПАО Газпром. Опыт внедрения системы управления рискамиGlobal Innovation Labs
Роботизация бизнес-процессов несет существенный ряд преимуществ: от непрерывной обработки данных (в отличие от использования человеческого ресурса) до сокращения операционных расходов и гибкого контроля операционной производительности.
При этом цифровая трансформация тоже несет в себе риски.
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Global Innovation Labs
Как правильно ставить цели в план по развитию маркетинг-аналитики — определить дальнейшие шаги развития маркетинг-аналитики в компании.
Обзор главных технологий и компетенций, о которых стоит помнить на каждом из этапов плана. Вы будете заранее готовы и сможете забюджетировать нужные ресурсы.
К чему стоит быть готовым при внедрении прогнозов в маркетинг аналитике? Вы сможете составить план развития маркетинг-аналитики, учитывая возможные проблемы на этом пути.
Какие источники данных позволяют наиболее точно прогнозировать выполнение маркетинг-плана? Вы сможете контролировать процесс выполнения плана и понимать в каких сегментах ваши зоны роста, а где - риски.
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Global Innovation Labs
Вредные советы о лучших способах убить производительность аналитической СУБД.
1. Передавайте много данных по сети.
2. Обрабатывайте лишние объемы данных.
3. Пренебрегайте мониторингом.
4. Никогда не используйте сжатие данных!
5. И, конечно же, забывайте про резервирование
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниGlobal Innovation Labs
1. Потребности бизнеса, клиентов и рынка в массовом скоринге
2. Первый технологический стек, первый прототип
3. Полезные новейшие возможности облаков для скоринга и других применений ML
4. Выбор фич
5. Несбалансированные данные - как не сойти с ума
6. Оптимизация моделей скоринга
7. Внедрение скоринга в продукт
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Global Innovation Labs
Как построить эффективный медийный продукт на основе данных.
При грамотной настройке "умной выдачи" и "умной рекламы" рост эффективности РК по сегментам показывает до 40%.
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Global Innovation Labs
1. Большие данные о действиях пользователей в продуктах можно превратить в траектории и обрабатывать с помощью ML
2. ML позволяет быстро получать поведенческую сегментацию и строить наглядные интерпретируемые карты
3. Сегменты с проблемным поведением позволяют локализовать точки роста бизнеса и разместить их в клиентском пути
4. Касания и клики в рекламных каналах могут быть обработаны тем же пайплайном, чтобы точнее оценить качество трафика и эффективнее бюджетировать каналы.
Исследование ценностей и целей российских женщин при помощи нейросетей.
Как определить динамику изменения целей и ценностей, создать новые продукты и скорректировать имеющиеся.
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Global Innovation Labs
О том, как корпорации "следят" за нами. Обработка BigData требует средств, технологий и кадров. В первую очередь деньги вложат те, кто сможет быстро продать анализ вашей персональной информации: Google, Яндекс, Facebook, Сбербанк и т.д.
Государство - всегда догоняющий игрок.
Правительственные идеи тотального контроля лишь клонируют или расширяют корпоративные разработки.
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Global Innovation Labs
Каким образом решить задачу увеличения конверсии CRM-кампаний по банковскому продукту для среднего и малого бизнеса. Как собрать внутренние и внешние источники данных. Какой использовать инструментарий. Какой выбрать алгоритм и оптимизацию гиперпараметров для максимизации прогнозирующей производительности конечной модели.
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Global Innovation Labs
Треть рабочего времени сотрудников теряется в попытках помочь друг друга.
Люди одной микрогруппы хорошо понимают друг друга и плохо понимают людей из других микрогрупп.
При внедрении ИИ текучка среди специалистов в первый месяц снизилась с 30% в месяц до 20%. Производительность увеличилась в 8 раз.
Как сделать лингвистический анализ судебных споров, в которых участвует компания, и вычислить, какие дополнительные активы или обязательства возникнут у нее в качестве дисконтированной на срок судебного разбирательства суммы потенциального выигрыша или проигрыша, вероятность которого вычисляется на основе аналогичных исков в том же суде с тем же предметом спора.
Яна Крухмалева. ПАО Газпром. Опыт внедрения системы управления рискамиGlobal Innovation Labs
Роботизация бизнес-процессов несет существенный ряд преимуществ: от непрерывной обработки данных (в отличие от использования человеческого ресурса) до сокращения операционных расходов и гибкого контроля операционной производительности.
При этом цифровая трансформация тоже несет в себе риски.
Яна Крухмалева. ПАО Газпром. Опыт внедрения системы управления рисками
Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для анализа научно-технических текстов
1. ИСПОЛЬЗОВАНИЕ STATE-OF-THE-ART ЭМБЕДДИНГОВЫХ МОДЕЛЕЙ
ДЛЯ АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ
Павел Бахтин,
заведующий отделом
информационно-
аналитических систем
pbakhtin@hse.ru
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
Big Data and AI Conference 2019, Москва, 2019
Илья Кузьминов,
директор центра
стратегической аналитики и
больших данных
ikuzminov@hse.ru
2. СОДЕРЖАНИЕ
▪ Решаемая задача
▪ Основные подходы к выявлению направлений
▪ Эволюция векторных моделей
▪ Разработка бенчмарка: исследовательские фронты
▪ Семантическая близость между документами и основная гипотеза
▪ Оценка эффективности векторных моделей
▪ Оптимальная конфигурация BERT
▪ Кейс по выявлению направлений в сфере ИИ, машинного обучения и
других тематиках ИКТ
▪ Основные выводы
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
2
3. РЕШАЕМАЯ ЗАДАЧА
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
3
Выявление направлений исследований и разработок
Тексты аннотаций научно-технических документов
4. ОСНОВНЫЕ ПОДХОДЫ К ВЫЯВЛЕНИЮ НАПРАВЛЕНИЙ
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
4
1. Тематическое
моделирование
2. Кластеризация
терминов
3. Кластеризация
документов Тема №1 Тема №2 Тема №3
Тема №1
Тема №2
Тема №3
Тема №1
Тема №3
Тема №2
(С) A.S.M. Ashique Mahmood, 2016
(С) iFORA, 2018
5. ЭВОЛЮЦИЯ ВЕКТОРНЫХ МОДЕЛЕЙ
▪ Bag-of-Words (BOW)
▪ TF-IDF
▪ Тематические модели: LSI/LSA, LDA, PLSA
▪ Word embeddings: Word2Vec, GloVe
▪ ELMo, BERT, GPT2,
ERNIE 2.0, RoBERTA, XLNet
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
5
Основная задача векторных моделей: превратить текст в числа
6. РАЗРАБОТКА БЕНЧМАРКА: ИССЛЕДОВАТЕЛЬСКИЕ ФРОНТЫ
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
6
(С) http://diging.github.io/tethne/doc/0.6.1-beta/tutorial.cocitation.html
Исследовательские фронты содержат в себе наиболее высокоцитируемые научные
публикации, объединенные большим числом совместных цитирований на эти
работы, что гарантирует их тематическую связанность (источник: Web of Science)
7. СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ МЕЖДУ ДОКУМЕНТАМИ
И ОСНОВНАЯ ГИПОТЕЗА
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
7
Косинусная мера [cosine similarity] векторов:
𝐶𝑜𝑠𝑆𝑖𝑚 𝑨, 𝑩 =
𝑨 ∙ 𝑩
𝑨 𝑩
=
σ𝑖 𝐴𝑖 𝐵𝑖
σ𝑖 𝐴𝑖
2 σ𝑖 𝐵𝑖
2
Гипотеза: научные публикации, находящиеся в одном исследовательском фронте,
должны иметь высокую семантическую близость.
8. ОЦЕНКА ЭФФЕКТИВНОСТИ ВЕКТОРНЫХ МОДЕЛЕЙ:
КЛАССИФИКАЦИЯ ИССЛЕДОВАТЕЛЬСКИХ ФРОНТОВ
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
8
Число научных публикаций: 10 219
Число исследовательских фронтов: 348
Обучающая выборка: 30%
Классификация: KNN + cosine similarity
Векторная модель Precision Recall F1-score
TF-IDF (по словам) 0,8703 0,8707 0,8705
TF-IDF (по фразам) 0,7488 0,7385 0,7436
LDA 0,1389 0,1519 0,1451
Word2Vec 0,6592 0,6419 0,6504
GloVe 0,7256 0,7190 0,7223
GPT2 0,7889 0,7744 0,7816
SciBERT 0,7509 0,7470 0,7490
SciBERT (STS-B fine-
tuned) 0,8751 0,8735 0,8743
9. Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
9
ОПТИМАЛЬНАЯ КОНФИГУРАЦИЯ BERT
▪ Pretrained модель: SciBERT (https://github.com/allenai/scibert)
▪ Fine-tuning: STS-B benchmark (https://gluebenchmark.com/leaderboard)
▪ Pooling strategy: CLS-token
▪ Pooling layer: 12
▪ Среда для обучения: Pytorch-Transformers (https://github.com/huggingface/pytorch-
transformers)
▪ Сервис для быстрой работы BERT: bert-as-a-service (https://github.com/hanxiao/bert-
as-service)
10. КЕЙС ПО ВЫЯВЛЕНИЮ НАПРАВЛЕНИЙ В СФЕРЕ ИИ,
МАШИННОГО ОБУЧЕНИЯ И ДРУГИХ ТЕМАТИКАХ ИКТ
10
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
Наименование кластера (по ТОП специфическим терминам) 2015 2016 2017 2018 2019
Число
документов
convolutional neural network(0.2382578698766614); convolutional neural networks(0.20641927969303378); deep learning(0.1863437906860927); person re-identification(0.18302854992528564); semi-supervised
learning(0.18254690938578655); action recognition(0.16507233176379876); transfer learning(0.16174938611817063); image classification(0.15812010788737027); cnn(0.12918239562457925); object
detection(0.11505695131802528) 570 781 928 1222 281 3782
visual tracking(0.25544109275748517); saliency detection(0.21739942531737524); pedestrian detection(0.20967717942012776); object detection(0.17375494494122193); object tracking(0.1722160224146216); image
segmentation(0.1519574933429478); convolutional neural network(0.13925573735281457); image fusion(0.13006232082634867); salient object detection(0.10985190117604463); image quality
assessment(0.10869971265868762) 428 486 467 527 135 2043
adaptive control(0.4005376688257237); sliding mode control(0.22497667590714038); backstepping(0.18606494880939353); dynamic surface control(0.1757590645116719); input saturation(0.16320484561798104); robust
control(0.16233244391535295); optimal control(0.15781413738602784); time-varying delay(0.15405377482068067); adaptive dynamic programming(0.1271607298605576); lyapunov stability(0.1232293887076379) 403 438 373 478 138 1830
feature selection(0.17616205017818812); classification(0.13744864953669678); support vector machine(0.13074566742110366); artificial neural network(0.10859510324367985); ensemble learning(0.08965007115476323);
forecasting(0.08768328687742138); decision tree(0.08666723015326627); ecg(0.08422448215447109); particle swarm optimization(0.08394469165412642); support vector regression(0.08208362851396928) 378 404 325 345 109 1561
artificial neural network(0.26640022396285723); thermal conductivity(0.15187114642961713); nanofluid(0.14556814872312956); ann(0.13047689308022614); response surface methodology(0.11469195825537135);
viscosity(0.1119151630581633); artificial neural networks(0.11006747699939264); compressive strength(0.10486341062997372); surface roughness(0.1044695491827571); landslide(0.09129707212824408) 311 357 283 362 142 1455
semi-supervised learning(0.14873141470091766); face recognition(0.12873052826429376); convolutional neural network(0.09503905381840907); sparse representation(0.08858611731634398); computer
vision(0.08801070778939991); feature selection(0.08749748729050419); change detection(0.08559464926705734); object detection(0.08085375429537046); deep learning(0.07788029650363987); convolutional neural
networks(0.07310935430987714) 286 320 273 390 101 1370
data mining(0.16209839230480524); utility mining(0.15078164614607953); frequent itemsets(0.148577607028124); clustering(0.14136940201321702); frequent itemset mining(0.12933890636345985); association
rules(0.11580757693390414); pattern mining(0.11234323321604728); association rule mining(0.10864930805279728); feature selection(0.10563069501821809); frequent itemset(0.10487358973152179) 279 284 237 256 57 1113
dictionary learning(0.12912995504909977); manifold learning(0.12694498153466002); dimensionality reduction(0.12449010737011358); outlier detection(0.1047189036986368); sparse representation(0.10413736286045241);
semi-supervised learning(0.09648970803476602); missing data(0.09256654476484659); sparse coding(0.0880889564599493); kernel methods(0.08745303707443992); subspace learning(0.08598538023030776) 210 255 226 292 66 1049
sentiment analysis(0.5745189062440978); opinion mining(0.2888520423987228); sentiment classification(0.258386526206608); natural language processing(0.18033949962883306); twitter(0.15883015634691147); text
classification(0.15672995910144125); word embedding(0.1470841688287975); text mining(0.12470106816302191); word embeddings(0.10665746310870555); question answering(0.10488418148042497) 204 239 250 236 60 989
fault diagnosis(0.40312790468609067); fault detection(0.2603694157052144); fault location(0.20945698912306399); fault classification(0.17234992442751149); condition monitoring(0.14385641849488914); induction
motor(0.13894331528095719); lithium-ion battery(0.13695264673431104); state of charge(0.12077001165517344); artificial neural network(0.08618294997499); rolling bearing(0.08101530525770491) 175 202 197 238 57 869
eeg(0.346866473735281); epilepsy(0.292889398072077); alzheimer's disease(0.18769704318631555); electroencephalogram(0.16709085069020355); bci(0.14671024284756481); brain-computer
interface(0.1438195371265576); electroencephalography (eeg)(0.1416639544524739); functional connectivity(0.13699415894369538); fmri(0.1343273829350365); electroencephalography(0.1242431466894973) 175 200 180 253 54 862
smart grid(0.25680151642092336); demand response(0.2546864815857823); wind speed forecasting(0.20577481195004205); load forecasting(0.1812713348765106); wind power(0.16428556191178773); energy
management(0.1414841726942642); microgrid(0.1371388747000366); wind power forecasting(0.12247006714426686); short-term load forecasting(0.1206945919403158); wind speed(0.12023307767556948) 146 159 156 208 69 738
speech enhancement(0.4237767833622911); speech recognition(0.2754430179350474); speech synthesis(0.2618857808741172); automatic speech recognition(0.17374952296128454); deep neural
network(0.15426677819289913); speech separation(0.1529091486358782); mfcc(0.14305571980354356); voice conversion(0.13233868905885798); deep neural networks(0.1214689498879188); speech
intelligibility(0.10657887359994299) 126 179 198 192 27 722
11. ОСНОВНЫЕ ВЫВОДЫ
11
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
▪ Эмбеддинговые модели достигли уровня, приемлемого для анализа
научно-технических документов. Следовательно, ретроспективный
анализ-со-цитируемости может быть дополнен / заменен real-time
анализом семантической близости между документами.
▪ Для решения задачи подходят как простые методы (TF-IDF), так и
state-of-the-art (BERT), однако BERT позволяет уменьшить сложность
вычислений за счет снижения размерности представления текстов
▪ Разработанный бенчмарк поможет оценивать новые эмбеддинговые
модели, а также выбрать их оптимальную конфигурацию
12. СПАСИБО ЗА ВНИМАНИЕ
ifora@hse.ru
Павел Бахтин,
заведующий отделом
информационно-
аналитических систем
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
Big Data and AI Conference 2019, Москва, 2019
Илья Кузьминов,
директор центра
стратегической аналитики и
больших данных