SlideShare a Scribd company logo
1 of 12
Download to read offline
ИСПОЛЬЗОВАНИЕ STATE-OF-THE-ART ЭМБЕДДИНГОВЫХ МОДЕЛЕЙ
ДЛЯ АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ
Павел Бахтин,
заведующий отделом
информационно-
аналитических систем
pbakhtin@hse.ru
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
Big Data and AI Conference 2019, Москва, 2019
Илья Кузьминов,
директор центра
стратегической аналитики и
больших данных
ikuzminov@hse.ru
СОДЕРЖАНИЕ
▪ Решаемая задача
▪ Основные подходы к выявлению направлений
▪ Эволюция векторных моделей
▪ Разработка бенчмарка: исследовательские фронты
▪ Семантическая близость между документами и основная гипотеза
▪ Оценка эффективности векторных моделей
▪ Оптимальная конфигурация BERT
▪ Кейс по выявлению направлений в сфере ИИ, машинного обучения и
других тематиках ИКТ
▪ Основные выводы
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
2
РЕШАЕМАЯ ЗАДАЧА
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
3
Выявление направлений исследований и разработок
Тексты аннотаций научно-технических документов
ОСНОВНЫЕ ПОДХОДЫ К ВЫЯВЛЕНИЮ НАПРАВЛЕНИЙ
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
4
1. Тематическое
моделирование
2. Кластеризация
терминов
3. Кластеризация
документов Тема №1 Тема №2 Тема №3
Тема №1
Тема №2
Тема №3
Тема №1
Тема №3
Тема №2
(С) A.S.M. Ashique Mahmood, 2016
(С) iFORA, 2018
ЭВОЛЮЦИЯ ВЕКТОРНЫХ МОДЕЛЕЙ
▪ Bag-of-Words (BOW)
▪ TF-IDF
▪ Тематические модели: LSI/LSA, LDA, PLSA
▪ Word embeddings: Word2Vec, GloVe
▪ ELMo, BERT, GPT2,
ERNIE 2.0, RoBERTA, XLNet
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
5
Основная задача векторных моделей: превратить текст в числа
РАЗРАБОТКА БЕНЧМАРКА: ИССЛЕДОВАТЕЛЬСКИЕ ФРОНТЫ
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
6
(С) http://diging.github.io/tethne/doc/0.6.1-beta/tutorial.cocitation.html
Исследовательские фронты содержат в себе наиболее высокоцитируемые научные
публикации, объединенные большим числом совместных цитирований на эти
работы, что гарантирует их тематическую связанность (источник: Web of Science)
СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ МЕЖДУ ДОКУМЕНТАМИ
И ОСНОВНАЯ ГИПОТЕЗА
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
7
Косинусная мера [cosine similarity] векторов:
𝐶𝑜𝑠𝑆𝑖𝑚 𝑨, 𝑩 =
𝑨 ∙ 𝑩
𝑨 𝑩
=
σ𝑖 𝐴𝑖 𝐵𝑖
σ𝑖 𝐴𝑖
2 σ𝑖 𝐵𝑖
2
Гипотеза: научные публикации, находящиеся в одном исследовательском фронте,
должны иметь высокую семантическую близость.
ОЦЕНКА ЭФФЕКТИВНОСТИ ВЕКТОРНЫХ МОДЕЛЕЙ:
КЛАССИФИКАЦИЯ ИССЛЕДОВАТЕЛЬСКИХ ФРОНТОВ
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
8
Число научных публикаций: 10 219
Число исследовательских фронтов: 348
Обучающая выборка: 30%
Классификация: KNN + cosine similarity
Векторная модель Precision Recall F1-score
TF-IDF (по словам) 0,8703 0,8707 0,8705
TF-IDF (по фразам) 0,7488 0,7385 0,7436
LDA 0,1389 0,1519 0,1451
Word2Vec 0,6592 0,6419 0,6504
GloVe 0,7256 0,7190 0,7223
GPT2 0,7889 0,7744 0,7816
SciBERT 0,7509 0,7470 0,7490
SciBERT (STS-B fine-
tuned) 0,8751 0,8735 0,8743
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
9
ОПТИМАЛЬНАЯ КОНФИГУРАЦИЯ BERT
▪ Pretrained модель: SciBERT (https://github.com/allenai/scibert)
▪ Fine-tuning: STS-B benchmark (https://gluebenchmark.com/leaderboard)
▪ Pooling strategy: CLS-token
▪ Pooling layer: 12
▪ Среда для обучения: Pytorch-Transformers (https://github.com/huggingface/pytorch-
transformers)
▪ Сервис для быстрой работы BERT: bert-as-a-service (https://github.com/hanxiao/bert-
as-service)
КЕЙС ПО ВЫЯВЛЕНИЮ НАПРАВЛЕНИЙ В СФЕРЕ ИИ,
МАШИННОГО ОБУЧЕНИЯ И ДРУГИХ ТЕМАТИКАХ ИКТ
10
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
Наименование кластера (по ТОП специфическим терминам) 2015 2016 2017 2018 2019
Число
документов
convolutional neural network(0.2382578698766614); convolutional neural networks(0.20641927969303378); deep learning(0.1863437906860927); person re-identification(0.18302854992528564); semi-supervised
learning(0.18254690938578655); action recognition(0.16507233176379876); transfer learning(0.16174938611817063); image classification(0.15812010788737027); cnn(0.12918239562457925); object
detection(0.11505695131802528) 570 781 928 1222 281 3782
visual tracking(0.25544109275748517); saliency detection(0.21739942531737524); pedestrian detection(0.20967717942012776); object detection(0.17375494494122193); object tracking(0.1722160224146216); image
segmentation(0.1519574933429478); convolutional neural network(0.13925573735281457); image fusion(0.13006232082634867); salient object detection(0.10985190117604463); image quality
assessment(0.10869971265868762) 428 486 467 527 135 2043
adaptive control(0.4005376688257237); sliding mode control(0.22497667590714038); backstepping(0.18606494880939353); dynamic surface control(0.1757590645116719); input saturation(0.16320484561798104); robust
control(0.16233244391535295); optimal control(0.15781413738602784); time-varying delay(0.15405377482068067); adaptive dynamic programming(0.1271607298605576); lyapunov stability(0.1232293887076379) 403 438 373 478 138 1830
feature selection(0.17616205017818812); classification(0.13744864953669678); support vector machine(0.13074566742110366); artificial neural network(0.10859510324367985); ensemble learning(0.08965007115476323);
forecasting(0.08768328687742138); decision tree(0.08666723015326627); ecg(0.08422448215447109); particle swarm optimization(0.08394469165412642); support vector regression(0.08208362851396928) 378 404 325 345 109 1561
artificial neural network(0.26640022396285723); thermal conductivity(0.15187114642961713); nanofluid(0.14556814872312956); ann(0.13047689308022614); response surface methodology(0.11469195825537135);
viscosity(0.1119151630581633); artificial neural networks(0.11006747699939264); compressive strength(0.10486341062997372); surface roughness(0.1044695491827571); landslide(0.09129707212824408) 311 357 283 362 142 1455
semi-supervised learning(0.14873141470091766); face recognition(0.12873052826429376); convolutional neural network(0.09503905381840907); sparse representation(0.08858611731634398); computer
vision(0.08801070778939991); feature selection(0.08749748729050419); change detection(0.08559464926705734); object detection(0.08085375429537046); deep learning(0.07788029650363987); convolutional neural
networks(0.07310935430987714) 286 320 273 390 101 1370
data mining(0.16209839230480524); utility mining(0.15078164614607953); frequent itemsets(0.148577607028124); clustering(0.14136940201321702); frequent itemset mining(0.12933890636345985); association
rules(0.11580757693390414); pattern mining(0.11234323321604728); association rule mining(0.10864930805279728); feature selection(0.10563069501821809); frequent itemset(0.10487358973152179) 279 284 237 256 57 1113
dictionary learning(0.12912995504909977); manifold learning(0.12694498153466002); dimensionality reduction(0.12449010737011358); outlier detection(0.1047189036986368); sparse representation(0.10413736286045241);
semi-supervised learning(0.09648970803476602); missing data(0.09256654476484659); sparse coding(0.0880889564599493); kernel methods(0.08745303707443992); subspace learning(0.08598538023030776) 210 255 226 292 66 1049
sentiment analysis(0.5745189062440978); opinion mining(0.2888520423987228); sentiment classification(0.258386526206608); natural language processing(0.18033949962883306); twitter(0.15883015634691147); text
classification(0.15672995910144125); word embedding(0.1470841688287975); text mining(0.12470106816302191); word embeddings(0.10665746310870555); question answering(0.10488418148042497) 204 239 250 236 60 989
fault diagnosis(0.40312790468609067); fault detection(0.2603694157052144); fault location(0.20945698912306399); fault classification(0.17234992442751149); condition monitoring(0.14385641849488914); induction
motor(0.13894331528095719); lithium-ion battery(0.13695264673431104); state of charge(0.12077001165517344); artificial neural network(0.08618294997499); rolling bearing(0.08101530525770491) 175 202 197 238 57 869
eeg(0.346866473735281); epilepsy(0.292889398072077); alzheimer's disease(0.18769704318631555); electroencephalogram(0.16709085069020355); bci(0.14671024284756481); brain-computer
interface(0.1438195371265576); electroencephalography (eeg)(0.1416639544524739); functional connectivity(0.13699415894369538); fmri(0.1343273829350365); electroencephalography(0.1242431466894973) 175 200 180 253 54 862
smart grid(0.25680151642092336); demand response(0.2546864815857823); wind speed forecasting(0.20577481195004205); load forecasting(0.1812713348765106); wind power(0.16428556191178773); energy
management(0.1414841726942642); microgrid(0.1371388747000366); wind power forecasting(0.12247006714426686); short-term load forecasting(0.1206945919403158); wind speed(0.12023307767556948) 146 159 156 208 69 738
speech enhancement(0.4237767833622911); speech recognition(0.2754430179350474); speech synthesis(0.2618857808741172); automatic speech recognition(0.17374952296128454); deep neural
network(0.15426677819289913); speech separation(0.1529091486358782); mfcc(0.14305571980354356); voice conversion(0.13233868905885798); deep neural networks(0.1214689498879188); speech
intelligibility(0.10657887359994299) 126 179 198 192 27 722
ОСНОВНЫЕ ВЫВОДЫ
11
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
▪ Эмбеддинговые модели достигли уровня, приемлемого для анализа
научно-технических документов. Следовательно, ретроспективный
анализ-со-цитируемости может быть дополнен / заменен real-time
анализом семантической близости между документами.
▪ Для решения задачи подходят как простые методы (TF-IDF), так и
state-of-the-art (BERT), однако BERT позволяет уменьшить сложность
вычислений за счет снижения размерности представления текстов
▪ Разработанный бенчмарк поможет оценивать новые эмбеддинговые
модели, а также выбрать их оптимальную конфигурацию
СПАСИБО ЗА ВНИМАНИЕ
ifora@hse.ru
Павел Бахтин,
заведующий отделом
информационно-
аналитических систем
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
Big Data and AI Conference 2019, Москва, 2019
Илья Кузьминов,
директор центра
стратегической аналитики и
больших данных

More Related Content

More from Global Innovation Labs

Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Global Innovation Labs
 
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Global Innovation Labs
 
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниАлександр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниGlobal Innovation Labs
 
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Global Innovation Labs
 
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Global Innovation Labs
 
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщиныЕкатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщиныGlobal Innovation Labs
 
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Global Innovation Labs
 
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Global Innovation Labs
 
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Global Innovation Labs
 
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
 Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компанийGlobal Innovation Labs
 
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...Global Innovation Labs
 
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...Global Innovation Labs
 
Яна Крухмалева. ПАО Газпром. Опыт внедрения системы управления рисками
Яна Крухмалева. ПАО Газпром. Опыт внедрения системы управления рискамиЯна Крухмалева. ПАО Газпром. Опыт внедрения системы управления рисками
Яна Крухмалева. ПАО Газпром. Опыт внедрения системы управления рискамиGlobal Innovation Labs
 

More from Global Innovation Labs (13)

Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
Илья Чухляев. OWOX. Как с помощью ML и BigQuery находить зоны роста в выполне...
 
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
Артемий Козырь. Сибур. Лучшие способы убить производительность аналитической ...
 
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камниАлександр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
Александр Сербул. 1С Битрикс. Массовый скоринг в CRM — секреты и подводные камни
 
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
Ксения Александрова. Independent Media. Рекомендательные технологии в Digital...
 
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
Максим Годзи. Retentioneering. Искуственный интеллект помогает банку оптимзир...
 
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщиныЕкатерина Артюгина. ex MAIL.ru. Что выбирают женщины
Екатерина Артюгина. ex MAIL.ru. Что выбирают женщины
 
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
Александр Кузнецов. Lanit Digital. Что будет если маркетологи начнут вести се...
 
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
Андрей Анисимов. ВТБ. Построение моделей машинного обучения для увеличения пр...
 
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
Даниил Терентьев. Conventus. Как и зачем искусственный интеллект оценивает мы...
 
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
 Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
Илья Мунерман. Интрефакс Лаб. Вычисление исковой нагрузки российских компаний
 
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
Павел Соболев. BSH Group (BOSCH/Siemens) . Машинное обучение для прогнозирова...
 
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
Тарас Пустовой. Университет 2035. Как ИИ отвечает на вопрос «Чему пойти учить...
 
Яна Крухмалева. ПАО Газпром. Опыт внедрения системы управления рисками
Яна Крухмалева. ПАО Газпром. Опыт внедрения системы управления рискамиЯна Крухмалева. ПАО Газпром. Опыт внедрения системы управления рисками
Яна Крухмалева. ПАО Газпром. Опыт внедрения системы управления рисками
 

Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для анализа научно-технических текстов

  • 1. ИСПОЛЬЗОВАНИЕ STATE-OF-THE-ART ЭМБЕДДИНГОВЫХ МОДЕЛЕЙ ДЛЯ АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Павел Бахтин, заведующий отделом информационно- аналитических систем pbakhtin@hse.ru Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ Big Data and AI Conference 2019, Москва, 2019 Илья Кузьминов, директор центра стратегической аналитики и больших данных ikuzminov@hse.ru
  • 2. СОДЕРЖАНИЕ ▪ Решаемая задача ▪ Основные подходы к выявлению направлений ▪ Эволюция векторных моделей ▪ Разработка бенчмарка: исследовательские фронты ▪ Семантическая близость между документами и основная гипотеза ▪ Оценка эффективности векторных моделей ▪ Оптимальная конфигурация BERT ▪ Кейс по выявлению направлений в сфере ИИ, машинного обучения и других тематиках ИКТ ▪ Основные выводы Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ 2
  • 3. РЕШАЕМАЯ ЗАДАЧА Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ 3 Выявление направлений исследований и разработок Тексты аннотаций научно-технических документов
  • 4. ОСНОВНЫЕ ПОДХОДЫ К ВЫЯВЛЕНИЮ НАПРАВЛЕНИЙ Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ 4 1. Тематическое моделирование 2. Кластеризация терминов 3. Кластеризация документов Тема №1 Тема №2 Тема №3 Тема №1 Тема №2 Тема №3 Тема №1 Тема №3 Тема №2 (С) A.S.M. Ashique Mahmood, 2016 (С) iFORA, 2018
  • 5. ЭВОЛЮЦИЯ ВЕКТОРНЫХ МОДЕЛЕЙ ▪ Bag-of-Words (BOW) ▪ TF-IDF ▪ Тематические модели: LSI/LSA, LDA, PLSA ▪ Word embeddings: Word2Vec, GloVe ▪ ELMo, BERT, GPT2, ERNIE 2.0, RoBERTA, XLNet Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ 5 Основная задача векторных моделей: превратить текст в числа
  • 6. РАЗРАБОТКА БЕНЧМАРКА: ИССЛЕДОВАТЕЛЬСКИЕ ФРОНТЫ Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ 6 (С) http://diging.github.io/tethne/doc/0.6.1-beta/tutorial.cocitation.html Исследовательские фронты содержат в себе наиболее высокоцитируемые научные публикации, объединенные большим числом совместных цитирований на эти работы, что гарантирует их тематическую связанность (источник: Web of Science)
  • 7. СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ МЕЖДУ ДОКУМЕНТАМИ И ОСНОВНАЯ ГИПОТЕЗА Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ 7 Косинусная мера [cosine similarity] векторов: 𝐶𝑜𝑠𝑆𝑖𝑚 𝑨, 𝑩 = 𝑨 ∙ 𝑩 𝑨 𝑩 = σ𝑖 𝐴𝑖 𝐵𝑖 σ𝑖 𝐴𝑖 2 σ𝑖 𝐵𝑖 2 Гипотеза: научные публикации, находящиеся в одном исследовательском фронте, должны иметь высокую семантическую близость.
  • 8. ОЦЕНКА ЭФФЕКТИВНОСТИ ВЕКТОРНЫХ МОДЕЛЕЙ: КЛАССИФИКАЦИЯ ИССЛЕДОВАТЕЛЬСКИХ ФРОНТОВ Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ 8 Число научных публикаций: 10 219 Число исследовательских фронтов: 348 Обучающая выборка: 30% Классификация: KNN + cosine similarity Векторная модель Precision Recall F1-score TF-IDF (по словам) 0,8703 0,8707 0,8705 TF-IDF (по фразам) 0,7488 0,7385 0,7436 LDA 0,1389 0,1519 0,1451 Word2Vec 0,6592 0,6419 0,6504 GloVe 0,7256 0,7190 0,7223 GPT2 0,7889 0,7744 0,7816 SciBERT 0,7509 0,7470 0,7490 SciBERT (STS-B fine- tuned) 0,8751 0,8735 0,8743
  • 9. Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ 9 ОПТИМАЛЬНАЯ КОНФИГУРАЦИЯ BERT ▪ Pretrained модель: SciBERT (https://github.com/allenai/scibert) ▪ Fine-tuning: STS-B benchmark (https://gluebenchmark.com/leaderboard) ▪ Pooling strategy: CLS-token ▪ Pooling layer: 12 ▪ Среда для обучения: Pytorch-Transformers (https://github.com/huggingface/pytorch- transformers) ▪ Сервис для быстрой работы BERT: bert-as-a-service (https://github.com/hanxiao/bert- as-service)
  • 10. КЕЙС ПО ВЫЯВЛЕНИЮ НАПРАВЛЕНИЙ В СФЕРЕ ИИ, МАШИННОГО ОБУЧЕНИЯ И ДРУГИХ ТЕМАТИКАХ ИКТ 10 Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ Наименование кластера (по ТОП специфическим терминам) 2015 2016 2017 2018 2019 Число документов convolutional neural network(0.2382578698766614); convolutional neural networks(0.20641927969303378); deep learning(0.1863437906860927); person re-identification(0.18302854992528564); semi-supervised learning(0.18254690938578655); action recognition(0.16507233176379876); transfer learning(0.16174938611817063); image classification(0.15812010788737027); cnn(0.12918239562457925); object detection(0.11505695131802528) 570 781 928 1222 281 3782 visual tracking(0.25544109275748517); saliency detection(0.21739942531737524); pedestrian detection(0.20967717942012776); object detection(0.17375494494122193); object tracking(0.1722160224146216); image segmentation(0.1519574933429478); convolutional neural network(0.13925573735281457); image fusion(0.13006232082634867); salient object detection(0.10985190117604463); image quality assessment(0.10869971265868762) 428 486 467 527 135 2043 adaptive control(0.4005376688257237); sliding mode control(0.22497667590714038); backstepping(0.18606494880939353); dynamic surface control(0.1757590645116719); input saturation(0.16320484561798104); robust control(0.16233244391535295); optimal control(0.15781413738602784); time-varying delay(0.15405377482068067); adaptive dynamic programming(0.1271607298605576); lyapunov stability(0.1232293887076379) 403 438 373 478 138 1830 feature selection(0.17616205017818812); classification(0.13744864953669678); support vector machine(0.13074566742110366); artificial neural network(0.10859510324367985); ensemble learning(0.08965007115476323); forecasting(0.08768328687742138); decision tree(0.08666723015326627); ecg(0.08422448215447109); particle swarm optimization(0.08394469165412642); support vector regression(0.08208362851396928) 378 404 325 345 109 1561 artificial neural network(0.26640022396285723); thermal conductivity(0.15187114642961713); nanofluid(0.14556814872312956); ann(0.13047689308022614); response surface methodology(0.11469195825537135); viscosity(0.1119151630581633); artificial neural networks(0.11006747699939264); compressive strength(0.10486341062997372); surface roughness(0.1044695491827571); landslide(0.09129707212824408) 311 357 283 362 142 1455 semi-supervised learning(0.14873141470091766); face recognition(0.12873052826429376); convolutional neural network(0.09503905381840907); sparse representation(0.08858611731634398); computer vision(0.08801070778939991); feature selection(0.08749748729050419); change detection(0.08559464926705734); object detection(0.08085375429537046); deep learning(0.07788029650363987); convolutional neural networks(0.07310935430987714) 286 320 273 390 101 1370 data mining(0.16209839230480524); utility mining(0.15078164614607953); frequent itemsets(0.148577607028124); clustering(0.14136940201321702); frequent itemset mining(0.12933890636345985); association rules(0.11580757693390414); pattern mining(0.11234323321604728); association rule mining(0.10864930805279728); feature selection(0.10563069501821809); frequent itemset(0.10487358973152179) 279 284 237 256 57 1113 dictionary learning(0.12912995504909977); manifold learning(0.12694498153466002); dimensionality reduction(0.12449010737011358); outlier detection(0.1047189036986368); sparse representation(0.10413736286045241); semi-supervised learning(0.09648970803476602); missing data(0.09256654476484659); sparse coding(0.0880889564599493); kernel methods(0.08745303707443992); subspace learning(0.08598538023030776) 210 255 226 292 66 1049 sentiment analysis(0.5745189062440978); opinion mining(0.2888520423987228); sentiment classification(0.258386526206608); natural language processing(0.18033949962883306); twitter(0.15883015634691147); text classification(0.15672995910144125); word embedding(0.1470841688287975); text mining(0.12470106816302191); word embeddings(0.10665746310870555); question answering(0.10488418148042497) 204 239 250 236 60 989 fault diagnosis(0.40312790468609067); fault detection(0.2603694157052144); fault location(0.20945698912306399); fault classification(0.17234992442751149); condition monitoring(0.14385641849488914); induction motor(0.13894331528095719); lithium-ion battery(0.13695264673431104); state of charge(0.12077001165517344); artificial neural network(0.08618294997499); rolling bearing(0.08101530525770491) 175 202 197 238 57 869 eeg(0.346866473735281); epilepsy(0.292889398072077); alzheimer's disease(0.18769704318631555); electroencephalogram(0.16709085069020355); bci(0.14671024284756481); brain-computer interface(0.1438195371265576); electroencephalography (eeg)(0.1416639544524739); functional connectivity(0.13699415894369538); fmri(0.1343273829350365); electroencephalography(0.1242431466894973) 175 200 180 253 54 862 smart grid(0.25680151642092336); demand response(0.2546864815857823); wind speed forecasting(0.20577481195004205); load forecasting(0.1812713348765106); wind power(0.16428556191178773); energy management(0.1414841726942642); microgrid(0.1371388747000366); wind power forecasting(0.12247006714426686); short-term load forecasting(0.1206945919403158); wind speed(0.12023307767556948) 146 159 156 208 69 738 speech enhancement(0.4237767833622911); speech recognition(0.2754430179350474); speech synthesis(0.2618857808741172); automatic speech recognition(0.17374952296128454); deep neural network(0.15426677819289913); speech separation(0.1529091486358782); mfcc(0.14305571980354356); voice conversion(0.13233868905885798); deep neural networks(0.1214689498879188); speech intelligibility(0.10657887359994299) 126 179 198 192 27 722
  • 11. ОСНОВНЫЕ ВЫВОДЫ 11 Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ ▪ Эмбеддинговые модели достигли уровня, приемлемого для анализа научно-технических документов. Следовательно, ретроспективный анализ-со-цитируемости может быть дополнен / заменен real-time анализом семантической близости между документами. ▪ Для решения задачи подходят как простые методы (TF-IDF), так и state-of-the-art (BERT), однако BERT позволяет уменьшить сложность вычислений за счет снижения размерности представления текстов ▪ Разработанный бенчмарк поможет оценивать новые эмбеддинговые модели, а также выбрать их оптимальную конфигурацию
  • 12. СПАСИБО ЗА ВНИМАНИЕ ifora@hse.ru Павел Бахтин, заведующий отделом информационно- аналитических систем Центр стратегической аналитики и больших данных Института статистических исследований и экономики знаний НИУ ВШЭ Big Data and AI Conference 2019, Москва, 2019 Илья Кузьминов, директор центра стратегической аналитики и больших данных