Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для анализа научно-технических текстов

ИСПОЛЬЗОВАНИЕ STATE-OF-THE-ART ЭМБЕДДИНГОВЫХ МОДЕЛЕЙ
ДЛЯ АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ
Павел Бахтин,
заведующий отделом
информационно-
аналитических систем
pbakhtin@hse.ru
Центр стратегической аналитики и больших данных
Института статистических исследований и экономики знаний НИУ ВШЭ
Big Data and AI Conference 2019, Москва, 2019
Илья Кузьминов,
директор центра
стратегической аналитики и
больших данных
ikuzminov@hse.ru

СОДЕРЖАНИЕ
▪ Решаемая задача
▪ Основные подходы к выявлению направлений
▪ Эволюция векторных моделей
▪ Разработка бенчмарка: исследовательские фронты
▪ Семантическая близость между документами и основная гипотеза
▪ Оценка эффективности векторных моделей
▪ Оптимальная конфигурация BERT
▪ Кейс по выявлению направлений в сфере ИИ, машинного обучения и
других тематиках ИКТ
▪ Основные выводы
2

РЕШАЕМАЯ ЗАДАЧА
3
Выявление направлений исследований и разработок
Тексты аннотаций научно-технических документов

ОСНОВНЫЕ ПОДХОДЫ К ВЫЯВЛЕНИЮ НАПРАВЛЕНИЙ
4
1. Тематическое
моделирование
2. Кластеризация
терминов
3. Кластеризация
документов Тема №1 Тема №2 Тема №3
Тема №1
Тема №2
Тема №3
Тема №1
Тема №3
Тема №2
(С) A.S.M. Ashique Mahmood, 2016
(С) iFORA, 2018

ЭВОЛЮЦИЯ ВЕКТОРНЫХ МОДЕЛЕЙ
▪ Bag-of-Words (BOW)
▪ TF-IDF
▪ Тематические модели: LSI/LSA, LDA, PLSA
▪ Word embeddings: Word2Vec, GloVe
▪ ELMo, BERT, GPT2,
ERNIE 2.0, RoBERTA, XLNet
5
Основная задача векторных моделей: превратить текст в числа

РАЗРАБОТКА БЕНЧМАРКА: ИССЛЕДОВАТЕЛЬСКИЕ ФРОНТЫ
6
(С) http://diging.github.io/tethne/doc/0.6.1-beta/tutorial.cocitation.html
Исследовательские фронты содержат в себе наиболее высокоцитируемые научные
публикации, объединенные большим числом совместных цитирований на эти
работы, что гарантирует их тематическую связанность (источник: Web of Science)

СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ МЕЖДУ ДОКУМЕНТАМИ
И ОСНОВНАЯ ГИПОТЕЗА
7
Косинусная мера [cosine similarity] векторов:
𝐶𝑜𝑠𝑆𝑖𝑚 𝑨, 𝑩 =
𝑨 ∙ 𝑩
𝑨 𝑩
=
σ𝑖 𝐴𝑖 𝐵𝑖
σ𝑖 𝐴𝑖
2 σ𝑖 𝐵𝑖
2
Гипотеза: научные публикации, находящиеся в одном исследовательском фронте,
должны иметь высокую семантическую близость.

ОЦЕНКА ЭФФЕКТИВНОСТИ ВЕКТОРНЫХ МОДЕЛЕЙ:
КЛАССИФИКАЦИЯ ИССЛЕДОВАТЕЛЬСКИХ ФРОНТОВ
8
Число научных публикаций: 10 219
Число исследовательских фронтов: 348
Обучающая выборка: 30%
Классификация: KNN + cosine similarity
Векторная модель Precision Recall F1-score
TF-IDF (по словам) 0,8703 0,8707 0,8705
TF-IDF (по фразам) 0,7488 0,7385 0,7436
LDA 0,1389 0,1519 0,1451
Word2Vec 0,6592 0,6419 0,6504
GloVe 0,7256 0,7190 0,7223
GPT2 0,7889 0,7744 0,7816
SciBERT 0,7509 0,7470 0,7490
SciBERT (STS-B fine-
tuned) 0,8751 0,8735 0,8743

9
ОПТИМАЛЬНАЯ КОНФИГУРАЦИЯ BERT
▪ Pretrained модель: SciBERT (https://github.com/allenai/scibert)
▪ Fine-tuning: STS-B benchmark (https://gluebenchmark.com/leaderboard)
▪ Pooling strategy: CLS-token
▪ Pooling layer: 12
▪ Среда для обучения: Pytorch-Transformers (https://github.com/huggingface/pytorch-
transformers)
▪ Сервис для быстрой работы BERT: bert-as-a-service (https://github.com/hanxiao/bert-
as-service)

КЕЙС ПО ВЫЯВЛЕНИЮ НАПРАВЛЕНИЙ В СФЕРЕ ИИ,
МАШИННОГО ОБУЧЕНИЯ И ДРУГИХ ТЕМАТИКАХ ИКТ
10
Наименование кластера (по ТОП специфическим терминам) 2015 2016 2017 2018 2019
Число
документов
convolutional neural network(0.2382578698766614); convolutional neural networks(0.20641927969303378); deep learning(0.1863437906860927); person re-identification(0.18302854992528564); semi-supervised
learning(0.18254690938578655); action recognition(0.16507233176379876); transfer learning(0.16174938611817063); image classification(0.15812010788737027); cnn(0.12918239562457925); object
detection(0.11505695131802528) 570 781 928 1222 281 3782
visual tracking(0.25544109275748517); saliency detection(0.21739942531737524); pedestrian detection(0.20967717942012776); object detection(0.17375494494122193); object tracking(0.1722160224146216); image
segmentation(0.1519574933429478); convolutional neural network(0.13925573735281457); image fusion(0.13006232082634867); salient object detection(0.10985190117604463); image quality
assessment(0.10869971265868762) 428 486 467 527 135 2043
adaptive control(0.4005376688257237); sliding mode control(0.22497667590714038); backstepping(0.18606494880939353); dynamic surface control(0.1757590645116719); input saturation(0.16320484561798104); robust
control(0.16233244391535295); optimal control(0.15781413738602784); time-varying delay(0.15405377482068067); adaptive dynamic programming(0.1271607298605576); lyapunov stability(0.1232293887076379) 403 438 373 478 138 1830
feature selection(0.17616205017818812); classification(0.13744864953669678); support vector machine(0.13074566742110366); artificial neural network(0.10859510324367985); ensemble learning(0.08965007115476323);
forecasting(0.08768328687742138); decision tree(0.08666723015326627); ecg(0.08422448215447109); particle swarm optimization(0.08394469165412642); support vector regression(0.08208362851396928) 378 404 325 345 109 1561
artificial neural network(0.26640022396285723); thermal conductivity(0.15187114642961713); nanofluid(0.14556814872312956); ann(0.13047689308022614); response surface methodology(0.11469195825537135);
viscosity(0.1119151630581633); artificial neural networks(0.11006747699939264); compressive strength(0.10486341062997372); surface roughness(0.1044695491827571); landslide(0.09129707212824408) 311 357 283 362 142 1455
semi-supervised learning(0.14873141470091766); face recognition(0.12873052826429376); convolutional neural network(0.09503905381840907); sparse representation(0.08858611731634398); computer
vision(0.08801070778939991); feature selection(0.08749748729050419); change detection(0.08559464926705734); object detection(0.08085375429537046); deep learning(0.07788029650363987); convolutional neural
networks(0.07310935430987714) 286 320 273 390 101 1370
data mining(0.16209839230480524); utility mining(0.15078164614607953); frequent itemsets(0.148577607028124); clustering(0.14136940201321702); frequent itemset mining(0.12933890636345985); association
rules(0.11580757693390414); pattern mining(0.11234323321604728); association rule mining(0.10864930805279728); feature selection(0.10563069501821809); frequent itemset(0.10487358973152179) 279 284 237 256 57 1113
dictionary learning(0.12912995504909977); manifold learning(0.12694498153466002); dimensionality reduction(0.12449010737011358); outlier detection(0.1047189036986368); sparse representation(0.10413736286045241);
semi-supervised learning(0.09648970803476602); missing data(0.09256654476484659); sparse coding(0.0880889564599493); kernel methods(0.08745303707443992); subspace learning(0.08598538023030776) 210 255 226 292 66 1049
sentiment analysis(0.5745189062440978); opinion mining(0.2888520423987228); sentiment classification(0.258386526206608); natural language processing(0.18033949962883306); twitter(0.15883015634691147); text
classification(0.15672995910144125); word embedding(0.1470841688287975); text mining(0.12470106816302191); word embeddings(0.10665746310870555); question answering(0.10488418148042497) 204 239 250 236 60 989
fault diagnosis(0.40312790468609067); fault detection(0.2603694157052144); fault location(0.20945698912306399); fault classification(0.17234992442751149); condition monitoring(0.14385641849488914); induction
motor(0.13894331528095719); lithium-ion battery(0.13695264673431104); state of charge(0.12077001165517344); artificial neural network(0.08618294997499); rolling bearing(0.08101530525770491) 175 202 197 238 57 869
eeg(0.346866473735281); epilepsy(0.292889398072077); alzheimer's disease(0.18769704318631555); electroencephalogram(0.16709085069020355); bci(0.14671024284756481); brain-computer
interface(0.1438195371265576); electroencephalography (eeg)(0.1416639544524739); functional connectivity(0.13699415894369538); fmri(0.1343273829350365); electroencephalography(0.1242431466894973) 175 200 180 253 54 862
smart grid(0.25680151642092336); demand response(0.2546864815857823); wind speed forecasting(0.20577481195004205); load forecasting(0.1812713348765106); wind power(0.16428556191178773); energy
management(0.1414841726942642); microgrid(0.1371388747000366); wind power forecasting(0.12247006714426686); short-term load forecasting(0.1206945919403158); wind speed(0.12023307767556948) 146 159 156 208 69 738
speech enhancement(0.4237767833622911); speech recognition(0.2754430179350474); speech synthesis(0.2618857808741172); automatic speech recognition(0.17374952296128454); deep neural
network(0.15426677819289913); speech separation(0.1529091486358782); mfcc(0.14305571980354356); voice conversion(0.13233868905885798); deep neural networks(0.1214689498879188); speech
intelligibility(0.10657887359994299) 126 179 198 192 27 722

ОСНОВНЫЕ ВЫВОДЫ
11
▪ Эмбеддинговые модели достигли уровня, приемлемого для анализа
научно-технических документов. Следовательно, ретроспективный
анализ-со-цитируемости может быть дополнен / заменен real-time
анализом семантической близости между документами.
▪ Для решения задачи подходят как простые методы (TF-IDF), так и
state-of-the-art (BERT), однако BERT позволяет уменьшить сложность
вычислений за счет снижения размерности представления текстов
▪ Разработанный бенчмарк поможет оценивать новые эмбеддинговые
модели, а также выбрать их оптимальную конфигурацию

СПАСИБО ЗА ВНИМАНИЕ
ifora@hse.ru
Павел Бахтин,
заведующий отделом
информационно-
аналитических систем
Big Data and AI Conference 2019, Москва, 2019
Илья Кузьминов,
директор центра
стратегической аналитики и
больших данных

Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для анализа научно-технических текстов

Recommended

Recommended

More Related Content

More from Global Innovation Labs

More from Global Innovation Labs (13)

Павел Бахтин. ВШЭ. Использование state-of-the-art эмбеддинговых моделей для анализа научно-технических текстов