Fin bert paper review !

자연어처리팀
김은희, 신동진, 황소현(발표자)
FinBERT
FinBERT:
A Pretrained Language Model for
Financial Communications

1. Introduction
1. Introduction
NLP in Financial Domain
- Real-time sentiment monitoring from online news/social media
⇒ Directional signal for trading
Sentiment 포트폴리오 > Index 펀드 (Bloomberg)

1. Introduction
1. Introduction
NLP in Financial Domain
- Finance 분야의 NLP 모델이 없었다!
- Unsupervised pretraining
- generic BERT 모델보다 강력
- corporate report / conference call transcript / analysis report 사용
+ = FinBERT

2. Related Work
Large NLP models
- BERT, ELMo, ULM-Fit, XLNet, GPT
- general domain corpora로 학습
(news, Wikipedia)
출처: https://medium.com/nwamaka-imasogie/clinicalbert-
using-deep-learning-transformer-model-to-predict-hospital-
readmission-c82ff0e4bb03
Domain-specific models
- BioBERT, ClinicalBERT, SciBERT, …
- Finance domain에 대해서는 FinBERT
가 최초
출처: https://github.com/thunlp/PLMpapers
2. Related Work

3. Financial Corpora
Overall Corpora Statistics
- 4.9 Billion tokens 확보
- BERT는 pre-training 3.3 Billion tokens

Corporate Reports 10-K & 10-Q
- 10-K : 연차보고서 / 10-Q : 분기보고서
- 금융 및 비즈니스에서 가장 중요한 텍스트 데이터
* 회사의 비즈니스 및 재무 상태(SEC 웹사이트에 공개 되어 있음)
-1994 ~ 2019년 사이의 60,490 10-K 와 142,622의 10-Q를 얻음
⚫ Item 1(Business)
⚫ Item 1A(Risk Factors)
⚫ Item 7(Managements Discusion and Analysis)

Earnings Call Transcripts
- 회사 성과에 대한 보고
- 2004 ~ 2019 사이의 7,740 개 회사의
136,578 얻음
- https://seekingalpha.com/earnings/earnings-call-
transcripts
Analyst Reports
- 기관 및 개별 투자자에게 유용한 정보를 제공
- 주식 추천, 수익 예측, 목표 가격을 포함한
여러 정량적인 요약 값을 제공
- 기관 투자자들은 매년 수백만 달러를 소비해서
Analyst Reports를 구매해서 읽음.
- 1995 ~ 2008년동안 S&P 에서 발행된 488,494
개 세트의 Analyst Reports를 구함.

4. FinBERT Training
Vocabulary
- SentenePiece library 사용 FinVocab 구축
- FinBERT VS BERT vocabulary
- FinBERT , BERT 교집합은 41%
FinBERT-Variants
- BERT-Base 와 동일한 환경으로 FinBERT
Corpora 사용
- 문장 길이를 128 tokens 로 설정하고 훈련 후,
512 tokens 를 허용하는 모델을 계속 training
- 4개의 다른 버전을 훈련
- FinBERT-Base Vocab, uncased/cased
- 250K iteration
- 2e^-5 learning rate
- FinBERT-FinVocab , uncased/cased
- 1M iteration
- Finvocab 사용
4. FinBERT Training
Cased Uncased
FinBERT 28,573 30,873
BERT 28,996 30,522

5. Financial Sentiment Experiments
5. Dataset
• Financial Phrase Bank
• AnalystTone Dataset
• FiQA Dataset

5. Dataset
• Financial Phrase Bank (Malo et al., 2014)
- 금융 뉴스데이터에서 4,840 개의 문장 포함
- 16명의 전문지식을 갖춘 연구자들에 의해 수동 라벨링 하여 만들었음.
- 감정 라벨 : positive, neutral, negative
- Data Instances
-{ "sentence": "Pharmaceuticals group Orion Corp reported a fall in its third-quarter earnings that
were hit by larger expenditures on R&D and marketing .",
- "label": "negative"
-}

5. Dataset
• AnalystTone Dataset (Huang et al., 2014)
- 무작위로 10,000개의 문장이 포함
- 감정 라벨 : positive (3,580 개) , neutral (4,590 개), negative (1,830 개)
• FiQA Dataset (https://sites.google.com/view/fiqa/home)
- Financial Opinion Mining and Question Answering
- 1,111 개의 문장 포함 오픈 데이터
- numeric sentiment score, ranged from - 1 to 1 - > 이진 분류 작업
- split each dataset into 90% training and 10% testing 10 times and report the average.

5. Experiment Results
FinBERT vs. BERT

FinVocab vs. BaseVocab

Cased vs. Uncased

Corpus Contribution

- FinBERT : financial-task oriented BERT 만들었어요!
- 세가지 financial sentiment classification tasks에서 BERT를 능가해요!
- FinBERT 릴리즈를 통해 실무자와 연구자들이 Fin-BERT를 활용할 수 있어요!
6. Conclusion
6. Conclusion

Fin bert paper review !

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from taeseon ryu

More from taeseon ryu (20)

Fin bert paper review !