기계번역은 하나의 언어로 기술된 문서를 다른 언어로 자동으로 번역하기 위한 제반 기술을 의미한다. 통상적으로 규칙 기반 기계번역(RBMT: Rule based machine translation)과 통계 기반 기계번역(SBMT: Statistical based machine translation), 그리고 규칙과 통계 기반 기술을 병합한 하이브리드 기계 번역으로 크게 나눌 수 있습니다. 하지만 알고리즘 측면에서 본다면 직접 방식, 중간언어 방식, 통계기반 , 하이브리드 번역 등으로 좀 더 세부적으로 나누어질 수 있다
인간이 사용하는 자연어(natural language)를 컴퓨터를 이용하여 처리하고자 하는 연구는 규칙 기반의 접근법(rule based approach)과 통계 기반의 접근법(statistics based approach)으로 나눌 수 있다. 통계 기반 접근법은 사람이 실제로 사용하는 많은 데이타로부터 확률정보 및 통계 정보를 추출하여 이를 통해 여러 언어현상을 규명하고자 하는 코퍼스 기반 접근법(corpus based approach)라고도 한다.
기계번역은 하나의 언어로 기술된 문서를 다른 언어로 자동으로 번역하기 위한 제반 기술을 의미한다. 통상적으로 규칙 기반 기계번역(RBMT: Rule based machine translation)과 통계 기반 기계번역(SBMT: Statistical based machine translation), 그리고 규칙과 통계 기반 기술을 병합한 하이브리드 기계 번역으로 크게 나눌 수 있습니다. 하지만 알고리즘 측면에서 본다면 직접 방식, 중간언어 방식, 통계기반 , 하이브리드 번역 등으로 좀 더 세부적으로 나누어질 수 있다
인간이 사용하는 자연어(natural language)를 컴퓨터를 이용하여 처리하고자 하는 연구는 규칙 기반의 접근법(rule based approach)과 통계 기반의 접근법(statistics based approach)으로 나눌 수 있다. 통계 기반 접근법은 사람이 실제로 사용하는 많은 데이타로부터 확률정보 및 통계 정보를 추출하여 이를 통해 여러 언어현상을 규명하고자 하는 코퍼스 기반 접근법(corpus based approach)라고도 한다.
AURALISATION OF DEEP CONVOLUTIONAL NEURAL NETWORKS: LISTENING TO LEARNED FEAT...NAVER LABS
ISMIR ( International Society for Music Information Retrieval Conference ) 2015 에서 발표된 CNN 딥러닝 방법을 이용하여 음악을 분석하는 내용의 논문입니다.
저자 : Queen Mary University of London 최근우, 네이버랩스 김정희, Queen Mary University of London George Fazekas, Queen Mary University of London Mark Sandler
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용Susang Kim
도입
AI Chatbot 소개
Chatbot Ecosystem
Closed vs Open Domain
Rule Based vs AI
Chat IF Flow and Story Slot
AI기반의 학습을 위한 Data 구성 방법
Data를 구하는 법 / Train을 위한 Word Representation
Data의 구성 / Data Augmentation(Intent, NER)
자연어처리 위한 AI 적용 방안
Intent (Char-CNN) / QnA (Seq2Seq)
Named Entity Recognition (Bi-LSTM CRF) / Ontology (Graph DB)
Chatbot Service를 위한 Architecture 구성
Chatbot Architecture
NLP Architecture
Web Service Architecture
Bot builder / Chatbot API
Test Codes for Chatbot
실무에서 발생하는 문제와 해결 Tips
Ensemble and voting / Trigger / Synonym(N-Gram)
Tone Generator / Parallel processing / Response Speed
마무리
[설명 코드]
Text Augmentation / Slot Bot / QA Bot / Graph DB / Response Generator
신동광, 박태준, 박용효, 임수연, 김인숙. (2014, 9월). 영어 말하기 자동채점 프로그램의 현재와 미래. 한국멀티미디어언어교육학회 2014년 가을 학술대회 발표논문, 서울.
[초록]
본 연구는 영어 말하기 자동채점 프로그램의 개발을 통해 학교현장에서의 현
실적인 말하기 평가의 부담을 덜어주기 위해 2년간의 연구 프로젝트로 진행되었
다. 이를 위해 1차년도 연구에서는 말하기 자동채점 프로그램의 프로토타입을 개
발하였다. 2차년 연구에서는 이를 바탕으로 영어 말하기 자동채점 프로그램 음성
인식기의 인식률을 개선하여 영어 말하기 자동채점 프로그램의 성능을 향상시키
고 채점 기준을 상세화하며 추가적인 자동채점의 채점 자질을 발굴하여 자동채점
의 채점 알고리듬을 개선하고자 하였으며, 끝으로 영어 말하기 자동채점 프로그
램의 개선된 성능을 검증하고자 하였다.
먼저, 음성인식 고도화를 위하여 음성인식 시스템을 구성하는
사전처리(Preprocessing) 작업, 음향 모델링(Acoustic Modeling), 발음
사전(Phoneme Dictionary), 언어 모델링(Language Modeling) 그리고 발화
검증(Utterance Verification)에 최적화된 여러 기능을 적용하였다. 또한
자동채점의 최적화에 사용될 기준점수의 신뢰성 확보를 위해서 2인 채점
평균값을 기준점수로 활용하기 보다는 5인 채점 최빈값 및 평균값을 기준점수로
적용하며 총체적 채점을 시범적으로 적용해 보았다. 채점 자질 추가 선정을
위하여 신호처리 자질, 음성인식 자질 그리고 언어 이해 자질별로 새로운 자질을
적용하였고, 채점 자질의 복잡한 속성을 기계 채점이 일부 반영하지 못하는
한계를 보완하고 인간 채점자의 채점 경향에 최대한 근접하기 위해 채점
전문가를 대상으로 채점 자질 가중치 부여를 실시하였다. 마지막으로, 말하기
기계 채점 고도화를 위하여 최대 엔트로피(Maximum Entropy, ME) 방식과 다중
회귀(Multiple Regression, MR) 방식과 더불어 최근 데이터 마이닝과 패턴 인식
분야에서 많이 쓰이는 서포트벡터머신(Support Vector Machine, SVM) 방식을
새롭게 적용하였다.
연구결과를 살펴보면, 먼저 기준점수를 최빈값으로 대체하였을 효과는
미미했다. 엄격성 면에서도 자동채점이 인간채점보다 엄격하게 채점하는 경향을
보였다. 또한 분석적 채점 결과와 비교해 보았을 때, 총체적 채점 결과가 전체적으로 신뢰도가 높았으며 전체 신뢰도 역시 양호한 결과를 미루어 볼 때,
앞으로의 영어 말하기 자동채점 프로그램의 방식은 총체적 채점 방식에 맞춰
개발할 때 보다 향상된 결과가 예상되며 일선 학교에
13. SMT 시스템 구조
Monolingual
Corpus
Bilingual
Corpus
Alignment &
Phrase extraction
N-gram
Translation
Model
Language
Model
Pr( f1J | e1I )
f1 f 2 f J
tokenizer
Pr(e1I )
decoder
generator
I
I
ˆ
e arg maxe[P (f1J | e1 ) P (e1 )]
Search task
Translation model
Fundamental Equation of MT
language model
e1e2 eI
14. SMT 시스템 개발 과정
Monolingual
Corpus
Bilingual
Corpus
Alignment &
Phrase extraction
N-gram
Translation
Model
Language
Model
Pr( f1J | e1I )
f1 f 2 f J
tokenizer
Pr(e1I )
decoder
NAVER
자체 개발
generator
e1e2 eI
15. Translation Model 학습
Bilingual Corpus
GIZA++ (IBM Model)
K2J Word
Alignment
J2K Word
Alignment
Alignment Symmetrization
Bi-directional
Word
Alignment
Phrase Extraction Heuristic
Phrase-Table
16. 학습된 Translation Model
PB
Source
아침/NOUN 은/JOSA
朝/NCA ご飯/NCC は/PC
0.750 0.116 0.050 0.001
아침/NOUN 은/JOSA
朝/NCA に/PS は/PC
0.045 0.229 0.017 0.026
아침/NOUN 은/JOSA
Target
Probability
朝/NCA は/PC
0.333 0.229 0.517 0.415
Source
Target
for a long time
오랫동안
0.133 0.030 0.388 0.015
am afraid of X1
X1을 무서워하다
0.922 0.002 0.930 0.005
not only X1 but also X2
X1 뿐만 아니라 X2
0.136 0.001 0.105 0.020
X1 as well as X2
X2 뿐만 아니라 X1
0.901 0.002 0.041 0.002
HPB
Probability
29. 번역기 품질 평가
정량적 평가(Automatic Evaluation) : BLEU
정성적 평가(Human Evaluation) : Blind Test (3점 척도)
평가 문장 설계
만화
자막
신문
6%
문어체(50%)
13%
13%
매뉴얼
15%
TESTSET
출처 분포
SNS
15%
Wiki
8%
구어체(50%)
게시판
8%
e-mail
회화
문학
8%
6%
8%
30. 비교 평가 결과
2011년말 평가
BLEU평가(2400문장), Human Evaluation(200문장)
한일번역기 3개 경쟁사와 번역 품질 비교
KJ BLEU
50
41.95
41.71
40.7
40
KJ Human Eval.
60
45
A
33.74
46.75
B
50
40.25
40
30
20
20
10
0
0
A
B
C
NSMT
JK BLEU
50
42.94
34.41
40
38.8
C
NSMT
JK Human Eval.
41.43
60
51.5
43
A
B
48.75
C
NSMT
44
40
30
20
20
10
0
0
A
B
C
NSMT
31. SMT 개발 FLOW
리소스 확보
병렬데이터
품사 tagger
기본 실험
심화 실험
Decoding 방식 결정
parameter 튜닝
내부 모델간 경쟁
경쟁사와 비교실험
오류 분석
개선을 위한 노력
유지보수
오류 수정
customizing
기능 추가
33. Pre-Reordering (영어->한국어)
영어의 어순을 Dependency-Parser결과와 Reordering Rule을 이용해서 수정
참고논문: Using a Dependency Parser to Improve SMT for Subject-Object-Verb Languages, Franz Och, ACL 2009
35. Pre-Reordering (영어->스페인어)
형용사/명사 열에서 영어/스페인 어순 다름
I
PRP
ME
PP
like
VBP
gusta
VMI
the
DT
Spanish
JJ
jugador
NC
el
DA
soccer
NN
de
SP
player
NN
fútbol
NC
español
AQ
학습 및 입력 단계에서 어순을 수정 후 번역
I
PRP
ME
PP
like
VBP
gusta
VMI
the
DT
el
DA
player
NN
jugador
NC
soccer
NN
de
SP
Spanish
JJ
fútbol
NC
español
AQ
37. 2-Step SMT (한국어->영어)
English에 대해서 parser를 이용한 Pre-Reordering
Intermediate English (IE) 생성
(한국어-IE, IE-English Translation Table학습)
한국어-IE 간의 번역 (Step 1)
IE-English간의 번역 (Step 2)
참고논문: Post-ordering in Statistical Machine Translation. Katsuhito Sudoh, MT Summit 2011
43. QR (Query Reformulation)
사용자가 넣은 쿼리가 사용자의 의도에 적합한 문서를 찾기에 최적이 아닌 경우,
더 나은 검색 결과를 찾기 위한 쿼리 변형 (query reformulation)
ぎょうざの皮
tokenizer
<s>
ぎょうざ
ぎょうざ
+
の
の
+
皮
皮
餃子
革
行者
餃子 の 皮
</s>