SlideShare a Scribd company logo
1 of 28
Human Interface Laboratory
Discourse component to sentence (DC2S):
An efficient human-aided construction of
paraphrase and sentence similarity dataset
2020. 06. 08 @Kakaobrain
Won Ik Cho (Warnik Chow)
Contents
• Introduction
• Previous studies
• Ongoing work
• Data augmentation
• Result, discussion, and afterward
1
Introduction
• 조원익
 B.S. in EE/Mathematics (SNU, ’10~’14)
 Ph.D. student (SNU ECE, ’14 Autumn~)
• Academic background
 EE folk interested in mathematics
 Early years in Speech processing lab
• Source separation
• Voice activity & endpoint detection
• Automatic music composition
 Currently studying on
• Computational linguistics
• Spoken language processing
2
Previous studies
• 로봇용 free-running 임베디드 자연어 대화음성인식을 위한 원천 기술
개발 / 산업통상자원부 산업핵심기술개발사업 (2017. 4. 1 ~ 2020. 12. 31)
3
Previous studies
• Development of free-running speech recognition technologies for
embedded robot system (funded by MOTIE)
 로봇용 free-running 임베디드 자연어 대화음성인식을 위한 원천 기술 개발
• In other words:
– Non wake-up-word based speech understanding system
» ...?
4
오늘 또
떨어졌네
이게 대체
며칠째
파란불이냐
지금 손실이
얼마지
Previous studies
• 의도 파악 및 Syntactic ambiguity resolution
 Related to many aspects of (speaker-dependent) speech recognition
• Speaker-dependency (in terms of a personal assistant)
• Noisy far-talk recognition and beamforming
• Speech intention understanding
– To which utterances should AI react?
 Speech intention understanding
• Defining what ‘intention’ is
– Discourse components
– Speech act
– Rhetoricalness
• Making up annotation guideline
• Introducing phonetic features
– Intonation-dependency
– Sentence-final intonations
– Multimodal approaches
5
Previous studies
• 의도 파악 및 Syntactic ambiguity resolution
6
단일 문장인가?
Intonation 정보로
결정 가능한가?
Question set이 있고
청자의 답을 필요로 하는가?
Effective한 To-do list가
청자에게 부여되는가?
No
Yes
No
Yes
요구 (Commands)
수사명령문 (RC)
Full clause를
포함하는가?
No
No
Compound sentence: 힘이 강한 화행에 중점
(서로 다른 문장도 같은 토픽일 때 한 문장으로 간주)
Fragments (FR)
질문 (Questions)
No
Context-dependent (CD)
Yes
Yes
Yes
Intonation 정보가
필요한가?
Yes
Intonation-dependent (ID)
No Questions /
Embedded form
Requirements /
Prohibitions
수사의문문 (RQ)
Target: single sentence
without context
nor punctuation
Otherwise
Previous studies
• 의도 파악 및 Syntactic ambiguity resolution
 IAA: 0.85 (Fleiss’ Kappa) with three Seoul Korean native annotators
• Manual tagging on spoken language corpus
– W. I. Cho, H. S. Lee, J. W. Yoon, S. M. Kim, and N. S. Kim, "Speech intention
understanding in a head-final language: A disambiguation utilizing intonation-
dependency," arXiv preprint arXiv:1811.04231, Nov. 2018.
» https://github.com/warnikchow/3i4k
7
Previous studies
• 의도 파악 및 Syntactic ambiguity resolution
 W. I. Cho*, J. Cho*, J. Kang, and N. S. Kim, "Prosody-semantics interface in
Seoul Korean: Corpus for a disambiguation of wh- intervention," in Proc.
ICPhS, Aug. 2019, pp. 3902-3906. (Poster)
• https://github.com/warnikchow/prosem
8
Previous studies
• 의도 파악 및 Syntactic ambiguity resolution
 W. I. Cho, J. Cho, W. H. Kang, and N. S. Kim, "Text matters but speech
influences: A computational analysis of syntactic ambiguity resolution ," in
Proc. CogSci, 2020 (to be appeared).
• https://github.com/warnikchow/coaudiotext
9
Parallel work
• 비정형 발화의 논항 추출
 일단 의도를 파악하고 나면, 그로부터 무엇을 할 수 있나?
• What should the keyphrases be?
– for questions: something that the speaker asks for
» 내일 서울에 비 얼마나 올지 좀 검색해봐.
→ 질문: 내일 서울 강수량
– for commands: something that the speaker requests
» 물이 끓으면 불을 제일 약한 걸로 돌려줘
→ 요구: 물이 끓으면 불을 제일 약한 것으로 하기
– Simplified but representative nominalize version of the core content
– Sometimes keyphrases are longer than the original sentence
→ the reason the process differs with summarization
– Discourse component revisited!
10
Parallel work
• 비정형 발화의 논항 추출
 일단 의도를 파악하고 나면, 그로부터 무엇을 할 수 있나?
• W. I. Cho, Y. K. Moon, W. H. Kang, and N. S. Kim, "Extracting arguments from Korean
question and command: An annotated corpus for structured paraphrasing," arXiv preprint
arXiv:1810.04631, Oct. 2018.
– https://github.com/warnikchow/sae4k
11
Parallel work
• 비정형 발화의 논항 추출
 범용적으로 쓸 수 있는 분류 및 annotation 기준이 있으면 좋겠다
• 타 언어에도 적용 가능한? (일단 syntax가 유사한 ...)
– W. I. Cho, Y. K. Moon, and N. S. Kim, "Discourse component-based argument extraction of Seoul
Korean directives," in Proc. JK 27, Oct. 2019 (to be appeared). (Poster)
12
Parallel work
• 비정형 발화의 논항 추출
 이렇게 core content를 annotate한다면?
• W. I. Cho, Y. K. Moon*, S. Moon*, S. M. Kim, and N. S. Kim, "Machines getting with the
program: Understanding intent arguments of non-canonical directives," arXiv preprint
arXiv:1912.00342, 2019.
– seq2seq approach로 비정형 문장의 intent argument를 추출할 수 있다!
13
Parallel work
• 비정형 발화의 논항 추출
 하지만 structured intent argument extraction에 중요한 것?
• 각 sentence type – argument pair가 어느정도는 균형에 맞게 준비되어야 한다
14
How?
Data augmentation
• 부족한 종류의 발화를 어떻게 효율적으로 보충할 수 있을까?
 하나의 Intent argument 당 서로 다른 10개씩의 발화 생성
• Intent argument는 일종의 core content! > paraphrase 구축 과정에서 latent한 요소
• 많이들 궁금해하셨던 내용을 알려드리면, 올해에는 시월 십이일부터 십삼일까지 카이
스트에서 한글 및 한국어 정보처리 학술대회가 개최됩니다.
• How can we obtain a core content for paraphrasing (possibly by human)?
– Structured query language (SQL)
» {기간: 올해 시월 십이일부터 십삼일, 장소: 카이스트, 이벤트: 한글 및 한국어 정보
처리 학술대회}
– Bilingual pivoting (BP) and back-translation (BT)
» “As many of you may have waited for, we hold HCLT conference at KAIST from
twelfth to thirteens upcoming October.”
– 우리는 이것을 자연어 (NL) 형식으로 제공하겠다
15
Data augmentation
• 부족한 종류의 발화를 어떻게 효율적으로 보충할 수 있을까?
 Intent argument를 자연어의 형태로 제공하고, 해당 argument로부터 question 혹은
command를 자유롭게 생성하게 하자!
• Human participants들의 창의력...?
16
Data augmentation
• 부족한 종류의 발화를 어떻게 효율적으로 보충할 수 있을까?
 W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence
(DC2S): An efficient human-aided construction of paraphrase and sentence similarity
dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19
outbreak)
• Four topics!
– 이메일, 스마트홈, 스케쥴, 날씨 + 자유주제 (미배포)
• Four sentence types!
– Alternative Q, Prohibition, Strong requirement (deficit) / Wh- Q (necessary)
• 8 participants of various (?) backgrounds
– 심리언어학 연구자
– 심리학 연구자
– 건축학 전공자
– 수학과 대학원생
– 생명과학 전공자
– 어학 전공자
– 언어학 전공자
– 컴퓨터 프로그래머
17
Data augmentation
• 부족한 종류의 발화를 어떻게 효율적으로 보충할 수 있을까?
 W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence
(DC2S): An efficient human-aided construction of paraphrase and sentence similarity
dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19
outbreak)
• 주지사항
– 열 개의 문장은 최대한 서로 다른 스타일로 작성할 것. 이 때, 스타일은 존대 여부, 어조 등을 모두 포함.
– 꼭 키프레이즈에 있는 말을 반복할 필요 없고, 상황에 맞는 다른 단어/어구/술어를 넣어도 됨. 구어로
발화하기 적합한 표현일 것.
– 도치를 통해 문장 형태의 다양성을 추구하는 것 역시 권장됨.
– 설명의문문의 경우 의문사가 필수적으로 들어가야 하며 선택의문문도 경우에 따라 삽입될 수 있음. 두
문장 유형 모두 의문문으로 작성될 필요 없음.
– 금지 문장의 경우 청자가 할 수 있는 어떤 행위를 하지 않도록 하는 문장이어야 하며, 안 해도 괜찮다는
의미보다는 더 강제성을 지녀야 함. 그 행동을 금지하는 것이 다른 행동을 요구하는 것과 실질적으로
동치일 경우, 해당 표현으로 대체해도 크게 문제되지 않음.
– 금지와 강한 요구 문장 모두 명령문일 필요 없지만, 청자의 행동을 막거나 강제하는 목적을 지녀야 함.
강한 권유도 가능함.
– 화자/청자가 포함된 키프레이즈의 경우 각각 그에 상응하는 대명사 표현을 활용할 것. 이를 통해 화자/
청자의 표현이 포함된 코퍼스와 포함되지 않은 코퍼스를 모두 구축.
18
Data augmentation
• 부족한 종류의 발화를 어떻게 효율적으로 보충할 수 있을까?
 W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence
(DC2S): An efficient human-aided construction of paraphrase and sentence similarity
dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19
outbreak)
• Participant feedback + each utterance checked by 3 native Koreans
19
Data augmentation
• 부족한 종류의 발화를 어떻게 효율적으로 보충할 수 있을까?
 W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence
(DC2S): An efficient human-aided construction of paraphrase and sentence similarity
dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19
outbreak)
20
Data augmentation
• 이렇게 생성한 발화들로부터 또 다른 task를 정의해 볼 수 있을까?
 W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence
(DC2S): An efficient human-aided construction of paraphrase and sentence similarity
dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19
outbreak)
• 자유 주제를 제외하고, topic과 intention이 attribute로 있는 경우, 문장들 사이의 관계는 어떻
게 될까?
– 10 개 발화 set 1000개를 이용하여, 45,000개의 paraphrase pair와 약 500,000개의 sentence similarity
pair을 만들 수 있다
» 45,000 = 10C2 X 1000 (two of ten), 499,500 = 1000C2 (two of a thousand)
• 이것도 논문으로...?
21
?
Result, discussion, and afterward
• Parallel corpus 형태의 new task!
 W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence
(DC2S): An efficient human-aided construction of paraphrase and sentence similarity
dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19
outbreak)
• Sentence similarity and paraphrase detection task
– Seems valid with given topic and intention!
» Architecture shared from CogSci models
22
Text
Text
Text
Text
- Series: 𝑆1 + [셒] + 𝑆2
- (1, 2) >> (a, b)
- Parallel: 𝑆1 // 𝑆2
- (3, 5) >> (c, d)
- Why no BERT-like ones?
- Computation (500K?)
- Less explainable
- Performs well already,,,
Result, discussion, and afterward
• Parallel corpus 형태의 new task!
 W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence
(DC2S): An efficient human-aided construction of paraphrase and sentence similarity
dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19
outbreak)
• Created corpus works!
– In terms of both accuracy and F1
– With 9:1 train-test split
• Result
– Attention은 확실히 효과가 있음
» 어떤 부분들에 집중하면 similarity
를 잘 평가할 수 있는지?
– Series보다 parallel로 모델링하는 것이
self-attentive embedding (SA x) 을
활용할 때는 유리함
» 어떤 한 문장을 앞에 두기보다
병렬 모델링이 robust함
– Cross-attention을 활용할 경우 단순한
병렬 모델링보다는 효과적임
» 이는 BERT에서 SA를 사용하는 것과 비슷한 효과를 줄 것
23
Result, discussion, and afterward
• Parallel corpus 형태의 new task!
 W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence
(DC2S): An efficient human-aided construction of paraphrase and sentence similarity
dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19
outbreak)
• Data release and model service
– https://github.com/warnikchow/paraKQC
• Weak points?
– Topic별로 인원을 할당하였음
» 특정 인물의 언어 특성이 반영되었을 수 있음 > 자유주제로 테스트 필요
– Overfitting의 가능성 (너무 높은 score)
» Pair들은 unique하나, pair들 사이에는 중복되는 문장이 존재 > pair들끼리도 겹치는 것이 적도
록 모델링할 필요가 있을까?
– Domain adaptation
» 자유 주제에서도 잘 성립할 것인가?
– Different sentence types
» 질문/요구에서 잘 성립한다고,
서술문에서도 잘 성립할 것인가?
24
Result, discussion, and afterward
• Parallel corpus 형태의 new task!
 Direct applications
• Paraphrase detection
• Sentence similarity test
• Speech act classification
• Topic analysis
 Further applications
• Query matching (for spoken QA systems)
• Checking sentence relevance (for an open domain chatbot)
• Left challenges
 Sentence generation 과정의 합당성
 Model overfitting 가능성
 Domain adaptation (w/ topic)
 Difference sentence types (w/ intention)
25
To be covered afterward
Result, discussion, and afterward
• Takeaways
 Sentence similarity는 여러 방식으로 정의할 수 있다
 Topic과 speech act는 sentence similariy를 판단하는 attribute가 될 수 있다
 Sentence similarity를 topic 및 speech act의 개념을 포함한 자연어 형식의 intent
argument를 활용하여 잘 정의한다면, 보다 human understandable한 요소들로부터
같은/비슷한 의미의 문장들을 생성할 수 있다
 이로써 sentence similarity task와 paraphrase detection을 연관지을 수 있으며, 같은
intent argument를 공유하는 문장의 set들로부터 augmented (뻥튀기된?) dataset을
생성할 수 있다
 이 sentence pair들을 통해 학습한 similarity model은 query choice, sentence
relevance test 등에 활용될 수 있다!
26
Special thanks to –
Jong In Kim, Jio Chung, †Kyuwhan Lee,
Youngki Moon, Sangwhan Moon, Jeonghwa
Cho, Jeemin Kang, Dae Ho Kook, Haeun
Park, and all the participants and
HIL members
Thank you!
EndOfPresentation

More Related Content

Similar to 2006 kakao brain NLP colloquium

Webonaver(2012-09-02)
Webonaver(2012-09-02)Webonaver(2012-09-02)
Webonaver(2012-09-02)Han Woo PARK
 
Data science (조명대)
Data science (조명대)Data science (조명대)
Data science (조명대)Haklae Kim
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈HELENA LEE
 
Natural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelNatural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelDaemin Park
 
AIKU_23-2_Seminar_AGI.pdf
AIKU_23-2_Seminar_AGI.pdfAIKU_23-2_Seminar_AGI.pdf
AIKU_23-2_Seminar_AGI.pdfDonghwanChi
 
[연구방법론] 문헌연구 0923
[연구방법론] 문헌연구 0923[연구방법론] 문헌연구 0923
[연구방법론] 문헌연구 0923J Park
 
2023 체인지온@미디토리_김재인 연사 발표자료
2023 체인지온@미디토리_김재인 연사 발표자료2023 체인지온@미디토리_김재인 연사 발표자료
2023 체인지온@미디토리_김재인 연사 발표자료ChangeON@
 
웹보메트릭스와 계량정보학04 2
웹보메트릭스와 계량정보학04 2웹보메트릭스와 계량정보학04 2
웹보메트릭스와 계량정보학04 2Han Woo PARK
 
웹보메트릭스04 2
웹보메트릭스04 2웹보메트릭스04 2
웹보메트릭스04 2Inho Cho
 

Similar to 2006 kakao brain NLP colloquium (9)

Webonaver(2012-09-02)
Webonaver(2012-09-02)Webonaver(2012-09-02)
Webonaver(2012-09-02)
 
Data science (조명대)
Data science (조명대)Data science (조명대)
Data science (조명대)
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈
 
Natural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based modelNatural language processing of News (intermediate): rule based model
Natural language processing of News (intermediate): rule based model
 
AIKU_23-2_Seminar_AGI.pdf
AIKU_23-2_Seminar_AGI.pdfAIKU_23-2_Seminar_AGI.pdf
AIKU_23-2_Seminar_AGI.pdf
 
[연구방법론] 문헌연구 0923
[연구방법론] 문헌연구 0923[연구방법론] 문헌연구 0923
[연구방법론] 문헌연구 0923
 
2023 체인지온@미디토리_김재인 연사 발표자료
2023 체인지온@미디토리_김재인 연사 발표자료2023 체인지온@미디토리_김재인 연사 발표자료
2023 체인지온@미디토리_김재인 연사 발표자료
 
웹보메트릭스와 계량정보학04 2
웹보메트릭스와 계량정보학04 2웹보메트릭스와 계량정보학04 2
웹보메트릭스와 계량정보학04 2
 
웹보메트릭스04 2
웹보메트릭스04 2웹보메트릭스04 2
웹보메트릭스04 2
 

More from WarNik Chow

2206 FAccT_inperson
2206 FAccT_inperson2206 FAccT_inperson
2206 FAccT_inpersonWarNik Chow
 
2204 Kakao talk on Hate speech dataset
2204 Kakao talk on Hate speech dataset2204 Kakao talk on Hate speech dataset
2204 Kakao talk on Hate speech datasetWarNik Chow
 
2108 [LangCon2021] kosp2e
2108 [LangCon2021] kosp2e2108 [LangCon2021] kosp2e
2108 [LangCon2021] kosp2eWarNik Chow
 
2102 Redone seminar
2102 Redone seminar2102 Redone seminar
2102 Redone seminarWarNik Chow
 
2010 INTERSPEECH
2010 INTERSPEECH 2010 INTERSPEECH
2010 INTERSPEECH WarNik Chow
 
2010 PACLIC - pay attention to categories
2010 PACLIC - pay attention to categories2010 PACLIC - pay attention to categories
2010 PACLIC - pay attention to categoriesWarNik Chow
 
2010 HCLT Hate Speech
2010 HCLT Hate Speech2010 HCLT Hate Speech
2010 HCLT Hate SpeechWarNik Chow
 
2009 DevC Seongnam - NLP
2009 DevC Seongnam - NLP2009 DevC Seongnam - NLP
2009 DevC Seongnam - NLPWarNik Chow
 

More from WarNik Chow (20)

2312 PACLIC
2312 PACLIC2312 PACLIC
2312 PACLIC
 
2311 EAAMO
2311 EAAMO2311 EAAMO
2311 EAAMO
 
2211 HCOMP
2211 HCOMP2211 HCOMP
2211 HCOMP
 
2211 APSIPA
2211 APSIPA2211 APSIPA
2211 APSIPA
 
2211 AACL
2211 AACL2211 AACL
2211 AACL
 
2210 CODI
2210 CODI2210 CODI
2210 CODI
 
2206 FAccT_inperson
2206 FAccT_inperson2206 FAccT_inperson
2206 FAccT_inperson
 
2204 Kakao talk on Hate speech dataset
2204 Kakao talk on Hate speech dataset2204 Kakao talk on Hate speech dataset
2204 Kakao talk on Hate speech dataset
 
2108 [LangCon2021] kosp2e
2108 [LangCon2021] kosp2e2108 [LangCon2021] kosp2e
2108 [LangCon2021] kosp2e
 
2106 PRSLLS
2106 PRSLLS2106 PRSLLS
2106 PRSLLS
 
2106 JWLLP
2106 JWLLP2106 JWLLP
2106 JWLLP
 
2106 ACM DIS
2106 ACM DIS2106 ACM DIS
2106 ACM DIS
 
2104 Talk @SSU
2104 Talk @SSU2104 Talk @SSU
2104 Talk @SSU
 
2103 ACM FAccT
2103 ACM FAccT2103 ACM FAccT
2103 ACM FAccT
 
2102 Redone seminar
2102 Redone seminar2102 Redone seminar
2102 Redone seminar
 
2011 NLP-OSS
2011 NLP-OSS2011 NLP-OSS
2011 NLP-OSS
 
2010 INTERSPEECH
2010 INTERSPEECH 2010 INTERSPEECH
2010 INTERSPEECH
 
2010 PACLIC - pay attention to categories
2010 PACLIC - pay attention to categories2010 PACLIC - pay attention to categories
2010 PACLIC - pay attention to categories
 
2010 HCLT Hate Speech
2010 HCLT Hate Speech2010 HCLT Hate Speech
2010 HCLT Hate Speech
 
2009 DevC Seongnam - NLP
2009 DevC Seongnam - NLP2009 DevC Seongnam - NLP
2009 DevC Seongnam - NLP
 

Recently uploaded

(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?Jay Park
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP Korea
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP Korea
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법JMP Korea
 
JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP Korea
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화JMP Korea
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석JMP Korea
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP Korea
 

Recently uploaded (8)

(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법
 
JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
 
JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!
 

2006 kakao brain NLP colloquium

  • 1. Human Interface Laboratory Discourse component to sentence (DC2S): An efficient human-aided construction of paraphrase and sentence similarity dataset 2020. 06. 08 @Kakaobrain Won Ik Cho (Warnik Chow)
  • 2. Contents • Introduction • Previous studies • Ongoing work • Data augmentation • Result, discussion, and afterward 1
  • 3. Introduction • 조원익  B.S. in EE/Mathematics (SNU, ’10~’14)  Ph.D. student (SNU ECE, ’14 Autumn~) • Academic background  EE folk interested in mathematics  Early years in Speech processing lab • Source separation • Voice activity & endpoint detection • Automatic music composition  Currently studying on • Computational linguistics • Spoken language processing 2
  • 4. Previous studies • 로봇용 free-running 임베디드 자연어 대화음성인식을 위한 원천 기술 개발 / 산업통상자원부 산업핵심기술개발사업 (2017. 4. 1 ~ 2020. 12. 31) 3
  • 5. Previous studies • Development of free-running speech recognition technologies for embedded robot system (funded by MOTIE)  로봇용 free-running 임베디드 자연어 대화음성인식을 위한 원천 기술 개발 • In other words: – Non wake-up-word based speech understanding system » ...? 4 오늘 또 떨어졌네 이게 대체 며칠째 파란불이냐 지금 손실이 얼마지
  • 6. Previous studies • 의도 파악 및 Syntactic ambiguity resolution  Related to many aspects of (speaker-dependent) speech recognition • Speaker-dependency (in terms of a personal assistant) • Noisy far-talk recognition and beamforming • Speech intention understanding – To which utterances should AI react?  Speech intention understanding • Defining what ‘intention’ is – Discourse components – Speech act – Rhetoricalness • Making up annotation guideline • Introducing phonetic features – Intonation-dependency – Sentence-final intonations – Multimodal approaches 5
  • 7. Previous studies • 의도 파악 및 Syntactic ambiguity resolution 6 단일 문장인가? Intonation 정보로 결정 가능한가? Question set이 있고 청자의 답을 필요로 하는가? Effective한 To-do list가 청자에게 부여되는가? No Yes No Yes 요구 (Commands) 수사명령문 (RC) Full clause를 포함하는가? No No Compound sentence: 힘이 강한 화행에 중점 (서로 다른 문장도 같은 토픽일 때 한 문장으로 간주) Fragments (FR) 질문 (Questions) No Context-dependent (CD) Yes Yes Yes Intonation 정보가 필요한가? Yes Intonation-dependent (ID) No Questions / Embedded form Requirements / Prohibitions 수사의문문 (RQ) Target: single sentence without context nor punctuation Otherwise
  • 8. Previous studies • 의도 파악 및 Syntactic ambiguity resolution  IAA: 0.85 (Fleiss’ Kappa) with three Seoul Korean native annotators • Manual tagging on spoken language corpus – W. I. Cho, H. S. Lee, J. W. Yoon, S. M. Kim, and N. S. Kim, "Speech intention understanding in a head-final language: A disambiguation utilizing intonation- dependency," arXiv preprint arXiv:1811.04231, Nov. 2018. » https://github.com/warnikchow/3i4k 7
  • 9. Previous studies • 의도 파악 및 Syntactic ambiguity resolution  W. I. Cho*, J. Cho*, J. Kang, and N. S. Kim, "Prosody-semantics interface in Seoul Korean: Corpus for a disambiguation of wh- intervention," in Proc. ICPhS, Aug. 2019, pp. 3902-3906. (Poster) • https://github.com/warnikchow/prosem 8
  • 10. Previous studies • 의도 파악 및 Syntactic ambiguity resolution  W. I. Cho, J. Cho, W. H. Kang, and N. S. Kim, "Text matters but speech influences: A computational analysis of syntactic ambiguity resolution ," in Proc. CogSci, 2020 (to be appeared). • https://github.com/warnikchow/coaudiotext 9
  • 11. Parallel work • 비정형 발화의 논항 추출  일단 의도를 파악하고 나면, 그로부터 무엇을 할 수 있나? • What should the keyphrases be? – for questions: something that the speaker asks for » 내일 서울에 비 얼마나 올지 좀 검색해봐. → 질문: 내일 서울 강수량 – for commands: something that the speaker requests » 물이 끓으면 불을 제일 약한 걸로 돌려줘 → 요구: 물이 끓으면 불을 제일 약한 것으로 하기 – Simplified but representative nominalize version of the core content – Sometimes keyphrases are longer than the original sentence → the reason the process differs with summarization – Discourse component revisited! 10
  • 12. Parallel work • 비정형 발화의 논항 추출  일단 의도를 파악하고 나면, 그로부터 무엇을 할 수 있나? • W. I. Cho, Y. K. Moon, W. H. Kang, and N. S. Kim, "Extracting arguments from Korean question and command: An annotated corpus for structured paraphrasing," arXiv preprint arXiv:1810.04631, Oct. 2018. – https://github.com/warnikchow/sae4k 11
  • 13. Parallel work • 비정형 발화의 논항 추출  범용적으로 쓸 수 있는 분류 및 annotation 기준이 있으면 좋겠다 • 타 언어에도 적용 가능한? (일단 syntax가 유사한 ...) – W. I. Cho, Y. K. Moon, and N. S. Kim, "Discourse component-based argument extraction of Seoul Korean directives," in Proc. JK 27, Oct. 2019 (to be appeared). (Poster) 12
  • 14. Parallel work • 비정형 발화의 논항 추출  이렇게 core content를 annotate한다면? • W. I. Cho, Y. K. Moon*, S. Moon*, S. M. Kim, and N. S. Kim, "Machines getting with the program: Understanding intent arguments of non-canonical directives," arXiv preprint arXiv:1912.00342, 2019. – seq2seq approach로 비정형 문장의 intent argument를 추출할 수 있다! 13
  • 15. Parallel work • 비정형 발화의 논항 추출  하지만 structured intent argument extraction에 중요한 것? • 각 sentence type – argument pair가 어느정도는 균형에 맞게 준비되어야 한다 14 How?
  • 16. Data augmentation • 부족한 종류의 발화를 어떻게 효율적으로 보충할 수 있을까?  하나의 Intent argument 당 서로 다른 10개씩의 발화 생성 • Intent argument는 일종의 core content! > paraphrase 구축 과정에서 latent한 요소 • 많이들 궁금해하셨던 내용을 알려드리면, 올해에는 시월 십이일부터 십삼일까지 카이 스트에서 한글 및 한국어 정보처리 학술대회가 개최됩니다. • How can we obtain a core content for paraphrasing (possibly by human)? – Structured query language (SQL) » {기간: 올해 시월 십이일부터 십삼일, 장소: 카이스트, 이벤트: 한글 및 한국어 정보 처리 학술대회} – Bilingual pivoting (BP) and back-translation (BT) » “As many of you may have waited for, we hold HCLT conference at KAIST from twelfth to thirteens upcoming October.” – 우리는 이것을 자연어 (NL) 형식으로 제공하겠다 15
  • 17. Data augmentation • 부족한 종류의 발화를 어떻게 효율적으로 보충할 수 있을까?  Intent argument를 자연어의 형태로 제공하고, 해당 argument로부터 question 혹은 command를 자유롭게 생성하게 하자! • Human participants들의 창의력...? 16
  • 18. Data augmentation • 부족한 종류의 발화를 어떻게 효율적으로 보충할 수 있을까?  W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence (DC2S): An efficient human-aided construction of paraphrase and sentence similarity dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19 outbreak) • Four topics! – 이메일, 스마트홈, 스케쥴, 날씨 + 자유주제 (미배포) • Four sentence types! – Alternative Q, Prohibition, Strong requirement (deficit) / Wh- Q (necessary) • 8 participants of various (?) backgrounds – 심리언어학 연구자 – 심리학 연구자 – 건축학 전공자 – 수학과 대학원생 – 생명과학 전공자 – 어학 전공자 – 언어학 전공자 – 컴퓨터 프로그래머 17
  • 19. Data augmentation • 부족한 종류의 발화를 어떻게 효율적으로 보충할 수 있을까?  W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence (DC2S): An efficient human-aided construction of paraphrase and sentence similarity dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19 outbreak) • 주지사항 – 열 개의 문장은 최대한 서로 다른 스타일로 작성할 것. 이 때, 스타일은 존대 여부, 어조 등을 모두 포함. – 꼭 키프레이즈에 있는 말을 반복할 필요 없고, 상황에 맞는 다른 단어/어구/술어를 넣어도 됨. 구어로 발화하기 적합한 표현일 것. – 도치를 통해 문장 형태의 다양성을 추구하는 것 역시 권장됨. – 설명의문문의 경우 의문사가 필수적으로 들어가야 하며 선택의문문도 경우에 따라 삽입될 수 있음. 두 문장 유형 모두 의문문으로 작성될 필요 없음. – 금지 문장의 경우 청자가 할 수 있는 어떤 행위를 하지 않도록 하는 문장이어야 하며, 안 해도 괜찮다는 의미보다는 더 강제성을 지녀야 함. 그 행동을 금지하는 것이 다른 행동을 요구하는 것과 실질적으로 동치일 경우, 해당 표현으로 대체해도 크게 문제되지 않음. – 금지와 강한 요구 문장 모두 명령문일 필요 없지만, 청자의 행동을 막거나 강제하는 목적을 지녀야 함. 강한 권유도 가능함. – 화자/청자가 포함된 키프레이즈의 경우 각각 그에 상응하는 대명사 표현을 활용할 것. 이를 통해 화자/ 청자의 표현이 포함된 코퍼스와 포함되지 않은 코퍼스를 모두 구축. 18
  • 20. Data augmentation • 부족한 종류의 발화를 어떻게 효율적으로 보충할 수 있을까?  W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence (DC2S): An efficient human-aided construction of paraphrase and sentence similarity dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19 outbreak) • Participant feedback + each utterance checked by 3 native Koreans 19
  • 21. Data augmentation • 부족한 종류의 발화를 어떻게 효율적으로 보충할 수 있을까?  W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence (DC2S): An efficient human-aided construction of paraphrase and sentence similarity dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19 outbreak) 20
  • 22. Data augmentation • 이렇게 생성한 발화들로부터 또 다른 task를 정의해 볼 수 있을까?  W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence (DC2S): An efficient human-aided construction of paraphrase and sentence similarity dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19 outbreak) • 자유 주제를 제외하고, topic과 intention이 attribute로 있는 경우, 문장들 사이의 관계는 어떻 게 될까? – 10 개 발화 set 1000개를 이용하여, 45,000개의 paraphrase pair와 약 500,000개의 sentence similarity pair을 만들 수 있다 » 45,000 = 10C2 X 1000 (two of ten), 499,500 = 1000C2 (two of a thousand) • 이것도 논문으로...? 21 ?
  • 23. Result, discussion, and afterward • Parallel corpus 형태의 new task!  W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence (DC2S): An efficient human-aided construction of paraphrase and sentence similarity dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19 outbreak) • Sentence similarity and paraphrase detection task – Seems valid with given topic and intention! » Architecture shared from CogSci models 22 Text Text Text Text - Series: 𝑆1 + [셒] + 𝑆2 - (1, 2) >> (a, b) - Parallel: 𝑆1 // 𝑆2 - (3, 5) >> (c, d) - Why no BERT-like ones? - Computation (500K?) - Less explainable - Performs well already,,,
  • 24. Result, discussion, and afterward • Parallel corpus 형태의 new task!  W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence (DC2S): An efficient human-aided construction of paraphrase and sentence similarity dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19 outbreak) • Created corpus works! – In terms of both accuracy and F1 – With 9:1 train-test split • Result – Attention은 확실히 효과가 있음 » 어떤 부분들에 집중하면 similarity 를 잘 평가할 수 있는지? – Series보다 parallel로 모델링하는 것이 self-attentive embedding (SA x) 을 활용할 때는 유리함 » 어떤 한 문장을 앞에 두기보다 병렬 모델링이 robust함 – Cross-attention을 활용할 경우 단순한 병렬 모델링보다는 효과적임 » 이는 BERT에서 SA를 사용하는 것과 비슷한 효과를 줄 것 23
  • 25. Result, discussion, and afterward • Parallel corpus 형태의 new task!  W. I. Cho, J. I. Kim, Y. K. Moon, and N. S. Kim, "Discourse component to sentence (DC2S): An efficient human-aided construction of paraphrase and sentence similarity dataset," in Proc. LREC, May 2020, pp. 6819-6826. (Postponed due to CoViD-19 outbreak) • Data release and model service – https://github.com/warnikchow/paraKQC • Weak points? – Topic별로 인원을 할당하였음 » 특정 인물의 언어 특성이 반영되었을 수 있음 > 자유주제로 테스트 필요 – Overfitting의 가능성 (너무 높은 score) » Pair들은 unique하나, pair들 사이에는 중복되는 문장이 존재 > pair들끼리도 겹치는 것이 적도 록 모델링할 필요가 있을까? – Domain adaptation » 자유 주제에서도 잘 성립할 것인가? – Different sentence types » 질문/요구에서 잘 성립한다고, 서술문에서도 잘 성립할 것인가? 24
  • 26. Result, discussion, and afterward • Parallel corpus 형태의 new task!  Direct applications • Paraphrase detection • Sentence similarity test • Speech act classification • Topic analysis  Further applications • Query matching (for spoken QA systems) • Checking sentence relevance (for an open domain chatbot) • Left challenges  Sentence generation 과정의 합당성  Model overfitting 가능성  Domain adaptation (w/ topic)  Difference sentence types (w/ intention) 25 To be covered afterward
  • 27. Result, discussion, and afterward • Takeaways  Sentence similarity는 여러 방식으로 정의할 수 있다  Topic과 speech act는 sentence similariy를 판단하는 attribute가 될 수 있다  Sentence similarity를 topic 및 speech act의 개념을 포함한 자연어 형식의 intent argument를 활용하여 잘 정의한다면, 보다 human understandable한 요소들로부터 같은/비슷한 의미의 문장들을 생성할 수 있다  이로써 sentence similarity task와 paraphrase detection을 연관지을 수 있으며, 같은 intent argument를 공유하는 문장의 set들로부터 augmented (뻥튀기된?) dataset을 생성할 수 있다  이 sentence pair들을 통해 학습한 similarity model은 query choice, sentence relevance test 등에 활용될 수 있다! 26 Special thanks to – Jong In Kim, Jio Chung, †Kyuwhan Lee, Youngki Moon, Sangwhan Moon, Jeonghwa Cho, Jeemin Kang, Dae Ho Kook, Haeun Park, and all the participants and HIL members

Editor's Notes

  1. .
  2. overview: gender bias in NLP – various problems translation: real-world problem - example e.g. Turkish, Korean..? How is it treated in previous works? Why should it be guaranteed? problem statement: with KR-EN example why not investigated in previous works? why appropriate for investigating gender bias? what examples are observed? construction: what are to be considered? formality (걔 vs 그 사람) politeness (-어 vs –어요) lexicon sentiment polarity (positive & negative & occupation) + things to be considered in... (not to threaten the fairness) - Measure? how the measure is defined, and proved to be bounded (and have optimum when the condition fits with the ideal case) concept of Vbias and Sbias – how they are aggregated into the measure << disadvantage? how the usage is justified despite disadvantages the strong points? - Experiment? how the EEC is used in evaluation, and how the arithmetic averaging is justified the result: GT > NP > KT? - Analysis? quantitative analysis – Vbias and Sbias, significant with style-related features qualitative analysis – observed with the case of occupation words Done: tgbi for KR-EN, with an EEC Afterward: how Sbias can be considered more explicitly? what if among context? how about with other target/source language?