Query suggestions as summarization in exploratory searchtaeseon ryu
오늘 업로드된 논문은 Query Suggestions as Summarization in Exploratory Search
라는 논문입니다.
검색은 크게 두 가지 카테고리로 분류를 해 볼 수 있습니다
Lookup과 Exploratory Search인데요
Lookup은 사용자가 정확한 목적을 가지고 있는 경우를 얘기를 하는데
Question answering이라던지
Fact retrieval 그 다음에 저기 내비게이션 써치등
여기 해당이 됩니다
일반적으로 저희가 많이 사용하는 그런 형태일 거고요
그 또 하나가 Exploratory Search 입니다
Exploratory Search는 사용자가 특정 도메인에 대한 정보를 얻거나
목적을 찾기 위한 검색을 하는 경우를 말하는데요
새로운 지식습득을 하거나 또는 탐색
그리고 비교 결과에 대한 분석 등을 위한 목적으로 합니다
논문은 흥미로운 방법으로 쿼리의 사용과 사용자 행동 및 인식에 미치는 영향을 조사하며 재미있는 결과를 내놓았습니다.
오늘 리뷰를 위해 자연어 처리팀 김은희 님이 자세한 논문 설명 도와주셨습니다.
오늘도 많은관심 미리 감사드립니다!
https://youtu.be/AVTZq2rWS0k
신동광, 박태준, 박용효, 임수연, 김인숙. (2014, 9월). 영어 말하기 자동채점 프로그램의 현재와 미래. 한국멀티미디어언어교육학회 2014년 가을 학술대회 발표논문, 서울.
[초록]
본 연구는 영어 말하기 자동채점 프로그램의 개발을 통해 학교현장에서의 현
실적인 말하기 평가의 부담을 덜어주기 위해 2년간의 연구 프로젝트로 진행되었
다. 이를 위해 1차년도 연구에서는 말하기 자동채점 프로그램의 프로토타입을 개
발하였다. 2차년 연구에서는 이를 바탕으로 영어 말하기 자동채점 프로그램 음성
인식기의 인식률을 개선하여 영어 말하기 자동채점 프로그램의 성능을 향상시키
고 채점 기준을 상세화하며 추가적인 자동채점의 채점 자질을 발굴하여 자동채점
의 채점 알고리듬을 개선하고자 하였으며, 끝으로 영어 말하기 자동채점 프로그
램의 개선된 성능을 검증하고자 하였다.
먼저, 음성인식 고도화를 위하여 음성인식 시스템을 구성하는
사전처리(Preprocessing) 작업, 음향 모델링(Acoustic Modeling), 발음
사전(Phoneme Dictionary), 언어 모델링(Language Modeling) 그리고 발화
검증(Utterance Verification)에 최적화된 여러 기능을 적용하였다. 또한
자동채점의 최적화에 사용될 기준점수의 신뢰성 확보를 위해서 2인 채점
평균값을 기준점수로 활용하기 보다는 5인 채점 최빈값 및 평균값을 기준점수로
적용하며 총체적 채점을 시범적으로 적용해 보았다. 채점 자질 추가 선정을
위하여 신호처리 자질, 음성인식 자질 그리고 언어 이해 자질별로 새로운 자질을
적용하였고, 채점 자질의 복잡한 속성을 기계 채점이 일부 반영하지 못하는
한계를 보완하고 인간 채점자의 채점 경향에 최대한 근접하기 위해 채점
전문가를 대상으로 채점 자질 가중치 부여를 실시하였다. 마지막으로, 말하기
기계 채점 고도화를 위하여 최대 엔트로피(Maximum Entropy, ME) 방식과 다중
회귀(Multiple Regression, MR) 방식과 더불어 최근 데이터 마이닝과 패턴 인식
분야에서 많이 쓰이는 서포트벡터머신(Support Vector Machine, SVM) 방식을
새롭게 적용하였다.
연구결과를 살펴보면, 먼저 기준점수를 최빈값으로 대체하였을 효과는
미미했다. 엄격성 면에서도 자동채점이 인간채점보다 엄격하게 채점하는 경향을
보였다. 또한 분석적 채점 결과와 비교해 보았을 때, 총체적 채점 결과가 전체적으로 신뢰도가 높았으며 전체 신뢰도 역시 양호한 결과를 미루어 볼 때,
앞으로의 영어 말하기 자동채점 프로그램의 방식은 총체적 채점 방식에 맞춰
개발할 때 보다 향상된 결과가 예상되며 일선 학교에
Query suggestions as summarization in exploratory searchtaeseon ryu
오늘 업로드된 논문은 Query Suggestions as Summarization in Exploratory Search
라는 논문입니다.
검색은 크게 두 가지 카테고리로 분류를 해 볼 수 있습니다
Lookup과 Exploratory Search인데요
Lookup은 사용자가 정확한 목적을 가지고 있는 경우를 얘기를 하는데
Question answering이라던지
Fact retrieval 그 다음에 저기 내비게이션 써치등
여기 해당이 됩니다
일반적으로 저희가 많이 사용하는 그런 형태일 거고요
그 또 하나가 Exploratory Search 입니다
Exploratory Search는 사용자가 특정 도메인에 대한 정보를 얻거나
목적을 찾기 위한 검색을 하는 경우를 말하는데요
새로운 지식습득을 하거나 또는 탐색
그리고 비교 결과에 대한 분석 등을 위한 목적으로 합니다
논문은 흥미로운 방법으로 쿼리의 사용과 사용자 행동 및 인식에 미치는 영향을 조사하며 재미있는 결과를 내놓았습니다.
오늘 리뷰를 위해 자연어 처리팀 김은희 님이 자세한 논문 설명 도와주셨습니다.
오늘도 많은관심 미리 감사드립니다!
https://youtu.be/AVTZq2rWS0k
신동광, 박태준, 박용효, 임수연, 김인숙. (2014, 9월). 영어 말하기 자동채점 프로그램의 현재와 미래. 한국멀티미디어언어교육학회 2014년 가을 학술대회 발표논문, 서울.
[초록]
본 연구는 영어 말하기 자동채점 프로그램의 개발을 통해 학교현장에서의 현
실적인 말하기 평가의 부담을 덜어주기 위해 2년간의 연구 프로젝트로 진행되었
다. 이를 위해 1차년도 연구에서는 말하기 자동채점 프로그램의 프로토타입을 개
발하였다. 2차년 연구에서는 이를 바탕으로 영어 말하기 자동채점 프로그램 음성
인식기의 인식률을 개선하여 영어 말하기 자동채점 프로그램의 성능을 향상시키
고 채점 기준을 상세화하며 추가적인 자동채점의 채점 자질을 발굴하여 자동채점
의 채점 알고리듬을 개선하고자 하였으며, 끝으로 영어 말하기 자동채점 프로그
램의 개선된 성능을 검증하고자 하였다.
먼저, 음성인식 고도화를 위하여 음성인식 시스템을 구성하는
사전처리(Preprocessing) 작업, 음향 모델링(Acoustic Modeling), 발음
사전(Phoneme Dictionary), 언어 모델링(Language Modeling) 그리고 발화
검증(Utterance Verification)에 최적화된 여러 기능을 적용하였다. 또한
자동채점의 최적화에 사용될 기준점수의 신뢰성 확보를 위해서 2인 채점
평균값을 기준점수로 활용하기 보다는 5인 채점 최빈값 및 평균값을 기준점수로
적용하며 총체적 채점을 시범적으로 적용해 보았다. 채점 자질 추가 선정을
위하여 신호처리 자질, 음성인식 자질 그리고 언어 이해 자질별로 새로운 자질을
적용하였고, 채점 자질의 복잡한 속성을 기계 채점이 일부 반영하지 못하는
한계를 보완하고 인간 채점자의 채점 경향에 최대한 근접하기 위해 채점
전문가를 대상으로 채점 자질 가중치 부여를 실시하였다. 마지막으로, 말하기
기계 채점 고도화를 위하여 최대 엔트로피(Maximum Entropy, ME) 방식과 다중
회귀(Multiple Regression, MR) 방식과 더불어 최근 데이터 마이닝과 패턴 인식
분야에서 많이 쓰이는 서포트벡터머신(Support Vector Machine, SVM) 방식을
새롭게 적용하였다.
연구결과를 살펴보면, 먼저 기준점수를 최빈값으로 대체하였을 효과는
미미했다. 엄격성 면에서도 자동채점이 인간채점보다 엄격하게 채점하는 경향을
보였다. 또한 분석적 채점 결과와 비교해 보았을 때, 총체적 채점 결과가 전체적으로 신뢰도가 높았으며 전체 신뢰도 역시 양호한 결과를 미루어 볼 때,
앞으로의 영어 말하기 자동채점 프로그램의 방식은 총체적 채점 방식에 맞춰
개발할 때 보다 향상된 결과가 예상되며 일선 학교에
Deep learning hands-on using Keras for CNN &RNN
딥러닝 라이브러리인 Keras 를 이용한 CNN (동물식별)과 RNN (주식가격예측)에 대한 소프트웨어 코드와 데이터를 제공하고 수강생이 각자 노트북을 지참하여 강사의 설명을 들으며 실제 실행을 해본다.
[KERIS 이슈리포트] 요약 세미나 (Webinar) 자료
* 원문 링크: http://bit.ly/196LHBs
국내외 빅데이터 및 학습 분석 관련 기고서들과 동향 분석자료를 요약한 이슈리포트. UNESCO Policy Brief와 IMS Global의 백서를 중심으로 학습 분석 기술의 활용가능성과 쟁정들을 분석한 자료.
<주요>
1. 빅데이터 기술 및 산업 동향
2. 학습 분석 기술에 대한 이해
3. 학습 분석 기술 표준화 동향
4. 시사점
Deep learning hands-on using Keras for CNN &RNN
딥러닝 라이브러리인 Keras 를 이용한 CNN (동물식별)과 RNN (주식가격예측)에 대한 소프트웨어 코드와 데이터를 제공하고 수강생이 각자 노트북을 지참하여 강사의 설명을 들으며 실제 실행을 해본다.
[KERIS 이슈리포트] 요약 세미나 (Webinar) 자료
* 원문 링크: http://bit.ly/196LHBs
국내외 빅데이터 및 학습 분석 관련 기고서들과 동향 분석자료를 요약한 이슈리포트. UNESCO Policy Brief와 IMS Global의 백서를 중심으로 학습 분석 기술의 활용가능성과 쟁정들을 분석한 자료.
<주요>
1. 빅데이터 기술 및 산업 동향
2. 학습 분석 기술에 대한 이해
3. 학습 분석 기술 표준화 동향
4. 시사점
이 문서는 최근 대두되는 개방형 혁신 연구개발 프로젝트를 위한 거버넌스 구축하기 위하여 필요한 요소를 알아봅니다. 다양한 핵심 산업에서 사실상의 표준으로 자리잡은 많은 오픈소스 프로젝트들을 중심으로 성공적인 오픈소스 프로젝트로 가능 여정에 어떤것이 필요한지 이야기합니다.
MS Project 교육 안내
피엠오피스의 MS Project 교육 과정은 단순히 MS Project의 사용법 교육에 그치지 않고, 교육 중 최적의 실제 프로젝트를 작성하고, 충분한 모범 사례 검토와 프로젝트 관리에 대한 체계적인 컨설팅을 제공해 드리고 있습니다. 국내에서 가장 오래 가장 많은 고객을 대상으로 충실하게 축적된 기업 프로젝트 관리 교육 및 컨설팅 경험을 바탕으로 철저하게 실무적으로 고객 맞춤형 교육을 제공해 드립니다.
문의 주시면, 자세한 제안서 및 MS Project의 활용 방안에 대한 안내 자료를 보내 드립니다.
MS Project 방문 교육 신청
■ 이메일 문의: nam@pmoffice.co.kr
■ 전화 문의: (02)532-8060, 010-2619-6442
ㅇ 사업명 : 서비스디자인기반 공통역량강화사업 중 서비스디자인 교육 현황조사 및 교육방법 개발
(연구내용 중 해외 서비스디자인 교육 현황 및 서비스디자인 툴킷 조사 결과 보고서)
ㅇ 목적 : 디자인기업 역량 강화 및 비즈니스 활성화를 위한 서비스디자인 교육 프로그램 및 도구 개발
ㅇ 개발기간 : 2015년 3월 ~ 11월
ㅇ 주관 : 산업통상자원부, 한국디자인진흥원
ㅇ 연구개발 : K-dot
ㅇ 주요 내용 : 서비스디자인 해외 교육기관, 교육과정, 툴킷 등 관련자료 조사 분석
[연구진]
케이닷 박현주 대표
케이닷 디자인기획팀 사재필 팀장
케이닷 디자인기획팀 최단비 주임
한국디자인진흥원 서비스지역연구실 강필현 실장
한국디자인진흥원 서비스지역발전팀 윤성원 팀장
한국디자인진흥원 서비스지역발전팀 정유원 과장
한국디자인진흥원 서비스지역발전팀 안나영 대리
[책임저자(교육방법 개발)]
정의철 서울대학교 교수, 송가형 연구원
HCID Lab (hcidlab.com)
[연구보조(교육방법 개발)]
손승희 연구원
조연지 연구원
이 보고서는 산업통상자원부 R&D 2014 디자인전문기술개발사업의 서비스디자인기반 공통역량 강화 사업 중
‘서비스디자인 교육 현황조사 및 교육방법 개발’ 연구를 통해 개발된 것입니다.
2. 마이크로소프트연구소와의 협업 영역
커리큘럼 혁신
• 교재 및 수업 개발
• 커리큘럼 자원제공
• 초청강연
인재육성
• 인턴십
• 박사과정 펠로우십
• 패컬티 펠로우십
연구협력
• 연구 주제별
프로젝트
• 패컬티 특별
프로젝트
• 방문 연구원
프로그램
학술교류
• 연례교수회의
• 21세기 컴퓨팅 컨퍼
런스
• 지역 별 워크샵
컴퓨터 공학의 발전 과학적 발견과 연구 가속화 차세대 공학도 육성
4. 연구 내용 요약: Data(-driven) Intelligence
• 기존 검색 결과에 지능을 더함
• 지능은 웹 사용자들에 의해 자동적으로 훈련되며 계속적으로 진화
• 검색뿐 아니라 모든 소프트웨어의 공통 지능 역할을 함
5. 연구 내용 요약: Data(-driven) Intelligence
• 제품사례: Microsoft Spartan/Cortana, Wearable device
구글 지식그래프
6. 연구협력 분야에서의 협업
• 지식 그래프 구축
• 지식 번역 (자연어그룹 협업, 사례#1)
ACL, EMNLP, ACM TOIS, IEEE TKDE 등 저명 학회 및 저널 게재
• 지식 확장 (데이터베이스그룹 협업, 사례 #2)
ICDE, VLDB, VLDB Journal 등 저명 학회 및 저널 게재
• 플랫폼으로서의 검색
• 성능 예측 및 선택적 가속화 (시스템그룹 협업, 사례#3)
Bing 검색엔진 적용, SIGIR, WSDM 저명 학회 학술상
• 특이점
• 학술교류(토양)– 다양한 그룹에의 노출 (3그룹, 10명의 연구원과 협업)
• 공동 연구 프로젝트(씨앗) 방문연구원 및 인턴쉽 프로그램을 통해 지속성
과 영향력 증대
7. 인재육성 분야에서의 협업
선발 과정 인턴 기간 인턴 이후
공동 연구를 진행하면서 연구자로서의 통
합적 평가를 통해 인턴십 선발
지속적 멘토링 제공
인턴십이 끝나도 멘토링이 지속된다
기간 중 공동 연구 진행, 공동 멘토링을 통한 학생 역량 강화
기간 후 협력 지속을 통해 새로운 주제 발굴, 장기적 선순환
아시아(6m): 5명, 레드몬드(3m): 4명, 펠로우: 2명, 3 PhDs
8. 커리큘럼 분야에서의 협업
• 인재육성 협업의 수혜범위를 전체로 확대
• 교육환경에서 다루기 힘든 큰 코드를 교육에 활용 가능
• 윈도우 코드를 운영체제 강의에 활용
• 윈도우 아키텍트의 강연, 저서 등을 교육교재로 활용
• 대학 간 교재개발 교류 및 공유
• Azure 사용을 통해 빅 데이터를 교육에 활용 가능
• 대규모 소셜네트워크의 분석 가능
• 병렬화를 통한 가속화 프로젝트
9. 마이크로소프트연구소와의 협업의 특징
• 주제 선정의 자율성
• 학술교류를 통해 다양한 분야의 전문가와 협업 지원
• 인턴쉽을 통한 학생 공동 멘토링 및 협력 지속
• 학교에서 얻기 힘든 규모의 데이터와 시스템 사용 기회
• 저명 학회 등 학문적 수월성 독려
• 연구 결과를 제품화 하는 경험
14. 부트스트래핑 기법
• 1단계: Mary와 같이 확실한 번역쌍으로 초기화
• 2단계: Microsoft의 경우 관련 개체들의 번역쌍 점수를 전파
• 3단계: 2단계를 더 이상 변화가 없을때까지 반복함
Rij
Rij
15. 번역과 확장 모두에서 제품의 성능을 능가
• 기존 제품은 발음유사도가 크거나, 기번역
쌍이 존재하는 잘 알려진 개체에 대해서만
좋은 성능을 보임
• 부트스트래핑 기법을 통해 잘 알려진 개체
의 높은 정확도를 덜 알려진 개체에 전파
하여 비슷한 수준으로 끌어올림
0
10
20
30
40
50
60
70
80
기존 제품 새로운 방법
잘 알려진 개체
덜 알려진 개체
16. 사례 #3 플랫폼으로서의 지능
• 다양한 소프트웨어에서 끊임없이 검색이 일어남
• 검색어의 복잡도와 관계없이 고르게 즉각적인 결과 필요
“Microsoft
”
Long
Short
비용예측 자원관리자
Prediction model
17. 데이터 지능 활용
• 검색어 중요도(idf) 및 점수 분포(min, max, var, ..)를
근거로 유추
Inverted index for “Microsoft”
Processing Not evaluated
Doc 1 Doc 2 Doc 3 ……. Doc N-2 Doc N-1 Doc N
Docs sorted by static rankHighest Lowest
Web documents
……. …….
18. • 검색어 외의 복잡도 요소를 모델링하고 예측함
검색엔진 기능 모델링
<Fields related to query execution plan>
rank=BM25F
enablefresh=1 partialmatch=1
language=en location=us
….
<Fields related to search keywords>
Redmond (MS or Microsoft)