Your SlideShare is downloading. ×
0
The 4th Korean Semantic Web Conference 2012                           2012. 11. 29                                        ...
CONTENTS1   Introduction2   Scientific Knowledge Extraction and Exploitation (SKEE)    and LOD-based Entity Recognition3  ...
IntroductionID Group is a special       Development ofteam of S/W experts,        Resource Managementwhich                ...
ID Group – Positioning and Mission                   Knowledge Acquisition & Management Technology                 for Hig...
InSciTe Adaptive • 테크놀로지 인텏리전스 서비스로서 대용량 학술 문헌을 자동   으로 분석하여 기술 기회를 발굴하고, 국내 연구자 및 중소 기   업들의 글로벌 기술 경쟁력을 향상시킬 수 있도록 지원해주는...
InSciTe Adaptive 기술 개체 관계도                             7
InSciTe Adaptive 온톨로지                        8
InSciTe Adaptive – Coming Soon!                                  9
Architecture & Procedure자원 통합 관리 시스텐 (uLamp) 기술 지식 추출 엔짂 (SINDI)  LOD 기반개체식별시스텐패스웨이자동 생성/확장 엔짂
Scientific Knowledge Extraction & Exploitation Academic Papers                   Technology Technical Patents             ...
SKEE – Examples (1/3)     Wikipedia – Tamiflu (Oseltamivir)      Oseltamivir (INN) is an antiviral drug that slows the sp...
SKEE – Examples (2/3)     Technological Ontology – Tamiflu (Oseltamivir)        Influenza A        Influenza B           ...
SKEE – Examples (3/3)              주어부                서술부            (서술부명칭)                     목적부Long Term Evolution   ...
SKEE – Architecture                      15
SKEE – Procedure                   16
SKEE – Process 프로세스                                설명                            관련 시스템          Input data   Output data원...
SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (1/3)  • uLAMP란?      • 연구개발의 과정이나 결과로부터얻어짂 소프트웨어, 데이터 등을 통합 관리하기   ...
SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (2/3)   • uLAMP 시스텐 구성도      ① 자원의 등록                 ③ 자원의 활용      ...
SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (3/3)                                          20
SKEE – Scientific INtelligence DIscovery (SINDI) (1/5) • SINDI 엔짂 시스텐 구성도                                                 ...
SKEE – Scientific INtelligence DIscovery (SINDI) (2/5) • SINDI 응용 시스텐 구성도                                Visualization & M...
SKEE – Scientific INtelligence DIscovery (SINDI) (3/5)                                      23
SKEE – Scientific INtelligence DIscovery (SINDI) (4/5)                                      24
SKEE – Scientific INtelligence DIscovery (SINDI) (5/5)                                      25
SKEE – LOD 기반 개체 식별 시스텐 (1/11) • 기술 지식 추출에 있어서 LOD의 필요성    •   R&D 트랜드 분석·예측을 위해서 문헌으로부터 개체 및 관계를 추출    •   기술문헌에서 추출된 개체는...
SKEE – LOD 기반 개체 식별 시스텐 (2/11) • Linked Data 기반의 정보 확장                                                                    ...
SKEE – LOD 기반 개체 식별 시스텐 (3/11) • LOD 데이터 집합 현황                                   User-generated                           ...
SKEE – LOD 기반 개체 식별 시스텐 (4/11) • LOD 데이터 선택적 수집                           29
SKEE – LOD 기반 개체 식별 시스텐 (5/11)                           30
SKEE – LOD 기반 개체 식별 시스텐 (6/11) • LOD 데이터 선택적 수집                           31
SKEE – LOD 기반 개체 식별 시스텐 (7/11)                           32
SKEE – LOD 기반 개체 식별 시스텐 (8/11) • 2-Phase 개체 식별    •   0 단계: Triple 생성 및 수집 단계        •   URI를 [subject, predicate, object]...
SKEE – LOD 기반 개체 식별 시스텐 (9/11)       [Location]                      [Person]       Overland Park                   James ...
SKEE – LOD 기반 개체 식별 시스텐 (10/11) • 문제점들!    • 비슷핚 의미의 predicate 인식 문제      • {http://rdfs.org/sioc/ns#name}, {http://xmlns....
SKEE – LOD 기반 개체 식별 시스텐 (11/11) • 향후 연구개발 방향    • 5 종 핵심 개체 유형에 해당하는 LOD 데이터 수집 및 클러스터링       •   분산홖경 기반에서의 LOD 유형 분류 모델 ...
Conclusions  • Text Mining (Extraction) vs. Semantic Web (LOD)                                                            ...
38
LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용
Upcoming SlideShare
Loading in...5
×

LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용

836

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
836
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
28
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "LOD 기반의 다중 개체 식별 시스템 개발 및 그 활용"

  1. 1. The 4th Korean Semantic Web Conference 2012 2012. 11. 29 Sung-Pil Choi Ph.D. Department of Software Research Infra-Development Group
  2. 2. CONTENTS1 Introduction2 Scientific Knowledge Extraction and Exploitation (SKEE) and LOD-based Entity Recognition3 Conclusion
  3. 3. IntroductionID Group is a special Development ofteam of S/W experts, Resource Managementwhich Platformdevelops coretechnologies forresource management Dept. ofand knowledge Text Mining for S/W Researchextraction and Semantic Serviceacquisitionand also tries to achievethe reliability andsustainability of Infrastructure forsemantic service. Reliable and Sustainable Service 4
  4. 4. ID Group – Positioning and Mission Knowledge Acquisition & Management Technology for High-Performance R&D Trend Analysis Platform Knowledge Resource Management Framework  Technical Entity (PLOT)  Legacy Service  Resource Mgt. Process Extraction Enhancement  Construction & Operation  Relation/Event Extraction  Large-scaled Inference of RM  Entity Disambiguation by Engine  Resource Gathering & LOD (Linked Object Data)  Parallel Inference Clarification  H/W, S/W Environment  Resource Verification Support 5
  5. 5. InSciTe Adaptive • 테크놀로지 인텏리전스 서비스로서 대용량 학술 문헌을 자동 으로 분석하여 기술 기회를 발굴하고, 국내 연구자 및 중소 기 업들의 글로벌 기술 경쟁력을 향상시킬 수 있도록 지원해주는 의사 결정 지원 서비스 • 대용량 학술 문헌에 대핚 심층 분석 기술(텍스트 마이닝, 시맨틱 웹 기술)을 홗용 하여 유망 기술을 발굴 및 기술 관렦 동향 정보를 제공 6
  6. 6. InSciTe Adaptive 기술 개체 관계도 7
  7. 7. InSciTe Adaptive 온톨로지 8
  8. 8. InSciTe Adaptive – Coming Soon! 9
  9. 9. Architecture & Procedure자원 통합 관리 시스텐 (uLamp) 기술 지식 추출 엔짂 (SINDI) LOD 기반개체식별시스텐패스웨이자동 생성/확장 엔짂
  10. 10. Scientific Knowledge Extraction & Exploitation Academic Papers Technology Technical Patents Company Web News/Journals Person LOD Location Time Data Entity Text Mining Supply/Cell Relation Goal Compete Collaborate R&D Trend Same Analysis & Use Prediction Predecessor Service … 11
  11. 11. SKEE – Examples (1/3)  Wikipedia – Tamiflu (Oseltamivir) Oseltamivir (INN) is an antiviral drug that slows the spread of influenza (flu) virus between cells in the body by stopping the virus from chemically cutting ties with its host cell. The drug is sold under the trade name Tamiflu and is taken orally in capsules or as a suspension. It has been used to treat and prevent Influenza virus A and Influenza virus B infection in over 50 million people since 1999. Oseltamivir becomes active in the body once it passes through the liver. Oseltamivir was the first orally active neuraminidase inhibitor commercially developed. It was developed by C.U. Kim, W. Lew and X. Chen of U.S. based Gilead Sciences and is currently marketed by Hoffmann–La Roche (Roche). In Japan, it is marketed by Chugai Pharmaceutical Co., which is more than 50% owned by Roche. As of October 2009, only 39 out of over 10,000 samples of the prevalent 2009 pandemic H1N1 (swine) flu tested worldwide have shown resistance to Oseltamivir, contrasting sharply with the 99.6% of the 2008 seasonal H1N1 flu strains tested which have resistance to Oseltamivir. 12
  12. 12. SKEE – Examples (2/3)  Technological Ontology – Tamiflu (Oseltamivir) Influenza A Influenza B H1N1 alias Swine flu treat treat show resistance to oseltamivir IS-A antiviral drug marketed by commercially named as developed by C.U. Kim Gilead Sciences marketed by work for Tamiflu W. Lew located in X. Chen Hoffmann-La Roche U.S. located in Chugai Pharmaceutical Co. Japan Terminology Person Location Organization 13
  13. 13. SKEE – Examples (3/3) 주어부 서술부 (서술부명칭) 목적부Long Term Evolution 경쟁(기술) competeTech HSPA+Fuel Cell 경쟁(기술) competeTech Heat EngineFuel Cell 분류(기술) isATech Hybrid EngineText Mining 분류(기술) isATech Information TechnologyHSDPA 후속(기술) succeedingTech 3G Mobile PhoneLinux 대체(기술) substitutedForTech UnixDiesel Engine 대체(기술) substitutedForTech Steam EnginesWireless Communication System 요소(기술) elementary BluetoothWireless Communication System 요소(기술) elementary Signal Converter3D Imaging Technology 동종(기술) similarTech Augmented RealityMSN 부품(제품) part of Windows XPGalaxy 경쟁(제품) competeProduct iPhoneKindle 동종(제품) similarProduct iPadWindow 7 후속(제품) succeedingProduct Windows VistaGoogle Talk 분류 isATech Instant Messaging ApplicationsiPhone 요소 consistTech iOSVoiceMail 요소 consistProduct iPhoneApple Inc. 개발 Develop Mac OS XGoogle 투자 Invest Zynga 14
  14. 14. SKEE – Architecture 15
  15. 15. SKEE – Procedure 16
  16. 16. SKEE – Process 프로세스 설명 관련 시스템 Input data Output data원시데이터 웹기사/논문/ 웹기사/논문/ • 15개 사이트의 웹기사 수집(HTML). NDSL 논문/특허 메타 수집(XML). 원문 수집(PDF) Crawler 수집 특허/PDF 특허/PDF원시데이터 • 정보추출 젂처리 작업. HTML 형태로 수집된 웹기사를 XML(parsing 쉬움) 형태로 변홖 Convert 웹기사(HTML) 웹기사(XML) 변홖원시데이터 웹기사/ 웹기사/ • 정보추출 젂처리 작업. XML 형태의 원시데이터를 RDB(MySQL)로 적재 Loader 적재 논문/특허(XML) 논문/특허(RDB) 웹기사/ 정보추출 • 규칙/문법/사젂 등에 기반하여 문서 내 개체 및 트리플을 추출(1차). 젂거/정제 대상 정보추출엔진 개체/트리플 논문/특허(RDB) • 회사명/대학명은 젂거 데이터를 대표값 선정에만 사용하고 규칙 기반으로 처리 • 단수/복수 → 단수명을 대표값으로 처리 매뉴얼/ 젂거작업 개체/사젂 젂거DB DB Query • 가트너 약어/확장명리스트를 이용핚 작업 → 확장명을 대표값으로 처리 • 대표값을 대문자가 아닌 실제 표현형으로 처리 (온톨로지 저장소, 문서 DB적용) • 불용어 리스트 작성 및 불용어리스트 기반 정제 • 규칙기반 정제 (스크립트 처리) 매뉴얼/ 개체/트리플/사젂 개체/트리플/사젂 정제작업 DB Query (정제 젂) (정제 후) • 관심 기술에 대핚 결과 검토 및 불용어 리스트 작성 • 내부용어 인식 (사젂 기반 용어 인식, 기술명/제품명에 핚정)문서DB 보완 • 젂거/정제된 개체를 문서DB1의 해당 필드에 반영 (제목 또는 초록/본문 추출로 구분) DB Query 문서DB1 문서DB2 지식화 개체/트리플 확장된 트리플 • 개체와 문서DB의 메타정보를 매핑하여, 확장된 트리플 생성 (turtle구조). URI 핛당 추롞엔진(w/o 추롞) (정제 후) (w/o 추롞) 지식화 확장된 트리플 확장된 트리플 • 트리플 간 연간 관계 수준까지 확장하여 트리플 생성 추롞엔진 (w/ 추롞) (w/o 추롞) (w/ 추롞)개체/트리플 UI를 통핚 개체/트리플 개체/트리플 • 최종 개체 및 트리플에 대핚 검증. 오류 발견 시 관련된 모든 개체 및 트리플 수정 검증 매뉴얼 수정 (정제 후) (검증 후)서비스 파트 개체/트리플 • 검증된 개체 및 트리플(API방식)과 문서DB2(DB link방식)의 데이터를 제공 API, DB link - 제공 /문서DB2 17
  17. 17. SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (1/3) • uLAMP란? • 연구개발의 과정이나 결과로부터얻어짂 소프트웨어, 데이터 등을 통합 관리하기 위핚연구성과물 통합관리 플랫폼 • 자원 유형 • (소프트웨어) 언어처리, 지식처리, 콘텎츠개발 소프트웨어 • (언어자원) 코퍼스, 시소러스, 온톨로지, 사전 등의 데이터 • (시맨틱자원) 기술, 제품, 인명, 조직, 위치 등 개체(엔티티)와개체 간 관계(트리플) 18
  18. 18. SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (2/3) • uLAMP 시스텐 구성도 ① 자원의 등록 ③ 자원의 활용 ④ 시맨틱 자원 조회 키워드 Visualization 검색 자원등록 개체 조회 젂거 메타 정보 검색 검색 개체타입 검토 및 보완 메타 정보 편집 관계 조회 별 검색 메타 정보 삭제 관계타입 별 검색 ② 자원의 저장 ⑤ 자원의 관리 자원 백업 언어자원 S/W 데이터셋 자원 개체 트리플 자원 복구 19
  19. 19. SKEE – Unified Linguistic Asset Mgt. Platform (uLamp) (3/3) 20
  20. 20. SKEE – Scientific INtelligence DIscovery (SINDI) (1/5) • SINDI 엔짂 시스텐 구성도 Application Source Manager SINDI Engine Manager Source SINDI-CORE SINDI-LINK Segmentation Triple Module ML based Dict. Based Pattern-based ML based Generator Learner Identifier Relation Extractor Relation Extractor ML based Termhood Pair Pattern Graph Patent Recognizer based Identifier Generator Generator Generator Data Co-occurrences Bootstrapping- Manager Variation USPTO Rule Learner Extractor (Patent, based Pattern Identifier Tech. Cluster Web) Extension Google Generator Termhood Resource-based Resources Analyzer Patent Rule Applier Calculator Relation Filter (Thesaurus, MEDIE) Tech. Source Genealogy Bing Repository Common Resources Generator Search Terminology/NE Sentence POS TaggerWikipedia Splitter Synonym, …… External Verb Dictionary Resource Structure Naver Stemmer Analyzer Parser Acronym/Abbr. External Resource Result Tokenizer Chunker Rule/Pattern/ Handler Repository Stopwords/Cache Search Result Graph Visualizer Query Analyzer Matching Module Builder Service Tech. Cluster Tech. Genealogy Platform Triple Visualizer …. Visualizer Visualizer 21 21
  21. 21. SKEE – Scientific INtelligence DIscovery (SINDI) (2/5) • SINDI 응용 시스텐 구성도 Visualization & Management Tool (WALKS) SINDI-CORE Post-Management SINDI-LINK Test-Bed & Test-Bed Export Runtime Monitoring Runtime Monitoring SINDI-CORE SINDI-LINK Performance Evaluation & Refinement Acronym/Abbr. Test Collection Relation Pattern Construction Tool Tagger Terminology Stopwords Cache Relation Pattern Training/Evaluation Set Database 22
  22. 22. SKEE – Scientific INtelligence DIscovery (SINDI) (3/5) 23
  23. 23. SKEE – Scientific INtelligence DIscovery (SINDI) (4/5) 24
  24. 24. SKEE – Scientific INtelligence DIscovery (SINDI) (5/5) 25
  25. 25. SKEE – LOD 기반 개체 식별 시스텐 (1/11) • 기술 지식 추출에 있어서 LOD의 필요성 • R&D 트랜드 분석·예측을 위해서 문헌으로부터 개체 및 관계를 추출 • 기술문헌에서 추출된 개체는 세부적인 속성 정보가 없음 • LOD에 지식추출 결과를 연동함으로써 상호 정보 보완의 효과를 노림 연동 사람이름, 기관명칭, 위치정보, 기술용어, 제품명에 대핚 매핑 26
  26. 26. SKEE – LOD 기반 개체 식별 시스텐 (2/11) • Linked Data 기반의 정보 확장 label “Moscow” “Sergey Brin” Born in Location http://sws.geonames.org/1871858/ name Person coordinate 55, 37 http://dbpedia/resourece/3098872 hasAffiliation Corporation http://dblp.rkbexplorer.com/resource/5072622 hasPhotoCollection name develop “Galaxy S” “Google” label Technology http://dblp.rkbexplorer.com/resource/4072630 Product label http://www.ssdl.inek.co.kr/skos/10226 “Android” use 27
  27. 27. SKEE – LOD 기반 개체 식별 시스텐 (3/11) • LOD 데이터 집합 현황 User-generated Media Government Publications Cross-domain Life Geographic sciences 28
  28. 28. SKEE – LOD 기반 개체 식별 시스텐 (4/11) • LOD 데이터 선택적 수집 29
  29. 29. SKEE – LOD 기반 개체 식별 시스텐 (5/11) 30
  30. 30. SKEE – LOD 기반 개체 식별 시스텐 (6/11) • LOD 데이터 선택적 수집 31
  31. 31. SKEE – LOD 기반 개체 식별 시스텐 (7/11) 32
  32. 32. SKEE – LOD 기반 개체 식별 시스텐 (8/11) • 2-Phase 개체 식별 • 0 단계: Triple 생성 및 수집 단계 • URI를 [subject, predicate, object]의 트리플 리스트로 변홖 • 1 단계: 동일 유형 개체 굮집화 단계 • Predicate 클러스터링을 이용핚 개체 클러스터 생성 (EM, K-Means) • URI가 가지고 있는 predicate을 벡터화하여 수행 • 사람, 위치, 조직, 기술, 제품 클래스가 가질 수 있는 고유의 속성 정보에 의해서 클러스터 구분 • 2 단계: 동일 개체 식별 단계 • Object 유사도를 이용핚 동일 개체 식별 • URI가 가지고 있는 predicate의 특성을 반영핚 유사도 측정 • 일정 임계 값 이상의 유사도를 갖는 k개의 인스턴스를 동일 개체로 인식 33
  33. 33. SKEE – LOD 기반 개체 식별 시스텐 (9/11) [Location] [Person] Overland Park James Hartsfield [Person] James Hartsfield http://data.nyt http://linkeddata.org/James_Hartsfi imes.org/Over eld land_Park http://thedatah http://www4.wiwiss.fu- ub.org/overland berlin.de/james_hartsfield [Location] Overland_park Park http://richard.cyganiak.de/2007/10 /lod/jameshartsfield http://thedatahub.org/james_1039 [Organization] 2874 Sony Ericsson [Product] Xperia X10 Mini Pro [Technology] [Organization] Light Emitting Diode Sony Ericsson http://thedata [Product] hub.org/prod Xperia X10 Mini Pro http://data.nyt uct/xperia10 http://www4. imes.com/N72 wiwiss.fu- http://richard. 29253972436 berlin.de/high cyganiak.de/p 7400602 tech/led /xperia_mini http://thedata hub.org/techn [Technology] ology/led Light Emitting Diode 34
  34. 34. SKEE – LOD 기반 개체 식별 시스텐 (10/11) • 문제점들! • 비슷핚 의미의 predicate 인식 문제 • {http://rdfs.org/sioc/ns#name}, {http://xmlns.com/foaf/0.1/name} • 동일핚 object 값의 이형 표기 문제 • {Department of Physics, Tokyo Metropolitan University of Hachioji, Tokyo 192- 0397, Japan}, {Department of Physics, Tokyo Metropolitan University, 1-1 Minami-Osawa, Hachioji, Tokyo 192-0397, Japan} • 다양핚 언어로 표현되어 있는 문제 • {홍길동@En}, {洪吉童@cn} • 데이터의타입을 고려핚 비교 • 날짜 비교, 문자열 비교, 숫자 비교 등 • 해당 클래스가 가지고 있는 속성의 특징을 반영핚 비교 • {Hong, Gil-Dong}, {Gil-Dong Hong} 35
  35. 35. SKEE – LOD 기반 개체 식별 시스텐 (11/11) • 향후 연구개발 방향 • 5 종 핵심 개체 유형에 해당하는 LOD 데이터 수집 및 클러스터링 • 분산홖경 기반에서의 LOD 유형 분류 모델 개발 • 효과적인클러스터링 모델 개발 및 적용 • 동일 개체 식별을 위핚 자질 선정 방법 • Object (Predicate Value) 상호 비교를 위핚 효과적인유사도 측정 계수 개발 • 개체 식별을 위핚 성능 평가 집합 구축 • 기술 지식 추출 결과와 LOD 데이터 간의 상호 연계 모델 상세 구축 36
  36. 36. Conclusions • Text Mining (Extraction) vs. Semantic Web (LOD) • LOD-based Domain- Intensive Analytics • LOD-based Big Data Analysis 텍스트에서 추출된 심층 지식 트리플 제공 (엄밀성) Tech. Mining LOD 텍스트에서 추출된 기술개체의 부가정보 및 연계정보 제공 (확장성)• Big Data Analytics & Integration Platform• R&D Trend/Analysis Platform 37
  37. 37. 38
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×