Doing 온톨로지 확장을 위한 자동 구축 절차에 대한 전체적인 수동 검증 ATE (Automatic Triple Extractor) 에 대한 오류 분석 및 정확률 검증
3.
1. 가이드라인검증 Category : 7 개 (IT device 에 관련된 ) DMB(4) Home network(2) HSDPA(2) IPTV(1) WiBro(1) RFID(4/8) VoIP(17) Page : total 35 개 ( 진행률 14/35 => 40% ) Sentence : total 265 개 ( 진행률 147/265 => 55.5%) Term addition/delete : 103/2
4.
가이드라인 검증 InputSentence The Clipped Tag is a radio frequency identification tag designed to enhance consumer privacy. 단계 세부 단계 처리 결과 Step1. 구문분석전처리 Term 사전 구축 The Clipped Tag is a radio frequency identification tag designed to enhance consumer privacy . 문장정제 해당사항 없음 Anaphora 해당사항 없음 Paraphrasing 해당사항 없음 Step2. 구문분석
5.
가이드라인 검증 단계세부 단계 처리 결과 Step3. 관계추출 전처리 구문분석오류검증 - 해당사항 없음 Term 수정 Term 추가 Clipped Tag radio frequency identification tag 의미제약설정 - 해당사항 없음 Step4. 자동관계추출 Sentence : The Clipped Tag is a radio frequency identification tag designed to enhance consumer privacy. Triple : (clipped tag, ISA, radio frequency identification tag) (clipped tag, design , enhanceing AND (Objective consumer privacy)) Step5. 관계설정 Triple : ISA, MotivationOf (clipped tag, ISA , radio frequency identification tag) (clipped tag, design , enhanceing AND (Objective consumer privacy)) Step6. 온톨로지 변환 OWL 로 변환 Comment -
6.
가이드라인 검증 문제점및 해결방안 Step 1. 구문분석전처리 Anaphora 문제 : 문장 전체를 가리키는 경우 해결하기 어려움 Clean 한 문장을 위해서 문장정제 , Anaphora, Paraphrasing 과정에서 수동 작업이 어느 정도는 필요 Step 2. 구문분석 구문분석 오류는 필터링하여 제외 Step 3. 관계추출전처리 Term 수정 단계에서 term 추가의 경우 상당한 시간이 소요됨 => 추가할 term 을 모아서 한꺼번에 처리 Term 의 범위 지정 Step 4. 자동관계추출 자동관계추출 수동 검증 필요 다양한 유형의 문장들을 입력 , 테스트하는 지속적인 에러 리포팅 필요 -> 정확률 up Step 5. 관계설정 IT Device 온톨로지에 필요한 관계유형 파악하여 적용 Step 6. 온톨로지 변환
7.
2. ATE (AutomaticTriple Extractor) 정확률 검증 대상 : FRID category Page : 총 8 개 문서 Clipped Tag Electronic Product Code High Speed Strap Attach Machine Labe printer RFID Home Again Pet Recovery System Optical RFID RFID Radio Sentence : 153 개의 문장 - 기본 가정 : 문장 정제 , Anaphora, 문장 분절 문제가 해결된 문장
8.
Demo Web Pagehttp://nlplab.kaist.ac.kr/~cdh4696/AutomaticTripleExtractor/demo/execute.php
10.
결 과정확률 : 36/153 => 23.5% (2008. 06.15) Update 된 결과 : 44/153 => 28.7% (2008. 06. 20) Error type 구문 분석 오류 : 15/153 => 9.8% 트리플 output 오류 : 92/153 => 60.1% (2008. 06.15) Update 된 결과 => 트리플 output 오류 : 84/153 => 54.9% (2008. 06. 20) 기타 : 10/153 => 6.5% Anaphora 해결 안된 것 문장 자체 오류 등
11.
주요 문제점 의존관계의 애매성이 해소되지 않으면 관계 트리플 추출 불가 통계 정보를 이용하는 구문 분석기를 보조로 사용하여야 함 이번주 : 통계 정보를 이용하는 스탠포드 구문 분석기를 사용 시작할 예정