온톨로지구축 수동검증 2008.06.23
Doing   온톨로지 확장을 위한 자동 구축 절차에 대한 전체적인 수동 검증 ATE (Automatic Triple Extractor) 에 대한 오류 분석 및 정확률 검증
1.  가이드라인 검증 Category : 7 개  (IT device 에 관련된 ) DMB(4) Home network(2) HSDPA(2) IPTV(1) WiBro(1) RFID(4/8)  VoIP(17) Page : total 35 개  ( 진행률  14/35 => 40% ) Sentence : total 265 개  ( 진행률  147/265 => 55.5%) Term addition/delete : 103/2
가이드라인 검증 Input Sentence The Clipped Tag is a radio frequency identification tag designed to enhance consumer privacy. 단계 세부 단계 처리 결과 Step1.  구문분석전처리 Term 사전 구축 The  Clipped Tag  is a  radio frequency identification tag  designed to enhance  consumer privacy . 문장정제 해당사항 없음 Anaphora 해당사항 없음 Paraphrasing 해당사항 없음 Step2. 구문분석
가이드라인 검증 단계 세부 단계 처리 결과 Step3.  관계추출 전처리 구문분석오류검증 -  해당사항 없음 Term  수정 Term  추가 Clipped Tag   radio frequency identification tag   의미제약설정 -  해당사항 없음 Step4. 자동관계추출 Sentence :  The Clipped Tag is a radio frequency identification tag designed to enhance consumer privacy. Triple : (clipped tag, ISA, radio frequency identification tag) (clipped tag, design , enhanceing AND (Objective consumer privacy)) Step5.  관계설정 Triple :  ISA, MotivationOf (clipped tag,  ISA , radio frequency identification tag) (clipped tag, design , enhanceing AND (Objective consumer privacy)) Step6.  온톨로지 변환 OWL 로 변환  Comment -
가이드라인 검증 문제점 및 해결방안 Step 1.  구문분석전처리  Anaphora  문제  :  문장 전체를 가리키는 경우 해결하기 어려움 Clean 한 문장을 위해서 문장정제 , Anaphora, Paraphrasing 과정에서 수동 작업이 어느 정도는 필요 Step 2.  구문분석 구문분석 오류는 필터링하여 제외 Step 3.  관계추출전처리 Term  수정 단계에서  term  추가의 경우 상당한 시간이 소요됨  =>  추가할  term 을 모아서 한꺼번에 처리 Term 의 범위 지정 Step 4.  자동관계추출 자동관계추출 수동 검증 필요  다양한 유형의 문장들을 입력 ,  테스트하는 지속적인 에러 리포팅 필요  ->  정확률  up Step 5.  관계설정  IT Device  온톨로지에 필요한 관계유형 파악하여 적용 Step 6.  온톨로지 변환
2. ATE (Automatic Triple Extractor)  정확률 검증 대상  : FRID category Page :  총  8 개 문서 Clipped Tag Electronic Product Code High Speed Strap Attach Machine Labe printer RFID Home Again Pet Recovery System Optical RFID RFID Radio Sentence : 153 개의 문장 -  기본 가정  :  문장 정제 , Anaphora,  문장 분절 문제가 해결된 문장
Demo Web Page http://nlplab.kaist.ac.kr/~cdh4696/AutomaticTripleExtractor/demo/execute.php
결  과 정확률  : 36/153 =>  23.5%  (2008. 06.15) Update 된 결과  : 44/153 => 28.7%  (2008. 06. 20) Error type  구문 분석 오류  : 15/153 => 9.8% 트리플  output  오류  : 92/153 => 60.1%  (2008. 06.15) Update 된 결과  =>  트리플  output  오류  : 84/153 => 54.9%  (2008. 06. 20) 기타  : 10/153 => 6.5% Anaphora  해결 안된 것 문장 자체 오류 등
주요 문제점 의존 관계의 애매성이 해소되지 않으면   관계 트리플 추출 불가 통계 정보를 이용하는 구문 분석기를 보조로 사용하여야 함 이번주 :  통계 정보를 이용하는 스탠포드 구문 분석기를 사용 시작할 예정

03 자동온톨로지구축및수동검증

  • 1.
  • 2.
    Doing 온톨로지 확장을 위한 자동 구축 절차에 대한 전체적인 수동 검증 ATE (Automatic Triple Extractor) 에 대한 오류 분석 및 정확률 검증
  • 3.
    1. 가이드라인검증 Category : 7 개 (IT device 에 관련된 ) DMB(4) Home network(2) HSDPA(2) IPTV(1) WiBro(1) RFID(4/8) VoIP(17) Page : total 35 개 ( 진행률 14/35 => 40% ) Sentence : total 265 개 ( 진행률 147/265 => 55.5%) Term addition/delete : 103/2
  • 4.
    가이드라인 검증 InputSentence The Clipped Tag is a radio frequency identification tag designed to enhance consumer privacy. 단계 세부 단계 처리 결과 Step1. 구문분석전처리 Term 사전 구축 The Clipped Tag is a radio frequency identification tag designed to enhance consumer privacy . 문장정제 해당사항 없음 Anaphora 해당사항 없음 Paraphrasing 해당사항 없음 Step2. 구문분석
  • 5.
    가이드라인 검증 단계세부 단계 처리 결과 Step3. 관계추출 전처리 구문분석오류검증 - 해당사항 없음 Term 수정 Term 추가 Clipped Tag radio frequency identification tag 의미제약설정 - 해당사항 없음 Step4. 자동관계추출 Sentence : The Clipped Tag is a radio frequency identification tag designed to enhance consumer privacy. Triple : (clipped tag, ISA, radio frequency identification tag) (clipped tag, design , enhanceing AND (Objective consumer privacy)) Step5. 관계설정 Triple : ISA, MotivationOf (clipped tag, ISA , radio frequency identification tag) (clipped tag, design , enhanceing AND (Objective consumer privacy)) Step6. 온톨로지 변환 OWL 로 변환 Comment -
  • 6.
    가이드라인 검증 문제점및 해결방안 Step 1. 구문분석전처리 Anaphora 문제 : 문장 전체를 가리키는 경우 해결하기 어려움 Clean 한 문장을 위해서 문장정제 , Anaphora, Paraphrasing 과정에서 수동 작업이 어느 정도는 필요 Step 2. 구문분석 구문분석 오류는 필터링하여 제외 Step 3. 관계추출전처리 Term 수정 단계에서 term 추가의 경우 상당한 시간이 소요됨 => 추가할 term 을 모아서 한꺼번에 처리 Term 의 범위 지정 Step 4. 자동관계추출 자동관계추출 수동 검증 필요 다양한 유형의 문장들을 입력 , 테스트하는 지속적인 에러 리포팅 필요 -> 정확률 up Step 5. 관계설정 IT Device 온톨로지에 필요한 관계유형 파악하여 적용 Step 6. 온톨로지 변환
  • 7.
    2. ATE (AutomaticTriple Extractor) 정확률 검증 대상 : FRID category Page : 총 8 개 문서 Clipped Tag Electronic Product Code High Speed Strap Attach Machine Labe printer RFID Home Again Pet Recovery System Optical RFID RFID Radio Sentence : 153 개의 문장 - 기본 가정 : 문장 정제 , Anaphora, 문장 분절 문제가 해결된 문장
  • 8.
    Demo Web Pagehttp://nlplab.kaist.ac.kr/~cdh4696/AutomaticTripleExtractor/demo/execute.php
  • 10.
    결 과정확률 : 36/153 => 23.5% (2008. 06.15) Update 된 결과 : 44/153 => 28.7% (2008. 06. 20) Error type 구문 분석 오류 : 15/153 => 9.8% 트리플 output 오류 : 92/153 => 60.1% (2008. 06.15) Update 된 결과 => 트리플 output 오류 : 84/153 => 54.9% (2008. 06. 20) 기타 : 10/153 => 6.5% Anaphora 해결 안된 것 문장 자체 오류 등
  • 11.
    주요 문제점 의존관계의 애매성이 해소되지 않으면  관계 트리플 추출 불가 통계 정보를 이용하는 구문 분석기를 보조로 사용하여야 함 이번주 : 통계 정보를 이용하는 스탠포드 구문 분석기를 사용 시작할 예정