SlideShare a Scribd company logo
1 of 20
4. 컨텐츠에서
지능 정보 추출하기
4.1 컨텐츠 종류와 이들의 통합


형태별로 컨텐츠를 분류, 추상화해서 인프라 구축

'지구 온난화' 관심

사용자에게 관련 컨텐츠 제공하는 프로세스 분류.

뉴스 기사, 블로그, 게시판, 채팅, 동영상...

컨텐츠 collection에서 키워드를 뽑아내는 방법.
4.1.2 컨텐츠를 통합하기
       위한 아키텍처

내부에서 개별 인스턴스가
호스팅되는 형태

애플리케이션에 통합된 형
태

외부에서 제공하는 형태
4.2 집단지성 관련 컨텐츠



블로그

위키

그룹과 게시판
4.3 단계적 지능 정보 추출


토큰화 - 텍스트 파싱, 텀 추출.

정규화 - 텀을 소문자로 변환.

불용어 제거 - 흔한 용어 제거.

스테밍 - 텀에서 어근 추출. 복수형 -> 단수형.
4.3.1 예제 셋업


웹 2.0과 집단 지성 관련 글

user, users 단어가 자주 나옴

제목은 컨텐츠에 중요한 정보를 제공
MetaDataVector를 통해 시각화.
제목과 본문으로 MetaDataVector를 생성.
텍스트에서 텀 추출

불용어 제거

어근, 복수형 단어 처리

다수의 텀으로 구성된 구
(Phrase) 추출
4.3.3 불용어 처리
4.3.4 스테밍
4.3.5 구(PHRASE) 인식
4.4 단순/복합 컨텐츠 타입




단순 컨텐츠 - 글, 사진, 동영상, 블로그, 투표, 제품.

복합 컨텐츠 - 질문과 답변, 트윗...
Ciia ch4

More Related Content

More from Kyungryul KIM

전문검색기술도전
전문검색기술도전전문검색기술도전
전문검색기술도전
Kyungryul KIM
 
Nib_NSWindowController
Nib_NSWindowControllerNib_NSWindowController
Nib_NSWindowController
Kyungryul KIM
 
서버인프라를지탱하는기술5 1 2
서버인프라를지탱하는기술5 1 2서버인프라를지탱하는기술5 1 2
서버인프라를지탱하는기술5 1 2
Kyungryul KIM
 
Chaper24 languages high_and_low
Chaper24 languages high_and_lowChaper24 languages high_and_low
Chaper24 languages high_and_low
Kyungryul KIM
 
Ch22 운영체제
Ch22 운영체제Ch22 운영체제
Ch22 운영체제
Kyungryul KIM
 
DDD-07-Using The Language
DDD-07-Using The LanguageDDD-07-Using The Language
DDD-07-Using The Language
Kyungryul KIM
 
Cleancode ch16 serialdate_refactoring
Cleancode ch16 serialdate_refactoringCleancode ch16 serialdate_refactoring
Cleancode ch16 serialdate_refactoring
Kyungryul KIM
 
Cleancode ch14-successive refinement
Cleancode ch14-successive refinementCleancode ch14-successive refinement
Cleancode ch14-successive refinement
Kyungryul KIM
 

More from Kyungryul KIM (20)

Cocos2 d x-7.3_4
Cocos2 d x-7.3_4Cocos2 d x-7.3_4
Cocos2 d x-7.3_4
 
Cocos2d x-ch5-1
Cocos2d x-ch5-1Cocos2d x-ch5-1
Cocos2d x-ch5-1
 
Coco2d x
Coco2d xCoco2d x
Coco2d x
 
23 drag drop
23 drag drop23 drag drop
23 drag drop
 
Hadoop ch5
Hadoop ch5Hadoop ch5
Hadoop ch5
 
전문검색기술도전
전문검색기술도전전문검색기술도전
전문검색기술도전
 
Nib_NSWindowController
Nib_NSWindowControllerNib_NSWindowController
Nib_NSWindowController
 
Dsas
DsasDsas
Dsas
 
서버인프라를지탱하는기술5 1 2
서버인프라를지탱하는기술5 1 2서버인프라를지탱하는기술5 1 2
서버인프라를지탱하는기술5 1 2
 
Chaper24 languages high_and_low
Chaper24 languages high_and_lowChaper24 languages high_and_low
Chaper24 languages high_and_low
 
Ch22 운영체제
Ch22 운영체제Ch22 운영체제
Ch22 운영체제
 
Mibis ch20
Mibis ch20Mibis ch20
Mibis ch20
 
Mibis ch15
Mibis ch15Mibis ch15
Mibis ch15
 
Mibis ch8
Mibis ch8Mibis ch8
Mibis ch8
 
Mibis ch4
Mibis ch4Mibis ch4
Mibis ch4
 
14 strategy design
14 strategy design14 strategy design
14 strategy design
 
Ddd ch12-13
Ddd ch12-13Ddd ch12-13
Ddd ch12-13
 
DDD-07-Using The Language
DDD-07-Using The LanguageDDD-07-Using The Language
DDD-07-Using The Language
 
Cleancode ch16 serialdate_refactoring
Cleancode ch16 serialdate_refactoringCleancode ch16 serialdate_refactoring
Cleancode ch16 serialdate_refactoring
 
Cleancode ch14-successive refinement
Cleancode ch14-successive refinementCleancode ch14-successive refinement
Cleancode ch14-successive refinement
 

Ciia ch4

Editor's Notes

  1. \n
  2. 도가니 -> 분노\n
  3. 트위터\n
  4. \n
  5. \n
  6. \n
  7. \n
  8. \n
  9. \n
  10. \n
  11. \n
  12. \n
  13. \n
  14. \n
  15. \n
  16. \n
  17. \n
  18. \n
  19. \n
  20. \n