Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
검색, 지능을 가지다 - 심층분석APPLE 시리와IBM 왓슨 컴퓨터(주)솔트룩스 이경일   / tony@saltlux.com
Apple, IBM, Google 비전의 기술적 공통점?            when      BigData      met   AI
인간 지식 처리를 위한 연구            Knowledge            Engineering        Artificial Semantic       Intelligence  Web
인간 지식 처리를 위한 연구 Knowledge engineering은 어떤 도메인에서 특정 목적을 위해 컴퓨 터가 업무를 처리할 수 있도록 모델을 구성할 때 온톨로지와 로직을 활용하는 과정 - John Sowa Ar...
인공 지능 (AI) ?AI : The study and design of intelligent agents인텔리전트 에이전트는 환경을 감지해서, 스스로 행동함으로기회를 최적화, 자신의 목표 달성할 수 있는 자동 시스템 ...
지식 표현                     기계와 인간의 협력?     자연 언어                               글로 쓰여진 사람의 말 : “지구는 타원 궤도로 태양을 돌고 있다”     (N...
지식의 표현자연 언어 “기업에 종사하는 종업원은 사람들이고, 기업과 종업원은 모두 법적 존재이다. 기업은 직원들을 위해 여행 예약을 할 수 있다. 여행은 한국 내 도시, 혹 미국의 도시를 오고 가는 비행기 혹은 기차를 ...
지식의 표현                                                                               법적 존재                                ...
Why is Siri more attractive?Because Siri acts like real human agent including continuousconversation and recommending alte...
Siri vs. S-Voice
추론         Reasoning추론? : 기존 사실들로부터 새로운 사실을 도출하거나     결론에 도달하는 과정• Deductive reasoning Premise 1: All humans are mortal. P...
논리적 추론   발전 방향
학습    Learning                  학습(Learning)                  • 주어진 여건에 대한 행동이 되풀이                   되는 경험으로 인해 생기는 그 여   ...
빅 데이터              기계 학습                           Black Box                   Test-data                      (learning ma...
계획     Plan/Planning• 계획(Plan) 목표까지 경로에 있는 아크 연산자들을 하나의 순서로 만든 것• 계획 수립(Planning) 다양한 순서를 찾아내고, 최적 순서를 확보하는 것• 투영(Projecti...
계획 수립                                  Rube Goldberg Machine?           Rube Goldberg의 연필 깎는 기계Open window (A) and fly kit...
Apple의 Siri 들여다 보기
View Points for Siri-like Service              Human Interaction                                                         L...
Context Driven Mobile ServiceSENSOR / NETWORK                CONTEXT MANAGER                                              ...
Virtual Personal Assistance?A virtual personal assistant is a SW system that  • Helps the user find or do something (focus...
Intelligent Agent? Intelligent Agent is an autonomous entity  which observes through sensors and acts  upon an environmen...
Intelligent Agent?                 Simple reflex agent                 General learning agent
Intelligent Agent?                 Model based                   reflex agent                 Model and                  g...
Siri?Siri is an intelligent software assistant and    knowledge navigator functioning as a    personal assistant applicati...
Why Siri is different from others before… Task focus. Siri is very focused on a bounded set of specific  human tasks, lik...
What exactly can you ask Siri to do?1. Does Things for you  focus on task completion2. Gets What you Say  intent understan...
History of SiriSiri is using the results of over 40 years of research funded by DARPA via       SRI International’s Artifi...
Technology of Siri                    PersonalConversation                           Service                    Context  I...
Overview of Siri Technology
The interface is a Conversation
Task-oriented NL Understanding
Ontology Unifies all Models
Semantic Autocomplete
Dialog modules organizeby generic task and domain
What happened in Apple Siri?Active Ontology is a brain to understand user’s intentionand make conversation under the seman...
IBM의Watson Computer    들여다 보기
The Jeopardy! Challenge   A compelling and notable way to drive and measure the technology       of automatic Question Ans...
Q&A The Domain
The Big Idea  Evidence-Based Reasoning over Natural Language Content Deep Analysis of clues/questions AND content Search...
IBM 왓슨   Deep QA   시스템
Hardware Infrastructure
Through training Watson Evaluates and Selects   documents worth analyzing for a given task.                               ...
Auto. Learning & Semantic Frame
UIMA Framework & UIMA-AS
The Difference Between            Search & DeepQA    Decision Maker        Has Question                      Search Engine...
Keyword Search vs. Deep Reasoningfor finding Evidences
Natural Language Processing in Watson
Deep QA Process     One Jeopardy! question can take 2 hours on a single 2.6Ghz Core     2880-Core IBM Power750’s using UIM...
Performances
Organizations
Future of Watson?
Wolfram|Alpha                Computation Knowledge Engine  • 5 years R&D from 2009  • Computes answers to natural language...
Capability & Data Curation• 10+ trillion of pieces of data• 50,000+ types of algorithms and models• linguistic capabilitie...
Infrastructures• Mathematica 7 : 2500 built-in functions• Super Computer Clusters - DCS(Dell Data Center Solutions)  and R...
Examples
ziny.us똑똑한 소셜 매거진 “지니어스”빅 데이터와 인공지능 기반의 스마트 미디어
iPhone : Reinvention of Phoneziny.us : Reinvention of Social Media  퍼블리싱          관심기반          인공지능                      ...
The Three Happiness보는 즐거움     모으는 즐거움    나누는 즐거움
Smart Curation?Search & Discover              Filter & Organize           Publish & Share                Feeding,         ...
소셜 데이터 수집• 클라우드에 기반한 대용량 분산/병렬처리, 1일 500만건 수집• 클라우드 스토리지에 데이터 저장과 실시간 인덱싱 수행              • 450 Cores, 1.5TB Ram, 200TB HD...
소셜 토픽의 추출• Google PageRank 개념이 적용된 TextRank를 발전, 소셜 토픽을 추출• Social co-occurrence 분석 통해 특성 벡터의 품질 향상과 실시간 처리• Graph system ...
소셜 데이터의 분류• SVM 기반 학습 모델과 VSM 기반의 규칙 모델 통합• 대규모 실시간 소셜 아티클 분류를 위해 병렬, 분산처리                      소셜 데이터               아티클7 ...
소셜 이슈 학습• 소셜 아티클의 실시간 군집을 통한 사회적 이슈 도출• 주제별 사회적 관심 트랜드 분석과 예측, 추론                             𝑊𝑔          Wfunc : Skewed D...
사용자 관심 학습과 추천                     쓰면 쓸수록 똑똑해지는 소셜 매거진사용자 생성 매거진 학습            아티클 자동추천(ziny 추천)             사용자 피드백(Clip, ...
Knowledge Network Analysis
e-Discovery Solution
VOC(Voice of Customer) Analysis
Technology Sensing
BOTTARI Mobile App      Personalized Android Mobile App      Real-time Recommendation Service      Originally developed...
BOTTARI 보따리• 트위터 등 소셜 빅 데이터에 대한 실시간 분석 (트랜드, 평판)• AR이 적용된 Android App. / 시맨틱웹첼린지 그랑프리
미래,예측하는 것이 아닌                          만들어 가는 것...Communicating Knowledge        72
기술 혁신            > 낭비 하도록 만들기       (matthew Komorwski, 2010)            Transistors in a CPU                             ...
앞으로   10년 후의 왓슨?                   <IBM Power 750>                   - 10 full racks                   - 2880 CPU cores   ...
“유일한 성공 방법은, 미래를 예측하는 것이 아니라이미 시작된 변화를 이해, 그 시간차를 이용하는 것!"            Peter Drucker
Ibm왓슨과 apple 시리
Upcoming SlideShare
Loading in …5
×

Ibm왓슨과 apple 시리

6,800 views

Published on

전문가 토크릴레이 "웹과 플랫폼의 미래를 이야기 하다" 4탄
[IBM 왓슨과 Apple 시리에 대해] : 솔트룩스 이경일 대표

Ibm왓슨과 apple 시리

  1. 1. 검색, 지능을 가지다 - 심층분석APPLE 시리와IBM 왓슨 컴퓨터(주)솔트룩스 이경일 / tony@saltlux.com
  2. 2. Apple, IBM, Google 비전의 기술적 공통점? when BigData met AI
  3. 3. 인간 지식 처리를 위한 연구 Knowledge Engineering Artificial Semantic Intelligence Web
  4. 4. 인간 지식 처리를 위한 연구 Knowledge engineering은 어떤 도메인에서 특정 목적을 위해 컴퓨 터가 업무를 처리할 수 있도록 모델을 구성할 때 온톨로지와 로직을 활용하는 과정 - John Sowa Artificial Intelligence은 컴퓨터를 통해 지능정 행동을 수행하도록 하는 연구로, agent가 어떻게 행동을 할 것인가를 결정하는 과정에 지 식 표현과 지식 이해 과정이 수반됨 – Brachman and Levesque Semantic Web은 웹 표준 하에서 컴퓨터가 데이터의 의미를 이해하고 처리하는 것이 가능한 데이터의 웹 – Tony Knowledge representation은 해석될 수 있는 기호(symbolic form) 로 지식을 형식화하는 것을 의미 – Klein and Methlie
  5. 5. 인공 지능 (AI) ?AI : The study and design of intelligent agents인텔리전트 에이전트는 환경을 감지해서, 스스로 행동함으로기회를 최적화, 자신의 목표 달성할 수 있는 자동 시스템 Systems that think like humans Systems that think rationally Systems that act like humans Systems that act rationally • Knowledge Representation • Reasoning • Learning • Planning • Natural Language Processing • Social Intelligence • Machine perception and Vision
  6. 6. 지식 표현 기계와 인간의 협력? 자연 언어 글로 쓰여진 사람의 말 : “지구는 타원 궤도로 태양을 돌고 있다” (Natural Language) 시각 언어사람 그림, 구조도, 흐름도, 설계도 등 시각적으로 지식을 표현 (Visual Language) 주석, 태깅 개체에 연관된 키워드, 기호, 이미지 등을 부착해 지식을 표현 (Tagging) 기호 언어 수학 등을 포함해 기호로 표현된 지식 : x2/a2 + y2/b2 = 1 (Symbolic Language) 의사 결정 나무 복잡한 의사 결정을 위해 구성된 나무 모양의 그래프 구조 (Decision Tree) 규칙 인간 지식을 여러 규칙들의 조건부 결합으로 표현 (Rules) 데이터베이스 개체와 관계로 구성된 테이블 형태의 지식 표현 체계 (Database System) 논리 언어 논리 기호, 연산을 통한 지식 표현 : Woman ≡ Person ∩ Female (Logical Language) 프레임 언어 값 혹은 타 프레임의 포인터를 저장한 슬롯들로 지식 표현 (Frame Language)기계 시맨틱 네트워크 개념간의 의미적 관계를 그래프 구조로 구성한 지식 표현 (Semantic Network) 통계적 지식 확률과 통계에 기반한 지식 표현, 기계 학습 기술 접목 가능 (Statistical Knowledge)
  7. 7. 지식의 표현자연 언어 “기업에 종사하는 종업원은 사람들이고, 기업과 종업원은 모두 법적 존재이다. 기업은 직원들을 위해 여행 예약을 할 수 있다. 여행은 한국 내 도시, 혹 미국의 도시를 오고 가는 비행기 혹은 기차를 통해 가능하다. 기업들과 출장지는 도시에 위치하고 있다. 솔트룩스는 홍길동을 위해 서울과 뉴욕 왕복 항공편인 OZ510을 예약하였다.”규칙 언어 (규칙) 만약 누군가가 날고 있다면, 여행중인 것이다. (규칙) 만약 누군가의 여행이 한 회사에서 예약되었다면, 그는 그 회사의 종업원이다. (규칙 추가) 만약 동일 국가의 근거리 여행이라면, 종업원은 기차를 이용해야 한다. (추론) 비행 예약이 되어 있는 홍길동은 솔트룩스의 종업원이다 (추론) OZ510은 미국과 한국을 오가는 비행편이다.
  8. 8. 지식의 표현 법적 존재 법적 존재 위치 법적 존재 이름 이름 (필수) 고유번호 고유번호 (필수) 법적 존재 kindOf DISJOINT 사람 기업 startFrom 사람 기업 기업 성별 여행업종 도시 성별 ⊆ {남,녀} 업종 사람사람 기업 books 나이 주소지 endsIn 나이 > 25 주소지 ⊂ 서울 온톨로지(Ontology) subclssOf subclssOfsubclssOf instanceOf instanceOf kindOf instanceOf 종업원 종업원 instanceOf종업원 직급 직급 ≠ 임원 비행기 기차 한국 도시 미국 도시 종업원 instanceOf instanceOf #4831 #4831instanceOf 솔트룩스 솔트룩스 instanceOf 솔트룩스 C98765 C98765 instanceOf instnaceOf instanceOf 솔트룩스 #3502 소프트웨어 #3502 소프트웨어 서울 삼성동 서울 삼성동 홍길동 홍길동홍길동 P12345 서울 P12345 participatesIn 남자 남자 홍길동 37 OZ510 37 과장 과장 뉴욕 (a) 시맨틱 네트워크 (b) (a) + 프레임(프로퍼티) (c) (b) + 논리 제약
  9. 9. Why is Siri more attractive?Because Siri acts like real human agent including continuousconversation and recommending alternatives. Other Apple Functions Agent Siri Continuous Conversation Weak Strong Recommending Alternatives Weak Strong Semantic Match Weak Strong Semantic Disambiguation Weak Strong Semantics make it possible in Siri!
  10. 10. Siri vs. S-Voice
  11. 11. 추론 Reasoning추론? : 기존 사실들로부터 새로운 사실을 도출하거나 결론에 도달하는 과정• Deductive reasoning Premise 1: All humans are mortal. Premise 2: Socrates is a human. Conclusion: Socrates is mortal. Ontology and Rules• Inductive reasoning Premise: The sun has risen in the east every morning up until now. Conclusion: The sun will also rise in the east tomorrow.• Abductive reasoning Machine Learning• Analogical reasoning
  12. 12. 논리적 추론 발전 방향
  13. 13. 학습 Learning 학습(Learning) • 주어진 여건에 대한 행동이 되풀이 되는 경험으로 인해 생기는 그 여 건에 대한 행동 변화 • 지식의 습득과 기존 지식으로부터 추론된 결과의 재학습 능력 필요 • 궁극적으로 컴퓨터가 새로운 것을 배우고 환경에 적응하는 것영화, 인류멸망보고서 중
  14. 14. 빅 데이터 기계 학습 Black Box Test-data (learning machine)Training data Model Model Prediction• Support vector machines• Inductive logic programming • Clustering• Decision tree learning • Bayesian networks• Association rule learning • Reinforcement learning• Artificial neural networks • Representation learning• Genetic programming • Sparse Dictionary Learning
  15. 15. 계획 Plan/Planning• 계획(Plan) 목표까지 경로에 있는 아크 연산자들을 하나의 순서로 만든 것• 계획 수립(Planning) 다양한 순서를 찾아내고, 최적 순서를 확보하는 것• 투영(Projecting) 어떤 행동 순서의 결과로 나타나는 상태의 순서를 예측• 계획 시스템 제약조건하에서 목표를 달성 위해 행동을 설계하는 시스템 - 만일 새로운 정보가 생기면 계획되었던 일련의 과업들을 변경시킬 수 있는 유연성을 가져야 함 - 현재까지의 추론 과정을 되돌아 가고, 더 좋은 해결안을 위해 현 추론 결과를 취소할 수 있음 (Nils J.Nilsson 1998)
  16. 16. 계획 수립 Rube Goldberg Machine? Rube Goldberg의 연필 깎는 기계Open window (A) and fly kite (B). String (C) lifts small door (D) allowingmoths (E) to escape and eat red flannel shirt (F). As weight of shirt becomesless, shoe (G) steps on switch (H) which heats electric iron (I) and burns holein pants (J). Smoke (K) enters hole in tree (L), smoking out opossum (M)which jumps into basket (N), pulling rope (O) and lifting cage (P), allowingwoodpecker (Q) to chew wood from pencil (R), exposing lead. Emergencyknife (S) is always handy in case opossum or the woodpecker gets sick andcant work.
  17. 17. Apple의 Siri 들여다 보기
  18. 18. View Points for Siri-like Service Human Interaction Linked Services Natural Language Understanding / Generation Search & Reasoning (incl. computation) Knowledge Base Knowledge Acquisition and Modeling Unstructured Big Data Structured Big Data
  19. 19. Context Driven Mobile ServiceSENSOR / NETWORK CONTEXT MANAGER CONTEXT QoC Inferred Context Model Context Rules Context CONTEXT OWNER Filter Dynamic ContextUser Device Collector SMART MOBILE SERVICE Service Service Service Discovery Personalization Adaptation Smart Service
  20. 20. Virtual Personal Assistance?A virtual personal assistant is a SW system that • Helps the user find or do something (focus on tasks, rather than information) • Understands the user’s intent (interpreting language) and context (location, schedule, history) • Works on the user’s behalf, orchestrating multiple services and information sources to help complete the taskIn other words, an assistant helps me do things by understandingme and working for me. (Tom Gruber, 2010)
  21. 21. Intelligent Agent? Intelligent Agent is an autonomous entity which observes through sensors and acts upon an environment using actuators. IA directs its activity towards achieving goals. Intelligent agents may also learn or use knowledge to achieve their goals. - Russell & Norvig
  22. 22. Intelligent Agent? Simple reflex agent General learning agent
  23. 23. Intelligent Agent? Model based reflex agent Model and goal based agent
  24. 24. Siri?Siri is an intelligent software assistant and knowledge navigator functioning as a personal assistant application for iOS.Siri uses a natural language UI to • answer questions • make recommendations • perform actions with web services.Siri adapts to the users individual preferences over time and personalizes results
  25. 25. Why Siri is different from others before… Task focus. Siri is very focused on a bounded set of specific human tasks, like finding something to do, going out with friends, and getting around town. Structured data focus. The kinds of tasks that Siri is particularly good at involve semi-structured data, usually on tasks involving multiple criteria and drawing from multiple sources. Architecture focus. Siri is built from deep experience in integrating multiple advanced technologies into a platform designed expressly for virtual assistants. The CALO project taught Siri a lot about what works and doesn’t when applying AI to build a virtual assistant.
  26. 26. What exactly can you ask Siri to do?1. Does Things for you focus on task completion2. Gets What you Say intent understanding via conversation3. Gets to Know You learns and applies personal information • Ask for a reminder. • Ask to set an alarm. • Ask to send a text. • Ask for directions. • Ask about the weather. • Ask about stocks. • Ask to set a meeting. • Ask to set the timer. • Ask to send an email. • Ask Siri about Siri. • Ask for a number. • Ask for information from Yelp, Wolfram|Alpha, or Wikipedia
  27. 27. History of SiriSiri is using the results of over 40 years of research funded by DARPA via SRI International’s Artificial Intelligence Center through CALO project (2003~2008).Siri technology has come a long way with dialog and natural language understanding, machine learning, evidential and probabilistic reasoning, ontology and knowledge representation, planning, reasoning and service delegation.Siri was founded in 2007 (spin-off from SRI international) by Dag Kittlaus (CEO), Adam Cheyer (VP Engineering), and Tom Gruber (CTO/VP Design). $150 million – DARPA funds (4.5 years) $8.5 million - series A (2009) $15.5 million - series B $200 million - purchased by apple (2010)
  28. 28. Technology of Siri PersonalConversation Service Context Interface Delegation Awareness  dialog and natural language understanding  machine learning  evidential and probabilistic reasoning  ontology and knowledge representation  planning, reasoning  service delegation
  29. 29. Overview of Siri Technology
  30. 30. The interface is a Conversation
  31. 31. Task-oriented NL Understanding
  32. 32. Ontology Unifies all Models
  33. 33. Semantic Autocomplete
  34. 34. Dialog modules organizeby generic task and domain
  35. 35. What happened in Apple Siri?Active Ontology is a brain to understand user’s intentionand make conversation under the semantics• Heterogeneous data integration• Managing short and long term personal memory• Improving speech recognition quality• Semantic disambiguation• Dialog generation and management
  36. 36. IBM의Watson Computer 들여다 보기
  37. 37. The Jeopardy! Challenge A compelling and notable way to drive and measure the technology of automatic Question Answering along 5 Key Dimensions Broad/Open $200 Domain If youre standing, its the di rection you should look to c heck out the wainscoting. Complex Language $1000 Of the 4 countries in the wo rld that the U.S. does not h High ave diplomatic relations wit Precision h, the one that’s farthest no rth Accurate $800 In cell division, mitosis splConfidence its the nucleus & cytokine sis splits this liquid cushio High ning the nucleus Speed
  38. 38. Q&A The Domain
  39. 39. The Big Idea Evidence-Based Reasoning over Natural Language Content Deep Analysis of clues/questions AND content Search for many possible answers based on different interpretations of question Find, analyze and score EVIDENCE from many different sources (not just one document) for each answer using many advanced NLP and reasoning algorithms Combine evidence and compute a confidence value for each possibility using statistical machine learning Rank answers based on confidence If top answer is above a threshold – buzz in else keep quiet
  40. 40. IBM 왓슨 Deep QA 시스템
  41. 41. Hardware Infrastructure
  42. 42. Through training Watson Evaluates and Selects documents worth analyzing for a given task. For Jeopardy! Watson has analyzed and stored the equivalent of about 1 million books (e.g., encyclopedias, dictionaries, news articles, reference texts, plays, etc)Too much irrelevantcontent requires unnecessary compute power
  43. 43. Auto. Learning & Semantic Frame
  44. 44. UIMA Framework & UIMA-AS
  45. 45. The Difference Between Search & DeepQA Decision Maker Has Question Search Engine Distills to 2-3 Keywords Finds Documents containing KeywordsReads Documents, Finds Answers Delivers Documents based on Popularity Finds & Analyzes Evidence Expert Decision Maker Understands Question Asks NL Question Produces Possible Answers & EvidenceConsiders Answer & Evidence Analyzes Evidence, Computes Confidence Delivers Response, Evidence & Confidence
  46. 46. Keyword Search vs. Deep Reasoningfor finding Evidences
  47. 47. Natural Language Processing in Watson
  48. 48. Deep QA Process One Jeopardy! question can take 2 hours on a single 2.6Ghz Core 2880-Core IBM Power750’s using UIMA-AS, Watson is answering in 2-6 sec. Learned Models help combine and weigh the Evidence Evidence Balance Sources & Combine Answer Models Models SourcesQuestion Evidence Evidence Models Models Candidate Retrieval Scoring Primary 1000’s of Models Models Search Answer Pieces of Evidence 100,000’s Scores from Generation 100’s Possible many Deep Analysis Answers Algorithms Multiple 100’s Interpretations sourcesQuestion & Question Hypothesis Hypothesis and Evidence Final ConfidenceTopic Analy Synthesis Decomposition Generation Scoring Merging&Ranking sis Hypothesis Hypothesis and Merging & Answer & Co Generation Evidence Scoring Ranking nfidence
  49. 49. Performances
  50. 50. Organizations
  51. 51. Future of Watson?
  52. 52. Wolfram|Alpha Computation Knowledge Engine • 5 years R&D from 2009 • Computes answers to natural language questions • Integrates disconnected trusted data sources • Sophisticated automated algorithm and visualization selection • General and domain-specific linguistic and presentation development
  53. 53. Capability & Data Curation• 10+ trillion of pieces of data• 50,000+ types of algorithms and models• linguistic capabilities for 1000+ domains• Built with Mathematica• Any systematic data can be curated• Human-driven curation includes tools, processes, and methodologies• Thousands of domains curated falling into about 50-100 domain models• Ontology is at a meta level• Hierarchical knowledge included with entity classes, attributes• Relates things at computation time
  54. 54. Infrastructures• Mathematica 7 : 2500 built-in functions• Super Computer Clusters - DCS(Dell Data Center Solutions) and R Systems Cluster - World 44th powerful super computer - Clustered 5 super computer - Windows HPC server 2008, Windows Computer Cluster Server - Platform LSF, Altair PBS, Sun Grid
  55. 55. Examples
  56. 56. ziny.us똑똑한 소셜 매거진 “지니어스”빅 데이터와 인공지능 기반의 스마트 미디어
  57. 57. iPhone : Reinvention of Phoneziny.us : Reinvention of Social Media 퍼블리싱 관심기반 인공지능 지니어스 IBM Watson
  58. 58. The Three Happiness보는 즐거움 모으는 즐거움 나누는 즐거움
  59. 59. Smart Curation?Search & Discover Filter & Organize Publish & Share Feeding, Hybrid Classification, Auto-Publishing, Crawling, Automatic Clustering Personalization Wrapping, Open API HTML5, Learning App, PDF Machine Learning, Recommendation Digital Magazine Bookmarklet, Facebook/Twitter File upload, Mail Sharing Clip/Re-Clip, Camera Real-time Chatting Love/Comment
  60. 60. 소셜 데이터 수집• 클라우드에 기반한 대용량 분산/병렬처리, 1일 500만건 수집• 클라우드 스토리지에 데이터 저장과 실시간 인덱싱 수행 • 450 Cores, 1.5TB Ram, 200TB HDD • 원시 소셜 데이터 : 총 5억 건, 2.5TB • 수집 속도 : 500만 건 / 일 • 수집 방식 : Hybrid Model (크롤링 + Open API + Agent) • 저장 구조 : 클라우드(NoSQL+DFS), 데이터 3중화 1일 수집, 인덱싱 로그 수집 데이터 구성 미투 뉴스 데이 1% 18% 트위터 57% 블로그 24%
  61. 61. 소셜 토픽의 추출• Google PageRank 개념이 적용된 TextRank를 발전, 소셜 토픽을 추출• Social co-occurrence 분석 통해 특성 벡터의 품질 향상과 실시간 처리• Graph system G = (V, E)에 대해 각 vertex Vi의 중요도 S(vi)를 정의,• Social Topic간 Co-occurrence 거리를 Weigh w로 할 때, 중요도 WS(Vi) 정의,
  62. 62. 소셜 데이터의 분류• SVM 기반 학습 모델과 VSM 기반의 규칙 모델 통합• 대규모 실시간 소셜 아티클 분류를 위해 병렬, 분산처리 소셜 데이터 아티클7 아티클20 아티클51 아티클1 학습기반 분류 (SVM) 실시간 병렬, 분산처리 규칙기반 분류 (VSM+RULE) 피드백 학습 … A 분류체계 B 분류체계 C 분류체계
  63. 63. 소셜 이슈 학습• 소셜 아티클의 실시간 군집을 통한 사회적 이슈 도출• 주제별 사회적 관심 트랜드 분석과 예측, 추론 𝑊𝑔 Wfunc : Skewed Distrib. Social Article Retrieval = 𝐷𝐹 + 𝑊𝑆 + 𝑀𝑒𝑎𝑛 𝑇𝐹 ∗ 𝑊𝐹𝑢𝑐(𝐷𝐹)Global Features Selection Hierarchical Word clustering Article clustering (cosine similarity) Cluster Labeling Clusters Ranking/Grouping
  64. 64. 사용자 관심 학습과 추천 쓰면 쓸수록 똑똑해지는 소셜 매거진사용자 생성 매거진 학습 아티클 자동추천(ziny 추천) 사용자 피드백(Clip, Love) 약 5억 건 매거진 별 SP Fast Similarity Calculation Social Feature- Feature vector 생성 on Vector Space Model Vector Index
  65. 65. Knowledge Network Analysis
  66. 66. e-Discovery Solution
  67. 67. VOC(Voice of Customer) Analysis
  68. 68. Technology Sensing
  69. 69. BOTTARI Mobile App  Personalized Android Mobile App  Real-time Recommendation Service  Originally developed in CogFrame proj.  Improved to work on LarKC Platform  Based on Location-based Social Media Analysis (incl. Sentiment Analysis)  Applying Hybrid (Stream) Reasoning
  70. 70. BOTTARI 보따리• 트위터 등 소셜 빅 데이터에 대한 실시간 분석 (트랜드, 평판)• AR이 적용된 Android App. / 시맨틱웹첼린지 그랑프리
  71. 71. 미래,예측하는 것이 아닌 만들어 가는 것...Communicating Knowledge 72
  72. 72. 기술 혁신 > 낭비 하도록 만들기 (matthew Komorwski, 2010) Transistors in a CPU 지난 30년간1/1억 1천만 배 100만 배 Enterprise Strategy Group, 2010
  73. 73. 앞으로 10년 후의 왓슨? <IBM Power 750> - 10 full racks - 2880 CPU cores - 15 TB RAM - 80 teraflops / sec - 10 GE ethernet 저장 가격 1/100, 반도체 집적도 X100
  74. 74. “유일한 성공 방법은, 미래를 예측하는 것이 아니라이미 시작된 변화를 이해, 그 시간차를 이용하는 것!" Peter Drucker

×