Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

2016 kcd 세미나 발표자료. 구글포토로 바라본 인공지능과 머신러닝

4,702 views

Published on

google photos and AI, machine learning story

Published in: Engineering

2016 kcd 세미나 발표자료. 구글포토로 바라본 인공지능과 머신러닝

  1. 1. 구글포토로 알아보는 인공지능과 머신러닝 (주)핀스정보기술 이정근 cjred77@gmail.com
  2. 2. Contents Introduction Artificial Intelligence Machine Learning Deep Learning. Human Computation / Machine Computation Google Photos. 머신러닝과 우리.
  3. 3. What is AI? Some possible definitions : • Thinking humanly • Acting humanly • Thinking rationally
  4. 4. The Turing Test Turing (1950) "Computing machinery and intelligence” http://www.loebner.net/Prizef/TuringArticle.html
  5. 5. AI Connections Philosophy logic, methods of reasoning, mind vs. matter, foundations of learning and knowledge Mathematics logic, probability, optimization Economics utility, decision theory Neuroscience biological basis of intelligence Cognitive science computational models of human intelligence Linguistics rules of language, language acquisition Machine learning design of systems that use experience to improve performance Control theory design of dynamical systems that use a controller to achieve desired behavior Computer engineering, mechanical engineering, robotics,
  6. 6. IBM Watson http://www.ibm.com/smarterplanet/us/en/ibmwatson/ IBM Watson Vanquishes Human Jeopardy Foes 인공지능, 어디까지 왔니? .. IBM 왓슨에게 묻다
  7. 7. Google self-driving Car
  8. 8. Machine Learning Arthur Samuel (1958) machine learning : "Field of study that gives computers the ability to learn without being explicitly programmed". "컴퓨터에 명시적으로 프로그램되지 않고 학습 할 수 있는 능력을 주는 연구 분야.” 인공지능(AI) 의 ‘학습’에 관한부분을 구체화한 기술인 머신러닝은 데이터에 내재된 패턴, 규칙, 의미 등을 컴퓨터로 하여금 알고리즘을 기반으로 스스로 학습하게 해, 새롭게 입력되는 데이터에 대한 결과를 예측 가능하도록 하는 기술.
  9. 9. Machine Learning Microsoft CEO 사티야 나델라 미래의 ‘지능의 시대’를 여는 4가지 기술 • 사물인터넷, 클라우드 컴퓨팅, 빅데이터, 머신러닝
  10. 10. Machine Learning • Supervised Learning (지도학습) • Unsupervised Learning (비지도학습) • Semi-supervised Learning (준지도학습) • Reinforcement Learning (강화학습)
  11. 11. Supervised Learning vs. Unsupervised Learning
  12. 12. Supervised Learning • 보통의 머신러닝은 의미(lable)을 부여한 훈련 데이터를 기반으로 다른 데이터를 파악하는 지도 학습(Supervised Learning) 사용 • Facebook 나 iPhoto 에서 ‘이사람이 영희다’ 라고 계속 입력해야 영희의 얼굴을 정확하게 인식. • 아파트의 면적, 방의 갯수, 위치 등을 입력하고 아파트의 가격을 입력.
  13. 13. Supervised Learning
  14. 14. Unsupervised Learning • Supervised Learning과는 달리 , 레이블이 없는 데이터들 간의 패텅을 파악 • 입력 데이터간의 유사성에 근거하여 데이터의 요소를 군집화하거나 밀도 함수를 추론 • 스팸필터링
  15. 15. Unsupervised Learning
  16. 16. Machine Learning Supervised Learning • 일반 선형 모델 (Generalized linear models, GLM) • 의사결정 트리 (Decision trees) • 랜덤 포레스트 (Random forests) • 그래디언트 부스팅 (Gradient boosting machine, GBM) • 딥 러닝 (Deep learning) Unsupervised Learning • 클러스터링 (Clustering) • 비정상 탐지 (Anomaly detection) • 차원축소 (Dimension reduction)
  17. 17. 더 자세히알고 싶은가요?
  18. 18. Machine Learning 활용사례 • 사기방지 • 타겟팅 디지털 디스플레이 • 콘텐츠 추천 • 자동차 품질 개선 • 유망 잠재 고객에 집중 • 미디어 최적화 • 의료 보건 서비스 개선
  19. 19. Machine Learning • 머신러닝의 강점은 수많은 데이터 속에서 패턴을 스스로 찾아낸다는 것 • 미래에 관한 예측 • 하지만 • 오늘날 한국의 머신러닝은 콘텐츠 추천이나 검색 품질을 높이는 알고리즘 등 국한된 서비스에만 집중 • 마케팅 용어로만 강조
  20. 20. Deep Learning • 인간의 신경망을 모태로한 데이터 처리방식(since 1958) • 사물이나 데이터를 군집화하거나 분류(classfication)하는데 사용되는 일종의 기술적 방법론. • 핵심 학습 방식은 자율 학습 ( Unsupervised Learing) • 20~30개의 신경망 레이어로 복잡한 사물의 내용을 판단
  21. 21. History of Deep Learning • First generation (1958) : perceptrons (F. Rosenblett, 1958) • Second generation (1986) : multilayer perceptrons • Third generation (2006) : deep learning
  22. 22. History of Deep Learning • 불과 4~5년 전부터 컴퓨팅 기술과 수학이 모여 더 깊은 단계의 신경망이 구축되기 시작 • 최근 들어 새롭개 조명되는 이유 • 빅데이터 • 컴퓨팅 능력과 기술 향상 • 기계를 할 수 있는 알고리즘 발달 • http://www.aistudy.com/neural/perceptron.htm
  23. 23. Deep learning
  24. 24. 더 자세히알고 싶은가요?
  25. 25. 인공지능 ↓ 머신러닝 ↓ 딥러닝
  26. 26. Human Computation • 컴퓨터와 사람의 지능이 상호보완적으로 필요한 문제를 같이 풀도록 하는 것 • 컴퓨터가 아직 잘 못하지만 사람은 너무나 쉽게 하는 일들이 있다.
  27. 27. Machine win • 복잡한 산술적 계산 • …
  28. 28. Human win
  29. 29. Human win
  30. 30. Human win
  31. 31. Human win
  32. 32. 군중지능(집단지성) 군중에게 맡겨서 공통의 문제를 쉽게풀도록 한다.
  33. 33. 군중지능 • 위키피디아
  34. 34. 군중지능 • 오픈 소스
  35. 35. 군중지능 • 네이버 지식in (대학생이 질문하고 초딩이 답하는…)
  36. 36. inference(추론) • Deduction : 반드시 이끌기 • ‘A이면 B다’ ( AèB) 가 True이고 A가 True이면, B가 True이다. • Abdeuction : 원인 짐작 하기 • ‘A이면 B다’ (AèB)가 True이고 B가 True이면, 아마도 A가 True이다. • Induction : 짐작하여 이끌기 • 지금까지 관찰한마, A가 True일때 B가 True였으니, 아마도 ‘A이면 B다’(AèB)가 True다.
  37. 37. “가을이면 낙엽이 진다” • Deduction : • “가을이면 낙엽이 진다”를 교육 • Input : “지금은 가을이다” • Output : “낙엽이 진다”
  38. 38. “가을이면 낙엽이 진다” • Abduction : • “가을이면 낙엽이 진다” 를 교육 • Input : “낙엽이 진다” • Output : “지금은 가을일지도 모른다”
  39. 39. “가을이면 낙엽이 진다” • Induction : • “가을이면 낙엽이 진다”를 가르치지 않음 • “지금은 가을이다” 와 “낙엽이 진다”를 지속적으로 교육 • “가을이면 낙엽이 진다”를 유추
  40. 40. “철수와 영희가 사귄다면 영희의 생일날 철수가 영희에게 선물을 준다.” • Deduction : • 영희의 생일날이면(조건) 철수는 영희에게 선물을 준다(결과) • Abduction : • 철수가 영희에게 선물을 준다(조건) 영희의 생일일 것이다.(결과) • Induction (철수가 영희와 사귄다는 사실을 모름) : • 영희의 생일이고 철수가 영희에게 선물을 준다(조건) • 철수와 영희가 사귀는 사이일지 모른다.
  41. 41. 연역적 추론 , 귀납적 추론 • 연역적 추론 : • 이미 알고 있는 판단을 근거로 새로운 판단을 유도. • 귀납적 추론 : • 기존의 지식이나 데이터를 관찰하여, 그들 사이에 성립되는 일반적 성질 또는 관계를 이끌어 내거나, 반복되는 현상의 패턴들의 법칙을 형식화.
  42. 42. Induction(귀납적 추론) deduction은 명제가 거의 확실하므로 추론도 거의 틀리지 않고 abduction 역시 어느정도는 틀리지 않는 추론이 가능하고 컴퓨터로 구현하기도 어려움이 없다. 하지만 induction은 통찰을 얻기 위해서는 많은 데이터(빅데이터)와 많은 수학적 계산이 필요하다.
  43. 43. 이상거래 탐지 시스템(FDS) • 어떠한 개인이 매달 25일쯤이 되면 일정한 범위의 지역의 ATM기기에서 일정한 범위(10 ~ 100 만원 정도의 오차)의 금액을 인출하는 패턴이 어느 기간동안 데이터로 저장. • 위와 같은 패턴 (정상경우) • 간단한 비밀번호만으로 돈의 인출을 승인. • 25일 이전 or 전혀 다른 위치 or 너무 많은 인출요청 (비정상경우) • 이상거래로 판단 • 보다 자세한 개인정보나 인출단계를 요구
  44. 44. Google Photos
  45. 45. Google Photos • 넘쳐나는 디지털사진 • 저장 공간 문제 • 고질적인 사진정리 문제 • 어디까지 지우고 어디까지 보관 ? • 어딘가에 일단 쌓아둠 • 그리고 잊혀짐…
  46. 46. Google Photos • 클라우드 저장 서비스들 (수십기가바이트에서 수테라바이트) • 외장하드
  47. 47. Google Photos • 사진 전용 클라우드 저장 서비스들
  48. 48. Google Photos
  49. 49. Google Photos • 구글포토가 인기를 얻게 된 이유 • 단순히 용량 문제는 아님 • 놀라게 되는 가장 큰 이유는… “사진을 이야기로 만들어 준다”
  50. 50. Google Photos • 같은 장소에서 찍은 사진 • 특정 날짜나 여행지 • 사진의 맥략을 읽고 중요한 내용을 묶어준다.
  51. 51. Google Photos • 국내에선 아직 안되지만 인물별로도 분류
  52. 52. Google Photos • 하지만 그걸 사용자에게 일일이 ‘누구인지’, ‘어디인지’, ‘무슨 이벤트인지’에 대해 잘 묻지않는다. • 듬성등성 묶어놓은 위에 “사진 묶어 뒀다’라고 알려줌 • 제목과 이름 • 정확한 장소 정보
  53. 53. Google Photos • 바로 이안에 머신러닝이 숨어있음.
  54. 54. Google Photos • 오래전부터 구글은 이미지 검색에 굉장히 공을 들여 왔음. • 고양이 사진, 가족사진, 자동차 사진 등을 구분해내기 위해 많은 노력을 해옴. • 결국 구글이 얻은 결과는 머신러닝
  55. 55. Google Photos • 각 피사체가 갖는 특징을 프로그래밍으로 설명해 넣는게 아니라 알고리즘으로 시스템이 직접 배우고 판단하도록 열어놓은 것 • 구글 포토역시 머신러닝 기반으로 사진을 묶는다. • 당연히 사진에 담긴 정보를 이해할 수 있어야함.
  56. 56. Google Photos • 사진으로 얻을 수 있는 정보는 생각보다 많음.
  57. 57. Google Photos • 단번에 어떤 사진인지 알아챌 수 있다면 좋겠지만 그건 쉽지 않다. • 엄청나게 많은 정보가 필요하기 때문
  58. 58. Google Photos • 구글이 선택한 방식 (뉴로 네트워크)
  59. 59. Google Photos • 사물을 판단하는데에 단계를 둠 • 각각의 레이어를 통해 색, 선, 모양 등을 하나씩 골라내면서 사진의 정보를 구체화 • 구글 포토는 현재 22개의 레이어를 통해 사진의 정보를 얻어냄
  60. 60. Google Photos • 결국 사용자들이 더 많은 사진을 올리고 이용할 수록 그 정확도는 높아짐. • 머신러닝의 핵심은 결국 많은 ‘러닝’, 즉 ‘학습’이 이루어져야 한다는 것
  61. 61. Google Photos • 그래서 현재 구글포토는 단순히 ‘개’가 아니라 ‘프렌치불독’이나 ‘옐로 래브라도’처럼 입력해도 사진을 찾아준다.
  62. 62. Google Photos • 자동차 모델명 찾는건 일도 아님 • 구글포토에서 갖고 있는 사진을 검색해보시면 아기나 남자, 여자도 구분하고 골프장, 절벽, 음식 등 온갖 일반적인 검색이 다 먹힘
  63. 63. Google Photos • 바로 우리가 사진을 업로드하는 동안 사진의 정보가 다 읽혀진 것임. • 물론 그안에는 아주 간단한 메타정보도 포함. (GPS, 시간)
  64. 64. Google Photos • 예를 들어 구글포토에서는 아주 독특한 옷을 입고 있는 사진을 보았을때 촬영한 날짜가 10월 말 이었다면 할로윈 이벤트인지 알 수 있음. • 1월이면 코믹콘일 가능성이 높다고 판단
  65. 65. Google Photos • 정확한 위치정보가 없어도 됨. • 어떤 사진을 보고 ‘파리’라고 인지 할수 있는건 왜일까? • 에펠탑이 있기 때문. • 개선문이 있기 때문 • 머신러닝이 그걸 찾아내는 건 아주 쉬움. • 날씨나 밤낮 같은건 거슬릴 게 없음 • 앞에 설명했던 개나 고양이 경우보다 더 쉬움.
  66. 66. Google Photos “데이터는 정확도” • 많은 사람들이 구글에 사진을 올리면 그만큼 더 많은 머신러닝의 소재가 되는 정보를 수집 할 수 있음. • 이미 구글은 그 효과를 보고 있음. • 5개월만에 1억명 이상의 열성 이용자들을 모았고, 이들이 500억장이 넘는 사진을 인터넷에 올렸음. http://www.theverge.com/2015/10/20/9576713/googl e-photos-100-million-users • 배울 소재가 넘쳐남
  67. 67. Google Photos • 판단이 틀리기도 함. • 사람을 고릴라로 인식하는 등 사회적으로 시끄러운 사건이 생기기도함 http://mashable.com/2015/07/01/google-photos- black-people-gorillas/#J6hTQQ_MvGqp • 하지만 결국 그 사건은 구글의 머신러닝 기술을 더 정밀하게 만들었음. • 이게 머신러닝의 특징이기도 함. • 머신이 뭘 배우게 될지, 어떤 판단을 할 지에 대해 프로그래머도 알 수 없고, 정보가 부족하면 전혀 엉뚱한 답을 내놓기도 함.
  68. 68. Google Photos • 사실 이건 30여년 전 , 머신러닝에 대한 개념이 나오면서부터 겪던 문제였음. • 그 해결책 중 하나가 딥러닝이긴 함. • 하지만 근본적으로 구글은 더 많은 정보를 모으는 것이 답이라는 것을 아주 잘 알고 있음. • 정보가 아주 많으면 오류는 급격하게 줄어 듬. • 얼마나 많은 정보를 모으느냐가 관건인 셈임. • 그리고 구글만큼 탁실하게, 그리고 안전하게 세계의 정보를 쌓아가는 회사도 흔치 않음.
  69. 69. Google Photos • 또 다른 대표적인 사례가 변역. • 그동안 수많은 회사들이 컴퓨터를 이용한 번역기를 개발해 왔지만 실제로 쓰기는 쉽지 않았음. • ‘기계번역’. 말그대로 사전을 대조하는 방삭이 많이 쓰였음. • 구글은 여기에도 머신러닝을 붙여서 아예 문장을 통째로 번역
  70. 70. Google Photos • ‘Good morning” • 좋은 아침 (X) à 안녕 (O) • 이런 정보를 엄청나게 많이 갖게 되면 은어나 속어, 학술용어까지도 다 이해할 수 있게 되는 것임.
  71. 71. Google Photos • 이미지번역 https://support.google.com/translate/answer/6142483 ?hl=ko
  72. 72. TensorFlow •https://www.tensorflow.org/
  73. 73. TensorFlow • Google에서 만들어 오픈소스로 공개한 머신러닝 엔진 • 수학, 물리학, 통계학 등 다양한 학문 분야에서 활용 • 구글이 텐서플로에 기대하는 이용자는 학계와 산업 현장, 그리고 더 나아가 데이터를 충분히 갖고 있는 경쟁자들도 포함. • Google Photo • Google Search(Rank brain) • Gmail (Smart reply).
  74. 74. 머신러닝과 우리 • 우리는 머신러닝을 ‘할때’가 아니다. • 머신러닝을 ‘써야 할 때다’ • 그것도 아주 잘 활용해야 한다. • 어떤 회사든 개인이든 활용을 위해 머신러닝 자체를 면밀히 파악해야겠지만, 그 기술자체를 만들겠다고, 말 그대로 ‘머신러닝을 하겠다’고 덤벼선 곤란하다. • 머신러닝은 툴이다.
  75. 75. 머신러닝과 우리 • https://cloud.google.com/vision/ • http://www.bloter.net/archives/245206
  76. 76. 머신러닝과 우리 • 대표적인 머신러닝을 활용하는 회사 • 데이블 https://dable.io/Home • 언론사에 뉴스추천 서비스를 제공 • 플런티 http://www.fluenty.co/ • 모바일용 자동 문자답변 서비스 제공 • 루닛 http://lunit.io/ • 의료영상 중 엑스레이 판독 보조
  77. 77. 머신러닝과 우리 • 데이블 “머신러닝 알고리즘을 세세하게 다룰 전문가를 고용하지 않았다. 뼈대인 알고리즘을 가져다 데이블 서비스에 맞도록 조율하는 정도다. 데이블의 관심은멋진 머신러닝 시스템을 만드는 게 아니다. 원하는 결과가 나오면 충분할 뿐, 스스로 연구원이 될 필요는 없다는 관점이다. 주어진 조건에서 목표를 달성할 수 있는 가장 효과적인 도구가 머신러닝이었던 것이다.” http://www.zdnet.co.kr/news/news_view.asp?artice_id=201 51223102226
  78. 78. 머신러닝과 우리 몇년전 어떤 벤쳐CEO가 앱개발자에게 “ 요즘 카카오톡이라는 앱이 인기라며? 그런거 우리도 하나 만들어서 서비스하면 돈이 좀 될것 같은데 그거 만드는데 얼마나 걸릴까? ”
  79. 79. 머신러닝과 우리 • 대부분의 스타트업은 머신러닝 자체를 연구하기보다, 머신러닝을 활용한 새로운 비즈니스를 개발한다. • 머신러닝 자체를 만들기보다 머신러닝을 얼마나 잘 활용하느냐가 성공을 가를 것이란 예측이 가능하다. • 머신러닝은 누군가 독점하는 플랫폼이 아니다. • 능력만 된다면 누구나 쓸 수 있다. • 플랫폼이 아니므로 종속될 걱정도 없다. 그냥 거인의 어깨에 올라타면 된다.
  80. 80. 머신러닝을 알아야할 5가지 • 머신러닝은 모두에게 블랙박스와 같다. • 백문이 불여일견, 신뢰하되 검증하라. • 때로는 작아야 많이 담을 수 있다. • 머신러닝은 분석 도구 중 하나다. • 응용은 사람의 몫 • http://www.itdaily.kr/news/articleView.html?idxno=73632
  81. 81. Book • 인공지능 세트(현대적 접근방식) http://www.kangcom.com/sub/view.asp?sku=201601195782 • 머신러닝 (데이터를 이해하는 알고리즘의 예술과 과학) http://www.kangcom.com/sub/view.asp?sku=201601149629
  82. 82. Link • 로보틱스와 머신 러닝/인공지능 무료 교재 추천 15권 http://slownews.kr/36701 • 코세라(스텐포트 머신러닝 코스) https://www.coursera.org/learn/machine-learning/
  83. 83. Link • “기계에 지능을 더하는” 머신러닝의 이해 http://www.itworld.co.kr/techlibrary/91743 • http://www.itworld.co.kr/news/91546 • http://www.it.co.kr/news/article.html?no=2794932&sec_n o=152 • https://googleblog.blogspot.kr/2015/10/11-things-to- know-about-google-photos.html • 머신러닝에 대해 알아야할 5가지 http://www.itdaily.kr/news/articleView.html?idxno=73632

×