Successfully reported this slideshow.
Your SlideShare is downloading. ×

Memento, 그 사람에 대한 모든 정보

Memento, 그 사람에 대한 모든 정보

Download to read offline

Memento, 그 사람에 대한 모든 정보 @ SW_Maestro_ 7th

관심있는 유명인 “그”에 대해 알고 싶을 때
“그”가 살았던 인생을 들려주는 서비스

Memento, 그 사람에 대한 모든 정보 @ SW_Maestro_ 7th

관심있는 유명인 “그”에 대해 알고 싶을 때
“그”가 살았던 인생을 들려주는 서비스

Advertisement
Advertisement

More Related Content

Advertisement

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Memento, 그 사람에 대한 모든 정보

  1. 1. 이영수 백동환 배지운 멘토 최광선 SW_Maestro 7기 팀 메멘토 2017년 6월 23일 1
  2. 2. 서비스 소개 목차 기술 소개 서비스 컨셉 기술 흐름도 팀내 역할 분 담 서비스 가치 팀 메멘 토 스토리 사용자 분석 기능 및 사용자 경험 기술 파트 및 목표 기술 구현 기술 성과 역경과 극복 성과 지표 서비스 시연 운영관리 도구 2 유저 반 응 사업화 가능 성 전문가 피드 백
  3. 3. 관심있는 유명인 “그”에 대해 알고 싶을 때 “그”가 살았던 인생을 들려 주는 서비 스 팬이나 미디어 소식을 알고 싶은 사 람이 1) 서비스 컨셉 얘가 이 사건 때문에 유명해졌구나 이 사건은 이렇게 진행되었네 이때 이 연기 대박이었는데, 다시 한번 봐 볼까? 이 사람은 최근 뭐하고 지냈으려나 다른 사람도 이렇게 느꼈구나. 나만 그런 게 아니었네 맞아. 이때는 다들 이 사람 욕만 했지.. 서비스 소개 3
  4. 4. 언제 어디서나 볼 수 있는 매거진으로 만들어주자 그것도 기술을 이용해서 자동 으로! 웹 상에 넘쳐나는 단편적인 정보를 모두 모아 1) 서비스 컨셉 그 사람의 인생 이야기 를 그 때의 분위기를 반영하여 서비스 소개 인생 이야 기 분위기 매거진 기술 자동 4
  5. 5. 2) 사용자 분석 연예인 팬 미디어 정보에 뒤쳐지기 싫 은 인물 매거 진 사건 매거 진 • 한 눈에 파악하는 사건 • 현장의 분위기 파악 및 공감 위클리 메멘토 & 홈 • 미디어 배경지식 제공 • 컨텐츠 추천 • 인물의 삶을 꿰뚫어 보는 경험 • 인물에 대한 팬심과 관심의 표 현 서비스 소개 5 페르소나 기능 및 사용자 경험
  6. 6. 3) 기능 및 사용자 경험 • 요즘 자주 나오던데, 어떤 이유로 뜨게 된 거 지? • 얘가 어떤 사건들을 겪었더라? • 대중들은 이 사람에 대해 어떻게 생각하고 있 지? 타임라인 왜 떴을까? 재미로 보는 능력 치 사용자 참여 대표사진 선 택 한마디로 인물 매거 진 서비스 소개 6 인물의 삶을 꿰뚫어 보는 경 험 인물에 대한 팬심과 관심의 표 현 • 좋아하는 연예인의 장점을 알리자 • 더 예쁜 사진을 수집하거나 공유 하자
  7. 7. 사건 매거 진 • 얼마나 이슈 되었던 사건이지? • 사람들의 반응은 어땠지? 3줄 요약 이슈 등급 사람들의 반 응 관련 기사 모아주 기 연관 키워 드 서비스 소개 • 볼만한 기사들이 뭐가 있을까? • 사건을 간단하게 요약하자면? • 이 사건과 관련된 게 무엇이 있고 뭐 가 중요하지? 7 한 눈에 파악하는 사건 3) 기능 및 사용자 경험 현장의 분위기 파악 및 공 감
  8. 8. 위클리 메멘토 & 홈 • 꼭 알아야 하는 사건이 뭐가 있을까? • 이 사람은 내가 몰랐는데, 유명한가 보네 • 요즘 친구들이 얘기하던 사건이 이거 구나 • 심심한데 볼만한 건 없나? • 아 이런 사건도 있었구나, 잘 몰랐던 건 데 주간 핵심 사 건 3년전 오늘 사건 탐색 트렌디 피 플 볼만한 사건 들 서비스 소개 8 3) 기능 및 사용자 경험 대화 시 필요한 미디어 지식 제 공 인물 및 사건 중심의 컨텐츠 추천
  9. 9. 4) 서비스 시연서비스 소개 약 350명의 유명인을 대상으로 베타서비스 중 지속적으로 인물 추가 중 9 https://memento.live
  10. 10. 서비스 소개 기술 소개 서비스 컨셉 기술 흐름도 서비스 가치 팀 메멘 토 스토리 사용자 분석 기능 및 사용자 경험 기술 파트 및 목표 기술 구현 기술 성과 서비스 시연 운영관리 도구 팀내 역할 분 담 역경과 극복 성과 지표 10 유저 반 응 사업화 가능 성 전문가 피드 백
  11. 11. 인물관계 API 이미지 API 기술 소개 1) 기술 흐름도 인물 매거진 사건 매거진 타임라인 IN맥 사진 관련 인물 사람들의 반응 사진 3줄 요약 인물 전처리 과정 개체 및 사건 임베딩 중복사건 병합, 부가정보 분석 인물 및 사건 가 공 뉴스댓 글 수집기 뉴스기 사 수집기 위키 수집기 이미지 수집기 인스타 그램 수집기 수집 분석 데이터 가공·관리 생성·배포 11 사건 클러스터링
  12. 12. 2) 기술 파트 및 목표기술 소개 12 ① 하루에 수백 명 이상의 유명인 중심 정보 수집 ② 새로운 채널이 생겼을 때 기존 시스템 변경 없이 빠르게 대응할 수 있는 구 조 ① 90% 이상의 개체 명 인식 & 동명 이인 분리 ② 수천, 수 만개의 사건을 단시간 내에 처리 ① 30년 이상의 인물·사건 정보를 가공·관리 ② 확장성 있는 설계를 통한 신규 비정형 데이터 수용이 용이한 구 조 ① 서비스와 수집·분석 작업의 분리를 통한 부하 최소화 ② 명료한 프로세스 설계 및 새벽시간 동안 생성·배포 완료 수집 분석 데이터 가공·관리 생성·배포
  13. 13. 생성·배포가공·관리분석 3) 기술 구현 | 수집 Part 1 기술 소개 13 1) 하루에 수백 명 이상의 유명인 중심 정보 수집 2) 새로운 채널이 생겼을 때 기존 시스템 변경 없이 빠르게 대응할 수 있는 구조 사건, 사진, 인적정보, 인물 관계 등 서비스 기능 추가, 타 서비스 제휴 등 수집
  14. 14. 대중 반 응 웹 크롤링 웹 크롤링 뉴스 기사 모듈 DB 덤프 웹 크롤링 API 3) 기술 구현 | 수집 Part 1 기술 소개 사건, 사진, 인적 정보, 인물 관계 등의 데 이터 인스타그램 모듈 위키 모 듈 뉴스 댓 글 모듈 이미지 모듈 새로운 채널이 생겼을 때 확장 용이 용도에 맞는 내부 방식으로 빠르게 수집 가 능 사건 사진 인적 정보 인물 관 계 유명인 중심의 정보 수집 데이터 채널 별 수집기 분 리
  15. 15. 뉴스 기사 관리 프로그램 통신 및 수집 대상 탐색 수집 프로세 스 수집 프로세 스 수집 프로세 스 수집 프로세 스 수집 결과 저장 컨테이너 기술 Docker 활 용 3) 기술 구현 | 수집 Part 1 기술 소개 15 뉴스 기 사 모듈 가상환경으로 모듈 패키 징
  16. 16. 3) 기술 구현 | 수집 Part 1 수집#문재인 수집#아이유 수집#김연아 수집#박근혜 수집#유재석 수집 모듈 관리기 수집#공유수집#김태희 수집#다현 수집#설리 서버 1 서버 2 서버 3 기술 소개 16 : 모듈 스케줄링 및 오류관리 : 뉴스기사 수집기 Docker 인스턴스 수집속도 향상 및 순간대응 가 능 관리기 (대선 등 데이터가 많이 생성되는 특수한 날) 다수 서버에서 동시에 수집 진 행
  17. 17. 3) 기술 구현 | 분석 Part 2 기술 소개 17 1) 90% 이상의 개체 명 인식 & 동명 이인 분리 2) 수천, 수 만개의 사건을 단시간 내에 처리 하루동안 발생하는 모든 사건을 새벽 시간 동안 처리 생성·배포가공·관리분석수집 사람 이름, 추후 제품으로 확 장
  18. 18. 3) 기술 구현 | 분석 Part 2 기술 소개 데이터의 특징을 잘 살려서 다루기 쉬운 숫자로 변환 데이터의 포함된 인물과 사건 기반으로 유사한 데이터 모음 중복 사건 제거 이벤트 등록 형태소 분석 메타 데이터 분석 개체명 인식 동명 이인 분리 소프트웨어 마에스트로 짱 뉴스기사 댓글댓글 … 수집된 데이터 이벤트 이벤트 이벤트 분석 프로세스 Embedding Clustering 병합 전처리 과정 18
  19. 19. 3) 기술 구현 | 분석 Part 2 기술 소개 19 전처리 과정 김태희 작가는 29일 오후 서울 마포구 상암동 MBC 상암 신사옥에서 진행된 '2014 MBC 방송연예대상'에 참석했다. 이날 '황금어장-라디오스타'로 작가상을 받은 김태희 작가 는 "영광스러운 상을 받아 정말 기쁘다"고 말문을 열었다. 이어 그는 "그만둔 지 꽤 됐지만 '무한도전' PD님과 멤버 들에게도 감사하다"며 "특히 고구마를 가지고 가다 넘어 진 노홍철과 정형돈의 고백을 거절했을 때가 생각나 미안 한 마음을 갖고 있다"고 말해 시상식장을 웃음바다로 만 들었다. 한편 김태희 작가 수상 소감에서 언급된 '무한도전'의 메 인 MC 유재석은 같은 날 MBC 방송연예대상을 받았다. 개체명 인식 외래어가 혼재된 개체명도 인식 가능 여러 형태소로 분리되는 이름들도 묶 음 한국어 개체명 인식을 위한 자질 추 가 여러 오픈 소스도 앙상블 90% 이상의 정확도
  20. 20. 3) 기술 구현 | 분석 Part 2 기술 소개 20 배우 김태희 연관 키워드 작가, 서울, 마포구, 상암동, 황금어장, 라 디오스타, 작가상, 수 상, 소감, 무한도전 작가 김태희 연관 키워드 같은 “김태희” 인가? 김태희 작가는 29일 오후 서울 마포구 상암동 MBC 상암 신사옥에서 진행된 '2014 MBC 방송연예대상'에 참석했다. 이날 '황금어장-라디오스타'로 작가상을 받은 김태희 작가 는 "영광스러운 상을 받아 정말 기쁘다"고 말문을 열었다. 이어 그는 "그만둔 지 꽤 됐지만 '무한도전' PD님과 멤버 들에게도 감사하다"며 "특히 고구마를 가지고 가다 넘어 진 노홍철과 정형돈의 고백을 거절했을 때가 생각나 미안 한 마음을 갖고 있다"고 말해 시상식장을 웃음바다로 만 들었다. 한편 김태희 작가 수상 소감에서 언급된 '무한도전'의 메 인 MC 유재석은 같은 날 MBC 방송연예대상을 받았다. 전처리 과정
  21. 21. 3) 기술 구현 | 분석 Part 2 기술 소개 21 소프트웨어 마에스트로 짱짱 뉴스기사 내용 제목 … 전처리된 데이터 문서의 특징이 표현된 벡터공간 단어_김태희 단어_비 단어_박근혜 단어_최순실 단어_여신 문서_박근혜 탄핵 문서_헌법 판결문 문서_최순실 출석 단어_아이리스 Doc2Vec 단어_탄핵 문서_김태희 비 결혼 문서_김태희 아이리스 출현 • 날짜 단위로 세분화 분리할 수 있는 사건을 미리 분리하여 정확도 향상 • 형태소 분리 및 가중치 특정 형태소에 가중치를 부여해 정확도 향상 • 수집된 데이터의 특징을 살려 분석 기사의 메타데이터를 통해 rule-base로 미리 분리 연관된 문서와 단어, 관계 파악 수학적 연산이 가능한 벡터 형태 Embedding
  22. 22. 3) 기술 구현 | 분석 Part 2 기술 소개 문서_김태희 비 결혼 문서_박근혜 탄핵 문서_헌법 판결문 similarity 문서_김태희 비 연애 문서_김태희 아이리스 시청률 문서_군대간 비 문서_최순실 출석 문서_박근혜 대선 당선 문서_장시호 증언 문서_소프트웨어 마에스트로 Doc2vec, TF-IDF와 교차 검증하여 threshold를 재조정, 최적의 값을 찾아내고 반영 threshold • 계속 발전해 나가는 구조 미리 구축된 인물 정보에서 인물을 구 별할 만한 정보가 많이 있느냐 에 따라 서 엄격하게/느슨하게 분리 • 인물마다 서로 다른 threshold 중복되거나 비슷한 문서를 한데 모아 하나의 사건으로 재구성하고 사건 사이의 관계를 파악 여러 문서를 모아 사건을 재구 성 Clustering 같은 사건으로 정의하는 일종의 임계치 22
  23. 23. 서버 1 서버 2 수집 · 분석 모듈 관리기 수집#김태희 수집#문재인 수집#아이 유 수집#김연 아 수집#박근혜 수집#유재석 수집#공유 동일 사건 병합기 분석#김태희 분석#문재인 분석#아이유 분석#김연아 분석#박근혜 분석#유재석 분석#공유 대기 대기 대기 3) 기술 구현 | 분석 Part 2 기술 소개 23 분석속도 향상 및 순간대응 가능(대선 등 데이터가 많이 생성되는 특수한 날) 다수 서버에서 동시에 분석 진행
  24. 24. 3) 기술 구현 | 데이터 가공·관리 Part 3 기술 소개 24 1) 30년 이상의 인물·사건 정보를 가공·관리 2) 확장성 있는 설계를 통한 신규 비정형 데이터 수용이 용이한 구조 수집·분석 과정을 거친 정보 비정형 + 관계형 융 합 생성·배포가공·관리분석수집 (인물-인물 관계, 인물-사건 관계 등)
  25. 25. 3) 기술 구현 | 데이터 가공·관리 Part 3 Raw Data Storage Service Database 수집기 분석기 웹 서비스 검수 및 병합 기술 소개 25 수집 및 분석 작업에서 사용되는 원본 데이터 스토리지와 실제 서비스에서 사용되는 데이터베이스 분리
  26. 26. 3) 기술 구현 | 데이터 가공·관리 Part 3 Service Database ”인물”과 “사건”에 대한 정리된 정보 (관계형) • 서비스 확장이 가능한 데이터 모델 설계 • 통합 API를 통한 데이터 가공·관리 + 문서화를 통한 커뮤니케이션 비용 감소 인물 뿐만 아니라 기업/제품/미디어로 확장 가능 Raw Data Storage 인물 사전, 뉴스 기사, 댓글, SNS 등의 원본 데이터• Document Search Engine 비정형 데이터 위주, 관계 쿼리 최소화 • 스토리지 분할을 통한 수십 년간의 대량 데이터 효율적 저장 가능 기술 소개 26
  27. 27. 3) 기술 구현 | 생성·배포 Part 4 기술 소개 27 1) 서비스와 수집·분석 작업의 분리를 통한 부하 최 소화 2) 명료한 프로세스 설계 및 새벽시간 동안 생성·배포 완 료 사용자가 폭증해도 서비스 정상 작동 사용자 접속과 수집·분석 사이의 프로세 스 생성·배포가공·관리분석수집 매일 신규 인물/사건 매거진 발 행
  28. 28. 흩어진 정보를 모아 사건과 인물 로 재구성해서 보여주는 일종의 잡지 일정 주기 마다 매거진을 만드는 구조 서비스 운용 비용 ▼ 캐시를 통한 접근속도 ▲ 사용자 트래픽과 수집 · 분석계층은 비 동기적인 시점을 가져야함 정적 웹 채택 3) 기술 구현 | 생성·배포 Part 4 기술 소개 28 웹 서비스 사용 자 수집 분석 정적 웹 기술 도입 이유
  29. 29. 신규 사건/인물 페이지만 생성 멀티 프로세싱 3) 기술 구현 | 생성·배포 Part 4 기술 소개 29 정적 웹을 이용한 생성·배포 기술의 목 표 코어와 서비스코드 분 리 정적 웹 프레임워크 (코 어) 서비스 코드 파일 변경시간 트래킹 오류 제어 실시간 개발모드 지원 템플릿과 asset 파일 구분으 로 관리포인트 분산 ① 생성 및 배포 속도가 빨라야 한다 ② Fault Tolerant 해야 한다 ③ 유지보수가 용이해야 한다 ④ 프로세스가 명료해야 한다 데이터 인출 – 랜더링 - 배 포 프로세스 도입 및 명시 통합 API 서버 및 클라우드 서비스 연동 범용 라이브러리로 제작 및 오픈소스화 :직지(Jikji)② Fault Tolerant : 중간에 문제가 발생해도, 퍼블리시 작업 전체가 중단 되면 안된 다
  30. 30. #랜더링 인물 > 김태희배포 API 데이터 전처리 & 생성 관리 서비스 배포 Amazon S3 서비스 코드 3) 기술 구현 | 생성·배포 Part 4 정적 웹 프레임워 크 #랜더링 사건 > 1031 #랜더링 위클리 메멘토 #랜더링 홈 #랜더링 인물 > 김연아 #랜더링 사건 > 2574… … 기술 소개 30 생성 및 배포 작업 흐름 도 클라우드 스토리지 + CDN 사용자 트래픽 완벽 대응
  31. 31. 4) 기술 성과기술 소개 31 ① 유명인 300여명에 대한 국내에서 발행되는 모든 뉴스기사, 댓글, SNS 매일 수 집 가능 ② 모듈화를 통해 시스템 변경 없이 신규 채널 추가 가능 ① 구축한 인물 사전을 바탕으로 개체 명 인식 & 동명 이인 분리 가능 ② 매일 발생하는 사건을 2시간 이내에 분석 가능 ① 80GB 이상의 원본 데이터와 10만개의 가공된 사건 정보 관리 중 ② 원본 스토리지 및 서비스 데이터베이스 분리를 통한 확장성 확보 ① 정적 웹을 이용하여 사용자 트래픽 완벽 대응 ② 프레임워크 설계를 통한 명료한 프로세스 설계 및 초당 100페이지 이상의 생성 속 도 확보 수집 분석 데이터 가공·관리 생성·배포
  32. 32. 5) 운영관리 도구기술 소개 32 자동화와 가상화를 바탕으로 사람의 큰 개입 없이 운영 가능 운영관리 도구를 통해 지속적 서비스 품질 향상 가능 https://monitor.memento.live
  33. 33. 서비스 소개 기술 소개 기술 흐름도 기술 파트 및 목표 기술 구현 기술 성과 운영관리 도구 유저 반 응 서비스 가치 사업화 가능 성 팀 메멘 토 스토리 팀내 역할 분 담 역경과 극복 성과 지표 33 전문가 피드 백 서비스 컨셉 사용자 분석 기능 및 사용자 경험 서비스 시연
  34. 34. 서비스 가치 1) 유저 반응 34 베타서비스 공개 후 유저 반 응 연예인 팬 미디어 정보에 뒤쳐지기 싫 은 관련된 컨텐츠를 모아 정리해서 보여줘서 좋다 내가 좋아하는 사람의 정보를 잘 볼 수 있어서 좋다 새롭게 일어나는 수많은 사건을 정리해서 보여줘서 좋다 메멘토 서비스가 만족스러운 이유 내가 좋아하는 인물을 검색하기 위해서 잘 모르는 인물을 알아보기 위해서 최근에 일어났던 중요한 사건들에 대해 알아보기 위해서 메멘토 서비스 사용 이유
  35. 35. 2) 전문가 피드백 • 소셜 마케팅 분석전문 스타트업 CEO • 미디어 분석 전문가 • 전문 서비스 기획자 • 빅데이터 전문가 • 기계학습 전문 멘토 기술을 바탕으로 유명인에 관한 정보를 정리해서 제공한다는 점 ”새로운 시도” 기업이나 정치인/공인들이 매우 좋아할 것 - 김태완, Oracle - 신석원, 루디엔 대표 35 초청한 전문가 전문가 평가 서비스 가치
  36. 36. 3) 사업화 가능성 36 서비스 가치 현재 메멘토 서비 스 기술 연구, 사용자 피드백 확보시범 운영 스타 중심의 마케 팅 • 특정 스타 중심의 마케팅이 중요한 서비스 회사와 협력 • 정치인 및 공인 대상으로도 활용 가능 • 메뉴 혹은 위젯 형태로 팬들이 모여 있는 다양한 곳에 적용 가능 인물에서 제품으로 확장 • 제품이나 영화, 드라마 등의 미디어로도 확장 가능 • 제품의 정보를 제공하는 사이트(ex 쇼핑몰)에 위젯 제공 가능
  37. 37. 팀내 역할 분담 팀 메멘 토 스토리 역경과 극복 성과 지표 37 서비스 소개 기술 소개 기술 흐름도 기술 파트 및 목표 기술 구현 기술 성과 운영관리 도구 서비스 컨셉 사용자 분석 기능 및 사용자 경험 서비스 시연 서비스 가치 유저 반 응 사업화 가능 성 전문가 피드 백
  38. 38. 팀 메멘 토 스토리 1) 팀내 역할 분담 수집 분석데이터 가공·관 리 생성 및 배포 기술 기술기술기술 UX/UI UX/UI 관리 대시보 드 배지운 멘티백동환 멘티이영수 멘티 38 기존 자신의 전문 분야 역량 강화 + 공동 작업을 통한 기술 스펙트럼 확장
  39. 39. 팀 메멘 토 스토리 1) 팀내 역할 분담 39 기획/설계 과정은 공동으로 체계적 절차와 함께 진행
  40. 40. 2) 역경과 극복 40 팀 메멘 토 스토리 1차 기획심의 2차 기획심의 불통 과 원인 파 악 3차 기획심의 통과 기획 심의 서비스에 대한 불확실 성 1 기술적으로 가능한 가? 2 사용자가 정말 좋아할까? 타겟 사용자 설문조사 기술 검증 (최소기능제품) 우선 개발 + 데이터 분석 전문가, 빅데이터·머신러닝 전문 멘토 초청 MVP 기술 가능성 검증 체계적 기획 과정 + 사용자 피드백 + 전문 기획자 자문 사용자 분석 페르소나 사용자 경험 설계 기능 및 스토리보드 구성… 고객 중심의 재 기획 (Pain/Gain Point 도출 등) 전문가 초청 관점의 변화 (우리 → 고객) 심사 피드백 반영 및 개선 개선 긍정적 피드백
  41. 41. 3) 성과 지표 총 멘토링 횟수 40+ 총 멘토링 시간 170+ 커밋 수 550+ 코드 라인 수 60k 수집한 데이터 수 80GB 기계가 스스로 학습한 시간 500h 읽은 논문 수 20+ 초빙한 외부 멘토 / 전문가 6명 41 팀 메멘 토 스토리
  42. 42. 감사합니다 메멘토 그 사람에 대한 모든 정보 42
  43. 43. 43 43 2월 3월 4월 5월 6월 UX UI 수집 분석 생성 관리 1차 개발기간 2차 개발기간 보완 단 계 분석엔진 기본모델 개발 모바일 웹 최소기능제 품 개발 뉴스기사, 댓글 및 위키 수집 가공 모듈 개발 통합 시스템 설계 및 개발 수집 매지니먼트 프레임워크 개발이미지 및 SNS 수집 클러스터링 및 핵심 정보 추출 보완 부가 정보 분석 2차 컨텐츠 개발 사용자 상호작용 기능 개 발 사용자 상호작용 모듈 수집기 및 분석기 통 신 데이터 및 데이터베이스설계 검수 페이지 개발 사용자 요구 분석 및 차별화 포인트 도출 1차 컨텐츠 기능 확정 및 2차 컨텐츠 고안 MVP 페이지 UI 작업 테스트서버 배포 자동 화 클라우드 서비스 연계배포 범용 정적 웹 생 성 라이브러리 개발 컨텐츠 보완 및 점검 MVP 점검 및 기능 추가 고안 디자이너 협업하여 추가 화면 UI 작업 및 개선 정상 추 진 약간 지 체 매우 지 체 개발 취 소 정확도 향상 APPENDIX: 개발 일정
  44. 44. 44 APPENDIX: 사용자 분석
  45. 45. 45 APPENDIX: 기능 도출 과정
  46. 46. 46 네이버 통합검색 인물사전 뉴스 나무위키 메멘토 정보의 실시간성 △ X O △ △ 정보의 신뢰성 O O O X △ 체계적인 구성 X O X △ O 트렌드 분석 O X X X O 인물의 스토리 △ △ X O O 연관정보 추천 △ X △ △ O 대중 감정, 분위기 △ X O △ O APPENDIX: 유사 서비스
  47. 47. 47 APPENDIX: 저작권 이슈 1. 뉴스 컨텐츠를 바탕으로 만들어낸 2차 컨텐 츠는 저작권이 인정되지 않음 2. 한국언론진흥재단과 계약 가능
  48. 48. 48 APPENDIX: 분석 프로세스 • 날짜와 인물로 나누어 분류 • 비슷한 사건들을 분류 • 노이즈 제거 분류 분석 • 분류된 사건을 재조합 • 사건에서 관련 인물 추출 • 동명이인 확인 • 사건의 핵심키워드 추출 클러스터 미리 정의된 인물 사전 • 분석이 필요한 인물 분리 • 인물에 대한 고유 키워드 수집 • 연관된 인물 파악 • 수집된 기사로 인물 키워드 개선 • 수집된 기사로 연관 인물 추가 개선 수집기 • 주기적으로 기사와 연관된 인물을 수집 • 인물에 대한 고유 키워드 수집

Editor's Notes

  • 그 사람에 대한 모든 정보, 메멘토팀의 발표를 시작하겠습니다.
    메멘토라는 서비스 로고 뒤에 익숙한 얼굴들이 꽤 많이 보이는데요, 배우, 개그맨, 스포츠스타, 정치인, 가수라는 직업을 가진, 우리나라를 대표할 만한 유명인들을 뽑아보았습니다.
    저희는 이처럼 사람들이 많이 아는, 궁금해 하는 ‘그 사람에’ 대한 모든 정보를 제공하는 서비스를 만드는 팀입니다.
  • 기술의 목표 / 도전요소
    실제 구현
    결과


    특징적인 목차

    순서가 명확한 배치

    메멘토
    팀워크 etc ..

    팀 메멘토 스토리
    우리의 노력을 재밌게 표현하는 식으로

    잘보이려고 노력 X
    중요한건 잘 설명

    어떤 역경이 있었고 어떤 노력을 했고
    우리가 얻어낸 것들

    이 프로젝트를 진행하며 관련된 학문 분야에 더 관심을 갖게 되었다.
    단지 우리가 프로젝트를 진행한게 개발 이상의 것이 되었다.
    메멘토 팀의 성장 스토리

  • 이처럼 특정 인물을 중심으로 한 매거진 서비스를 기획하였는데, 다음으로는 그 서비스를 사용하게 될 고객이 어떤 부류가 있는지 분석하고 페르소나를 확정하였습니다.
    이후 각 페르소나의 사용자 경험을 만족시킬 수 있는 기능들을 기획하였습니다.
  • 사건 매거진은, 인물 매거진과 비슷하지만 “인물"에 대해 다루는 것이 아닌, “사건" 중심으로 컨텐츠를 구성한다는 점에서 차이가 있습니다
  • 위클리 메멘토와 홈 기능은 “인물"과 “사건” 중심의 매거진을 2차로 가공하여 컨텐츠를 추천 및 제공하는 기능입니다.
  • 다음으로는 이 서비스가 내부적으로 어떤 기술을 사용하여 컨텐츠를 만들어내는지를 설명 해 드리려고 합니다
  • 저희 서비스는 크게 “인물 매거진”과 “사건 매거진”을 바탕으로 구성되어 있는데, 위 기능들은 SNS, 위키, 뉴스, 포털에 흩어진 정보를 바탕으로 구성됩니다.
    이 데이터들은 먼저 수집 단계를 거치며, 이후 수집된 데이터를 분석하며, 데이터를 가공 관리하고 마지막으로 생성 배포 작업을 통해 메멘토 서비스로 만들어집니다.
  • 우리는 “그 사람”에 대한 모든 정보를 제공해야 한다. 이 목표를 이루기 위해 여러가지 기술이 사용되어야 함을 전 장표에서 볼 수 있었고, 총 4개의 파트로 나누어 기술 구현을 이루었다.
    또, 각각의 파트별로 달성해야 할 목표를 설정하고 이를 바탕으로 기술 구현에 착수하게 되었다.


    수집 파트에서는 먼저 인물을 구성하는 모든 정보를 수집해야 한다. 이는 세부적으로 다시 2개의 목표로 나뉜다.
    1) 기존에 있는 채널에서 발생하는 정보를 매일매일 빠르게 수집
    2) 새로운 채널이 생겼을 때 빠르게 대응할 수 있는 구조

    분석 파트에서는 수집 파트에서 얻은 데이터를 바탕으로 “인물”과 “사건”에 대한 정리된 정보로 만들어야 한다. 분석 작업은 크게 2가지 종류로 나뉘는데
    1) 높은 정확도의 분석 모델 설계
    2) 매일 발생하는 사건을 제 시간 내에 처리





    기술의 성량적 목표 [숫자]가 필요하다
    이런 기능을 만들려면 이런 기술이 필요할 것이고 성능은 이정도가 필요할 것이다

    낮은 비용은 기준이 무엇이냐
    다양한? 얼마나 다양한 건데
    대량은 얼마나 많은건데?

    목표가 아니다.
    목표를 잡은 관점

    목표를 잡는 기준: S.M.A.R.T
    Specific
    Measurable
    Achievable
    Realistic
    Timely

    서비스는 사용자에게 “인물”과 “사건”에 대한 가공된 정보 위주로 보여주는데, ”인물”에 대한 스토리 텔링을 ”사건” 기반으로 하므로, “사건”을 추출 하고 가공하는 작업이 기술의 핵심 목표라고 할 수 있다.

    즉, ”김태희”에 대해 사용자가 알고 싶을 때, 김태희에 대한 기사를 그저 뿌려만 주는 게 아닌, 김태희가 살며 어떤 일들을 겪었고, 각각의 사건들이 얼마나 중요했고 이슈되었는지, 내용은 뭔지를 모아 보여주기 위해 흩어진 정보를 “사건” 바탕으로 재구성하는 작업이 필요하다.

    이를 위해 그 인물에 대한 데이터를 “수집”하고, 그 데이터를 “분석”하여 유의미한 정보로 바꾸며, 수집과 분석 과정, 혹은 결과 정보를 “저장”하고 “관리” 하며, 그 정보를 바탕으로 사용자에게 가치있는 컨텐츠를 “생성”하고 “배포”하는 과정이 이루어진다
  • 1) 수백명의 인물을 매일 새롭게 수집
    2)


    수집 단계에서의 목표는 빠르고 정확하게 정보를 수집하는 것이다

    우리는 서비스를 위해 다양한 곳에서 데이터를 수집해야 했고, 효율적으로 데이터를 수집하기 위해 많은 노력을 했다.

  • 수집 단계에서는 유명인 중심의 사건, 사진, 인적 정보, 인물 관계 등의 데이터를 수집하게 되는데, 하나의 수집기에서 모든 데이터를 가져오는 방식이 아닌, 데이터 채널별로 수집기를 분리하여 새로운 채널이 생겼을 때 확장성이 용이하게 설계하였습니다.



    수집 중복 처리
    데이터 저장시 중복 처리

    수집 단계에서의 목표는 빠르고 정확하게 정보를 수집하는 것이다
    우리는 서비스를 위해 다양한 곳에서 데이터를 수집해야 했고, 효율적으로 데이터를 수집하기 위해 많은 노력을 했다.
    모든 데이터를 하나의 프로그램에서 수집하는 방식이 아닌, 데이터 채널별로 수집기를 모듈화하고, 모듈을 통합 관리하는 관리기를 만들었다.
    각각의 모듈은 병렬적으로 동작할 수 있도록 설계하여, 분산처리가 용이한 구조로 만들었고, 도커 이미지로 패키징되어 다음과 같은 흐름으로 정보를 수집한다
    각각의 모듈은 최대한의 효율을 내도록 적합한 프레임워크와 라이브러리를 활용하였고, 내부적으로 멀티쓰레드와 프로세스를 활용하여 높은 속도로 정보를 수집한다.
  • 각각의 모듈은 가상환경으로 패키징되는데, 컨테이너 기술인 Docker를 활용하여 독립된 환경에서도 동일하게 수집 결과가 나올 수 있게끔 구성했습니다.
  • 모듈을 독립된 환경에서 사용할 수 있도록 패키징했기에, 저희는 다수에 서버에서 동시에 수집 작업 진행이 가능합니다.
    중앙에 있는 수집 모듈 관리기에서 수집 인스턴스를 실행, 종료, 결과를 저장하며 분산 처리를 진행하는데요, 예를 들어 ~~~
    이를 통해 전체적인 수집속도를 올리고 대선 등 데이터가 많이 생성되는 특수한 날에도 순간 대응을 통해 시간 문제 없이 데이터 수집을 진행할 수 있습니다.


    수집 단계에서의 목표는 빠르고 정확하게 정보를 수집하는 것이다
    우리는 서비스를 위해 다양한 곳에서 데이터를 수집해야 했고, 효율적으로 데이터를 수집하기 위해 많은 노력을 했다.
    모든 데이터를 하나의 프로그램에서 수집하는 방식이 아닌, 데이터 채널별로 수집기를 모듈화하고, 모듈을 통합 관리하는 관리기를 만들었다.
    각각의 모듈은 병렬적으로 동작할 수 있도록 설계하여, 분산처리가 용이한 구조로 만들었고, 도커 이미지로 패키징되어 다음과 같은 흐름으로 정보를 수집한다
    각각의 모듈은 최대한의 효율을 내도록 적합한 프레임워크와 라이브러리를 활용하였고, 내부적으로 멀티쓰레드와 프로세스를 활용하여 높은 속도로 정보를 수집한다.
  • 분석 단계는 흩어진 정보를 사용자들이 보게 좋게끔 만드는 작업을 진행하는데, 내부적으로는 아래 4가지 프로세스로 진행됩니다.

    분석 기술에서는 다음과 같은 일을 한다.

    기사를 바탕으로 사건을 구성한다 (사건 클러스터링)
    사건에서 인물을 추출하고, 인물과 사건을 매핑한다
    클러스터링된 사건의 이름을 추론하고, 내용을 요약한다
    사건의 화제도를 메기고, 대표 사진을 선정한다
    사건에 대한 대중들의 감정과 반응을 추출한다

    과정 하나하나에 우리의 아이디어와 노력이 들어가있고, 사용자에게 매우 중요한 것들이지만, 그중에서도 가장 중요한 1번과 2번에 대해서 조금 더 자세히 설명을 하려고 한다.


  • 전처리 과정의 주요 업무는 기사나 사건에서 개체명을 인식하는 작업입니다.
  • 개체명 인식에 큰 문제가 있는데, 바로 동명이인 문제입니다.
    김태희라는 단어 주변의 문맥과 키워드를 파악하여 작가 김태희와 배우 김태희간의 키워드 유사도를 기반으로 동명이인을 구별하게 됩니다.
  • 임베딩 단계는 전처리된 데이터를 문서의 특징이 표현된 벡터공간에 대응시키는 작업을 진행하는데요, 연관된 문서와 단어, 관계를 파악하여 수학적 연산이 가능한 형태로 만들어 다음 작업에서 보다 효율적이고 효과적이게 분석작업을 진행할 수 있도록 하는 과정입니다.



    분석 단계는 우리 서비스의 핵심 기술로, 흩어진 정보를 모은 후 사용자들이 보게 좋게끔 데이터를 가공해서 우리만의 컨텐츠를 생산 해 나가는 것이 목표다.

    분석 기술에서는 다음과 같은 일을 한다.

    기사를 바탕으로 사건을 구성한다 (사건 클러스터링)
    사건에서 인물을 추출하고, 인물과 사건을 매핑한다
    클러스터링된 사건의 이름을 추론하고, 내용을 요약한다
    사건의 화제도를 메기고, 대표 사진을 선정한다
    사건에 대한 대중들의 감정과 반응을 추출한다

    과정 하나하나에 우리의 아이디어와 노력이 들어가있고, 사용자에게 매우 중요한 것들이지만, 그중에서도 가장 중요한 1번과 2번에 대해서 조금 더 자세히 설명을 하려고 한다.


  • 분석 단계는 우리 서비스의 핵심 기술로, 흩어진 정보를 모은 후 사용자들이 보게 좋게끔 데이터를 가공해서 우리만의 컨텐츠를 생산 해 나가는 것이 목표다.

    분석 기술에서는 다음과 같은 일을 한다.

    기사를 바탕으로 사건을 구성한다 (사건 클러스터링)
    사건에서 인물을 추출하고, 인물과 사건을 매핑한다
    클러스터링된 사건의 이름을 추론하고, 내용을 요약한다
    사건의 화제도를 메기고, 대표 사진을 선정한다
    사건에 대한 대중들의 감정과 반응을 추출한다

    과정 하나하나에 우리의 아이디어와 노력이 들어가있고, 사용자에게 매우 중요한 것들이지만, 그중에서도 가장 중요한 1번과 2번에 대해서 조금 더 자세히 설명을 하려고 한다.


  • 수집 단계에서의 목표는 빠르고 정확하게 정보를 수집하는 것이다
    우리는 서비스를 위해 다양한 곳에서 데이터를 수집해야 했고, 효율적으로 데이터를 수집하기 위해 많은 노력을 했다.
    모든 데이터를 하나의 프로그램에서 수집하는 방식이 아닌, 데이터 채널별로 수집기를 모듈화하고, 모듈을 통합 관리하는 관리기를 만들었다.
    각각의 모듈은 병렬적으로 동작할 수 있도록 설계하여, 분산처리가 용이한 구조로 만들었고, 도커 이미지로 패키징되어 다음과 같은 흐름으로 정보를 수집한다
    각각의 모듈은 최대한의 효율을 내도록 적합한 프레임워크와 라이브러리를 활용하였고, 내부적으로 멀티쓰레드와 프로세스를 활용하여 높은 속도로 정보를 수집한다.
  • 우리 서비스는 저장과 데이터 관리도 만만하지 않았다.
    우선 다량의 정보를 처리하기 위해 저장하는 작업이 필수적이기도 하며, 확장성을 고려한 설계에 부합한 데이터베이스 설계도 함께 진행되어야 했다.

    우리는 이를 위해 데이터를 2가지로 나누었다.
    첫째는 데이터 수집과 분석시 사용되는 “raw”데이터며,
    둘째는 실제 사용자에게 전달되는 ”service” 데이터이다.

    첫번째 데이터는 확장성과 분산처리를 고려하였고, document 위주의 데이터라는 특징을 고려하여 Elastic Search를 사용하고 있고,
    두번째 데이터는, 관계 데이터와 Document 데이터를 모두 갖고 있어야 하는데, MySQL에 Document 처리를 위한 신규 기술인 JSON Field를 이용한다.

    또한 사용에게 전달되는 데이터는 수집과 배포 시점을 트래킹 하여 성능 향상을 이루고 있으며, 통합 API서버를 통해 보완성과 안정성을 확보하고 있다
  • 우리 서비스는 저장과 데이터 관리도 만만하지 않았다.
    우선 다량의 정보를 처리하기 위해 저장하는 작업이 필수적이기도 하며, 확장성을 고려한 설계에 부합한 데이터베이스 설계도 함께 진행되어야 했다.

    우리는 이를 위해 데이터를 2가지로 나누었다.
    첫째는 데이터 수집과 분석시 사용되는 “raw”데이터며,
    둘째는 실제 사용자에게 전달되는 ”service” 데이터이다.

    첫번째 데이터는 확장성과 분산처리를 고려하였고, document 위주의 데이터라는 특징을 고려하여 Elastic Search를 사용하고 있고,
    두번째 데이터는, 관계 데이터와 Document 데이터를 모두 갖고 있어야 하는데, MySQL에 Document 처리를 위한 신규 기술인 JSON Field를 이용한다.

    또한 사용에게 전달되는 데이터는 수집과 배포 시점을 트래킹 하여 성능 향상을 이루고 있으며, 통합 API서버를 통해 보완성과 안정성을 확보하고 있다

    서비스 데이터베이스
    어떤 데이터가 들어가는지
    가공은 어떻게 하는지
    체계적 관리, 문서화
    Entity-Role-Event 모델 설계 및 비정형 데이터 타입 활용


    원본 데이터 스토리지
    저장되는 데이터는 어떤 것이 있는가
    얼마나 저장되었나
    쿼리는 무엇을 얼마나 쓰냐
    철저한 분석을 하고 Elastic Search를 적용했고 샤딩까지 하며 확장성을 확보했다
  • 생성된 매거진에 대한 사용자 소비시점과,
    컨텐츠 수집·분석·가공 시점이
    서로 다름(비동기적 작동 구조)

    사용자 접속시마다 컨텐츠를 즉시적으로 렌더링 하는 구조가 아닌,
    주기적으로 매거진을 만들어 출판하는 구조 채택

    수집·분석 계층과 사용자 트래픽 계층이 서로 영향을 끼치지 않음
    매거진을 만들어 배포한다는 특징을 살려 정적 웹으로 개발
    클라우드 서비스 적극 이용, 확장성 극대화, 비용 최소화

    Stateless, Atomic, Data caching & Tracking

  • 정적 웹은 일반적인 서비스에서 많이 사용되지 않아 전례가 없기 때문에 철저한 분석 이후에 작업을 진행하게 되었습니다.
    그에 따라 정적 웹을 이용한 생성 배포 기술의 목표를 설정하고, 정적 웹 프레임워크 부분과 서비스 코드 부분으로 나누어 목표를 달성할 수 있도록 작업을 진행하였습니다.
    특히 프레임워크는 정적 웹을 이용하고자 하는 많은 사람들에게 도움이 될 수 있도록 범용 라이브러리로 제작하였고 오픈소스화 하였습니다.
  • 생성된 매거진에 대한 사용자 소비시점과,
    컨텐츠 수집·분석·가공 시점이
    서로 다름(비동기적 작동 구조)

    사용자 접속시마다 컨텐츠를 즉시적으로 렌더링 하는 구조가 아닌,
    주기적으로 매거진을 만들어 출판하는 구조 채택

    수집·분석 계층과 사용자 트래픽 계층이 서로 영향을 끼치지 않음
    매거진을 만들어 배포한다는 특징을 살려 정적 웹으로 개발
    클라우드 서비스 적극 이용, 확장성 극대화, 비용 최소화

    Stateless, Atomic, Data caching & Tracking

  • 현재 우리나라에 뉴스가 평균적으로 몇개정도 만들어 낼 수 있으니
    이걸 소화해 낼 수 있어야한다

    그런데 결과를 만들고 보니 우리나라를 소화하는데 문제가 없다


    성공의 기준을 정의하고 우리가 잘했는지를 보여야한다.
  • 기술이 그냥 만들어진게 아니라, 실제 운영이 가능한 수준까지 왔다!


    목적의 각 단계에 대해서 설명을 더 추가해라
    구체적이지 않다

    밥을 먹었는데 반찬을 안먹은 느낌이 들면 안된다
  • 유저 반응과 전문성 피드백을 받아봤는데, 사업화도 충분히 가능성이 있어보인다
  • 베타 서비스 공개 후 유저 반응을 살펴보았는데요, 서비스가 만족스러운 이유 또 서비스 사용이유를 분석해 본 결과, 기존 저희가 서비스 기획 때 확정하였던 페르소나와 일치함을 알 수 있었습니다.
  • 우리에게 의미있는 외부 전문가.
    초청이 얼마나 의미가 있었는지

    이것을 바탕으로 만든 우리의 시사점

    시니어 기획자 -> 전문 서비스 기획자
    소셜 미디어 분석 전문가
    소셜 마케팅 분석 전문 스타트업 CEO
  • 유사 시장: 광고 마케팅

    기획사에서 1년에 쓰는 마케팅 비용은 얼마일까
    정치인들이 자신들을 홍보하기 위해 쓰는 마케팅 비용은 얼마일까



    이런 시사점을 바탕으로 활용방안으로 만든다

    제목: <사업화 가능성>
    이런 사업화도 생각하고 있다

    2번 전체가 사업화 방안이다

    초기단계와 확장/성장 단계
    초기단계에서는 어떤 것을 목표로 한다
    (이런이런 사람들을 목표로 한다)

    사업화 메커니즘이 부족하다

    사업화도 초기에는 이런 사업 중심
    후기에는 저런거



    인물 뿐만 아니라 기업, 제품, 미디어(영화/드라마 등) 으로도 확장 가능하다.
    정치인/기업인/공인 들에게 자신의 성과를 객관적이고 보기 좋게 정리해서 주는 위젯
    제품 마케팅 플랫폼
    팬과 셀럽이 소통하는 공간
  • 우리끼리 브레인스토밍하고 열심히 회의한 사진 증거가 있어야한다.

    업무 분담 뿐만 아니라 인간적/활동적인 부가 요소가 들어가면 좋을 것 같다

    팀원별 전문 분야, 프로젝트 이후 성장 요소



    우리가 겪었던 문제를 해결하기 위해 브레인스토밍, 협업멘토 섭외 …
    몇 번씩이나 재 도전할 기회 => 감사

    기획을 떨어지며 받았던 피드백 덕에 성장했다.
    ”얘네들이 우리가 해준 얘기를 소홀히 듣지 않았구나”
  • 우리끼리 브레인스토밍하고 열심히 회의한 사진 증거가 있어야한다.

    업무 분담 뿐만 아니라 인간적/활동적인 부가 요소가 들어가면 좋을 것 같다

    팀원별 전문 분야, 프로젝트 이후 성장 요소



    우리가 겪었던 문제를 해결하기 위해 브레인스토밍, 협업멘토 섭외 …
    몇 번씩이나 재 도전할 기회 => 감사

    기획을 떨어지며 받았던 피드백 덕에 성장했다.
    ”얘네들이 우리가 해준 얘기를 소홀히 듣지 않았구나”
  • 7개월간 프로젝트를 진행하면서 많은 일들을 겪었습니다.
    처음 팀을 만들고 멘토님과 함께 서비스를 열심히 기획했는데, 기획 심의에서 떨어져서 원하는 프로젝트를 진행할 수가 없었습니다. 이후 다시 한번 심의를 받을 수 있는 기회가 주어졌지만 두번째 심사마저 탈락하며 좌절하는 시기까지 있었는데요, 그래도 프로젝트를 포기하고 싶지 않다는 팀의 결정을 통해 설에도 기획을 진행하여 결국 “메멘토”라는 서비스로 프로젝트를 진행할 수 있게 되었습니다.
    기존에 잘 진행되지 않는 새로운 개념의 프로젝트였고, 실제로 저희도 이런 서비스를 만드는 것이 기술적으로 가능한지, 또 만들게 된다면 사용자가 좋아할지에 대한 의문이 많았었고, 그 의문을 해결하기 위해 다양한 분들의 도움을 받았습니다.

    타겟 서비스 사용자에게 서비스에 대한 설문을 진행하기도 했고, 직접 회의 때 전문 기획자를 모셔 사용자가 정말 원하는 서비스로 만들기 위해 노력을 했습니다. 기술적으로 가능한지 검증을 위해 최소기능제품 MVP 중심으로 프로젝트를 진행했고, 프로젝트 중간 중간에 데이터 분석 전문가, 빅데이터 전문 멘토, 머신러닝 전문 멘토 등을 모시며 팀 자체적으로도 기술 실력 향상을 이끌어 냈습니다.

    기획 심의와 월별 평가를 받으며, 외부위원 및 멘토님들께 다양한 피드백을 받을 수 있었고, 이를 바탕으로 서비스 품질 향상 및 개인의 역량을 향상시킬 수도 있었습니다.

  • 흐릿한 배경으로 아이콘이나 로고

    이처럼 다양한 역경을 겪고 많은 분들의 도움과 프로젝트에 대한 애정으로 열심히 진행했는데,
    그 결과 나온 지표들을 숫자로 옮겨봤더니 위와 같은 결과가 나왔습니다.
    이 밖에 당구 실력도 증가시켜보려 했으나, 프로젝트에 너무 몰두한 나머지 그것은 실패했습니다.
  • 우리가 갖고있는 시도, 비전 결과
    우리의 한계도 이야기

    한계와 맞붙어서 기회가 있다 -> 그 이후에 기회를 살려내기 위해서 도전할 주제들이 있다
    Future Works

    소셜 미디어 분석이라는 주제에 대한 연구
    도전, 서비스 수준까지 도달, 다음 단계?
    다음 단계에 기회가 되면 이런 것을 더 해볼 것이다

    할만큼 했다. 근데 더 할게 있다
    (다음 장표)

×