링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다Evion Kim
DEVIEW 2013 발표 내용입니다 - http://deview.kr/2013/detail.nhn?topicSeq=36
링크드인 플랫폼 상의 다양한 Recommendation Product들, 이 제품들의 키워드는 바로 'Relevance(연관성)' 입니다. 가장 관련있는 데이터들을 제공함으로써 사용자의 삶을 더 쉽고 편하게 만들어 주는것이 링크드인 데이터 팀의 목표라 할 수 있겠습니다. 그렇다면 어떻게 해야 사용자에게 가장 연관성 높은 데이터를 제공 할 수 있을까요? 이에 대한 답을 한문장으로 요약하자면 '어제의 데이터를 분석하여 내일의 사용자의 행동을 예측한다' 가 될 것 같습니다.
본 발표에서는 이 한 문장을 좀 더 길게 풀어보려 합니다. 링크드인에서는 Hadoop, Key-Value Storage, Machine Learning등의 기술을 어떤 식으로 활용하여 연관성 높은 Recommendation Product를 만들고 있는지에 대해 소개해보겠습니다.
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다Evion Kim
DEVIEW 2013 발표 내용입니다 - http://deview.kr/2013/detail.nhn?topicSeq=36
링크드인 플랫폼 상의 다양한 Recommendation Product들, 이 제품들의 키워드는 바로 'Relevance(연관성)' 입니다. 가장 관련있는 데이터들을 제공함으로써 사용자의 삶을 더 쉽고 편하게 만들어 주는것이 링크드인 데이터 팀의 목표라 할 수 있겠습니다. 그렇다면 어떻게 해야 사용자에게 가장 연관성 높은 데이터를 제공 할 수 있을까요? 이에 대한 답을 한문장으로 요약하자면 '어제의 데이터를 분석하여 내일의 사용자의 행동을 예측한다' 가 될 것 같습니다.
본 발표에서는 이 한 문장을 좀 더 길게 풀어보려 합니다. 링크드인에서는 Hadoop, Key-Value Storage, Machine Learning등의 기술을 어떤 식으로 활용하여 연관성 높은 Recommendation Product를 만들고 있는지에 대해 소개해보겠습니다.
[제 8회 BOAZ 빅데이터 컨퍼런스]
해가 가도 줄어들지 않는 낚시성 기사! 기레기라는 단어를 만들어내고 언론 신뢰도를 낮춰가고 있다. 우리 조는 낚시성 기사 분류기로 이 문제를 해결하고자 한다. 텍스트마이닝 기법을 사용해 피쳐를 뽑았다. 뽑은 피쳐를 머신러닝 기법을 통해 학습시켜 낚시성 기사 분류기를 통해 낚시성 기사가 사전에 차단될 수 있는 효과를 기대한다.
7기 이지연 9기 김미성 방대영
****국내최초 빅데이터 대학생 연합동아리 BOAZ****
페이스북: https://www.facebook.com/BOAZbigdata/
블로그: http://blog.naver.com/boazbigdata
인스타그램: http://www.instagram.com/boaz_bigdata
자세한 내용은 https://www.youtube.com/watch?v=oPT9hHXrEpo 을 참조하세요.
AlphaGo가 어떤 원리로 구현되었으며, 어떻게 강력한 기력을 확보하게 되었는지를 설명드립니다. 이 자료를 이해하기 위해서 인공지능과 전산과학에 기초적인 지식이 필요할 수 있습니다.
데이터시각화를 바라보는 데이터 사이언티스트, 엔지니어, 마케터간의 관점들이 서로 다릅니다.
이 슬라이드에서는 엔지니어 관점에서 중요시 하는 키워드들, 설계 관점에서의 데이터시각화,
그리고 비즈니스인텔리전스(Business Intelligence)에 대해서 소개드리고 있습니다.
이 발표자료는 데이터 야놀자에서 소개되었습니다.
Hadoop World 2011: Apache Hadoop 0.23 - Arun Murthy, Horton WorksCloudera, Inc.
The Apache Hadoop community is gearing up for the upcoming release of Apache Hadoop 0.23. This release has major enhancements to Hadoop such as HDFS Federation for hyper-scale and a Next Generation MapReduce framework. Arun, the Apache Hadoop Release Master for 0.23, will briefly cover the highlights of the release and pay particular attention to the plans and efforts undertaken to test, stabilize and release Hadoop.next. The talk covers some of the timelines for the release, our plans for compatibility and upgrade paths for existing users of Hadoop.
[제 8회 BOAZ 빅데이터 컨퍼런스]
해가 가도 줄어들지 않는 낚시성 기사! 기레기라는 단어를 만들어내고 언론 신뢰도를 낮춰가고 있다. 우리 조는 낚시성 기사 분류기로 이 문제를 해결하고자 한다. 텍스트마이닝 기법을 사용해 피쳐를 뽑았다. 뽑은 피쳐를 머신러닝 기법을 통해 학습시켜 낚시성 기사 분류기를 통해 낚시성 기사가 사전에 차단될 수 있는 효과를 기대한다.
7기 이지연 9기 김미성 방대영
****국내최초 빅데이터 대학생 연합동아리 BOAZ****
페이스북: https://www.facebook.com/BOAZbigdata/
블로그: http://blog.naver.com/boazbigdata
인스타그램: http://www.instagram.com/boaz_bigdata
자세한 내용은 https://www.youtube.com/watch?v=oPT9hHXrEpo 을 참조하세요.
AlphaGo가 어떤 원리로 구현되었으며, 어떻게 강력한 기력을 확보하게 되었는지를 설명드립니다. 이 자료를 이해하기 위해서 인공지능과 전산과학에 기초적인 지식이 필요할 수 있습니다.
데이터시각화를 바라보는 데이터 사이언티스트, 엔지니어, 마케터간의 관점들이 서로 다릅니다.
이 슬라이드에서는 엔지니어 관점에서 중요시 하는 키워드들, 설계 관점에서의 데이터시각화,
그리고 비즈니스인텔리전스(Business Intelligence)에 대해서 소개드리고 있습니다.
이 발표자료는 데이터 야놀자에서 소개되었습니다.
Hadoop World 2011: Apache Hadoop 0.23 - Arun Murthy, Horton WorksCloudera, Inc.
The Apache Hadoop community is gearing up for the upcoming release of Apache Hadoop 0.23. This release has major enhancements to Hadoop such as HDFS Federation for hyper-scale and a Next Generation MapReduce framework. Arun, the Apache Hadoop Release Master for 0.23, will briefly cover the highlights of the release and pay particular attention to the plans and efforts undertaken to test, stabilize and release Hadoop.next. The talk covers some of the timelines for the release, our plans for compatibility and upgrade paths for existing users of Hadoop.
제품서비스시스템이란? PSS 개념 소개 및 디자인 사례로 보는 'PSSD warm up exercises' - 김혜영 PSSD lab. 대표한국디자인진흥원 공공서비스디자인PD
'꼬리에 꼬리를 무는 서비스디자인 만남'
서비스디자인데이트
일시 : 2014.1.14(화) 오후 4시~7시
장소 : 메가젠토즈타워점
주관 : 한국디자인진흥원 서비스디지털융합팀
김혜영 khailykim@gmail.com
PSS 디자이너, 서비스 디자인 퍼실리테이터
PSSD lab. 대표
주요 프로젝트 :
까르푸 프랑스, ‘지속가능한 개발 기업혁신 전략’ 툴 킷 개발
서울시 사회적경제지원센터, ‘위키서울’ 비즈니스모델 워크숍 개발
서울시 사회적경제지원센터, ‘서비스디자인 활용 월드컵 경기장 시민중심 PSS’ 개발
울산 북구청, 마을 공동체 사업 디자인하기’ 워크숍 개발
밀라노 삼성 디자인 센터, 디자인 리서치
Frog Design, ‘Create safety products for your child’ 디자인 리서치
학력 :
밀란 공대, PRODUCT SERVICE SYSTEM DESIGN 석사(논문 '디자인적사고와 게임경제학에 의한, 기업혁신 툴 킷')
국민대학교, 실내디자인 학사
마이크로서비스는 큰 애플리케이션을 독립된 API와 데이터스토어를 가진 작은 단위의 서비스로 느슨하게 결합하여, 서비스를 책임지는 자율성 높은 팀의 자동화된 배포 및 운영 관리를 통해 민첩하게 비지니스 요구를 반영하는 아키텍처 구성 방식입니다. AWS 콘테이너(Container) 서비스 및 서버리스(Serverless) 아키텍처를 이용하여 마이크로 서비스를 구현하는 방법과 이를 위한 모범 사례를 소개합니다. 1) 개별 서비스 확장, 2) API 운영 및
Detailed Information: AWS 콘테이너(Container) 서비스 및 서버리스(Serverless) 아키텍처를 이용하여 마이크로 서비스를 구현하는 방법과 이를 위한 모범 사례를 소개합니다. 1) 개별 서비스 확장, 2) API 운영 및 관리, 3) 일관된 트랙잭션 유지, 4) 서비스 자동 배포, 5) 서비스 모니터링, 6) 서비스 보안 및 인증 그리고 7) 서비스 생태계 구성 등의 다양한 이슈에 AWS를 통한 해결 방법을 알아봅니다. 특히, AWS re:Invent에서 새로 출시한 AWS Step Functions, ECS 관리를 위한 Blox, Lambda@Edge 등의 서비스와 기능을 통해 마이크로서비스를 운영 관리하는 방법을 안내해 드립니다.
인공 지능(AI) 기술의 발전은 새로운 서비스와 비지니스 혁신의 도구가 되고 있습니다. 본 강연에서는 AWS 클라우드 혁신이 인공 지능 기술을 활용하려는 개발자에게 어떤 의미를 주고 있으며, 이에 대한 아마존 사례 및 클라우드를 활용한 연구 개발 방법론에 대해 자세히 알아보고자 합니다. 이를 위해 아마존닷컴의 머신 러닝 기반 추천 엔진 및 물류 창고의 KIVA 로봇 활용 사례, 아마존 에코를 통한 알렉사 음성 인식 서비스의 데모와 함께 딥러닝(Deep Learning) 연구를 위한 AWS 컴퓨팅 P2 인스턴스 및 전용 AMI를 통한 MXNet 라이브러리 등을 소개합니다. 특히, AWS re:Invent에서 새로 출시한 Amazon Lex, Polly 및 Rekognition 등 클라우드 인공 지능 서비스를 소개하고 사용하는 방법을 안내해 드립니다.
ITS 4차 메인 세미나_알고리즘(배은정, 김용겸, 김성수, 정민영, 유재현)
왓챠(Watcha) 알고리즘 분석(15.11.06)
고려대학교 정보기술경영학회 : ITS
Web: http://itsociety.co.kr/
Mail: president@itsociety.co.kr
Amazon Web Services gives you fast access to flexible and low cost IT resources, so you can rapidly scale and build virtually any big data and analytics application including data warehousing, clickstream analytics, fraud detection, recommendation engines, event-driven ETL, serverless computing, and internet-of-things processing regardless of volume, velocity, and variety of data.
In this one-hour webinar, we will look at the portfolio of AWS Big Data services and how they can be used to build a modern data architecture.
We will cover:
Using different SQL engines to analyze large amounts of structured data
Analysing streaming data in near-real time
Architectures for batch processing
Best practices for Data Lake architectures
This session is suited for:
Solution and enterprise architects
Data architects/ Data warehouse owners
IT & Innovation team members
– Elastic stack과 Data pipeline의 개념
– 데이터의 종류와 형태 / Document 데이터 모델링 (mapping, data type)
– 분산 데이터 저장소 관점에서의 Elasticsearch (index, shard & replica, segment)
https://learningspoons.com/course/detail/elastic-stack/
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study (박주홍 데이터 분석 및 인프라 팀...Amazon Web Services Korea
데브시스터즈 데이터 레이크 구축 이야기 : Data Lake architecture case study
이 세션에서는 데브시스터즈의 Case Study를 통하여 Data Lake를 만들고 사용하는데 있어 요구 되는 사항들에 대해 공유합니다. 여러 목적에 맞는 데이터를 전달하기 위해 AWS 를 활용하여 Data Lake 를 구축하게된 계기와 실제 구축 작업을 하면서 경험하게 된 것들에 대해 말씀드리고자 합니다. 기존 인프라 구조 대비 효율성 및 비용적 측면을 소개해드리고, 빅데이터를 이용한 부서별 데이터 세분화를 진행할 때 어떠한 Architecture가 사용되었는지 소개드리고자 합니다.
Kaggle 상의 신용카드 부정사용 데이터를 사용하여, MS Azure 환경의 ML(Machine Learning) Studio로 기계학습을 진행하였습니다. 학습모델은 Random Forest 모델을 사용하였고, 훈련데이터와 테스트 데이터를 8:2로 분할하였습니다. Azure의 ML Studio의 기본 사용법을 확인하실 수 있습니다.
Kaggle 상의 신용카드 승인 데이터로, MS Azure ML(Machine Learning) Studio 환경에서 기계학습을 진행하였습니다. 학습모델은 Random Forest 모델을 사용하였고, 훈련데이터와 테스트 데이터를 8:2로 분할하였습니다. 애저 ML Studio을 살펴볼 수 있습니다.
고객 중심 서비스 출시를 위한 준비 “온오프라인 고객 데이터 통합” – 김준형 AWS 솔루션즈 아키텍트, 김수진 아모레퍼시픽:: AWS C...Amazon Web Services Korea
AWS의 빅데이터 서비스들이 데이터 파이프라인 상에서 어떻게 활용 되는지와 데이터 모델링과 플랫폼 구축을 100% 내재화 하여 AWS와 함께 고객기반 서비스의 경쟁력을 강화 해나가는 고객 사례를 전해 드립니다. 국내 뷰티산업을 리딩 하고 있는 아모레퍼시픽에서 온/오프라인 고객 정보를 AWS 기반의 Data Lake로 통합 하고 고객 관점의 데이터 서비스를 출시 하는데 속도를 높이고 있는 성공 스토리를 직접 전해 드립니다.
분석 워크로드 마이그레이션의 모든 것-김기영, AWS Analytics Specialist SA / 김성일, AWS Analytics Sp...Amazon Web Services Korea
분석 워크로드는 대량의 데이터를 다루는 크고 복잡한 분석 플랫폼 위에서 운영됩니다. 이런 다양하고 복잡한 분석 워크로드를 AWS로 안전하게 마이그레이션 하는 방법에 대해 Big data platform EMR, Data Warehouse Redshift, OpenSearch를 중심으로 살펴봅니다.
12. 효과는?
• 아마존 매출의 30%는 추천을 통해 발생
by The Economist “Building with big data”
http://www.economist.com/node/18741392/
• 약 75%의 사용자들이 추천 서비스를 통해
영화를 선택
by Nextflix “Netflix Recommendations”
http://techblog.netflix.com/2012/04/netflixrecommendations-beyond-5-stars.html
53. 데이터수집
데이터변환
추천계산
추천결과제공
• 추천 결과는 Json으로 저장
– 결과에 대한 Hash 생성 (RecoHash)
1
[{"id":“10", "score":0.29,"method":"4"},
{"id":“11,"score":0.15,"method":"4"},{"id":“13","score":0.14,
"method":"4"},{"id":“17","score":0.14,"method":"4"}]
– MD5(“10/11/13/17”) = 7ff3949e2d0e0d1a
– 어차피 추천 리스트가 자주 변하지는 않는다.
– DB에 불필요한 update를 줄이자.
– 실제로 평균 10~20% 정도만 리스트가 변경됨
61. AWS – 자체 클러스터를 운영하는 경우
10.1.2.10
54.25.1.12
무료
유료
10.1.2.11
54.23.233.16
62. CDH
• Hadoop만 설치할 거라면 apache 버전도
할만함
• HBase, oozie 등을 함께 쓴다면?
– CDH가 100만 배 정도 편함
– 덤으로 모니터링도
– 대수 제한도 없어졌음
• CDH manager 4.6에 버그 있음
– 장비 추가 안됨 (API 사용 or 4.7 버전 업)
63. HDFS로 Data를 저장하는 경우
• 디렉토리로 파일 관리하기 귀찮음
– map task 파편화(?)를 막기 위한 file merge
– 오래된 파일 삭제
– 로그 포맷이 변경되면?
– 1주일/1달/5달 데이터를 쓰고 싶어요 -_-;
64. HBase
• HBase를 쓰면
– file merge 따위 ㅋ
– TTL을 이용해서 자동 삭제
– 컬럼 추가 및 삭제가 쉬움. NoSQL ㅋ
– 설정으로 time filtering을 한 번에
65. HBase – parsed_log table 구성
row key
service_id
item_id
column family
timestamp
uid
action_id
price
referrer
category
69. Scan s = new Scan()
s.setFilter(new RowFilter(start, stop));
sid=1
7월
map
map
8월
map
map
9월
7월
sid=2
8월
9월
map
map
map
map
sid=1, 8월~9월
70. Scan s = new Scan()
s.setFilter(new RowFilter(start, stop));
sid=1
Scan s =
new Scan(start, stop);
sid=1, 8월~9월
7월
8월
map
map
9월
7월
sid=2
8월
9월
map
71. Scan s =
new Scan(start, stop);
Scan s = new Scan()
s.setFilter(new RowFilter(start, stop));
sid=1
sid=1, 8월~9월
sid=2, 9월
7월
8월
map
map
9월
7월
sid=2
8월
9월
map
map
map
map
72. new Scan(start, stop) multi-scan
sid=1
sid=1, 8월~9월
sid=2, 9월
7월
8월
map
map
9월
map
7월
sid=2
8월
9월
map
https://github.com/
christianrichter/
hbase_multisegment
75. 모니터링 및 알람
• 장비 모니터링 및 alarm 시스템이 없었음
• 처음부터 만들려면 어려움
– open source customizing도 귀찮다
• aws 에서 제공되는 tool 을 사용하자
– Cloudwatch
– SES (Simple Email Service)
– SNS (Simple Notification Service)