데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
- 강의록 전문 읽기: http://bit.ly/2KKtzRA
데이터 분석(데이터 사이언스 말고, 통상적으로 스타트업에서 '데이터 분석'이나 '그로스'에 쓰는 데이터 분석)을 공부하려면, 어떤 기본 개념을 가지고 계시면 좋을지에 대해 만들어 본 강의 자료입니다.
카우앤독에서 지인 위주로 꾸린 강의에서 꽤 좋은 평가를 받았으나, 강의안 준비가 너무 힘들어서 실제 유료 강의로 이어지지는 않은 비운의 슬라이드...
멘탈 모델이란 무엇인지, 지표는 무엇이며 퍼널(Funnel)은 무엇인지, 등등의 이야기를 합니다. 기승전 결론은 SQL 배우세요. (https://brunch.co.kr/@minu-log/4)
허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
발표영상 https://youtu.be/Yb3UU66XoIM
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
Causal Inference : Primer (2019-06-01 잔디콘)Minho Lee
- 2019-06-01 잔디컨퍼런스(잔디콘, @구글캠퍼스) 에서 발표한 자료입니다
- 데이터를 통해 인과관계를 추론하는 방법에 대해서 알아봅니다
- Potential Outcomes, Causal Graphical Models 에 대해 간단히 살펴봅니다
- 슬라이드 내에 오타가 있습니다 ㅠㅠ
- 22p, 28p : Perkson's 가 아니라 Berkson's Paradox 입니다
한빛데브그라운드에서 발표했던 내용입니다.
발표 영상 : https://youtu.be/ohpfSLf0V3Y
--
스타트업 비즈니스에서 데이터를 활용한 전략 수립과 의사결정은 필수적인 요소입니다. 서비스 운영 데이터에서부터 다양한 고객의 행동 로그, 소셜 미디어 데이터까지 다양한 데이터를 모두 모아 분석 환경을 구축하기 위해서는 많은 준비와 고민이 필요합니다. 스타트업에서 빠른 속도와 최소한의 비용, 다양한 분석 Tool들과 연동되는 Data Pipeline, Data Lake, Data Warehouse 구축 경험기를 공유하고자 합니다. 이 과정을 통해 애널리틱스 파이프라인을 구축 과정과 S3, Glue, Athena,EMR, Quicksight와 같은 서버리스 애널리틱스 서비스에 대한 구축 사례를 확인하실 수 있습니다.
출처 : 한국정보통신기술협회
표준번호 : TTAK.KO-10.0292/R1(2017-06-28)
이 표준은 하드웨어 규모산정의 개념 및 규모산정의 대상이 되는 하드웨어 구성요소를 설명하고 규모산정을 위한 서버별(OLTP 서버, WEB/WAS 서버) 성능 기준을 제시하며, 규모산정 시 일반적인 고려 사항과 규모산정의 절차를 기술한다. 또한 CPU, 메모리, 디스크, 스토리지 등 하드웨어 구성요소별 규모 산정식과 세부 기준값을 제시한다.
데이터 분석에 필요한 기본 개념: 지표, Funnel 등 데이터를 이해하기 위한 멘탈 모델(Mental Model)Minwoo Kim
- 강의록 전문 읽기: http://bit.ly/2KKtzRA
데이터 분석(데이터 사이언스 말고, 통상적으로 스타트업에서 '데이터 분석'이나 '그로스'에 쓰는 데이터 분석)을 공부하려면, 어떤 기본 개념을 가지고 계시면 좋을지에 대해 만들어 본 강의 자료입니다.
카우앤독에서 지인 위주로 꾸린 강의에서 꽤 좋은 평가를 받았으나, 강의안 준비가 너무 힘들어서 실제 유료 강의로 이어지지는 않은 비운의 슬라이드...
멘탈 모델이란 무엇인지, 지표는 무엇이며 퍼널(Funnel)은 무엇인지, 등등의 이야기를 합니다. 기승전 결론은 SQL 배우세요. (https://brunch.co.kr/@minu-log/4)
허현 : 닭이 먼저 달걀이 먼저? 그래인저 인과검정
발표영상 https://youtu.be/Yb3UU66XoIM
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
Causal Inference : Primer (2019-06-01 잔디콘)Minho Lee
- 2019-06-01 잔디컨퍼런스(잔디콘, @구글캠퍼스) 에서 발표한 자료입니다
- 데이터를 통해 인과관계를 추론하는 방법에 대해서 알아봅니다
- Potential Outcomes, Causal Graphical Models 에 대해 간단히 살펴봅니다
- 슬라이드 내에 오타가 있습니다 ㅠㅠ
- 22p, 28p : Perkson's 가 아니라 Berkson's Paradox 입니다
한빛데브그라운드에서 발표했던 내용입니다.
발표 영상 : https://youtu.be/ohpfSLf0V3Y
--
스타트업 비즈니스에서 데이터를 활용한 전략 수립과 의사결정은 필수적인 요소입니다. 서비스 운영 데이터에서부터 다양한 고객의 행동 로그, 소셜 미디어 데이터까지 다양한 데이터를 모두 모아 분석 환경을 구축하기 위해서는 많은 준비와 고민이 필요합니다. 스타트업에서 빠른 속도와 최소한의 비용, 다양한 분석 Tool들과 연동되는 Data Pipeline, Data Lake, Data Warehouse 구축 경험기를 공유하고자 합니다. 이 과정을 통해 애널리틱스 파이프라인을 구축 과정과 S3, Glue, Athena,EMR, Quicksight와 같은 서버리스 애널리틱스 서비스에 대한 구축 사례를 확인하실 수 있습니다.
출처 : 한국정보통신기술협회
표준번호 : TTAK.KO-10.0292/R1(2017-06-28)
이 표준은 하드웨어 규모산정의 개념 및 규모산정의 대상이 되는 하드웨어 구성요소를 설명하고 규모산정을 위한 서버별(OLTP 서버, WEB/WAS 서버) 성능 기준을 제시하며, 규모산정 시 일반적인 고려 사항과 규모산정의 절차를 기술한다. 또한 CPU, 메모리, 디스크, 스토리지 등 하드웨어 구성요소별 규모 산정식과 세부 기준값을 제시한다.
아마존닷컴은 쇼핑 상품 추천, 배송 및 물류 예측 등에 기계 학습 기술을 활용해 왔으며, 최근 프라임 서비스를 위한 음악, 이미지, 영상 인식, 무인 매장인 아마존고 및 음성 비서 서비스인 알렉사에 딥러닝 기술을 활용하고 있다. 본 세션에서는 이러한 주요 딥러닝 활용 기술 사례를 알아보고, AWS 클라우드를 통해 제공하는 이미지/영상 인식, 음성 인식 및 합성, 기계 번역, 자연어 처리 등 다양한 딥러닝 기반 서비스 구현 방법을 살펴본다. 개발자들이 직접 딥러닝 기반 데이터 처리, 모델 학습 및 서비스 배포까지 손쉽게 구성할 수 있는 Amazon SageMaker와 Deep Lens를 통해 어떻게 IoT 기반 서비스로 활용할 수 있는지 시연을 통해 알아본다.
Little Big Data #1 다양한 사람들의 데이터 사이언스 이야기에서 발표한 자료입니다
궁금한 것은 언제나 문의주세요 :)
행사 후기는 https://zzsza.github.io/etc/2018/04/21/little-big-data/ 에 있습니다!
(2018.5 내용 추가) 현재 회사가 없으니, 제게 관심있으신 분들도 연락 환영합니다 :)
Data Warehousing Trends, Best Practices, and Future OutlookJames Serra
Over the last decade, the 3Vs of data - Volume, Velocity & Variety has grown massively. The Big Data revolution has completely changed the way companies collect, analyze & store data. Advancements in cloud-based data warehousing technologies have empowered companies to fully leverage big data without heavy investments both in terms of time and resources. But, that doesn’t mean building and managing a cloud data warehouse isn’t accompanied by any challenges. From deciding on a service provider to the design architecture, deploying a data warehouse tailored to your business needs is a strenuous undertaking. Looking to deploy a data warehouse to scale your company’s data infrastructure or still on the fence? In this presentation you will gain insights into the current Data Warehousing trends, best practices, and future outlook. Learn how to build your data warehouse with the help of real-life use-cases and discussion on commonly faced challenges. In this session you will learn:
- Choosing the best solution - Data Lake vs. Data Warehouse vs. Data Mart
- Choosing the best Data Warehouse design methodologies: Data Vault vs. Kimball vs. Inmon
- Step by step approach to building an effective data warehouse architecture
- Common reasons for the failure of data warehouse implementations and how to avoid them
A top-down look at current industry and technology trends for Big Data, Data Analytics and Machine Learning (cognitive technologies, AI etc.). New slides added for Ark Group presentation on 1st December 2016.
Zeppelin 노트북, 화재 뉴스 기사 데이터셋:
https://github.com/uosdmlab/playdata-zeppelin-notebook
2016년 10월 14일(금)에 "마루180"서 열린 "데이터야놀자"에서 진행한 세션 "Spark & Zeppelin을 활용한 머신러닝 실전 적용기" 슬라이드입니다. 많은 분들이 빠르고 쉽게 Spark ML을 시작했으면 하는 마음에서 발표를 준비했습니다! 실제로 Spark와 Zeppelin으로 머신러닝을 하며 발생한 문제점과 해결법, 간단한 텍스트 분류 예제와 성능 향상 사례 등의 내용을 담았습니다. 세션에서는 제플린 노트북과 슬라이드를 번갈아가며 진행하였는데, 노트북이 궁금하신 분들은 GitHub에 올려두었으니 직접 실행해보세요^^ (정말 열심히 정리했습니다 ㅠㅠ)
서울시립대학교 데이터마이닝연구실 김태준
*(SlideShare에서도 배달의민족 도현체 쓰고 싶어요)
MMCF: Multimodal Collaborative Filtering for Automatic Playlist ConitnuationHojin Yang
The slides used for presentation in the 'ecSys challenge workshop 2018'. The challenge is co-organized by Spotify. Our team('hello world!') won the 2nd place.
최보경 : 실무자를 위한 인과추론 활용 - Best Practices
발표영상 https://youtu.be/wTPEZDc6fw4
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
Causal Inference KR 커뮤니티에서 진행한 발표입니다.
프로덕트 개발 조직의 데이터 분석가로 일하며 진행했던 인과추론 분석을 회고하는 내용입니다.
자료 조회가 안되실 경우 https://drive.google.com/file/d/1GAuAqggoxbX50EEwdzTaV4z4G0j8pLRf/view?usp=sharing 를 확인해주세요.
1. 인과추론에 빠져드는 이유
2. A/B 테스트의 현실, 왜 안된다고 할까?
3. 실험이 예상치 못한 지표를 침해했다
4. 기능을 늘리는 게 MAU 성장에 도움이 될까?
이윤희 : 다짜고짜 배워보는 인과추론
발표영상 https://youtu.be/fShRiqe1Cf0
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
박동혁 : 마케터에게 필요한 Data Literacy
발표영상 https://youtu.be/YWbJxCg7y2k
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
미래의 ICT생태계는 데이터를 중심으로 형성될 것입니다. 디지털라이제이션(digitalization)의 가속화로 우리의 일상은 빠르게 데이터 기반으로 급변하고 있습니다. 빅데이터라는 용어가 라디오 프로그램의 선곡기준으로도 등장하는 현 시점에서 다양한 관점의 빅데이터를 살펴봄으로써 실제 산업 생태계에 가져올 기술, 사회, 제도적 혁신의 조짐을 살펴보고자 합니다.
먼저 오픈소스가 가져오는 IT 생태계의 변화와 공유경제라는 키워드를 통해 함께함으로써 커지는 데이터의 가치, 그리고 그 가치를 더욱 크게 할 메타데이터의 중요성을 이야기하겠습니다. 또한 데이터 생태계의 활성화를 위한 거래 플랫폼이 가진 멀티 사이드 플랫폼의 가치와 이러한 플랫폼 활성화를 위한 공공 정책의 데이터 기반 변화 트렌드와 개인 프라이버시 보호 트렌드 및 기술을 살펴보고자합니다.
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
아마존닷컴은 쇼핑 상품 추천, 배송 및 물류 예측 등에 기계 학습 기술을 활용해 왔으며, 최근 프라임 서비스를 위한 음악, 이미지, 영상 인식, 무인 매장인 아마존고 및 음성 비서 서비스인 알렉사에 딥러닝 기술을 활용하고 있다. 본 세션에서는 이러한 주요 딥러닝 활용 기술 사례를 알아보고, AWS 클라우드를 통해 제공하는 이미지/영상 인식, 음성 인식 및 합성, 기계 번역, 자연어 처리 등 다양한 딥러닝 기반 서비스 구현 방법을 살펴본다. 개발자들이 직접 딥러닝 기반 데이터 처리, 모델 학습 및 서비스 배포까지 손쉽게 구성할 수 있는 Amazon SageMaker와 Deep Lens를 통해 어떻게 IoT 기반 서비스로 활용할 수 있는지 시연을 통해 알아본다.
Little Big Data #1 다양한 사람들의 데이터 사이언스 이야기에서 발표한 자료입니다
궁금한 것은 언제나 문의주세요 :)
행사 후기는 https://zzsza.github.io/etc/2018/04/21/little-big-data/ 에 있습니다!
(2018.5 내용 추가) 현재 회사가 없으니, 제게 관심있으신 분들도 연락 환영합니다 :)
Data Warehousing Trends, Best Practices, and Future OutlookJames Serra
Over the last decade, the 3Vs of data - Volume, Velocity & Variety has grown massively. The Big Data revolution has completely changed the way companies collect, analyze & store data. Advancements in cloud-based data warehousing technologies have empowered companies to fully leverage big data without heavy investments both in terms of time and resources. But, that doesn’t mean building and managing a cloud data warehouse isn’t accompanied by any challenges. From deciding on a service provider to the design architecture, deploying a data warehouse tailored to your business needs is a strenuous undertaking. Looking to deploy a data warehouse to scale your company’s data infrastructure or still on the fence? In this presentation you will gain insights into the current Data Warehousing trends, best practices, and future outlook. Learn how to build your data warehouse with the help of real-life use-cases and discussion on commonly faced challenges. In this session you will learn:
- Choosing the best solution - Data Lake vs. Data Warehouse vs. Data Mart
- Choosing the best Data Warehouse design methodologies: Data Vault vs. Kimball vs. Inmon
- Step by step approach to building an effective data warehouse architecture
- Common reasons for the failure of data warehouse implementations and how to avoid them
A top-down look at current industry and technology trends for Big Data, Data Analytics and Machine Learning (cognitive technologies, AI etc.). New slides added for Ark Group presentation on 1st December 2016.
Zeppelin 노트북, 화재 뉴스 기사 데이터셋:
https://github.com/uosdmlab/playdata-zeppelin-notebook
2016년 10월 14일(금)에 "마루180"서 열린 "데이터야놀자"에서 진행한 세션 "Spark & Zeppelin을 활용한 머신러닝 실전 적용기" 슬라이드입니다. 많은 분들이 빠르고 쉽게 Spark ML을 시작했으면 하는 마음에서 발표를 준비했습니다! 실제로 Spark와 Zeppelin으로 머신러닝을 하며 발생한 문제점과 해결법, 간단한 텍스트 분류 예제와 성능 향상 사례 등의 내용을 담았습니다. 세션에서는 제플린 노트북과 슬라이드를 번갈아가며 진행하였는데, 노트북이 궁금하신 분들은 GitHub에 올려두었으니 직접 실행해보세요^^ (정말 열심히 정리했습니다 ㅠㅠ)
서울시립대학교 데이터마이닝연구실 김태준
*(SlideShare에서도 배달의민족 도현체 쓰고 싶어요)
MMCF: Multimodal Collaborative Filtering for Automatic Playlist ConitnuationHojin Yang
The slides used for presentation in the 'ecSys challenge workshop 2018'. The challenge is co-organized by Spotify. Our team('hello world!') won the 2nd place.
최보경 : 실무자를 위한 인과추론 활용 - Best Practices
발표영상 https://youtu.be/wTPEZDc6fw4
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
Causal Inference KR 커뮤니티에서 진행한 발표입니다.
프로덕트 개발 조직의 데이터 분석가로 일하며 진행했던 인과추론 분석을 회고하는 내용입니다.
자료 조회가 안되실 경우 https://drive.google.com/file/d/1GAuAqggoxbX50EEwdzTaV4z4G0j8pLRf/view?usp=sharing 를 확인해주세요.
1. 인과추론에 빠져드는 이유
2. A/B 테스트의 현실, 왜 안된다고 할까?
3. 실험이 예상치 못한 지표를 침해했다
4. 기능을 늘리는 게 MAU 성장에 도움이 될까?
이윤희 : 다짜고짜 배워보는 인과추론
발표영상 https://youtu.be/fShRiqe1Cf0
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
박동혁 : 마케터에게 필요한 Data Literacy
발표영상 https://youtu.be/YWbJxCg7y2k
---
PAP가 준비한 팝콘 시즌1에서 프로덕트와 함께 성장하는 데이터 실무자들의 이야기를 담았습니다.
---
PAP(Product Analytics Playground)는 프로덕트 데이터 분석에 대해 편안하게 이야기할 수 있는 커뮤니티입니다.
우리는 데이터 드리븐 프로덕트 문화를 더 많은 분들이 각자의 자리에서 이끌어갈 수 있도록 하는 것을 목표로 합니다.
다양한 직군의 사람들이 모여 프로덕트를 만들듯 PAP 역시 다양한 멤버로 구성되어 있으며, 여러분들의 참여로 만들어집니다.
---
공식 페이지 : https://playinpap.oopy.io
페이스북 그룹 : https://www.facebook.com/groups/talkinpap
팀블로그 : https://playinpap.github.io
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
미래의 ICT생태계는 데이터를 중심으로 형성될 것입니다. 디지털라이제이션(digitalization)의 가속화로 우리의 일상은 빠르게 데이터 기반으로 급변하고 있습니다. 빅데이터라는 용어가 라디오 프로그램의 선곡기준으로도 등장하는 현 시점에서 다양한 관점의 빅데이터를 살펴봄으로써 실제 산업 생태계에 가져올 기술, 사회, 제도적 혁신의 조짐을 살펴보고자 합니다.
먼저 오픈소스가 가져오는 IT 생태계의 변화와 공유경제라는 키워드를 통해 함께함으로써 커지는 데이터의 가치, 그리고 그 가치를 더욱 크게 할 메타데이터의 중요성을 이야기하겠습니다. 또한 데이터 생태계의 활성화를 위한 거래 플랫폼이 가진 멀티 사이드 플랫폼의 가치와 이러한 플랫폼 활성화를 위한 공공 정책의 데이터 기반 변화 트렌드와 개인 프라이버시 보호 트렌드 및 기술을 살펴보고자합니다.
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)doo rip choi
4차 산업혁명의 기술들은 소통을 위한 진화 기술로 발전되어 가고 있다.
비즈니스 영역마다 고객과의 소통이 필요하고 신기술을 활용한
고객의 니즈에 맞는 서비스 역량을 가져야 할 것이다.
고객과의 소통을 주제로 3개의 시리즈 물로 발표 자료를 공유 합니다.
고객과의 소통 신기술의 진화
1. 고객을 이해하는 빅데이터
(The big data platform to understand customers.)
2. 고객과 소통하는 인공지능
( Artificial intelligence to communicate with customers)
3. 고객을 연결하는 블록체인
(Block chain to connect with customer)
[KERIS 이슈리포트] 요약 세미나 (Webinar) 자료
* 원문 링크: http://bit.ly/196LHBs
국내외 빅데이터 및 학습 분석 관련 기고서들과 동향 분석자료를 요약한 이슈리포트. UNESCO Policy Brief와 IMS Global의 백서를 중심으로 학습 분석 기술의 활용가능성과 쟁정들을 분석한 자료.
<주요>
1. 빅데이터 기술 및 산업 동향
2. 학습 분석 기술에 대한 이해
3. 학습 분석 기술 표준화 동향
4. 시사점
Big Data and Data Visualization(Inforgraphics) 2012년 KISTI(한국정보과학기술연구원) 발표 자료Seul Koo
Presentation about Big Data and Data Visualization(Inforgraphics) at KISTI(Korea Institute of Science and Technology Information). Data Visualization Technology can analyze and find a hidden business opportunity through a systematic visualization tool for Big Data.
2017 면진제품소개 ess엔타이어세이프시스템(아이웍스)아이웍스 | iWorks Inc.
한반도 지진 발생은 매년 증가하고 있는 가운데, 2016년 9월 12일 경상북도 경주시에는 규모 5.8의 지진이 발생하였습니다. 기상청 관측 역사상 최대 규모의 지진으로 기록되었습니다. 부근 지역인 부산, 울산, 창원에도 진도 5 이상 감지되었고, 진도 6 이상은 가옥이 심하게 흔들리고 무거운 가구가 움직일 정도의 중진입니다.
지진 발생 직후에 휴대폰의 통화와 문자, 그리고 트래픽 증가로 인해 카카오톡 메신저와 일부 포털사이트에 장애가 발생하는 후유증도 나타났었습니다.
이와같이 자연재해는 과거의 물적피해와 인명피해에서 나아가 IT기반 시설에도 영향을 미치면서 정보재해에 따른 피해를 추산하는 것은 더 어렵고 예방하는 것 또한 쉽지 않은게 현실입니다.
따라서, 지진재해에서 데이터센터를 보호하고 안정적인 운영을 위해서 면진테이블(base isolated table) 시설을 통해 상당한 효과를 얻을 수 있음은 여러 사례를 통해 증명되고 있습니다.
면진은 지진 진동을 감쇄하는 장치를 통해 진동의 전파를 줄여줌으로 물적 피해를 줄일 수 있는 대책이며, 내진은 지진 진동으로 가해지는 지진력을 견딤으로써 지진에의한 손상이 최소화 될수 있는 대책입니다.
IT를 기반으로 다양한 산업군이 급변하는 시대임.
헬스케어 시장의 병원들 또한 오랜기간 쌓아온 그리고 쌓여가는 환자 진료 데이터를 통해 더 많은 서비스로 경쟁력을 강화하려는 움직임이 이미 시작되었음.
따라서, 진료의 혁신, 환자의 편의. 나아가 헬스케어 시장에 혁신을 통해 각 병원들의 경쟁력 강화가 임박해지는 시점으로,
IT를 기반한 변화는 IT Infra.에 핵심과 해답이 있다는 관점에서 이야기를 풀어나가고자 했음.
2. 빅데이타 개념
• 정형, 비정형 대용량 데이터를 모아 분석, 통계, 예측
• 기존 데이터에 비해 너무 방대해 이전 방법이나 도구로 수
집, 저장, 검색, 분석, 시각화등 어렵다.
• 기존 데이터베이스 SW가 저장 , 관리, 분석할 수 있는 범
위를 초과하는 규모의 데이타
3. 빅데이타 출현 배경
• 비정형 데이터 급증
- 문자, 음성, GPS, 영상, 인터넷 SNS,
• 스마트폰 확산 – SNS, 쿠폰, 광고, GPS 위치정보, NFC 칩,
비콘 ,
• 멀티미디어 콘텐츠 사용 관련 정보
• 각종 센서로 부터 데이터 수집, 저장 – IoT
• 정보의 바다 정보의 홍수
4. 빅데이타 특성 – 3V
• Volume( 데이터 량)
• Variety( 다양성)
• Velocity (빠른 생성, 빠른 처리)
Value
새로운 가치 창조
9. 하둡 - Hadoop
• 목적 - 여러대의 컴퓨터를 병렬 연결, 상호 협력하여 컴
퓨팅의 성능과 효율 향상
• 구성
- HDFS (Hadoop Distributed File System)
- Map Reduce(분산 처리프로그래밍)
10. HDFS - 하둡파일시스템
• 클러스터 환경에서 대용량 데이터를 분산해서 안정적
으로 저장하는 프레임워크
• 큰 파일을 일정 크기의 덩어리(chunk)로 쪼갬
• 덩어리를 복제하여 전체 클러스터에 분산 저장
• 일부 노드 장애는 서비스에 영향을 주지 않음
11. HDFS
• 수백GB – 수 TB 지원
• Write Once Read Many 파일 시스템
- 한번 작성되면 바뀔 필요없는 경우
- Append 만 가능
• 저렴한 컴퓨터 병렬로 여러 개 연결 , 병렬 처리 지원
12. MapReduce
• 하둡 분산파일시스템에 저장된 분산데이타를 클러스
터로 연결된 컴퓨팅 노드들이 병렬로 데이터를 처리하
는 프레임워크
• 함수형 프로그램에서 일반적으로 사용하는 Map과
Reduce라는 함수 기반으로 구성
• 복잡한 컴퓨팅을 MAP/Reduce 두가지로 단순화
15. 시각화
• 정의 : Visualization은 숫자를 공간에 배치해서 보여줌으로
써 그 패턴을 인지하게 만드는 것이다.
• 통계/분석의 가장 중요한 부분.
1. 데이터의 특성을 쉽게 파악( vs 통계량 )
2. 결과 레포트에 활용
-> 독립된 학문/기술 분야로 발전
• 근거 : 사람은 탁월한 패턴 인식 능력이 있음.
• 데이터 패턴 파악의 도구, 분석을 돕는 역할
-> 데이터의 스토리텔링 : 소통을 위한 전달체, 재미/유머
/오락성
18. 빅데이타 활용 - 공공
• 목적 : 과학적 정책 의사결정
• 스마트 시티
• 서울시 지하철 승객 분포 – 가장 복잡한 지하철,..
• 성남시 도서관 자료 분석
• 해운대구 쓰레기 무단 투기
• 서울시 심야버스 분석
• 경기도 민원 분석 –교통>생활환경>주민생활,계절별 민원
• 관광객 정보 분석 – 축제기간 유입인구 분석
• 유동인구 분석으로 상권 분석
• 범죄예방 – 20대 여성인구 시간대별 분석
19. 빅데이타 활용 – 유통, 제조, 금융,.
• 목적 : 비용절감, 수익 창출
• 아마존 – 고객의 구매이력 데이터 분석
• 월마트 – SNS 데이터 분석, 점포내 모바일 네비게이션
• 넷플릭스 – 개인화된 VOD 서비스
• 다이닝코드 – 빅데이타 맛집 검색,500만개 blog 60% 제거
• 제조산업 – 센서로 부터 IoT 데이터 분석, 불량율, 생산성
향상
• 금융 - FDS, 주가 예측, 보험상품 개발, 보험수익계산,
20. 정리
• ICBM – IoT, Cloud, Bigdata, Mobile
• 성장 분야
• 데이터 축적이 기본
• 사업 구상에서 closing까지 오랜 기간 소요(2-3년)
• 데이터 수집, 분석, 예측, 시각화등 전체사업 수행능력
• 소규모 IT인력 openstack으로 Bigdata 분석은 무리