A Data Warehouse is a collection of integrated, subject-oriented databases designed to support decision-making. It contains non-volatile data that is relevant to a point in time. An operational data store feeds the data warehouse with a stream of raw data. Metadata provides information about the data in the warehouse.
Este documento proporciona una introducción a Hadoop, incluyendo su arquitectura, componentes principales como HDFS, MapReduce, YARN y otros proyectos como Hive, Pig y HBase. Explica brevemente el origen de Hadoop, cómo funciona y algunos de los usos más comunes por empresas como Yahoo, Facebook y Twitter.
Airbnb aims to democratize data within the company by building a graph database of all internal data resources connected by relationships. This graph is queried through a search interface to help employees explore, discover, and build trust in company data. Challenges include modeling complex data dependencies and proxy nodes, merging graph updates from different sources, and designing a data-dense interface simply. Future goals are to gamify content production, deliver recommendations, certify trusted content, and analyze the information network.
Business analytics uses data, statistical analysis, and other quantitative techniques to help understand and optimize business performance. It is becoming a major tool used by many large corporations. There are various tools and techniques for business analytics, including online analytical processing (OLAP), data visualization, data mining, predictive analysis, and geographic information systems (GIS). Real-time business intelligence and automated decision support are also increasingly important for analytics.
This document discusses big data mining. It defines big data as large volumes of structured and unstructured data that are difficult to process using traditional methods due to their size. It describes the characteristics of big data including volume, variety, velocity, variability, and complexity. It also discusses challenges of big data such as data location, volume, hardware resources, and privacy. Popular tools for big data mining include Hadoop, Apache S4, Storm, Apache Mahout, and MOA. Hadoop is an open source software framework that allows distributed processing of large datasets across clusters of computers. Common algorithms for big data mining operate at the model and knowledge levels to discover patterns and correlations across distributed data sources.
This document provides an overview of exploratory data analysis (EDA). It discusses how EDA is used to generate and refine questions from data by visualizing, transforming, and modeling the data. Questions can come from hypotheses, problems, or the data itself. EDA plays a role in developing, testing, and refining theories, solving problems, and asking interesting questions about the data. The document emphasizes being skeptical of assumptions and open to multiple interpretations during EDA to maximize learning from the data. It introduces the dplyr and ggplot2 packages for selecting, filtering, summarizing, and visualizing data during the EDA process.
Hadoop is an open source framework that allows distributed processing of large datasets across clusters of computers. It has two major layers - a processing layer called MapReduce that splits data and runs tasks in parallel, and a storage layer called HDFS that stores data across nodes in a cluster. Hadoop can process large amounts of data reliably and at scale, distributing data, tasks and load balancing across nodes in a cluster.
A Data Warehouse is a collection of integrated, subject-oriented databases designed to support decision-making. It contains non-volatile data that is relevant to a point in time. An operational data store feeds the data warehouse with a stream of raw data. Metadata provides information about the data in the warehouse.
Este documento proporciona una introducción a Hadoop, incluyendo su arquitectura, componentes principales como HDFS, MapReduce, YARN y otros proyectos como Hive, Pig y HBase. Explica brevemente el origen de Hadoop, cómo funciona y algunos de los usos más comunes por empresas como Yahoo, Facebook y Twitter.
Airbnb aims to democratize data within the company by building a graph database of all internal data resources connected by relationships. This graph is queried through a search interface to help employees explore, discover, and build trust in company data. Challenges include modeling complex data dependencies and proxy nodes, merging graph updates from different sources, and designing a data-dense interface simply. Future goals are to gamify content production, deliver recommendations, certify trusted content, and analyze the information network.
Business analytics uses data, statistical analysis, and other quantitative techniques to help understand and optimize business performance. It is becoming a major tool used by many large corporations. There are various tools and techniques for business analytics, including online analytical processing (OLAP), data visualization, data mining, predictive analysis, and geographic information systems (GIS). Real-time business intelligence and automated decision support are also increasingly important for analytics.
This document discusses big data mining. It defines big data as large volumes of structured and unstructured data that are difficult to process using traditional methods due to their size. It describes the characteristics of big data including volume, variety, velocity, variability, and complexity. It also discusses challenges of big data such as data location, volume, hardware resources, and privacy. Popular tools for big data mining include Hadoop, Apache S4, Storm, Apache Mahout, and MOA. Hadoop is an open source software framework that allows distributed processing of large datasets across clusters of computers. Common algorithms for big data mining operate at the model and knowledge levels to discover patterns and correlations across distributed data sources.
This document provides an overview of exploratory data analysis (EDA). It discusses how EDA is used to generate and refine questions from data by visualizing, transforming, and modeling the data. Questions can come from hypotheses, problems, or the data itself. EDA plays a role in developing, testing, and refining theories, solving problems, and asking interesting questions about the data. The document emphasizes being skeptical of assumptions and open to multiple interpretations during EDA to maximize learning from the data. It introduces the dplyr and ggplot2 packages for selecting, filtering, summarizing, and visualizing data during the EDA process.
Hadoop is an open source framework that allows distributed processing of large datasets across clusters of computers. It has two major layers - a processing layer called MapReduce that splits data and runs tasks in parallel, and a storage layer called HDFS that stores data across nodes in a cluster. Hadoop can process large amounts of data reliably and at scale, distributing data, tasks and load balancing across nodes in a cluster.
Slides for talk presented at Boulder Java User's Group on 9/10/2013, updated and improved for presentation at DOSUG, 3/4/2014
Code is available at https://github.com/jmctee/hadoopTools
There are patterns for things such as domain-driven design, enterprise architectures, continuous delivery, microservices, and many others.
But where are the data science and data engineering patterns?
Sometimes, data engineering reminds me of cowboy coding - many workarounds, immature technologies and lack of market best practices.
This presentation have the concept of Big data.
Why Big data is important to the present world.
How to visualize big data.
Steps for perfect visualization.
Visualization and design principle.
Also It had a number of visualization method for big data and traditional data.
Advantage of Visualization in Big Data
This document provides a syllabus for a course on big data. The course introduces students to big data concepts like characteristics of data, structured and unstructured data sources, and big data platforms and tools. Students will learn data analysis using R software, big data technologies like Hadoop and MapReduce, mining techniques for frequent patterns and clustering, and analytical frameworks and visualization tools. The goal is for students to be able to identify domains suitable for big data analytics, perform data analysis in R, use Hadoop and MapReduce, apply big data to problems, and suggest ways to use big data to increase business outcomes.
Hive is a data warehouse infrastructure tool that allows users to query and analyze large datasets stored in Hadoop. It uses a SQL-like language called HiveQL to process structured data stored in HDFS. Hive stores metadata about the schema in a database and processes data into HDFS. It provides a familiar interface for querying large datasets using SQL-like queries and scales easily to large datasets.
Big data is large and complex data that cannot be processed by traditional data management tools. It is characterized by high volume, velocity, and variety. Big data comes from many sources and in many formats, including structured, unstructured, and semi-structured data. Storing and processing big data requires specialized systems like Hadoop and NoSQL databases. Big data analytics can provide benefits like improved business decisions and customer satisfaction when applied to areas such as healthcare, security, and manufacturing. However, big data also presents risks regarding privacy, costs, and being overwhelmed by the volume of data.
Intelligent web crawling
Denis Shestakov, Aalto University
Slides for tutorial given at WI-IAT'13 in Atlanta, USA on November 20th, 2013
Outline:
- overview of web crawling;
- intelligent web crawling;
- open challenges
Hadoop Tutorial For Beginners | Apache Hadoop Tutorial For Beginners | Hadoop...Simplilearn
This presentation about Hadoop for beginners will help you understand what is Hadoop, why Hadoop, what is Hadoop HDFS, Hadoop MapReduce, Hadoop YARN, a use case of Hadoop and finally a demo on HDFS (Hadoop Distributed File System), MapReduce and YARN. Big Data is a massive amount of data which cannot be stored, processed, and analyzed using traditional systems. To overcome this problem, we use Hadoop. Hadoop is a framework which stores and handles Big Data in a distributed and parallel fashion. Hadoop overcomes the challenges of Big Data. Hadoop has three components HDFS, MapReduce, and YARN. HDFS is the storage unit of Hadoop, MapReduce is its processing unit, and YARN is the resource management unit of Hadoop. In this video, we will look into these units individually and also see a demo on each of these units.
Below topics are explained in this Hadoop presentation:
1. What is Hadoop
2. Why Hadoop
3. Big Data generation
4. Hadoop HDFS
5. Hadoop MapReduce
6. Hadoop YARN
7. Use of Hadoop
8. Demo on HDFS, MapReduce and YARN
What is this Big Data Hadoop training course about?
The Big Data Hadoop and Spark developer course have been designed to impart an in-depth knowledge of Big Data processing using Hadoop and Spark. The course is packed with real-life projects and case studies to be executed in the CloudLab.
What are the course objectives?
This course will enable you to:
1. Understand the different components of the Hadoop ecosystem such as Hadoop 2.7, Yarn, MapReduce, Pig, Hive, Impala, HBase, Sqoop, Flume, and Apache Spark
2. Understand Hadoop Distributed File System (HDFS) and YARN as well as their architecture, and learn how to work with them for storage and resource management
3. Understand MapReduce and its characteristics, and assimilate some advanced MapReduce concepts
4. Get an overview of Sqoop and Flume and describe how to ingest data using them
5. Create database and tables in Hive and Impala, understand HBase, and use Hive and Impala for partitioning
6. Understand different types of file formats, Avro Schema, using Arvo with Hive, and Sqoop and Schema evolution
7. Understand Flume, Flume architecture, sources, flume sinks, channels, and flume configurations
8. Understand HBase, its architecture, data storage, and working with HBase. You will also understand the difference between HBase and RDBMS
9. Gain a working knowledge of Pig and its components
10. Do functional programming in Spark
11. Understand resilient distribution datasets (RDD) in detail
12. Implement and build Spark applications
13. Gain an in-depth understanding of parallel processing in Spark and Spark RDD optimization techniques
14. Understand the common use-cases of Spark and the various interactive algorithms
15. Learn Spark SQL, creating, transforming, and querying Data frames
Learn more at https://www.simplilearn.com/big-data-and-analytics/big-data-and-hadoop-training
StreamAnalytix is a software platform that enables enterprises to analyze and respond to events in real-time at Big Data scale. It is designed to rapidly build and deploy streaming analytics applications for any industry vertical, any data format, and any use case.
Logstash is a tool for managing logs that allows for input, filter, and output plugins to collect, parse, and deliver logs and log data. It works by treating logs as events that are passed through the input, filter, and output phases, with popular plugins including file, redis, grok, elasticsearch and more. The document also provides guidance on using Logstash in a clustered configuration with an agent and server model to optimize log collection, processing, and storage.
NoSQL Database: Classification, Characteristics and ComparisonMayuree Srikulwong
My students' presentation of a paper "NoSQL Database: New Era of Databases for Big Data Analytics - Classification, Characteristics and Comparison" by Moniruzzaman, A.B.M. and Hossain, S.A. (2013).
The document discusses data warehouses and their advantages. It describes the different views of a data warehouse including the top-down view, data source view, data warehouse view, and business query view. It also discusses approaches to building a data warehouse, including top-down and bottom-up, and steps involved including planning, requirements, design, integration, and deployment. Finally, it discusses technologies used to populate and refresh data warehouses like extraction, cleaning, transformation, load, and refresh tools.
This document contains information about a group project on big data. It lists the group members and their student IDs. It then provides a table of contents and summaries various topics related to big data, including what big data is, data sources, characteristics of big data like volume, variety and velocity, storing and processing big data using Hadoop, where big data is used, risks and benefits of big data, and the future of big data.
This document discusses NoSQL and the CAP theorem. It begins with an introduction of the presenter and an overview of topics to be covered: What is NoSQL and the CAP theorem. It then defines NoSQL, provides examples of major NoSQL categories (document, graph, key-value, and wide-column stores), and explains why NoSQL is used, including to handle large, dynamic, and distributed data. The document also explains the CAP theorem, which states that a distributed data store can only satisfy two of three properties: consistency, availability, and partition tolerance. It provides examples of how to choose availability over consistency or vice versa. Finally, it concludes that both SQL and NoSQL have valid use cases and a combination
The document discusses the role of a full-stack data scientist. It begins with an introduction of the author, Alexey Grigorev, as a data scientist. It then outlines the plan to discuss the data science process, roles in a data science team, what defines a full-stack data scientist, and how to become a full-stack data scientist. It proceeds to explain the CRISP-DM process for data science projects. It describes the different roles in a data science team including product manager, data analyst, data engineer, data scientist, and ML engineer. It defines a full-stack data scientist as someone who can work across the entire data science lifecycle and discusses the breadth of skills required to become a
1.Introduction
2.Overview
3.Why Big Data
4.Application of Big Data
5.Risks of Big Data
6.Benefits & Impact of Big Data
7.Conclusion
‘Big Data’ is similar to ‘small data’, but bigger in size
But having data bigger it requires different approaches:
Techniques, tools and architecture
An aim to solve new problems or old problems in a better
way
Big Data generates value from the storage and processing
of very large quantities of digital information that cannot be
analyzed with traditional computing techniques.
This document provides an overview of Apache Spark, including its capabilities and components. Spark is an open-source cluster computing framework that allows distributed processing of large datasets across clusters of machines. It supports various data processing workloads including streaming, SQL, machine learning and graph analytics. The document discusses Spark's APIs like DataFrames and its libraries like Spark SQL, Spark Streaming, MLlib and GraphX. It also provides examples of using Spark for tasks like linear regression modeling.
Power BI is a business analytics service by Microsoft that offers interactive visualizations and self-service business intelligence capabilities. It transforms data into visualizations that improve business decision making. Power BI offers different tools like Power BI Desktop, Power BI Service, and mobile apps. It also provides various licensing options like Power BI Pro and Power BI Premium. Before sharing reports, users can configure settings like featured reports, persistent filters, and cross filtering.
Slides for talk presented at Boulder Java User's Group on 9/10/2013, updated and improved for presentation at DOSUG, 3/4/2014
Code is available at https://github.com/jmctee/hadoopTools
There are patterns for things such as domain-driven design, enterprise architectures, continuous delivery, microservices, and many others.
But where are the data science and data engineering patterns?
Sometimes, data engineering reminds me of cowboy coding - many workarounds, immature technologies and lack of market best practices.
This presentation have the concept of Big data.
Why Big data is important to the present world.
How to visualize big data.
Steps for perfect visualization.
Visualization and design principle.
Also It had a number of visualization method for big data and traditional data.
Advantage of Visualization in Big Data
This document provides a syllabus for a course on big data. The course introduces students to big data concepts like characteristics of data, structured and unstructured data sources, and big data platforms and tools. Students will learn data analysis using R software, big data technologies like Hadoop and MapReduce, mining techniques for frequent patterns and clustering, and analytical frameworks and visualization tools. The goal is for students to be able to identify domains suitable for big data analytics, perform data analysis in R, use Hadoop and MapReduce, apply big data to problems, and suggest ways to use big data to increase business outcomes.
Hive is a data warehouse infrastructure tool that allows users to query and analyze large datasets stored in Hadoop. It uses a SQL-like language called HiveQL to process structured data stored in HDFS. Hive stores metadata about the schema in a database and processes data into HDFS. It provides a familiar interface for querying large datasets using SQL-like queries and scales easily to large datasets.
Big data is large and complex data that cannot be processed by traditional data management tools. It is characterized by high volume, velocity, and variety. Big data comes from many sources and in many formats, including structured, unstructured, and semi-structured data. Storing and processing big data requires specialized systems like Hadoop and NoSQL databases. Big data analytics can provide benefits like improved business decisions and customer satisfaction when applied to areas such as healthcare, security, and manufacturing. However, big data also presents risks regarding privacy, costs, and being overwhelmed by the volume of data.
Intelligent web crawling
Denis Shestakov, Aalto University
Slides for tutorial given at WI-IAT'13 in Atlanta, USA on November 20th, 2013
Outline:
- overview of web crawling;
- intelligent web crawling;
- open challenges
Hadoop Tutorial For Beginners | Apache Hadoop Tutorial For Beginners | Hadoop...Simplilearn
This presentation about Hadoop for beginners will help you understand what is Hadoop, why Hadoop, what is Hadoop HDFS, Hadoop MapReduce, Hadoop YARN, a use case of Hadoop and finally a demo on HDFS (Hadoop Distributed File System), MapReduce and YARN. Big Data is a massive amount of data which cannot be stored, processed, and analyzed using traditional systems. To overcome this problem, we use Hadoop. Hadoop is a framework which stores and handles Big Data in a distributed and parallel fashion. Hadoop overcomes the challenges of Big Data. Hadoop has three components HDFS, MapReduce, and YARN. HDFS is the storage unit of Hadoop, MapReduce is its processing unit, and YARN is the resource management unit of Hadoop. In this video, we will look into these units individually and also see a demo on each of these units.
Below topics are explained in this Hadoop presentation:
1. What is Hadoop
2. Why Hadoop
3. Big Data generation
4. Hadoop HDFS
5. Hadoop MapReduce
6. Hadoop YARN
7. Use of Hadoop
8. Demo on HDFS, MapReduce and YARN
What is this Big Data Hadoop training course about?
The Big Data Hadoop and Spark developer course have been designed to impart an in-depth knowledge of Big Data processing using Hadoop and Spark. The course is packed with real-life projects and case studies to be executed in the CloudLab.
What are the course objectives?
This course will enable you to:
1. Understand the different components of the Hadoop ecosystem such as Hadoop 2.7, Yarn, MapReduce, Pig, Hive, Impala, HBase, Sqoop, Flume, and Apache Spark
2. Understand Hadoop Distributed File System (HDFS) and YARN as well as their architecture, and learn how to work with them for storage and resource management
3. Understand MapReduce and its characteristics, and assimilate some advanced MapReduce concepts
4. Get an overview of Sqoop and Flume and describe how to ingest data using them
5. Create database and tables in Hive and Impala, understand HBase, and use Hive and Impala for partitioning
6. Understand different types of file formats, Avro Schema, using Arvo with Hive, and Sqoop and Schema evolution
7. Understand Flume, Flume architecture, sources, flume sinks, channels, and flume configurations
8. Understand HBase, its architecture, data storage, and working with HBase. You will also understand the difference between HBase and RDBMS
9. Gain a working knowledge of Pig and its components
10. Do functional programming in Spark
11. Understand resilient distribution datasets (RDD) in detail
12. Implement and build Spark applications
13. Gain an in-depth understanding of parallel processing in Spark and Spark RDD optimization techniques
14. Understand the common use-cases of Spark and the various interactive algorithms
15. Learn Spark SQL, creating, transforming, and querying Data frames
Learn more at https://www.simplilearn.com/big-data-and-analytics/big-data-and-hadoop-training
StreamAnalytix is a software platform that enables enterprises to analyze and respond to events in real-time at Big Data scale. It is designed to rapidly build and deploy streaming analytics applications for any industry vertical, any data format, and any use case.
Logstash is a tool for managing logs that allows for input, filter, and output plugins to collect, parse, and deliver logs and log data. It works by treating logs as events that are passed through the input, filter, and output phases, with popular plugins including file, redis, grok, elasticsearch and more. The document also provides guidance on using Logstash in a clustered configuration with an agent and server model to optimize log collection, processing, and storage.
NoSQL Database: Classification, Characteristics and ComparisonMayuree Srikulwong
My students' presentation of a paper "NoSQL Database: New Era of Databases for Big Data Analytics - Classification, Characteristics and Comparison" by Moniruzzaman, A.B.M. and Hossain, S.A. (2013).
The document discusses data warehouses and their advantages. It describes the different views of a data warehouse including the top-down view, data source view, data warehouse view, and business query view. It also discusses approaches to building a data warehouse, including top-down and bottom-up, and steps involved including planning, requirements, design, integration, and deployment. Finally, it discusses technologies used to populate and refresh data warehouses like extraction, cleaning, transformation, load, and refresh tools.
This document contains information about a group project on big data. It lists the group members and their student IDs. It then provides a table of contents and summaries various topics related to big data, including what big data is, data sources, characteristics of big data like volume, variety and velocity, storing and processing big data using Hadoop, where big data is used, risks and benefits of big data, and the future of big data.
This document discusses NoSQL and the CAP theorem. It begins with an introduction of the presenter and an overview of topics to be covered: What is NoSQL and the CAP theorem. It then defines NoSQL, provides examples of major NoSQL categories (document, graph, key-value, and wide-column stores), and explains why NoSQL is used, including to handle large, dynamic, and distributed data. The document also explains the CAP theorem, which states that a distributed data store can only satisfy two of three properties: consistency, availability, and partition tolerance. It provides examples of how to choose availability over consistency or vice versa. Finally, it concludes that both SQL and NoSQL have valid use cases and a combination
The document discusses the role of a full-stack data scientist. It begins with an introduction of the author, Alexey Grigorev, as a data scientist. It then outlines the plan to discuss the data science process, roles in a data science team, what defines a full-stack data scientist, and how to become a full-stack data scientist. It proceeds to explain the CRISP-DM process for data science projects. It describes the different roles in a data science team including product manager, data analyst, data engineer, data scientist, and ML engineer. It defines a full-stack data scientist as someone who can work across the entire data science lifecycle and discusses the breadth of skills required to become a
1.Introduction
2.Overview
3.Why Big Data
4.Application of Big Data
5.Risks of Big Data
6.Benefits & Impact of Big Data
7.Conclusion
‘Big Data’ is similar to ‘small data’, but bigger in size
But having data bigger it requires different approaches:
Techniques, tools and architecture
An aim to solve new problems or old problems in a better
way
Big Data generates value from the storage and processing
of very large quantities of digital information that cannot be
analyzed with traditional computing techniques.
This document provides an overview of Apache Spark, including its capabilities and components. Spark is an open-source cluster computing framework that allows distributed processing of large datasets across clusters of machines. It supports various data processing workloads including streaming, SQL, machine learning and graph analytics. The document discusses Spark's APIs like DataFrames and its libraries like Spark SQL, Spark Streaming, MLlib and GraphX. It also provides examples of using Spark for tasks like linear regression modeling.
Power BI is a business analytics service by Microsoft that offers interactive visualizations and self-service business intelligence capabilities. It transforms data into visualizations that improve business decision making. Power BI offers different tools like Power BI Desktop, Power BI Service, and mobile apps. It also provides various licensing options like Power BI Pro and Power BI Premium. Before sharing reports, users can configure settings like featured reports, persistent filters, and cross filtering.
제1회 DataGeeks(디긱스) 오픈세미나 발표자료
주제 : 데이터 분석과 활용
Google Analytics (이태영) - 모바일과 웹 비즈니스 분석을 위한 Google Analytics 활용
일시 : 12월 13일(토) 오후 13:30 ~ 17:30
장소 : 신논현역(9호선) 1번출구 2분 이내 데브기어 강의장
[Gastudy.net] Google analytics platform principlesSeHeung Oh
GA스터디에서 진행한 기본요약 중 첫번째 문서 입니다.
- Google analytics platform principles
ps. 문서에 나온 내용과과 스터디 진행시 말로 설명해드린 내용이 반반 정도의 비율이라 문서만으로는 제가 전달하고자 한 내용은 충분하지 않을 수 있는 점 참고 부탁드립니다.
데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스Minwoo Kim
2018년 8월 9일, sopoong 액셀러레이팅 워크샵 강의: 데이터 기반 성장을 위한 선결 조건: Product-Market Fit, Instrumentation, 그리고 프로세스.
- 발표 전문 읽기: http://bit.ly/2nrDhPv
데이터에 기반한 성장을 하기 위한 기반들, 필수 선결 조건들에 대해서 이야기해보려고 합니다. 제가 생각하는 필수 선결 조건은 Product-Market Fit, Instrumentation, 그리고 프로세스 이렇게 세 가지입니다. (이건 제가 만들어낸 개념들은 아니고, 기존에 성공적으로 스타트업의 성장을 만들어 냈던 선배들에게서 배운 내용입니다.)
[직장인환급과정]구글 애널리틱스를 활용한 분석용 데이터탐색 재직자향상과정_구글애널리틱스학원/데이터탐색/직장인환급/재직자향상과정/환급과정/국비지원탑크리에듀(구로디지털단지역3번출구 2분거리)
"구글 애널리틱스를 활용한 분석용 데이터탐색 재직자향상과정 “은
데이터 분석의 주된 목적은 수집된 데이터를 기반으로 디지털 마케팅 방식과 사업상의 의사결정을 수행함에 있어 최적 안을 선택할 수 있도록 하는 것입니다.
데이터 분석 영역에서 매우 유용한 도구인 구글 애널리틱스를 보다 심도 있게 활용할 수 있는 방법을 다양한 케이스를 통해 구체적으로 제시
[Gastudy.net] Digital analytics fundamentalsSeHeung Oh
GA스터디에서 사용한 기본요약 중 두번째 문서입니다.
- Digital analytics fundamentals
ps. 문서에 나온 내용과과 스터디 진행시 말로 설명해드린 내용이 반반 정도의 비율이라 문서만으로는 제가 전달하고자 한 내용은 충분하지 않을 수 있는 점 참고 부탁드립니다.
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...Amazon Web Services Korea
기업 환경에 따라 차이는 있겠지만, 최근 대부분의 기업은 데이터 분석 환경이 구축되어 있고, 이를 기반으로 데이터를 분석하고 있습니다. 그럼에도 불구하고 현업에서는 분석하고자 하는 데이터가 없거나 변화하는 비즈니스 요건을 반영하지 못한다는 불만을 제기하고, 분석 환경을 제공하는 IT운영팀은 변화하는 비즈니스 요건에 따라 분석 환경을 적시에 제공하기 쉽지 않다는 어려움을 토로하고 있습니다. 이 해결책으로 운영시스템에 데이터베이스 형태로 존재하고 있거나, 현업의 PC에서 수작업으로 작성한 정형, 비정형 파일을 통합 관리할 수 있고, 또한 인프라 환경의 확장 및 변경을 보다 유연하게 할 수 있는 AWS Cloud 기반의 분석 환경 구축 사례를 소개하고자 합니다.
다시보기 링크: https://youtu.be/YvYfNZHMJkI
본 강연에서는 AWS 파트너인 Treasure data의 솔루션을 이용하여 클라우드 환경에서 손쉽게 빅데이터 분석 및 적용하는 법에 대하여 살펴봅니다. 모범 사례에 따른 사용법을 소개하고 JP Morgan 등 해외 선도 고객 사례를 공유합니다.
연사: 고영혁 대표, Treasure Data
Summary of Google Analytics Guide (ver.Korean)
구글 애널리틱스 가이드 (매뉴얼)를 한국어 버전으로 정리한 자료입니다. 참고로 구글에서 제공하는 가이드는 웹 분석 (Commerce 서비스를 대표 예시로 설명)을 기반으로 진행됩니다. 이 자료는 바풀 사내 세미나에서 사용된 자료인데 다른 분들께도 도움이 될 수 있을 것 같아 공유합니다 :)
www.bapul.net
2. 강의의 목적
• 데이터 분석은 ‘데이터 수집’으로부터 시작됩니다.
• 데이터 수집 개발이 어려운 언론사에 ‘구글 애널리틱스’를 활용한 데이터 수집 방법 안내 및 지원
기술지원 및 컨설팅 범위
• 데이터 수집 설계
• 어떤 데이터를 수집해야 할까?
• 수집하고자 하는 데이터의 네이밍을 어떻게 해야할까?
• 분석에 필요한 데이터 수집을 하기 위해 어떤 기술적 요건이 필요할까?
• 데이터 수집 개발 지원 및 가이드 제공
• 웹사이트에서 특정 데이터를 수집/발생시키기 위해 어떤 작업을 해야 할까?
• 구글 애널리틱스 구조에 맞는 데이터 수집 설계 방식은 무엇일까?
• 수집 설정한 데이터가 오류 없이 잘 들어오고 있는 걸까? – 데이터 수집 환경 모니터링
3. 데이터 분석 어떻게 시작해야 할까?
1
2 구글 애널리틱스 기초 설정하기
유입 경로 추적하기
목차
사용자 행동 수집에 대한 이해
4
3
효과적인 사용자 행동 수집을
위한 준비
5
5. 데이터 분석의 활용
수요 예측
생산 최적화
• 공정 최적화
• 스마트팜
• 판매량 분석을 통한 수요 예측
마케팅 최적화
• 유입 최적화
• 전환 최적화
인프라 최적화
• 대중교통 인프라 배치
• 자전거, 킥보드 공유
서비스
반복 업무 자동화 • AI 기사·콘텐츠 생산
구글 애널리틱스 활용 분야
• 광고 예산 최적화
• 콘텐츠 유통 최적화
6. 강의에서 다루는 데이터 활용 유형
콘텐츠 관리
마케팅
웹 로그 분석
• 카테고리/주제별 관심사 분석
• 콘텐츠 유통 최적화
• 추천기사 리스트 최적화
• 콘텐츠 소비 수준 파악
• 신규 독자 획득
• 유입 채널 최적화
• 유료 상품 판매
• 재구매 유도
웹사이트 중심의 성과 분석
7. 데이터 분석 과정
• 데이터 수집과 측정을 위한 셋업랜드
• 데이터 분석을 통해 성과 개선을 진행하는 액션랜드
참고 : https://brunch.co.kr/@growth-hacker/4
8. 데이터 분석 과정
셋업랜드
액션랜드
• 데이터 수집 기획
• 데이터 수집 셋팅, 개발 구현
• 데이터 조회
• 보고서 생성 (현상 파악, 주요 보고서 자동화, 지표 계산)
- 데이터 수집 / 보고를 위한 셋팅
• 분석에 따른 실행 과제 설정
• 의사 결정
• 최적화
• A/B 테스트
- 데이터 기반의 성과 개선
9. 셋업랜드 통과의 어려움
• 개발 인력 부족
• 데이터 분석 인력 부족
• 초기 분석 목표 정의 실패
• (필요한 데이터 수집 X, 중요도 낮은 데이터만 의미 없이 수집)
• 필요한 기능이 지원이 되지 않는 분석 솔루션 적용
• 데이터 정합성이 떨어지는 잘못된 셋팅
10. 보고와 분석의 차이
보고
• 데이터를 통해 현상을 이해하는 과정
• 불필요한 보고 업무를 줄이는 것이 핵심 - 자동화
분석
• 문제 해결을 위한 실행 방안을 찾기 위한 과정
• 실제 데이터 분석의 효과가 발생하는 지점
11. 데이터 분석의 효과는 액션랜드에서
• 데이터 분석의 효과는 액션랜드에서 발생
• 대부분은 셋업랜드 단계를 넘어가기 어려워함
• 데이터 활용은
• 보고를 하기 위한 것 X -> 분석을 통해 실행, 주도, 성과 개선
12. Google Analytics – 첫 분석 툴 추천
• 웹 데이터 분석 툴 ‘Google Analytics’
• 정량적 분석 툴. 데이터 분석의 스탠다드
• 시중에서 사용되는 많은 정량 분석 툴들은 GA와 로직이 유사
• 무료로 많은 양의 데이터를 수집하고 처리할 수 있음
• 목적에 맞게 커스터마이징이 가능
• 셋팅/활용 관련 자료가 많고 교육 시장이 비교적 활발함.
* 본 강의에서는 Google Analytics를 ‘GA’로 표기
14. 구글 애널리틱스로 수집 가능한 데이터
• 원리적으로는 웹사이트에서 이루어지는 모든 사용자 행동 수집 가능
• 개인정보침해 범위를 제외하고 웹사이트 내 모든 활동 데이터화 가능
• 사용자의 행동을 데이터로 만드는 과정 필요 (개발, 셋팅)
• 구글 애널리틱스에서 요구하는 규칙에 맞게 데이터 구조화 필요
데이터 수집은 개발, 셋팅이 핵심!
15. GA 데이터 수집 구조 – 개발/셋팅
• 기본 추적 코드
• 이벤트 태깅
• 전자상거래 태깅
추가적인 설정, 개발에 따라 볼 수 있는 데이터가 달라진다!
16. GA 데이터 수집 구조
• 기본 추적 코드
• 획득 – 외부에서 어떤 경로로 유입?
• 행동 – 페이지 조회 및 이동
• 이벤트 추적
• 행동 – 발생한 이벤트 (클릭, 양식 제출 등)
• 전환 – 목표로 정의한 이벤트
(이벤트를 전환 데이터로 활용하기 위한 목표 설정 필요)
18. Google Tag Manager
• 데이터 수집을 도와주는 도구
• GA 등 다양한 분석 / 광고 네트워크 툴과 연동
• 내장 기능을 통해 개발에 드는 시간을 획기적으로 줄여 줌
• 유지보수 및 관리가 쉬워짐
• 3가지 구조 – 태그, 트리거, 변수
• 태그 – 분석 툴과 연동 및 데이터 정의
• 트리거 – 데이터 수집 시점
• 변수 - 데이터
19. 구글 태그 매니저를 활용하는 이유
Web Site
• 코드 및 태그 관리 효율을 위해 Google Tag Manager 툴 활용
20. GA 데이터 수집 – 기본 추적 코드
기본 추적 코드 설치하기
(가이드 자료 사전 별첨)
21. 기본 추적 코드 설치 시 유의사항
• 기존에 GA 코드가 설치 되어 있는 경우
• 같은 속성(UA-xxxxxxxxx-x)의 GA를 중복 설치하면 데이터도 중복으로 수집됨.
• 구글 애널리틱스가 이미 설치 되어 있는 언론사도 기존 환경과의 충돌 방지를 위해 실습 기간동안 새로운 속성 설치 권장
• pc버전과 모바일 버전 사이트가 다른 경우
• https://newt.news / https://m.newt.news 와 같이 모바일 버전이 2차 도메인으로 되어 있는 경우
• 두 도메인의 통합 성과 보기(보고서), 각 도메인별 개별 보기를 만들어 사용하기를 권장
• 두 도메인의 성과를 통합하여 보고하기 위해서는 교차도메인 추적이 필요함
24. 교차 도메인 추적 방법
1. 사전 별첨 문서를 참고하여 각 웹사이트에 동일한 Google Tag Manager 코드 삽입
• pc와 모바일에 공통 영역이 있는 경우는 공통 영역에만 삽입
2. Google Tag Manger에서 교차도메인 추적 설정 진행
3. 구글 애널리틱스에서 각각의 보기 만들기
4. 각각의 보기에 필터 설정하여 보고서 분리하기
27. 구글 애널리틱스 계정 계층 구조
• 구글 애널리틱스는 계정 > 속성 >보기의 계층구조로 나뉘어져 있음.
계정
• 속성과 보기에 대한 전체 소유 권한 = 조직
속성
• 추적코드 발급
• 구글 애널리틱스의 버전 선택
• 데이터가 수집 되는 과정에 대한 설정
보기
• 실제 데이터를 보는 보고서
• 속성 계층에서 수집된 데이터를 보기 단위에서 다시 설정하여
여러 관점에 따라 보고서를 다르게 생성하여 운영할 수 있음.
42. • 포털 사이트를 통한 유입 키워드
추후 Google Search Console 연결 필요
기본추적 코드 설치후 볼 수 있는 데이터
43. 획득 데이터 수집의 일반적인 문제
• 유입 경로를 알 수 없는 (direct) / (none)의 비율이 과다하게 발생
44. direct / none 과다 발생 이유
• 브라우저 즐겨찾기, 링크저장 서비스(예 Pocket) 등 북마크된 링크로 직접 접속하는 경우
• URL Shortener로 단축된 링크로 접속하는 경우 (bit.ly 등)
• 일부 이메일 본문 내 링크에서 접속하는 경우
• 파워포인트, PDF 등 파일 내 링크에서 접속하는 경우
• 앱 내 링크를 클릭하여 접속하는 경우 (SMS, 카카오톡 등)
• 랜딩페이지가 로드되기 전에 리다이렉트 되는 경우
• https 사이트를 통해 http 사이트에 접속한 경우
• 사이트 자체적으로 레퍼러 정보 제공을 차단한 경우 등
레퍼러 정보를 유실해 Direct/none 으로 찍히는 경우
58. 자주 사용되는 이벤트 태깅
클릭 양식 제출 콘텐츠 상호작용
• 카테고리/메뉴 클릭
• 콘텐츠/상품 클릭
• 주요 버튼/배너 클릭
• 회원가입
• 로그인
• 뉴스레터 구독
• 스크롤 내리기
• 영상/오디오 시청 정도
• 공유하기 버튼 클릭
• 댓글 입력
• 콘텐츠 다운로드
• 상품 상세보기
• 수집하고자 하는 사용자 행동 정의
59. GA 이벤트 – 데이터 계층
• 데이터를 카테고리, 액션, 라벨 3개 계층에 맞게 GA로 전송
• 어떤 시점에 이벤트를 발생시켜 GA로 데이터를 보낼 지 설계 필요
카테고리 액션 라벨
Engagement Submit
Click
Newsletter
{카테고리명}
60. GA 이벤트 – 데이터 계층 구조
• 데이터를 카테고리, 액션, 라벨 3개 계층에 맞게 GA로 전송
전체 이벤트 구조를 한 번에 확인하려면 맞춤 보고서 생성 필요
61. GA 이벤트 태깅 설계
• 카테고리, 액션, 라벨 계층에 맞게 이벤트 태깅 구조 설계
63. GA 이벤트 태깅 방법
방법 원리 장/단점
구글 태그 매니저 내장 기능 활용
현재 웹사이트의 구조를 기준으로 함
HTML 등 기본 웹사이트 구조를 알면 작업 가능
입문자도 배워서 진행 가능
정밀한 이벤트 수집에 제약이 있음
className 규격화
구글 태그 매니저 내장 기능을 활용하되,
웹사이트내 비슷한 기능들에 className 설정 등 GA를 위한
규칙 생성
유지보수에 장점이 있음
웹사이트 구조에 대한 내부 이해도가 높아야 함.
dataLayer 이벤트 발생
사용자가 특정 행동을 했을 때 이벤트가 발생하도록 개발하
고, 해당 이벤트와 데이터를 GTM으로 전송
정밀한 데이터 수집 셋팅 가능해짐
다른 방식에 비해 초기 개발 작업이 많음
64. GA 이벤트 태깅 실습
카테고리 액션 라벨 이벤트 수집 시기
All Links {링크 텍스트} {링크 URL} 웹사이트에서 링크를 클릭할 때
Scroll {페이지 제목}
{비율}
10, 20, 30, 40.......100
페이지 스크롤을 내릴 때,
스크롤의 비율에 따라 발생
77. GA 이벤트 태깅 심화
• 다양한 아이디어 / 별도 로직 생성을 통한 데이터 수집이 가능
• 이벤트 태깅과 더불어 필요한 지표(측정 기준, 측정 항목)을 추가하여 목적에 맞는 보고/분석 가능
78. 콘텐츠 상호작용 이벤트 수집 방법 - 예
• 완독률 계산 상세
화면에 문단이 노출될 때 이벤트 발생
1 2 3 4 5
로직
• 1번 문단의 노출 여부를 파악
• 1번 이벤트 발생
• 1번 문단의 글자 수를 수집
• 2번 문단의 노출 여부를 파악
• (1번 문단의 글자 수 x N 초) 후에 2번 이벤트
발생 -> 문단별로 순차적으로 이벤트 발생
성과 계산
• 마지막으로 사용자가 본 문단 수 /
전체 문단 수
79. GA 이벤트 태깅 심화 – 콘텐츠 상호작용
• 완독률 계산
방법 원리 구현 방법
스크롤 깊이 추적
페이지 로드 시 전체 스크롤 길이 계산
특정 구간 대에 스크롤이 놓여 있을 때 이벤트 발생
GTM 내장 기능으로 가능
콘텐츠 영역 스크롤 깊이 추적
콘텐츠와 상관 없는 영역을 계산에서 제외,
무한 스크롤인 경우 스크롤 깊이
계산이 되지 않기에 필수
GTM 기능
콘텐츠 영역만을 계산하는 코드 삽입 필요
화면에 노출된 문단 순서 계산 특정 문단이 화면에 노출될 때 이벤트 발생
GTM Element Visibility 활용
문단에 순서 부여 필요
실질 주목 시간 계산
5초 간격으로 체크하여
마우스, 키보드 움직임이 없는 경우 카운팅 하지 않음
움직임이 있는 시간만을 합계하여 실질 주목 시간 계산
별도 개발 필요
글자 수 기반 완독 예상 시간 계산
글자 수(단어 수) x n초로 평균 완독 시간을 정의
실제 페이지에 머무른 시간/ 완독 예상 시간
별도 개발 필요
완독률 계산 로직
80. 콘텐츠 길이에 따른 완독률 분석하기
• 레퍼런스 조사 – 쿼츠 커브
쿼츠 커브
• 독자가 읽지 않는 500-800 단어의 기사는 버리고
• 400 단어 이하, 1천 단어 이상의 성과 좋은 기사를 생산
우리 언론사의 커브는 어디서 발생하는가?
• 커브가 발생한다면, 주제별/카테고리별 차이는 없는가?
• 독자의 연령/성별 등 인구학적 통계에 따른 차이는 없는가?
• 커브가 발생한다면 500자 미만 / 800자 이상의 콘텐츠가 뜻하는
바(구성)는 무엇이고, 해당 길에 맞는 콘텐츠를 어떻게 제작할 것인
가?
해당 데이터를 볼 수 있는 설정이 완료 되어 있다면,
질문에 대한 답변을 데이터로 확인 가능
81. 게재 지면에 따른 클릭률
• 게재 지면 / 게재 순서에 따른 클릭률 분석
수집 항목 수집 예
페이지 정보 axios.com/main
노출된 기사 제목 Coronavirus dashboard
기사 노출 수 화면에 노출될 때 1 증가
기사 클릭 수 클릭할 때 1 증가
기사 위치
동일 레이아웃의
상단부터 1, 2, 3……N
해당 분석을 위해서는 맞춤 측정 기준/측정항목 셋팅 필요
82. 측정 기준과 측정 항목
측정 기준
측정 항목
• 측정기준은 구글애널리틱스에서 데이터를 분류하는 기준
• 측정기준은 ‘문자열’로 표현
• 측정항목은 정량적인 측정 요소
• 측정항목은 ‘숫자’로 표현
기기 카테고리
소스
캠페인
세션
페이지 뷰 수
거래 수
83. 측정기준 - 측정항목의 조합
획득 행동 전환
기기 카테고리
세션
사용자 유형 소스
캠페인
키워드
페이지
방문 페이지
이탈 페이지
이벤트 카테고리
이벤트 액션
이벤트 라벨
페이지 뷰 수
세션 시간 목표 완료 수
상품
쇼핑 단계
Checkout 옵션
거래 수
수익
수량
상품 수익
소스/매체
매체
광고 콘텐츠
운영체제
브라우저
국가
지역
도시
페이지 제목
순 페이지 뷰 수
순 구매 수
잠재고객
측정 기준
측정 항목
84. 언론사에 필요한 맞춤 측정기준/측정항목
기사 메타 정보
기사 글자 수
기자명
기사 등록일
스폰서 (네이티브)
카테고리2
카테고리1
userId
페이지에 머문 시간
측정 기준
측정 항목
• 측정기준/측정항목을 별도로 신설할 수 있음
기사 제목
기사 유형
계산을 위한 데이터 수집
노출 순서
완독률
기사 발행 시각
86. 맞춤 측정 기준 수집
• 웹사이트에서 이벤트를 발생하여 GTM으로 전송해주어야 활용 가능 (개발자 협업 필요)
87. 심화 – GA 사용자 분석
• GA 사용자는 실제 자연인(사용자) 1명을 뜻하지 않음
• 한 명의 사용자가 여러 기기, 브라우저로 접속하면 다른 사용자로 인식됨
88. UserID 응용 (Cross-device tracking)
사용자 정보 유형
이메일 주소 (뉴스레터)
웹사이트 ID
스마트폰 광고ID(어플리케이션 기반)
통합하여
1명의 사용자로 인식
• 외부에서 웹사이트로 유입할 때는 GET 방식(utm 등)으로 사용자 정보 전달
• 기기 기반의 경우 기 수집된 정보로 사용자 인식
89. GA 사용자 분석 - UserID
• 웹사이트 로그인 정보를 가져와서 다중 사용자를 1명의 사용자로 인식하기 위한 설정
• 로그인 시 여러 디바이스 / 기기로 접속해도 동일 사용자로 인식
90. 맞춤 측정 기준
• 언론사에서 필수로 수집할 맞춤 측정 기준 정리
수집 항목 비고
UserId 로그인 사용자 분석을 위한 유저 ID 수집
기사명
기사 카테고리 1
기사 카테고리 2
기사 발행시각
기자명
91. GA 보고서 기본 구조
획득
행동
전환
• GA 보고서 구조는 AABC 구조
Audience
Acquisition
Behavior
Conversion