SlideShare a Scribd company logo
1 of 43
Download to read offline
Log analysis system
                         with Hadoop
              in livedoor 2013 Winter
                                      2013/01/20
              Hadoop Conference Japan 2013 Winter

                   TAGOMORI Satoshi (@tagomoris)
                                NHN Japan Corp.
13年1月21日月曜日
TAGOMORI SATOSHI (@TAGOMORIS)
                             NHN JAPAN CORP.
         WEB SERVICE BUSINESS DIVISION DEVELOPMENT DEPARTMENT 2
                   (IN JAN 2012, LIVEDOOR -> NHN JAPAN)


13年1月21日月曜日
13年1月21日月曜日
13年1月21日月曜日
livedoor in NHN Japan



13年1月21日月曜日
13年1月21日月曜日
large scale web services
              400+ Web Servers


              5Gbps @ Aug 2009
              15Gbps @ Aug 2011
              20+Gbps @ Jan 2013
               (direct outbound + CDN)

13年1月21日月曜日
giant access log traffic

              At Aug 2011 (HCJ2011)
               From 96 servers
               580GB/day



13年1月21日月曜日
giant access log traffic
              NOW (At Jan 2013 HCJ2013W)
               From 320+ servers
               1.5+ TB/day (raw)
               5,300,000,000+ lines/day
               120,000+ lines/sec (peak time)
               400Mbps log traffic
13年1月21日月曜日
What we want to do
              COUNT PV,UU and others (daily)
              COUNT Service metrics (daily/hourly)
              FIND Surprised Errors [4xx,5xx] (immediately)
              CHECK Response Times (immediately)
              SERCH Logs in troubles (hourly/immediately)


13年1月21日月曜日
Batches and Streams
              Hadoop is for batches
              High performance batch is important
              HDFS has good performance
              Stream log writing and calcurations
                  are also VERY VERY IMPORTANT
              Hybrid System:
              Stream processing + Batch
13年1月21日月曜日
System Overview
                                                            Archive
                                                            Storage
     Web
    Servers                   Fluentd                      (scribed)
                              Cluster
                                                           Notifications
                    STREAM                                    (IRC)
                                        Fluentd
                                        Watchers
                                                              Graph
                                                              Tools

                    webhdfs                           SCHEDULED
                                            BATCH       BATCH
                                    hive
                 Hadoop Cluster    server
                                                    Shib      ShibUI
                 (HDFS, YARN)     Huahin
                                  Manager


13年1月21日月曜日
Hadoop in livedoor 2013
              18 nodes (Master 3 + Slave 15)
               120core, 180GB RAM, 100TB HDFS
              CDH4.1.2
               NameNode HA(QJM), WebHDFS
               YARN, Hive + HiverServer1

13年1月21日月曜日
Fluentd in livedoor 2013
              16 nodes (Deliver 4 + Worker 10 + Watcher 2)
              Fluentd (latest release / trunk)
                Ruby based message transfer
                daemon
                Many plugins from rubygems.org


13年1月21日月曜日
Hadoop/Fluentd engineer
              in livedoor 2013



                       1 person.



13年1月21日月曜日
Processes Overview
              Log collection / Archiving
              Parse / Transform / Add flags
              Load into Hive tables
              On-demand queries
              Scheduled queries
              Stream aggregations + Notifications
13年1月21日月曜日
Past and present
              1st gen: Fully batch (late 2011)

                Scribed + Hadoop

              2nd gen: Partially stream processing (earlier 2012)

                Fluentd + Hadoop

              3rd gen: Fully stream processing (late 2012)

                Fluentd + Hadoop + Graph Tools

              4th gen: New Cluster with CDH4 (earlier 2013)

13年1月21日月曜日
BREAK.




13年1月21日月曜日
1st gen: First impl.                             Archive
                                                               Storage
     Web
    Servers                                                   (scribed)
                                Scribed


                     STREAM


                                (LIBHDFS)



                                               BATCH
                 Hadoop Cluster        hive
                                      server
                    CDH3b2                             Shib
                 (Hadoop Streaming)


13年1月21日月曜日
Shib: Hive Web Client




                  https://github.com/tagomoris/shib
13年1月21日月曜日
1st gen: Fully batch
              Log collection / Archiving     Scribed(libhdfs)


              Parse / Transform / Add flags          Hadoop
                                                   Streaming

              Load into Hive tables
                                      HiveServer
              On-demand queries         + Shib

              Scheduled queries
              Stream aggregations + Notifications
13年1月21日月曜日
1st gen: Fully batch
        Simplicity: easy to implement
        Shib: easy to run on-demand query
        Latency: hourly rotation + import batch
        Performance: import batch needs CPU
        Scribed: libhdfs dependency problem

13年1月21日月曜日
2nd gen: +Fluentd
                                                                Archive
                                                                Storage
     Web
    Servers                       Fluentd                      (scribed)
                                  Cluster


                    STREAM




                   Cludera Hoop
                                                BATCH
                 Hadoop Cluster         hive
                                       server
                    CDH3u2                              Shib
                                      Huahin
                     (Hive)           Manager


13年1月21日月曜日
Fluentd stream processing
        out_exec_filter
              any filter programs with STDIN/
              STDOUT
              compatible with Hadoop Streaming!
        out_hoop
              output plugin to write HDFS over Hoop
              Hoop: a.k.a. HttpFs in Hadoop 2.0.x
13年1月21日月曜日
Fluentd stream processing
  Web Servers

                                                   Fluentd worker
                    Fluentd deliver
                                               Fluentd worker
               Fluentd deliver
                                          Fluentd worker
        Fluentd deliver
                                      Fluentd worker
                                                                Hoop Server
                                 Fluentd worker
                                                                    HDFS
                           Fluentd worker
13年1月21日月曜日
Huahin Manager
              REST API for:
               JobTracker (MRv1)
               ResourceManager (YARN)
               HiveServer


                  http://huahinframework.org/huahin-manager/


13年1月21日月曜日
2nd gen: +Fluentd
              Log collection / Archiving           Fluentd


              Parse / Transform / Add flags            Fluentd

              Load into Hive tables
                                      HiveServer
              On-demand queries         + Shib

              Scheduled queries
              Stream aggregations + Notifications
13年1月21日月曜日
2nd gen: +Fluentd
        Compatibility:
         RPC based HDFS/JobTracker Access
        Performance: import needs no CPU
        (Load Only)
        Latency: hourly rotation only
        Latency: hourly rotation for any queries
        Hoop Server: SPOF / traffic bottleneck
13年1月21日月曜日
3rd gen: ++++++
                                                            Archive
                                                            Storage
     Web
    Servers                   Fluentd                      (scribed)
                              Cluster
                                                           Notifications
                    STREAM                                    (IRC)
                                        Fluentd
                                        Watchers
                                                              Graph
                                                              Tools

                    webhdfs                           SCHEDULED
                                            BATCH       BATCH
                 Hadoop Cluster     hive
                                   server
                    CDH3u5                          Shib      ShibUI
                                  Huahin
                     (Hive)       Manager


13年1月21日月曜日
WebHDFS (CDH3u5 or CDH4)
      HttpFs (Hoop)                           NameNode

                                                         DataNode
                                httpfs
                Client
                                server                   DataNode

                         HTTP            Java Native     DataNode


      WebHDFS                                 NameNode

                                                         DataNode
                Client
                                                         DataNode

                                                         DataNode
                                HTTP
13年1月21日月曜日
Fluentd online aggregation

        Semi-realtime aggregation to:
              counts errors of HTTP response
              calculate avg/%tiles of response time
              draw graphs immediately
        Many plugins for real time aggregation

13年1月21日月曜日
Graph Tools:
              GrowthForecast / HRForecast


         Graph drawing tools to update values
              over very simple HTTP request
         GrowthForecast: Real-time values
         HRForecast: Summarized (past) values


13年1月21日月曜日
HTTP Status/Response Time
              on GrowthForecast
   HTTP STATUS: 2XX(BLUE),3XX(GREEN),4XX(ORANGE), 5XX(RED)




   HTTP RESPONSE TIMES: AVG, [90, 95, 98, 99]PERCENTILE




                  http://kazeburo.github.com/GrowthForecast/
13年1月21日月曜日
ShibUI




13年1月21日月曜日
ShibUI




                 https://github.com/kazeburo/hrforecast

13年1月21日月曜日
3rd gen: +++++++
              Log collection / Archiving           Fluentd


              Parse / Transform / Add flags            Fluentd

              Load into Hive tables
                                      HiveServer
              On-demand queries         + Shib


              Scheduled queries       ShibUI
                                                        Fluentd
              Stream aggregations + Notifications
13年1月21日月曜日
3rd gen: +++++++
        NO SPOF: for data stream
        Real time monitoring
        Queries for services:
              Scheduled queries, Visualization
        Latency: hourly rotation for any queries
        SPOF: NameNode (VIP & DRBD is xxxx...)
13年1月21日月曜日
4th gen: NOW
                                                            Archive
                                                            Storage
     Web
    Servers                   Fluentd                      (scribed)
                              Cluster
                                                           Notifications
                    STREAM                                    (IRC)
                                        Fluentd
                                        Watchers
                                                              Graph
                                                              Tools

                    webhdfs                           SCHEDULED
                                            BATCH       BATCH
                 Hadoop Cluster     hive
                                   server
                     CDH4                           Shib      ShibUI
                                  Huahin
                 (HDFS, YARN)     Manager


13年1月21日月曜日
4th gen: CDH4.1.2
        NO SPOF: QJM based NameNode HA
        Performance: YARN (?)
        Latency: multiple rotation in an hour
              with hive table schema change
        NONE should be improved!

13年1月21日月曜日
Good parts for solo engineer:

              RPC: Loosely-coupled architecture
               High compatibility / Low maintenance cost

              Open Source
               All components are OSS

              Open knowledge
               Well blogged / presentationed



13年1月21日月曜日
OUR DRIVER IS
                "OPENNESS"




              thanks to crouton & @kbysmnr !
13年1月21日月曜日
Software list:

              https://ccp.cloudera.com/display/SUPPORT/Downloads
              http://fluentd.org/
              http://fluentd.org/plugin/
              https://github.com/tagomoris/fluent-agent-lite
              https://github.com/tagomoris/shib
              https://github.com/tagomoris/shibui
              http://huahinframework.org/huahin-manager/
              http://kazeburo.github.com/GrowthForecast/
              http://github.com/kazeburo/hrforecast




13年1月21日月曜日
See also:
          Hadoop and Subsystem in livedoor (2011)
              http://www.slideshare.net/tagomoris/hadoop-and-subsystems-in-livedoor-hcj11f


          Distributed message stream processing on Fluentd
              http://www.slideshare.net/tagomoris/distributed-stream-processing-on-fluentd-fluentd


          Hive Tools in NHN Japan
              http://www.slideshare.net/tagomoris/hive-tools-in-nhn-japan-hadoopreading


          OSS based large scale log aggregation in livedoor
              http://www.slideshare.net/tagomoris/oss-nhntech


          Fluentd and WebHDFS
              http://www.slideshare.net/tagomoris/fluentd-and-webhdfs




13年1月21日月曜日

More Related Content

What's hot

HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用Toshihiro Suzuki
 
Db2 Warehouse Spark利用ガイド チュートリアル編
Db2 Warehouse Spark利用ガイド チュートリアル編Db2 Warehouse Spark利用ガイド チュートリアル編
Db2 Warehouse Spark利用ガイド チュートリアル編IBM Analytics Japan
 
Mobage を支える Ruby の技術 ~ 複数DB編 ~
Mobage を支える Ruby の技術 ~ 複数DB編 ~Mobage を支える Ruby の技術 ~ 複数DB編 ~
Mobage を支える Ruby の技術 ~ 複数DB編 ~Naotoshi Seo
 
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Cloudera Japan
 
Db2 Warehouse Spark利用ガイド データ操作編
Db2 Warehouse Spark利用ガイド データ操作編Db2 Warehouse Spark利用ガイド データ操作編
Db2 Warehouse Spark利用ガイド データ操作編IBM Analytics Japan
 
Hadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese VersionHadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese VersionCloudera, Inc.
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best PracticeHadoop / Spark Conference Japan
 
Coherenceを利用するときに気をつけること #OracleCoherence
Coherenceを利用するときに気をつけること #OracleCoherenceCoherenceを利用するときに気をつけること #OracleCoherence
Coherenceを利用するときに気をつけること #OracleCoherenceToshiaki Maki
 
Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編Taro L. Saito
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントCloudera Japan
 
Programming Hive Reading #3
Programming Hive Reading #3Programming Hive Reading #3
Programming Hive Reading #3moai kids
 
Flume cassandra real time log processing (日本語)
Flume cassandra real time log processing (日本語)Flume cassandra real time log processing (日本語)
Flume cassandra real time log processing (日本語)CLOUDIAN KK
 
InfluxDB の概要 - sonots #tokyoinfluxdb
InfluxDB の概要 - sonots #tokyoinfluxdbInfluxDB の概要 - sonots #tokyoinfluxdb
InfluxDB の概要 - sonots #tokyoinfluxdbNaotoshi Seo
 
第25回 Hadoopソースコードリーディング 「HBase 最新情報」
第25回 Hadoopソースコードリーディング 「HBase 最新情報」第25回 Hadoopソースコードリーディング 「HBase 最新情報」
第25回 Hadoopソースコードリーディング 「HBase 最新情報」Toshihiro Suzuki
 

What's hot (20)

Hiveを高速化するLLAP
Hiveを高速化するLLAPHiveを高速化するLLAP
Hiveを高速化するLLAP
 
HDFS Deep Dive
HDFS Deep DiveHDFS Deep Dive
HDFS Deep Dive
 
HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用
 
Fluentd meetup #2
Fluentd meetup #2Fluentd meetup #2
Fluentd meetup #2
 
Db2 Warehouse Spark利用ガイド チュートリアル編
Db2 Warehouse Spark利用ガイド チュートリアル編Db2 Warehouse Spark利用ガイド チュートリアル編
Db2 Warehouse Spark利用ガイド チュートリアル編
 
Mobage を支える Ruby の技術 ~ 複数DB編 ~
Mobage を支える Ruby の技術 ~ 複数DB編 ~Mobage を支える Ruby の技術 ~ 複数DB編 ~
Mobage を支える Ruby の技術 ~ 複数DB編 ~
 
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014
 
Db2 Warehouse Spark利用ガイド データ操作編
Db2 Warehouse Spark利用ガイド データ操作編Db2 Warehouse Spark利用ガイド データ操作編
Db2 Warehouse Spark利用ガイド データ操作編
 
MapR M7 技術概要
MapR M7 技術概要MapR M7 技術概要
MapR M7 技術概要
 
Hadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese VersionHadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese Version
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
 
Hadoop-3.2.0の新機能の紹介とJava9+対応のコミュニティ動向
Hadoop-3.2.0の新機能の紹介とJava9+対応のコミュニティ動向Hadoop-3.2.0の新機能の紹介とJava9+対応のコミュニティ動向
Hadoop-3.2.0の新機能の紹介とJava9+対応のコミュニティ動向
 
Coherenceを利用するときに気をつけること #OracleCoherence
Coherenceを利用するときに気をつけること #OracleCoherenceCoherenceを利用するときに気をつけること #OracleCoherence
Coherenceを利用するときに気をつけること #OracleCoherence
 
Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編Treasure Dataを支える技術 - MessagePack編
Treasure Dataを支える技術 - MessagePack編
 
Java11へのマイグレーションガイド ~Apache Hadoopの事例~
Java11へのマイグレーションガイド ~Apache Hadoopの事例~Java11へのマイグレーションガイド ~Apache Hadoopの事例~
Java11へのマイグレーションガイド ~Apache Hadoopの事例~
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
 
Programming Hive Reading #3
Programming Hive Reading #3Programming Hive Reading #3
Programming Hive Reading #3
 
Flume cassandra real time log processing (日本語)
Flume cassandra real time log processing (日本語)Flume cassandra real time log processing (日本語)
Flume cassandra real time log processing (日本語)
 
InfluxDB の概要 - sonots #tokyoinfluxdb
InfluxDB の概要 - sonots #tokyoinfluxdbInfluxDB の概要 - sonots #tokyoinfluxdb
InfluxDB の概要 - sonots #tokyoinfluxdb
 
第25回 Hadoopソースコードリーディング 「HBase 最新情報」
第25回 Hadoopソースコードリーディング 「HBase 最新情報」第25回 Hadoopソースコードリーディング 「HBase 最新情報」
第25回 Hadoopソースコードリーディング 「HBase 最新情報」
 

Viewers also liked

Distributed Data Analysis with Hadoop and R - Strangeloop 2011
Distributed Data Analysis with Hadoop and R - Strangeloop 2011Distributed Data Analysis with Hadoop and R - Strangeloop 2011
Distributed Data Analysis with Hadoop and R - Strangeloop 2011Jonathan Seidman
 
HW09 Social network analysis with Hadoop
HW09 Social network analysis with HadoopHW09 Social network analysis with Hadoop
HW09 Social network analysis with HadoopCloudera, Inc.
 
Data Analysis with Hadoop and Hive, ChicagoDB 2/21/2011
Data Analysis with Hadoop and Hive, ChicagoDB 2/21/2011Data Analysis with Hadoop and Hive, ChicagoDB 2/21/2011
Data Analysis with Hadoop and Hive, ChicagoDB 2/21/2011Jonathan Seidman
 
Large-scale social media analysis with Hadoop
Large-scale social media analysis with HadoopLarge-scale social media analysis with Hadoop
Large-scale social media analysis with Hadoopjakehofman
 
Hive Tools in NHN Japan #hadoopreading
Hive Tools in NHN Japan #hadoopreadingHive Tools in NHN Japan #hadoopreading
Hive Tools in NHN Japan #hadoopreadingSATOSHI TAGOMORI
 
The longest 5 minutes in our life
The longest 5 minutes in our lifeThe longest 5 minutes in our life
The longest 5 minutes in our lifeSATOSHI TAGOMORI
 
Cosmos, Big Data GE Implementation
Cosmos, Big Data GE ImplementationCosmos, Big Data GE Implementation
Cosmos, Big Data GE ImplementationFIWARE
 
Batch and Stream processing with SQL
Batch and Stream processing with SQLBatch and Stream processing with SQL
Batch and Stream processing with SQLSATOSHI TAGOMORI
 
0610 w13 ms_61
0610 w13 ms_610610 w13 ms_61
0610 w13 ms_61King Ali
 
Distributed Data Analysis with Hadoop and R - OSCON 2011
Distributed Data Analysis with Hadoop and R - OSCON 2011Distributed Data Analysis with Hadoop and R - OSCON 2011
Distributed Data Analysis with Hadoop and R - OSCON 2011Jonathan Seidman
 
Resume of Vimal 4.1
Resume of Vimal 4.1Resume of Vimal 4.1
Resume of Vimal 4.1Vimal Suthar
 
Alphago vs Lee Se-Dol : Tweeter Analysis using Hadoop and Spark
Alphago vs Lee Se-Dol: Tweeter Analysis using Hadoop and SparkAlphago vs Lee Se-Dol: Tweeter Analysis using Hadoop and Spark
Alphago vs Lee Se-Dol : Tweeter Analysis using Hadoop and SparkJongwook Woo
 
How to collect Big Data into Hadoop
How to collect Big Data into HadoopHow to collect Big Data into Hadoop
How to collect Big Data into HadoopSadayuki Furuhashi
 
Basic Sentiment Analysis using Hive
Basic Sentiment Analysis using HiveBasic Sentiment Analysis using Hive
Basic Sentiment Analysis using HiveQubole
 
Traffic data analysis using HADOOP
Traffic data analysis using HADOOPTraffic data analysis using HADOOP
Traffic data analysis using HADOOPKirthan S Holla
 
Hadoop - Stock Analysis
Hadoop - Stock AnalysisHadoop - Stock Analysis
Hadoop - Stock AnalysisVaibhav Jain
 
TRAFFIC DATA ANALYSIS USING HADOOP
TRAFFIC DATA ANALYSIS USING HADOOPTRAFFIC DATA ANALYSIS USING HADOOP
TRAFFIC DATA ANALYSIS USING HADOOPKirthan S Holla
 

Viewers also liked (20)

Fluentd and WebHDFS
Fluentd and WebHDFSFluentd and WebHDFS
Fluentd and WebHDFS
 
Distributed Data Analysis with Hadoop and R - Strangeloop 2011
Distributed Data Analysis with Hadoop and R - Strangeloop 2011Distributed Data Analysis with Hadoop and R - Strangeloop 2011
Distributed Data Analysis with Hadoop and R - Strangeloop 2011
 
HW09 Social network analysis with Hadoop
HW09 Social network analysis with HadoopHW09 Social network analysis with Hadoop
HW09 Social network analysis with Hadoop
 
Data Analysis with Hadoop and Hive, ChicagoDB 2/21/2011
Data Analysis with Hadoop and Hive, ChicagoDB 2/21/2011Data Analysis with Hadoop and Hive, ChicagoDB 2/21/2011
Data Analysis with Hadoop and Hive, ChicagoDB 2/21/2011
 
Video Analysis in Hadoop
Video Analysis in HadoopVideo Analysis in Hadoop
Video Analysis in Hadoop
 
Large-scale social media analysis with Hadoop
Large-scale social media analysis with HadoopLarge-scale social media analysis with Hadoop
Large-scale social media analysis with Hadoop
 
Hive Tools in NHN Japan #hadoopreading
Hive Tools in NHN Japan #hadoopreadingHive Tools in NHN Japan #hadoopreading
Hive Tools in NHN Japan #hadoopreading
 
The longest 5 minutes in our life
The longest 5 minutes in our lifeThe longest 5 minutes in our life
The longest 5 minutes in our life
 
Cosmos, Big Data GE Implementation
Cosmos, Big Data GE ImplementationCosmos, Big Data GE Implementation
Cosmos, Big Data GE Implementation
 
Batch and Stream processing with SQL
Batch and Stream processing with SQLBatch and Stream processing with SQL
Batch and Stream processing with SQL
 
0610 w13 ms_61
0610 w13 ms_610610 w13 ms_61
0610 w13 ms_61
 
Distributed Data Analysis with Hadoop and R - OSCON 2011
Distributed Data Analysis with Hadoop and R - OSCON 2011Distributed Data Analysis with Hadoop and R - OSCON 2011
Distributed Data Analysis with Hadoop and R - OSCON 2011
 
Hadoop data analysis
Hadoop data analysisHadoop data analysis
Hadoop data analysis
 
Resume of Vimal 4.1
Resume of Vimal 4.1Resume of Vimal 4.1
Resume of Vimal 4.1
 
Alphago vs Lee Se-Dol : Tweeter Analysis using Hadoop and Spark
Alphago vs Lee Se-Dol: Tweeter Analysis using Hadoop and SparkAlphago vs Lee Se-Dol: Tweeter Analysis using Hadoop and Spark
Alphago vs Lee Se-Dol : Tweeter Analysis using Hadoop and Spark
 
How to collect Big Data into Hadoop
How to collect Big Data into HadoopHow to collect Big Data into Hadoop
How to collect Big Data into Hadoop
 
Basic Sentiment Analysis using Hive
Basic Sentiment Analysis using HiveBasic Sentiment Analysis using Hive
Basic Sentiment Analysis using Hive
 
Traffic data analysis using HADOOP
Traffic data analysis using HADOOPTraffic data analysis using HADOOP
Traffic data analysis using HADOOP
 
Hadoop - Stock Analysis
Hadoop - Stock AnalysisHadoop - Stock Analysis
Hadoop - Stock Analysis
 
TRAFFIC DATA ANALYSIS USING HADOOP
TRAFFIC DATA ANALYSIS USING HADOOPTRAFFIC DATA ANALYSIS USING HADOOP
TRAFFIC DATA ANALYSIS USING HADOOP
 

Similar to Log analysis with Hadoop in livedoor 2013

Log Analysis System And its designs in LINE Corp. 2014 early
Log Analysis System And its designs in LINE Corp. 2014 earlyLog Analysis System And its designs in LINE Corp. 2014 early
Log Analysis System And its designs in LINE Corp. 2014 earlySATOSHI TAGOMORI
 
OSSで支えられるライブドアの巨大ログ集計 #nhntech
OSSで支えられるライブドアの巨大ログ集計 #nhntechOSSで支えられるライブドアの巨大ログ集計 #nhntech
OSSで支えられるライブドアの巨大ログ集計 #nhntechSATOSHI TAGOMORI
 
Batch processing and Stream processing by SQL
Batch processing and Stream processing by SQLBatch processing and Stream processing by SQL
Batch processing and Stream processing by SQLSATOSHI TAGOMORI
 
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー20130313 OSCA Hadoopセミナー
20130313 OSCA HadoopセミナーIchiro Fukuda
 
Googleの基盤クローン Hadoopについて
Googleの基盤クローン HadoopについてGoogleの基盤クローン Hadoopについて
Googleの基盤クローン HadoopについてKazuki Ohta
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...NTT DATA OSS Professional Services
 
第4回Linux-HA勉強会資料 Pacemakerの紹介
第4回Linux-HA勉強会資料 Pacemakerの紹介第4回Linux-HA勉強会資料 Pacemakerの紹介
第4回Linux-HA勉強会資料 Pacemakerの紹介ksk_ha
 
Flumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システムFlumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システムSatoshi Iijima
 
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②Yahoo!デベロッパーネットワーク
 
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)NTT DATA OSS Professional Services
 
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compressionHadoop splittable-lzo-compression
Hadoop splittable-lzo-compressionDaiki Sato
 
Rubyによるお手軽分散処理
Rubyによるお手軽分散処理Rubyによるお手軽分散処理
Rubyによるお手軽分散処理maebashi
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組みNTT DATA OSS Professional Services
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 
GraalVMの多言語実行機能が凄そうだったので試しにApache Sparkに組み込んで動かしてみたけどちょっとまだ早かったかもしれない(Open So...
GraalVMの多言語実行機能が凄そうだったので試しにApache Sparkに組み込んで動かしてみたけどちょっとまだ早かったかもしれない(Open So...GraalVMの多言語実行機能が凄そうだったので試しにApache Sparkに組み込んで動かしてみたけどちょっとまだ早かったかもしれない(Open So...
GraalVMの多言語実行機能が凄そうだったので試しにApache Sparkに組み込んで動かしてみたけどちょっとまだ早かったかもしれない(Open So...NTT DATA Technology & Innovation
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...DataWorks Summit/Hadoop Summit
 

Similar to Log analysis with Hadoop in livedoor 2013 (20)

Log Analysis System And its designs in LINE Corp. 2014 early
Log Analysis System And its designs in LINE Corp. 2014 earlyLog Analysis System And its designs in LINE Corp. 2014 early
Log Analysis System And its designs in LINE Corp. 2014 early
 
OSSで支えられるライブドアの巨大ログ集計 #nhntech
OSSで支えられるライブドアの巨大ログ集計 #nhntechOSSで支えられるライブドアの巨大ログ集計 #nhntech
OSSで支えられるライブドアの巨大ログ集計 #nhntech
 
Batch processing and Stream processing by SQL
Batch processing and Stream processing by SQLBatch processing and Stream processing by SQL
Batch processing and Stream processing by SQL
 
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
 
Googleの基盤クローン Hadoopについて
Googleの基盤クローン HadoopについてGoogleの基盤クローン Hadoopについて
Googleの基盤クローン Hadoopについて
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
 
Hadoop loves H2
Hadoop loves H2Hadoop loves H2
Hadoop loves H2
 
Hadoop - OSC2010 Tokyo/Spring
Hadoop - OSC2010 Tokyo/SpringHadoop - OSC2010 Tokyo/Spring
Hadoop - OSC2010 Tokyo/Spring
 
第4回Linux-HA勉強会資料 Pacemakerの紹介
第4回Linux-HA勉強会資料 Pacemakerの紹介第4回Linux-HA勉強会資料 Pacemakerの紹介
第4回Linux-HA勉強会資料 Pacemakerの紹介
 
PostgreSQLバックアップの基本
PostgreSQLバックアップの基本PostgreSQLバックアップの基本
PostgreSQLバックアップの基本
 
Flumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システムFlumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システム
 
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②
 
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
 
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compressionHadoop splittable-lzo-compression
Hadoop splittable-lzo-compression
 
Rubyによるお手軽分散処理
Rubyによるお手軽分散処理Rubyによるお手軽分散処理
Rubyによるお手軽分散処理
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
GraalVMの多言語実行機能が凄そうだったので試しにApache Sparkに組み込んで動かしてみたけどちょっとまだ早かったかもしれない(Open So...
GraalVMの多言語実行機能が凄そうだったので試しにApache Sparkに組み込んで動かしてみたけどちょっとまだ早かったかもしれない(Open So...GraalVMの多言語実行機能が凄そうだったので試しにApache Sparkに組み込んで動かしてみたけどちょっとまだ早かったかもしれない(Open So...
GraalVMの多言語実行機能が凄そうだったので試しにApache Sparkに組み込んで動かしてみたけどちょっとまだ早かったかもしれない(Open So...
 
Fluentd in #tkrk10
Fluentd in #tkrk10Fluentd in #tkrk10
Fluentd in #tkrk10
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
 

More from SATOSHI TAGOMORI

Ractor's speed is not light-speed
Ractor's speed is not light-speedRactor's speed is not light-speed
Ractor's speed is not light-speedSATOSHI TAGOMORI
 
Good Things and Hard Things of SaaS Development/Operations
Good Things and Hard Things of SaaS Development/OperationsGood Things and Hard Things of SaaS Development/Operations
Good Things and Hard Things of SaaS Development/OperationsSATOSHI TAGOMORI
 
Invitation to the dark side of Ruby
Invitation to the dark side of RubyInvitation to the dark side of Ruby
Invitation to the dark side of RubySATOSHI TAGOMORI
 
Hijacking Ruby Syntax in Ruby (RubyConf 2018)
Hijacking Ruby Syntax in Ruby (RubyConf 2018)Hijacking Ruby Syntax in Ruby (RubyConf 2018)
Hijacking Ruby Syntax in Ruby (RubyConf 2018)SATOSHI TAGOMORI
 
Make Your Ruby Script Confusing
Make Your Ruby Script ConfusingMake Your Ruby Script Confusing
Make Your Ruby Script ConfusingSATOSHI TAGOMORI
 
Hijacking Ruby Syntax in Ruby
Hijacking Ruby Syntax in RubyHijacking Ruby Syntax in Ruby
Hijacking Ruby Syntax in RubySATOSHI TAGOMORI
 
Lock, Concurrency and Throughput of Exclusive Operations
Lock, Concurrency and Throughput of Exclusive OperationsLock, Concurrency and Throughput of Exclusive Operations
Lock, Concurrency and Throughput of Exclusive OperationsSATOSHI TAGOMORI
 
Data Processing and Ruby in the World
Data Processing and Ruby in the WorldData Processing and Ruby in the World
Data Processing and Ruby in the WorldSATOSHI TAGOMORI
 
Planet-scale Data Ingestion Pipeline: Bigdam
Planet-scale Data Ingestion Pipeline: BigdamPlanet-scale Data Ingestion Pipeline: Bigdam
Planet-scale Data Ingestion Pipeline: BigdamSATOSHI TAGOMORI
 
Technologies, Data Analytics Service and Enterprise Business
Technologies, Data Analytics Service and Enterprise BusinessTechnologies, Data Analytics Service and Enterprise Business
Technologies, Data Analytics Service and Enterprise BusinessSATOSHI TAGOMORI
 
Ruby and Distributed Storage Systems
Ruby and Distributed Storage SystemsRuby and Distributed Storage Systems
Ruby and Distributed Storage SystemsSATOSHI TAGOMORI
 
Perfect Norikra 2nd Season
Perfect Norikra 2nd SeasonPerfect Norikra 2nd Season
Perfect Norikra 2nd SeasonSATOSHI TAGOMORI
 
To Have Own Data Analytics Platform, Or NOT To
To Have Own Data Analytics Platform, Or NOT ToTo Have Own Data Analytics Platform, Or NOT To
To Have Own Data Analytics Platform, Or NOT ToSATOSHI TAGOMORI
 
The Patterns of Distributed Logging and Containers
The Patterns of Distributed Logging and ContainersThe Patterns of Distributed Logging and Containers
The Patterns of Distributed Logging and ContainersSATOSHI TAGOMORI
 
How To Write Middleware In Ruby
How To Write Middleware In RubyHow To Write Middleware In Ruby
How To Write Middleware In RubySATOSHI TAGOMORI
 
Modern Black Mages Fighting in the Real World
Modern Black Mages Fighting in the Real WorldModern Black Mages Fighting in the Real World
Modern Black Mages Fighting in the Real WorldSATOSHI TAGOMORI
 
Open Source Software, Distributed Systems, Database as a Cloud Service
Open Source Software, Distributed Systems, Database as a Cloud ServiceOpen Source Software, Distributed Systems, Database as a Cloud Service
Open Source Software, Distributed Systems, Database as a Cloud ServiceSATOSHI TAGOMORI
 
Fluentd Overview, Now and Then
Fluentd Overview, Now and ThenFluentd Overview, Now and Then
Fluentd Overview, Now and ThenSATOSHI TAGOMORI
 

More from SATOSHI TAGOMORI (20)

Ractor's speed is not light-speed
Ractor's speed is not light-speedRactor's speed is not light-speed
Ractor's speed is not light-speed
 
Good Things and Hard Things of SaaS Development/Operations
Good Things and Hard Things of SaaS Development/OperationsGood Things and Hard Things of SaaS Development/Operations
Good Things and Hard Things of SaaS Development/Operations
 
Maccro Strikes Back
Maccro Strikes BackMaccro Strikes Back
Maccro Strikes Back
 
Invitation to the dark side of Ruby
Invitation to the dark side of RubyInvitation to the dark side of Ruby
Invitation to the dark side of Ruby
 
Hijacking Ruby Syntax in Ruby (RubyConf 2018)
Hijacking Ruby Syntax in Ruby (RubyConf 2018)Hijacking Ruby Syntax in Ruby (RubyConf 2018)
Hijacking Ruby Syntax in Ruby (RubyConf 2018)
 
Make Your Ruby Script Confusing
Make Your Ruby Script ConfusingMake Your Ruby Script Confusing
Make Your Ruby Script Confusing
 
Hijacking Ruby Syntax in Ruby
Hijacking Ruby Syntax in RubyHijacking Ruby Syntax in Ruby
Hijacking Ruby Syntax in Ruby
 
Lock, Concurrency and Throughput of Exclusive Operations
Lock, Concurrency and Throughput of Exclusive OperationsLock, Concurrency and Throughput of Exclusive Operations
Lock, Concurrency and Throughput of Exclusive Operations
 
Data Processing and Ruby in the World
Data Processing and Ruby in the WorldData Processing and Ruby in the World
Data Processing and Ruby in the World
 
Planet-scale Data Ingestion Pipeline: Bigdam
Planet-scale Data Ingestion Pipeline: BigdamPlanet-scale Data Ingestion Pipeline: Bigdam
Planet-scale Data Ingestion Pipeline: Bigdam
 
Technologies, Data Analytics Service and Enterprise Business
Technologies, Data Analytics Service and Enterprise BusinessTechnologies, Data Analytics Service and Enterprise Business
Technologies, Data Analytics Service and Enterprise Business
 
Ruby and Distributed Storage Systems
Ruby and Distributed Storage SystemsRuby and Distributed Storage Systems
Ruby and Distributed Storage Systems
 
Perfect Norikra 2nd Season
Perfect Norikra 2nd SeasonPerfect Norikra 2nd Season
Perfect Norikra 2nd Season
 
Fluentd 101
Fluentd 101Fluentd 101
Fluentd 101
 
To Have Own Data Analytics Platform, Or NOT To
To Have Own Data Analytics Platform, Or NOT ToTo Have Own Data Analytics Platform, Or NOT To
To Have Own Data Analytics Platform, Or NOT To
 
The Patterns of Distributed Logging and Containers
The Patterns of Distributed Logging and ContainersThe Patterns of Distributed Logging and Containers
The Patterns of Distributed Logging and Containers
 
How To Write Middleware In Ruby
How To Write Middleware In RubyHow To Write Middleware In Ruby
How To Write Middleware In Ruby
 
Modern Black Mages Fighting in the Real World
Modern Black Mages Fighting in the Real WorldModern Black Mages Fighting in the Real World
Modern Black Mages Fighting in the Real World
 
Open Source Software, Distributed Systems, Database as a Cloud Service
Open Source Software, Distributed Systems, Database as a Cloud ServiceOpen Source Software, Distributed Systems, Database as a Cloud Service
Open Source Software, Distributed Systems, Database as a Cloud Service
 
Fluentd Overview, Now and Then
Fluentd Overview, Now and ThenFluentd Overview, Now and Then
Fluentd Overview, Now and Then
 

Recently uploaded

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Recently uploaded (12)

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

Log analysis with Hadoop in livedoor 2013

  • 1. Log analysis system with Hadoop in livedoor 2013 Winter 2013/01/20 Hadoop Conference Japan 2013 Winter TAGOMORI Satoshi (@tagomoris) NHN Japan Corp. 13年1月21日月曜日
  • 2. TAGOMORI SATOSHI (@TAGOMORIS) NHN JAPAN CORP. WEB SERVICE BUSINESS DIVISION DEVELOPMENT DEPARTMENT 2 (IN JAN 2012, LIVEDOOR -> NHN JAPAN) 13年1月21日月曜日
  • 5. livedoor in NHN Japan 13年1月21日月曜日
  • 7. large scale web services 400+ Web Servers 5Gbps @ Aug 2009 15Gbps @ Aug 2011 20+Gbps @ Jan 2013 (direct outbound + CDN) 13年1月21日月曜日
  • 8. giant access log traffic At Aug 2011 (HCJ2011) From 96 servers 580GB/day 13年1月21日月曜日
  • 9. giant access log traffic NOW (At Jan 2013 HCJ2013W) From 320+ servers 1.5+ TB/day (raw) 5,300,000,000+ lines/day 120,000+ lines/sec (peak time) 400Mbps log traffic 13年1月21日月曜日
  • 10. What we want to do COUNT PV,UU and others (daily) COUNT Service metrics (daily/hourly) FIND Surprised Errors [4xx,5xx] (immediately) CHECK Response Times (immediately) SERCH Logs in troubles (hourly/immediately) 13年1月21日月曜日
  • 11. Batches and Streams Hadoop is for batches High performance batch is important HDFS has good performance Stream log writing and calcurations are also VERY VERY IMPORTANT Hybrid System: Stream processing + Batch 13年1月21日月曜日
  • 12. System Overview Archive Storage Web Servers Fluentd (scribed) Cluster Notifications STREAM (IRC) Fluentd Watchers Graph Tools webhdfs SCHEDULED BATCH BATCH hive Hadoop Cluster server Shib ShibUI (HDFS, YARN) Huahin Manager 13年1月21日月曜日
  • 13. Hadoop in livedoor 2013 18 nodes (Master 3 + Slave 15) 120core, 180GB RAM, 100TB HDFS CDH4.1.2 NameNode HA(QJM), WebHDFS YARN, Hive + HiverServer1 13年1月21日月曜日
  • 14. Fluentd in livedoor 2013 16 nodes (Deliver 4 + Worker 10 + Watcher 2) Fluentd (latest release / trunk) Ruby based message transfer daemon Many plugins from rubygems.org 13年1月21日月曜日
  • 15. Hadoop/Fluentd engineer in livedoor 2013 1 person. 13年1月21日月曜日
  • 16. Processes Overview Log collection / Archiving Parse / Transform / Add flags Load into Hive tables On-demand queries Scheduled queries Stream aggregations + Notifications 13年1月21日月曜日
  • 17. Past and present 1st gen: Fully batch (late 2011) Scribed + Hadoop 2nd gen: Partially stream processing (earlier 2012) Fluentd + Hadoop 3rd gen: Fully stream processing (late 2012) Fluentd + Hadoop + Graph Tools 4th gen: New Cluster with CDH4 (earlier 2013) 13年1月21日月曜日
  • 19. 1st gen: First impl. Archive Storage Web Servers (scribed) Scribed STREAM (LIBHDFS) BATCH Hadoop Cluster hive server CDH3b2 Shib (Hadoop Streaming) 13年1月21日月曜日
  • 20. Shib: Hive Web Client https://github.com/tagomoris/shib 13年1月21日月曜日
  • 21. 1st gen: Fully batch Log collection / Archiving Scribed(libhdfs) Parse / Transform / Add flags Hadoop Streaming Load into Hive tables HiveServer On-demand queries + Shib Scheduled queries Stream aggregations + Notifications 13年1月21日月曜日
  • 22. 1st gen: Fully batch Simplicity: easy to implement Shib: easy to run on-demand query Latency: hourly rotation + import batch Performance: import batch needs CPU Scribed: libhdfs dependency problem 13年1月21日月曜日
  • 23. 2nd gen: +Fluentd Archive Storage Web Servers Fluentd (scribed) Cluster STREAM Cludera Hoop BATCH Hadoop Cluster hive server CDH3u2 Shib Huahin (Hive) Manager 13年1月21日月曜日
  • 24. Fluentd stream processing out_exec_filter any filter programs with STDIN/ STDOUT compatible with Hadoop Streaming! out_hoop output plugin to write HDFS over Hoop Hoop: a.k.a. HttpFs in Hadoop 2.0.x 13年1月21日月曜日
  • 25. Fluentd stream processing Web Servers Fluentd worker Fluentd deliver Fluentd worker Fluentd deliver Fluentd worker Fluentd deliver Fluentd worker Hoop Server Fluentd worker HDFS Fluentd worker 13年1月21日月曜日
  • 26. Huahin Manager REST API for: JobTracker (MRv1) ResourceManager (YARN) HiveServer http://huahinframework.org/huahin-manager/ 13年1月21日月曜日
  • 27. 2nd gen: +Fluentd Log collection / Archiving Fluentd Parse / Transform / Add flags Fluentd Load into Hive tables HiveServer On-demand queries + Shib Scheduled queries Stream aggregations + Notifications 13年1月21日月曜日
  • 28. 2nd gen: +Fluentd Compatibility: RPC based HDFS/JobTracker Access Performance: import needs no CPU (Load Only) Latency: hourly rotation only Latency: hourly rotation for any queries Hoop Server: SPOF / traffic bottleneck 13年1月21日月曜日
  • 29. 3rd gen: ++++++ Archive Storage Web Servers Fluentd (scribed) Cluster Notifications STREAM (IRC) Fluentd Watchers Graph Tools webhdfs SCHEDULED BATCH BATCH Hadoop Cluster hive server CDH3u5 Shib ShibUI Huahin (Hive) Manager 13年1月21日月曜日
  • 30. WebHDFS (CDH3u5 or CDH4) HttpFs (Hoop) NameNode DataNode httpfs Client server DataNode HTTP Java Native DataNode WebHDFS NameNode DataNode Client DataNode DataNode HTTP 13年1月21日月曜日
  • 31. Fluentd online aggregation Semi-realtime aggregation to: counts errors of HTTP response calculate avg/%tiles of response time draw graphs immediately Many plugins for real time aggregation 13年1月21日月曜日
  • 32. Graph Tools: GrowthForecast / HRForecast Graph drawing tools to update values over very simple HTTP request GrowthForecast: Real-time values HRForecast: Summarized (past) values 13年1月21日月曜日
  • 33. HTTP Status/Response Time on GrowthForecast HTTP STATUS: 2XX(BLUE),3XX(GREEN),4XX(ORANGE), 5XX(RED) HTTP RESPONSE TIMES: AVG, [90, 95, 98, 99]PERCENTILE http://kazeburo.github.com/GrowthForecast/ 13年1月21日月曜日
  • 35. ShibUI https://github.com/kazeburo/hrforecast 13年1月21日月曜日
  • 36. 3rd gen: +++++++ Log collection / Archiving Fluentd Parse / Transform / Add flags Fluentd Load into Hive tables HiveServer On-demand queries + Shib Scheduled queries ShibUI Fluentd Stream aggregations + Notifications 13年1月21日月曜日
  • 37. 3rd gen: +++++++ NO SPOF: for data stream Real time monitoring Queries for services: Scheduled queries, Visualization Latency: hourly rotation for any queries SPOF: NameNode (VIP & DRBD is xxxx...) 13年1月21日月曜日
  • 38. 4th gen: NOW Archive Storage Web Servers Fluentd (scribed) Cluster Notifications STREAM (IRC) Fluentd Watchers Graph Tools webhdfs SCHEDULED BATCH BATCH Hadoop Cluster hive server CDH4 Shib ShibUI Huahin (HDFS, YARN) Manager 13年1月21日月曜日
  • 39. 4th gen: CDH4.1.2 NO SPOF: QJM based NameNode HA Performance: YARN (?) Latency: multiple rotation in an hour with hive table schema change NONE should be improved! 13年1月21日月曜日
  • 40. Good parts for solo engineer: RPC: Loosely-coupled architecture High compatibility / Low maintenance cost Open Source All components are OSS Open knowledge Well blogged / presentationed 13年1月21日月曜日
  • 41. OUR DRIVER IS "OPENNESS" thanks to crouton & @kbysmnr ! 13年1月21日月曜日
  • 42. Software list: https://ccp.cloudera.com/display/SUPPORT/Downloads http://fluentd.org/ http://fluentd.org/plugin/ https://github.com/tagomoris/fluent-agent-lite https://github.com/tagomoris/shib https://github.com/tagomoris/shibui http://huahinframework.org/huahin-manager/ http://kazeburo.github.com/GrowthForecast/ http://github.com/kazeburo/hrforecast 13年1月21日月曜日
  • 43. See also: Hadoop and Subsystem in livedoor (2011) http://www.slideshare.net/tagomoris/hadoop-and-subsystems-in-livedoor-hcj11f Distributed message stream processing on Fluentd http://www.slideshare.net/tagomoris/distributed-stream-processing-on-fluentd-fluentd Hive Tools in NHN Japan http://www.slideshare.net/tagomoris/hive-tools-in-nhn-japan-hadoopreading OSS based large scale log aggregation in livedoor http://www.slideshare.net/tagomoris/oss-nhntech Fluentd and WebHDFS http://www.slideshare.net/tagomoris/fluentd-and-webhdfs 13年1月21日月曜日