Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
楽天がHadoopを使う理由                             Keisuke Kawamura | Development Unit Rakuten, Inc.                              ...
自己紹介     河村 圭介(かわむらけいすけ)      楽天株式会社 Development Unit      シニアアソフトウェアエンジニア        - Webサービスの企画・開発       - 大規模データ解析の処理基盤構築 ...
自己紹介        課外活動         楽天で行われる各種技術イベント 企画・運営         Hadoopソースコードリーディング お手伝い         事例記事の執筆などなど        Contact :       ...
Hadoopと私       ・2009年2月∼        Hadoopでアプリケーション開発。        (楽天市場向けレコメンダーシステム)       ・2010年10月∼        大規模データの解析インフラの構築が本業に。...
本日お話しすること                  1. 我々の課題                  2. 楽天のデータへの取り組み                  3. Hadoopの利用状況・事例                  4...
我々が直面している課題                                      6Tuesday, December 21, 2010                6
楽天市場(らくてんいちば)                              •日本最大のインターネットショッピングモール              日本最大            •世界でも独特のビジネスモデル            ...
グループのビジョン                                                Business                                               Business  ...
楽天グループの国際展開            インターネット・ショッピングモールビジネス            トラベル ビジネス            パフォーマンスマーケティング ビジネス         ヨーロッパ            ...
インターネットの情報爆発     2000年 6.2EB                   ZB(ゼッタバイト)                             45倍                                 ...
現在の楽天市場のサービス規模       出店店舗   34,642店       商品数    6,899万商品       購入者数   919万人 (2010/3Q)       注文数    32,92万件 (2010/3Q)     ...
増え続けるデータ            会員数    20万ID/月 増加            月間購入件数 1000万件            ピークタイム購入件数 1000件 / 分            PV      1億PV / 日...
Internet Traffic                                  20                                       02                             ...
データの重要性       データはサービスに様々な価値をもたらす                   例)Webサービスの場合                     ・レコメンデーション                     ・パーソナラ...
ウェブサービスの裏側          より便利なサービスを提供するために、          バックエンドでは、さまざまなデータ          分析が必要となる。          しかし、規模が大きくなれば、データの          ...
各社の技術開発       •「MapReduce」等は分散並列処理基盤       •「GFS/BigTable」等は分散データストレージ、KVS                    「処理」の分散                     ...
楽天の大規模データへの取り組み                              Rakuten SuperDB                              独自プロダクトの開発                      ...
楽天スーパーDB                                        18Tuesday, December 21, 2010                   18
楽天スーパーDB        •楽天には多様なビジネスがあり、様々なデータがある        •堅牢・強固なDWHに集約し、サービス向上に役立てている       データの集約                         データの分析・...
スーパーDBのデータ活用                               サービス特性毎にリコメンドロジックをカスタマイズ可能な、                TOHO                               ...
スーパーDBのデータ活用                       ターゲティング広告などに利用中                                             21Tuesday, December 21, 201...
独自プロダクトの開発                                          22Tuesday, December 21, 2010                     22
分散プロダクトの独自開発             ・Rakuten On-Memory Architecture               ROMA is one of the data storing systems for        ...
ROMA: example.                 Roma was used some services. (ex. Browse                 History of Rakuten Ichiba and Raku...
OSSを利用したデータ解析                   (Hadoopの利用)                                 25Tuesday, December 21, 2010            25
楽天のHadoop環境                     2008年4月∼                      検証環境にて検証開始                     2009年3月∼                     ...
利用例:商品/購買データ解析                                              27Tuesday, December 21, 2010                         27
楽天市場の商品の特徴               - 楽天はショッピングモール。               - 同一商品が楽天内に複数存在する。                                          28Tuesd...
楽天の商品データの特徴           - 商品がユニークではない。商品ID≠製品ID。           - 商品がコンテンツ。店舗様が独自編集可能。           - 日々追加・編集される。                要望:...
集計処理はHadoop化を推進                •入力データ                 商品データ、カタログデータ、購買データ                                 •出力データ          ...
利用例:リアルタイムランキング                                           31Tuesday, December 21, 2010                      31
デイリーランキング                                         32Tuesday, December 21, 2010                    32
ランキング集計処理          •ジャンルごとに販売数を集計。          •ジャンルの数:6000。拡大傾向。          • JavaMapReduceを使わず、Pigで実装している。                   ...
現在の主な用途                             • 購買・アクセスデータ解析                             • ユーザの行動解析                             • 商品...
Hadoop導入による効果                                             35Tuesday, December 21, 2010                        35
以前のデータ解析・集計              集計用バッチサーバ群で集計・分析               ・用途ごとにバラバラに実装               ・1台∼数台で自前の並列分散処理               ・RDBへの依...
Hadoopがもたらしたもの                               生産性                             スケーラビリティ                              耐障害性   ...
生産性      •Map Reduceでプログラムを書くのは容易ではない          と言われるが、、、       Map Reduceのフレームワークを理解していれば、       開発者はビジネスロジックに集中でき、これは大きな ...
スケーラビリティ                  •増大するデータに対する対応能力                        - Webでは容易にスケールすることが重要                  •Webサービスのトラフィック  ...
耐障害性(運用効率の向上)                  •Hadoop以前は運用が非常に煩雑                        - 用途ごとにバラバラに実装                        - 1台∼数台で自前の...
現在の課題         環境の統合               - 小規模∼中規模なクラスタを並行運用中               - 環境の統合をすすめ、ナレッジの集約や                効率化を図る         利用...
今後の取り組み           サービス、事業へのフィードバック                 - ユーザや出店店舗様へのさらなる利便性の提供                 - レコメンデーション・パーソナライゼーション        ...
まとめ                                   43Tuesday, December 21, 2010              43
まとめ          楽天のデータ戦略                - 独自プロダクトとOSS利用推進          利用状況                - 商品、売上データ、アクセスログなどの解析に利用。            ...
まとめ             Hadoopがもたらすもの                   - これまで不可能(あきらめていた?)データ                     解析が可能になる。                   - バ...
ご清聴ありがとうございました                             46Tuesday, December 21, 2010        46
Upcoming SlideShare
Loading in …5
×

楽天がHadoopを使う理由

7,770 views

Published on

2010/12/15に行われた「日経コンピュータセミナー Hadoopが変える企業システムの実像」での講演資料です。

Published in: Technology, Business

楽天がHadoopを使う理由

  1. 1. 楽天がHadoopを使う理由 Keisuke Kawamura | Development Unit Rakuten, Inc. Nikkei Computer Seminar 15th Dec. 2010 1Tuesday, December 21, 2010 1
  2. 2. 自己紹介 河村 圭介(かわむらけいすけ)  楽天株式会社 Development Unit  シニアアソフトウェアエンジニア   - Webサービスの企画・開発  - 大規模データ解析の処理基盤構築 2Tuesday, December 21, 2010 2
  3. 3. 自己紹介 課外活動  楽天で行われる各種技術イベント 企画・運営  Hadoopソースコードリーディング お手伝い  事例記事の執筆などなど Contact :  keisuke.kawamura@mail.rakuten.co.jp  twitter @kkawamura 3Tuesday, December 21, 2010 3
  4. 4. Hadoopと私 ・2009年2月∼  Hadoopでアプリケーション開発。 (楽天市場向けレコメンダーシステム) ・2010年10月∼  大規模データの解析インフラの構築が本業に。 アプリ開発者→データインフラ担当 4Tuesday, December 21, 2010 4
  5. 5. 本日お話しすること 1. 我々の課題 2. 楽天のデータへの取り組み 3. Hadoopの利用状況・事例 4.Web事業者から見たHadoop 5. 今後の展望とまとめ 5Tuesday, December 21, 2010 5
  6. 6. 我々が直面している課題 6Tuesday, December 21, 2010 6
  7. 7. 楽天市場(らくてんいちば) •日本最大のインターネットショッピングモール 日本最大 •世界でも独特のビジネスモデル 店舗数:34,642店 商品数:6,899万点 会員数:6,400万人 流通総額:8,000億円※ (※2009年) 7Tuesday, December 21, 2010 7
  8. 8. グループのビジョン Business Business EC Application Application Business Business Business Business クレジット Application Application トラベル Application Application 会員データベース ポータル/ Business Business Business Business Application Application 証券 Application Application コンテンツ Business Business 金融 Application Application 生活に必要なサービス全てを提供するTuesday, December 21, 2010 8
  9. 9. 楽天グループの国際展開 インターネット・ショッピングモールビジネス トラベル ビジネス パフォーマンスマーケティング ビジネス ヨーロッパ アメリカ 本社 PriceMinister アジア Rakuten Ichiba Buy.com Taiwan TARAD.com Indonesia インターネット・ショッピングモールビジネス [台湾] 台北 [米国] カルフォルニア [タイランド] バンコク [インドネシア] ジャカルタ [中国] 北京 [フランス] パリ 9Tuesday, December 21, 2010 9
  10. 10. インターネットの情報爆発 2000年 6.2EB ZB(ゼッタバイト) 45倍 1021 2007年 281EB 1,000,000,000,000,000,000,000 6倍 2011年 1.8ZB 10Tuesday, December 21, 2010 10
  11. 11. 現在の楽天市場のサービス規模 出店店舗   34,642店 商品数    6,899万商品 購入者数   919万人 (2010/3Q) 注文数    32,92万件 (2010/3Q) 会員数    6400万ID   11Tuesday, December 21, 2010 11
  12. 12. 増え続けるデータ 会員数    20万ID/月 増加 月間購入件数 1000万件 ピークタイム購入件数 1000件 / 分 PV      1億PV / 日  12Tuesday, December 21, 2010 12
  13. 13. Internet Traffic 20 02 Ja 0 n.Tuesday, December 21, 2010 20 02 Ju 20 l. 03 Ja 20 n. 03 Ju 20 l. 04 Ja 20 n. 04 Ju 20 l 05 Ja 20 n. 05 Ju 20 l. 06 Ja 20 n. 06 Ju Network traffic is growing 20 l. 150 times in the last 8 years 07 Ja 20 n. 07 Ju 20 l. 08 トラフィックの推移 Ja 20 n. 08 Ju 20 l. 09 Ja 20 n. 09 Ju l. 1313
  14. 14. データの重要性 データはサービスに様々な価値をもたらす 例)Webサービスの場合   ・レコメンデーション   ・パーソナライゼーション   ・情報の提供精度向上   14Tuesday, December 21, 2010 14
  15. 15. ウェブサービスの裏側 より便利なサービスを提供するために、 バックエンドでは、さまざまなデータ 分析が必要となる。 しかし、規模が大きくなれば、データの 管理も解析も容易ではなくなる。 ...データは増え続ける。 15Tuesday, December 21, 2010 15
  16. 16. 各社の技術開発 •「MapReduce」等は分散並列処理基盤 •「GFS/BigTable」等は分散データストレージ、KVS 「処理」の分散 「データ」の分散 GFS/BigTable MapReduce Dynamo MapReduceのJava実装 Windows Azure SQL Data Services fairy ROMATuesday, December 21, 2010 16
  17. 17. 楽天の大規模データへの取り組み Rakuten SuperDB 独自プロダクトの開発 OSSを利用したデータ解析 (Hadoopの利用推進) 17Tuesday, December 21, 2010 17
  18. 18. 楽天スーパーDB 18Tuesday, December 21, 2010 18
  19. 19. 楽天スーパーDB •楽天には多様なビジネスがあり、様々なデータがある •堅牢・強固なDWHに集約し、サービス向上に役立てている データの集約 データの分析・利用 商品・サービスDB リコメンデーショ パーソナライズ ン 顧客属性DB 楽天 購買予測 スーパーDB 購買履歴DB 指標モニタリング 閲覧履歴DB 19Tuesday, December 21, 2010 19
  20. 20. スーパーDBのデータ活用 サービス特性毎にリコメンドロジックをカスタマイズ可能な、 TOHO 楽天経済圏のレコメンデーションプラットフォーム 各種レコメンド ロジック レコメンデーション 協調フィルタリング リターゲティング プラットフォーム バスケット 画像処理 スーパーDB 商品・サービスDB 顧客属性DB 購買履歴DB 閲覧履歴DB 20Tuesday, December 21, 2010 20
  21. 21. スーパーDBのデータ活用 ターゲティング広告などに利用中  21Tuesday, December 21, 2010 21
  22. 22. 独自プロダクトの開発 22Tuesday, December 21, 2010 22
  23. 23. 分散プロダクトの独自開発 ・Rakuten On-Memory Architecture  ROMA is one of the data storing systems for distributed key-value stores.   23Tuesday, December 21, 2010 23
  24. 24. ROMA: example. Roma was used some services. (ex. Browse History of Rakuten Ichiba and Rakuten Travel. ) [Browse History] Sharing data by Rakuten ID. 【PC】 【Mobile】 24Tuesday, December 21, 2010 24
  25. 25. OSSを利用したデータ解析 (Hadoopの利用) 25Tuesday, December 21, 2010 25
  26. 26. 楽天のHadoop環境 2008年4月∼  検証環境にて検証開始 2009年3月∼ プロダクション環境で運用開始 Hadoop 0.19.2 15台構成の小規模クラスタ 2010年8月∼  3つのクラスタを運用中  Hadoop 0.20.2  小規模なものが2つ、中規模が1つ   26Tuesday, December 21, 2010 26
  27. 27. 利用例:商品/購買データ解析 27Tuesday, December 21, 2010 27
  28. 28. 楽天市場の商品の特徴 - 楽天はショッピングモール。 - 同一商品が楽天内に複数存在する。 28Tuesday, December 21, 2010 28
  29. 29. 楽天の商品データの特徴 - 商品がユニークではない。商品ID≠製品ID。 - 商品がコンテンツ。店舗様が独自編集可能。 - 日々追加・編集される。 要望: サービスのニーズに応じて、商品を解析・ クラスタリングしたい。 トライアンドエラーで最適解を探りたい。 29Tuesday, December 21, 2010 29
  30. 30. 集計処理はHadoop化を推進 •入力データ  商品データ、カタログデータ、購買データ   •出力データ  類似商品クラスタ、製品ごとの商品リスト、  ジャンル・価格帯などのクラスタ 当初はレコメンデーションだけで利用していたが 利用用途を拡大中。 30Tuesday, December 21, 2010 30
  31. 31. 利用例:リアルタイムランキング 31Tuesday, December 21, 2010 31
  32. 32. デイリーランキング 32Tuesday, December 21, 2010 32
  33. 33. ランキング集計処理 •ジャンルごとに販売数を集計。 •ジャンルの数:6000。拡大傾向。 • JavaMapReduceを使わず、Pigで実装している。   •集計処理のコード量削減。 数行で処理を実装。可読性向上。 •今後のジャンルの拡大に容易に対応可能に。   33Tuesday, December 21, 2010 33
  34. 34. 現在の主な用途 • 購買・アクセスデータ解析 • ユーザの行動解析 • 商品データ解析 • 売れ筋ランキング集計 • その他各種データ解析に拡大中   • eコマース事業 • ネット広告事業  34Tuesday, December 21, 2010 34
  35. 35. Hadoop導入による効果 35Tuesday, December 21, 2010 35
  36. 36. 以前のデータ解析・集計 集計用バッチサーバ群で集計・分析  ・用途ごとにバラバラに実装  ・1台∼数台で自前の並列分散処理  ・RDBへの依存  ・運用が非常に煩雑 36Tuesday, December 21, 2010 36
  37. 37. Hadoopがもたらしたもの 生産性 スケーラビリティ 耐障害性 37Tuesday, December 21, 2010 37
  38. 38. 生産性 •Map Reduceでプログラムを書くのは容易ではない と言われるが、、、  Map Reduceのフレームワークを理解していれば、  開発者はビジネスロジックに集中でき、これは大きな  利点といえる。 • 開発者に多くの選択肢が提供されている  - Hadoop StreamingでRubyなどから利用可能 - 特性に応じてPig / Hiveなどの利用   38Tuesday, December 21, 2010 38
  39. 39. スケーラビリティ •増大するデータに対する対応能力 - Webでは容易にスケールすることが重要 •Webサービスのトラフィック - 必ずしもコントロールできるものではない - 突如数倍になることもある 39Tuesday, December 21, 2010 39
  40. 40. 耐障害性(運用効率の向上) •Hadoop以前は運用が非常に煩雑 - 用途ごとにバラバラに実装 - 1台∼数台で自前の並列分散処理 - RDBへの依存 •Hadoop化により煩雑な運用から開放される 40Tuesday, December 21, 2010 40
  41. 41. 現在の課題 環境の統合 - 小規模∼中規模なクラスタを並行運用中 - 環境の統合をすすめ、ナレッジの集約や  効率化を図る 利用範囲のさらなる拡大 楽天グループ内のすべてのログデータを解析対象へ   41Tuesday, December 21, 2010 41
  42. 42. 今後の取り組み サービス、事業へのフィードバック - ユーザや出店店舗様へのさらなる利便性の提供 - レコメンデーション・パーソナライゼーション  の強化の基盤としてHadoopを使い倒す - 事業戦略、マーケティングへのデータ活用   42Tuesday, December 21, 2010 42
  43. 43. まとめ 43Tuesday, December 21, 2010 43
  44. 44. まとめ 楽天のデータ戦略 - 独自プロダクトとOSS利用推進 利用状況 - 商品、売上データ、アクセスログなどの解析に利用。 - 解析結果をサービスへフィードバック。 - 今後さらに活用範囲をひろげていく。 44Tuesday, December 21, 2010 44
  45. 45. まとめ Hadoopがもたらすもの - これまで不可能(あきらめていた?)データ 解析が可能になる。 - バッチが多少早くなるだけではない、  不可能を可能する可能性が秘められている。 アイディア次第 - 必ずしも規模が必要なわけではない。 - 使いようで小規模でも大きな価値を創出できる。 45Tuesday, December 21, 2010 45
  46. 46. ご清聴ありがとうございました 46Tuesday, December 21, 2010 46

×