More Related Content
PDF
ソフトウェアテスト・ヒストリーの学び方 (WACATE 2010冬 クロージングセッション) 20101219 PDF
PDF
メルカリ・ソウゾウでは どうGoを活用しているのか? PDF
MLOpsの概要と初学者が気をつけたほうが良いこと PDF
PDF
PDF
HTML5のCanvas入門 - Img画像を編集してみよう - PDF
Statistical Semantic入門 ~分布仮説からword2vecまで~ What's hot
PDF
PDF
PDF
プランニングポーカーではじめる工数見積りと計画づくり PDF
PPTX
ASP.NET SPA開発をはじめよう~今と未来とステップアップ PDF
Ansible2.9 ネットワーク対応のアップデート #ansiblejp PPTX
ここがつらいよWebRTC - WebRTC開発の落とし穴 PDF
PDF
PDF
PDF
SharePoint Online で、ポータル実践アイデア PDF
「インターンシップについて本音を語る:大学教員×企業×学生」講演資料 PDF
Media Art II openFrameworks 複数のシーンの管理・切替え PDF
PDF
PDF
PPTX
PPTX
PPTX
オープンデータとオープンソースGisを用いたweb上でのインタラクティブ可視化手法について PPTX
Viewers also liked
PDF
Yahoo! JAPANのデータ基盤とHadoop #dbts2016 PDF
Yahoo! JAPANを支えるビッグデータプラットフォーム技術 PDF
Yahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnight PPT
Yahoo! JAPANでのHadoop利用について PDF
Automation of Rolling Upgrade of Hadoop Cluster without Data Lost and Job Fai... PDF
Impalaチューニングポイントベストプラクティス PDF
Yahoo!ブラウザーにおける市場環境の分析と戦略化 PDF
ヤフオク!の快適なカスタマー体験を支えるモバイルアプリのライブアップデート技術 PPTX
PDF
PDF
The Google File System (GFS) PPT
PDF
PDF
Yahoo! JAPAN の Ambari 活用事例 #ambarimeetup PDF
Storm の新機能について @HSCR #hadoopreading PDF
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション② PDF
Apache Flume and its use case in Manufacturing PPTX
20150608 初心者によるazure machinelearning入門 Similar to Hadoop ~Yahoo! JAPANの活用について~
PDF
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料) PDF
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講... PDF
PDF
Hadoop~Yahoo! JAPANの活用について~ PDF
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~ PPT
Hadoop~Yahoo! JAPANの活用について~ PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) PDF
Hadoop ecosystem NTTDATA osc15tk PDF
OSSとクラウドによるコンピューティングモデルの変化 PPTX
PDF
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~ PDF
OSC2012 Tokyo/Spring - Hadoop入門 PPT
Hadoop~Yahoo!Japanの活用について PDF
Hadoop~Yahoo! JAPANの活用について~ PDF
PDF
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み PDF
TokyoWebminig カジュアルなHadoop PDF
PDF
OSC2011 Tokyo/Spring Hadoop入門 PDF
Data-Intensive Text Processing with MapReduce(Ch1,Ch2) More from Yahoo!デベロッパーネットワーク
PDF
ヤフーでは開発迅速性と品質のバランスをどう取ってるか PDF
PDF
「新しいおうち探し」のためのAIアシスト検索 #yjtc PDF
継続的なモデルモニタリングを実現するKubernetes Operator PDF
PDF
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2 PDF
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc PDF
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc PDF
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜 PDF
サイエンス領域におけるMLOpsの取り組み #yjtc PDF
モブデザインによる多職種チームのコミュニケーション改善 #yjtc PDF
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc PDF
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc PDF
Persistent-memory-native Database High-availability Feature PDF
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc PDF
PDF
eコマースと実店舗の相互利益を目指したデザイン #yjtc PDF
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc PDF
オンプレML基盤on Kubernetes パネルディスカッション PDF
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc Recently uploaded
PDF
20260119_VIoTLT_vol22_kitazaki_v1___.pdf PDF
TomokaEdakawa_職種と講義の関係推定に基づく履修支援システムの基礎検討_HCI2026 PDF
自転車ユーザ参加型路面画像センシングによる点字ブロック検出における性能向上方法の模索 (20260123 SeMI研) PDF
maisugimoto_曖昧さを含む仕様書の改善を目的としたアノテーション支援ツールの検討_HCI2025.pdf PDF
ST2024_PM1_2_Case_study_of_local_newspaper_company.pdf PDF
Team Topology Adaptive Organizational Design for Rapid Delivery of Valuable S... Hadoop ~Yahoo! JAPANの活用について~
- 1.
- 2.
自己紹介 角田 直行 (かくだ なおゆき ) R&D 統括本部 プラットフォーム開発本部検索開発部 開発 3 2005 年 ヤフー株式会社入社 ヤフー地図 ヤフー路線 ヤフー検索 … 2010 年現在、検索プラットフォームを開発中 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 3.
自己紹介 吉田一星 (よしだ いっせい)R&D 統括本部プラットフォーム開発本部検索開発部開発3 R&D 統括本部フロントエンド開発本部アプリケーション開発部開発4(兼) R&D 統括本部プラットフォーム開発本部要素技術開発部開発3(兼) 2008 年に Yahoo! JAPAN に入社 検索プラットフォームや画像処理で Hadoop に関わる開発 地図検索、地域プラットフォームでも Hadoop に関わる開発を経験 - 4.
Agenda Introduction Hadoopとは 事例紹介 Hadoop 開発の流れ 得られた知見 まとめ Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 5.
- 6.
有名なネットサービス Copyright ©2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 月間 485 億 3100 万 PV 1 日 5000 万 のつぶやき 商品数 6400 万 月間ユーザ数 5 億 人 各サービスとも日々成長を続けています - 7.
- 8.
Yahoo! JAPAN が扱うデータCopyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ログは 1 日分だけでもかなりのサイズになる 行数を数えるだけで数日かかる - 9.
解決策としての Hadoop 大規模な処理、大容量のデータを扱うには1 台のサーバでは不可能 マルチコアによる並行処理アプローチは複雑すぎる 数十~数千台規模で簡単にスケールする環境が不可欠 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 この発表では、 Yahoo! JAPAN が Hadoop をどう活用しているか について事例を交えて解説します - 10.
- 11.
Hadoop とは 大規模分散処理システムGoogle MapReduce/GFS を論文を元に実装 処理時間が数分~数時間かかるようなバッチ処理に向いている -> Web のように、即座に結果が返るような リアルタイム処理には不向き Java で書かれ、オープンソースとして公開 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 12.
Hadoop とは DougCutting 氏が生みの親 Lucene など有名 OSS を開発 Yahoo! Inc. 在籍時はフルタイムで開発 現在は Cloudera に在籍 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ( 出典元 :Wikipedia) - 13.
Hadoop とは Copyright© 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 大きく MapReduce と HDFS ( 分散ファイルシステム ) に分かれる - 14.
- 15.
Hadoop HDFS Copyright© 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 ・巨大なファイルを複数台に分割 ・複数サーバの各 HDD を 1 つの HDD のように扱える - 16.
Hadoop 関連プロダクト Copyright© 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 大規模データ処理用スクリプト言語 Pig Hive Facebook が開発 扱いが一般データベースに似ている A = load 'passwd' using PigStorage(':'); B = foreach A generate $0 as id; dump B; CREATE TABLE pokes (foo INT, bar STRING); SELECT a.foo FROM pokes a; - 17.
Hadoop 関連プロダクト Copyright© 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 Hadoop 上に構築された列指向データベース Google BigTable のクローン HBase 機械学習ライブラリ Hadoop でスケール可 Mahout 複数の MapReduce ジョブなどを 実行制御するワークフロー Oozie - 18.
- 19.
- 20.
The New YorkTimes TimeMachine 過去のアーカイブを公開 4TB の TIFF を PDF に Amazon EC2 / S3 100 インスタンス 24 時間 1500 ドル以下 MRToolKit を公開 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 21.
eHarmony アメリカの 4%のカップルが eHarmony を通じて結婚 毎日平均 236 人が結婚している カップルのマッチングの計算に Hadoop を利用 何十年もの研究と臨床実験に基づいたモデル 新しいモデルも日々テストされている モデルの評価は、部屋にゴリラを入れて実験 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 22.
- 23.
簡単に使える環境 Amazon ElasticMapReduce Hadoop の MapReduce を簡単に実行できる 従量課金( 100 台を 1 時間で、 1000 円程度) Hadoop の知識は必要だが、セットアップは最小限 Google BigQuery Google の MapReduce 環境を使える SQL ライクな命令( Hive に似ている) REST API で簡単に実行できる Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 24.
Yahoo! Inc. での事例紹介Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 25.
- 26.
- 27.
Contents Optimization KnowledgeEngine (COKE) どの記事をどの順番で表示するかを計算 今までは編集者が決めていた 現在は編集者+ COKE Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 28.
その他の事例 WebMap(Web ページのデータベース) の構築 新しい技術の評判抽出 クロールしたデータの問題検証 データ解析全般 ログ解析 検索インデックスの生成 機械学習 広告最適化 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 29.
Yahoo! JAPAN での事例Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 30.
- 31.
Yahoo! 検索 関連検索ワードキーワード入力補助 ショートカットの表示制御 検索ログプラットフォームのデータが元になっている Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 32.
- 33.
- 34.
- 35.
- 36.
- 37.
- 38.
- 39.
Hadoop 開発の流れ Yahoo!JAPAN で、どのように Hadoop 開発を行っているか? サービスによって開発の方法は若干違うが、 ABYSS の例を紹介 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 40.
- 41.
Hadoop Client Hadoopを Client と Server に分けて、運用を行っている 他のサーバにある Hadoop クラスタのファイルの読み書きや、 Job の実行を簡単に行える Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 $ hadoop fs –put localfile hdfs://nn.example.com:9000/hadoop/hadoopfile $ hadoop fs –get hdfs://nn.example.com/user/hadoop/file localfile - 42.
Hadoop Client core-site.xmlや mapred-site.xml に外部の Hadoop Server を指定し、 Hadoop Client としてパッケージ化 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 <property> <name>fs.default.name</name> <value> hdfs://nn.example.com:9000 </value> </property> - core-site.xml <property> <name>mapred.job.tracker</name> <value> nn.example.com:9000 </value> </property> - mapred-site.xml - 43.
Hadoop Server 開発用クラスタと、検証用クラスタ、本番用クラスタがある本番用クラスタは、 DRBD で Namenode を冗長化 別サーバから Hadoop Client で Job の実行や、ファイルの転送を行っている Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 Hadoop Client Hadoop Client Hadoop Client 開発用クラスタ 検証用クラスタ 本番用クラスタ - 44.
ファイルの転送 基本的には、 HadoopClient で転送 HTTP 経由で転送する場合もあり Datanode の HTTP Server から転送 デフォルトでは GET しかできないが、パッチをあてて PUT/POST/DELETE もできるようにしている Thrift や FUSE 経由で転送しているサービスもある Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 45.
Hadoop の開発 Eclipseで開発 Mockito+JUnit や MRUnit で単体テスト ただし、 DistributedCache などがテストできない Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 46.
Eclipse Plugin EclipsePlugin を使えば、 Hadoop Client が入った状態になる 直接、開発用クラスタに Job を投げて実行 VMWare 上に Hadoop クラスタを立ち上げる場合もあり Yahoo や Cloudera で、セットアップがほとんど必要ない VMWare のイメージファイルが公開されている Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 47.
セキュリティ Hadoop Serverのアカウントを持っていなくても、 Hadoop Client で、どこからでも Job を実行したり、ファイルの読み書きができる 権限管理の仕組みはあるが、セキュリティの観点ではほとんど意味をなさない 複数人でクラスタを共用する場合は問題 解決法 ネットワークを遮断して、ポートをアクセス制限 誓約書を書かせる Hadoop with Security を後ほど紹介 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 48.
Hadoop の user/groupなんとなく、シェルのログイン user/group が適用されているが・・・ Hadoop Client 側で、” whoami ” 、” bash –c groups ” コマンドを実行して取得しているだけ ちなみに Windows では取得できない Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 public final static String USER_NAME_COMMAND = " whoami "; public static String[] getGROUPS_COMMAND() { return new String[]{" bash ", " -c ", " groups "}; } static String getUnixUserName() throws IOException { String[] result = executeShellCommand( new String[]{Shell.USER_NAME_COMMAND}); return result[0]; } UnixUserGroupInformation.java Shell.java - 49.
任意の user/group を指定Hadoop Client の core-site.xml で、 hadoop.job.ugi を指定する MapReduce の Job ごとに動的に指定することも可能 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 <property> <name> hadoop.job.ugi </name> <value> user,group </value> </property> JobConf conf = new JobConf(Test.class); conf.set(UnixUserGroupInformation.UGI_PROPERTY_NAME,” user,group ”); - core-site.xml - MapReduce - 50.
Hadoop with securityいままでの Hadoop のセキュリティには問題がある Yahoo! Distribution Of Hadoop With Security Kerberos 認証ベース まだベータバージョン Hadoop 0.22 で正式サポート Hadoop 0.21 にも一応追加されているが、まだうまく動かない模様 C l oudera Distribution Of Hadoop の次のバージョンにも追加 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 51.
Hadoop を運用してきた中で 得られた知見~ Yahoo! JAPAN の場合~ Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 52.
クラスタ構築 データ保存用途が計算用途より速いスピートで増大する CPU、メモリともに余り気味 -> ディスク I/O がネックになっているのも原因の一つ CPU 数は抑えめに、ディスク数は多めにした方がよい -> かといって安いマシンで構築してはならない ( コモディティ のミスリーディング ) Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 53.
パラメータチューニング mapred.tasktracker.map.tasks.maximum / mapred.tasktracker.reduce.tasks.maximum TaskTracker で同時に走る最大タスク数 Core の数 -1 ぐらいで最適なパフォーマンスが得られる mapred.child.java.opts 子プロセスの JVM オプション MapReduce から動的に設定でき、ある特定の Job で最大ヒープサイズを増やしたいときなどに指定する JVM オプション Namenode 、 Jobtracker など個別に設定可能 Xmx と Xms を同じにする、 GC などのチューニング Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 54.
圧縮 gzip 、bzip2 、 LZO 、 ZIP などの形式をサポート 巨大な入力データは、 bzip2 で圧縮する場合が多い Bzip2 は、分割可能 gzip などは、分割できず、1ファイルにつき 1MapTask が立ち上がってしまう Map の出力は LZO で圧縮 解凍、圧縮の速度が早い 帯域が問題になる場合が多いため、圧縮した方がよい Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 55.
ソートのチューニング ソート実装 (map.sort.class)の変更 デフォルトは QuickSort ログのソートは HeapSort の方が高速 ソートに使うメモリサイズ (io.sort.mb) の変更 デフォルトは 100MB 増やし過ぎると逆効果になることも Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 56.
アプリケーション開発 早めに 本番データを使って 本番環境 でテストすべき テストデータでは起こらない事象が次々に起こる 大量の Gzip ファイル処理で Mapper 数増大 改行コードの混在 (LF 、 CR 、 CRLF) マイナーバージョンアップの変更から起きる不具合 各ノード間の設定差異による不具合 … Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 57.
まとめ Copyright ©2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 58.
まとめ Hadoop は大規模なデータを複数のマシンに分散して処理できるプラットフォーム Hadoop を使う企業は増え続けていて、不可欠な技術に なりつつある Hadoop の利用例 検索関係、ログ解析、機械学習など 大規模データを扱う処理や、大量の計算が必要な バッチ処理に向いている Copyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 - 59.
TechBlog Copyright ©2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 http://techblog.yahoo.co.jp/ - 60.
Hadoop Hack NightCopyright © 2010 Yahoo Japan Corporation. All Rights Reserved. 無断引用・転載禁止 2010 年 3 月、 8 月に開催 - 61.
Editor's Notes
- #6 実際のサービスでないものもある、まだ開発中のものもある