Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

CDH4->5 update苦労話

2,451 views

Published on

CDH4から5への安全なUPDATEをどのように行ったか。どのような苦労をしたか。
(Cloudera World Tokyo 2015 LT資料)

山田 雄(リクルートライフスタイル)

Published in: Technology
  • Be the first to comment

CDH4->5 update苦労話

  1. 1. CDH4->5 UPDATE 苦労話 Cloudera World Tokyo 2015 11/10 2015 山田 雄 ネットビジネス本部 ディベロップメントデザインユニット アーキテクト1グループ
  2. 2. 1.自己紹介 2.UPDATE方法 3.はまったポイント 4.まとめ 本日のアジェンダ
  3. 3. ◾️ 山田 雄(ヤマダ ユウ) 株式会社 リクルートライフスタイル ネットビジネス本部 アーキテクト1G データ基盤T Twitter:@nii_yan Blog:イクジニアブログ ・ちょっと前までフリーランスエンジニア 縁があってリクルートライフスタイルにお世話になることになった。 ビックデータ、Rubyが好き。 自己紹介
  4. 4. UPDATE方法
  5. 5. 既存システム構成 RDB File ETL RDB CDH4
  6. 6. CMをyum updateして parcelでバーンってやれば CDH5に出来るけど怖いので・・・
  7. 7. 検証環境 RDB File RDB CDH4 CDH5 distcp RDB
  8. 8. • distcpってなに? ⇨クラスタ間でデータ同期をできるrsyncのようなものです。 差分更新出来ます。 • どんなプロトコル使えるの? ⇨hftpとか、webhdfsとか、hdfsとか。 • 帯域制限出来るの?。 ⇨bandwidthオプションあります。 • なんか注意点は? ⇨異なるバージョン間でやるときはcrcchek方式違うことがあるので、 skipcrcchekオプション使いましょう。 distcp豆知識
  9. 9. はまったポイント
  10. 10. HBaseのデータコピーが辛い・・・
  11. 11. • HBaseのデータをクラスタ間でコピーするコマンドがCDH4と5の間では 使えなかった。 ⇨Hiveのテーブルに1度loadしてからdistcpすることで対応。 HBaseのデータがコピー出来ない問題
  12. 12. Hiveが信用ならない・・・
  13. 13. • Left outer joinする際にsub query使うと、selectしたのと違うカラムが抽 出される(HIVE-9613) ⇨left outer joinする度に別名を使うようにすると回避出来る。 (CDH5.4.3まではBUGの再現を確認。それ以降は未確認) Hiveカラムずれ問題
  14. 14. • 以下の条件が揃う際にwhere句が効かない(CDH5.4.3以降は修正済み) – 4つ以上のテーブルをleft outer joinでつなぐ – 複数のkeyでjoinする(aidとbidとか) – 複数のkeyのjoinを入れ子にする。(aidでjoinの後にbidでjoinしてから aidでjoinの様に) – どこかのon句にkeyのjoin以外の条件を追加 – 入れ子にした後のテーブルのカラムでwhere句を生成 ⇨keyのjoinの順番を変える事で対応 Hive where句効かない問題
  15. 15. Oozieの変化についていけない・・・
  16. 16. • workflowのフォーマットが変わった。新しいフォーマットに移行すると、 設定していたパラメータなど消える。 ⇨とりあえず旧フォーマットでも使えるので、そのままに。 • workflowのimport,export機能がなくなった。 ⇨なくなった・・・ CDH5で復活するかも?? • HiveのjobでHiveQLが書いてあるファイル内のhiveconfが使えなくなった。 ⇨hivevarにするか、workflowのパラメータで設定。 Oozieのworkflowが色々変わった
  17. 17. CDHのUPDATEが早い
  18. 18. まとめ
  19. 19. UPDATEする際はきちんと検証しましょう
  20. 20. WE ARE HIRING!! リクリートライフスタイルでは一緒に働く仲間を募集しています。 http://engineer.recruit-lifestyle.co.jp/recruiting/
  21. 21. ご清聴ありがとうございました

×