Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

データ分析基盤運⽤チームの 運⽤業務を改善してみた話

1,291 views

Published on

カイゼン・ジャーニー・カンファレンスでの発表資料です。
数十のプロダクトのデータを一手に集め、処理を回すリクルートライフスタイルのビックデータ分析基盤。
そんな分析基盤を運用しているチームをKAIZENした話です。
(運用チームで取り入れた看板ボードとその使い方、運用改善チームの立ち上げ、運用Tと運用改善Tのタスク割り振り、などなど)

リクルートライフスタイル 白子 佳孝

Published in: Technology
  • Be the first to comment

  • Be the first to like this

データ分析基盤運⽤チームの 運⽤業務を改善してみた話

  1. 1. データ分析基盤運⽤チームの 運⽤業務を改善してみた話 In カイゼン・ジャーニー・カンファレンス ⽩⼦ 佳孝 リクルートライフスタイル データマネジメントG
  2. 2. Index 1. Prologue 2. 運⽤チームの業務KAIZEN取り組み 3. 運⽤改善チーム⽴ち上げ 4. Epilogue
  3. 3. Index 1. Prologue 2. 運⽤チームの業務KAIZEN取り組み 3. 運⽤改善チーム⽴ち上げ 4. Epilogue
  4. 4. Prologue 30以上ものサービスを抱えるリクルートライフスタイルのデータを⼀括 に収集し、分析者が利⽤できる分析基盤が存在する。 その分析基盤を運⽤するチームがあり、障害対応や、分析基盤のアカウ ント発⾏、マート作成処理の実装、事業側のDBから分析基盤へのデータ 連携処理の追加、など様々な業務をこなしている。 その運⽤チームを業務をKAIZENした話
  5. 5. Index 1. Prologue 2. 運⽤チームの業務KAIZEN取り組み 3. 運⽤改善チーム⽴ち上げ 4. Epilogue
  6. 6. 参画当初 運⽤チームに参画した当初、下記のような感じだった。 ・JIRAのスクラムボードを使い、2週間のスプリントでタスク管理 ・JIRAのカンバンボードを使い、障害を管理 ・毎⽇30分朝会を実施 ・週⼀で定例を開催 ・運⽤改善タスクをみな持っている ちゃんと管理しているしうまく回ってそう
  7. 7. あれ?ちょっとまって?何かおかしい。。。
  8. 8. なぜなら… スクラムボード+2週間のスプリ ント JIRAのカンバンボードで障害管 理 毎⽇30分朝会を実施 週⼀で定例を開催 基本ユーザからの依頼ベースで タスクが発⽣するため、2週間で 終わらずに次スプリントに引き 継がれるタスクが⼤多数 障害対応のステータスは管理で きているが、個々の障害の振り 返りができていない 当⽇やることを共有するだけ タスクの共有、⼤まかな障害振 り返りだけ 運⽤改善タスク 運⽤業務に追われて、改善タス クに全然進捗がない
  9. 9. ただ、⾃分が前職インフラエンジニアでスクラムとかスプリント とか全くの無知だったため、何がおかしいかが分からなかった。 (しかもそういうものかと何となくで納得していた)
  10. 10. 当初の⾃分の認識 スクラムボード = タスクを管理する便利なやつ(Trelloみたいな) カンバンボード = スクラムボードと違いわからん バックログ = 担当者が割り当てられるまでの⼀時領域(待合室) スプリント = なんとなくの期間(さほど意味は分からず) デイリースクラム = なにそれ?
  11. 11. のちに真実を知ることになる。 @Regional Scrum Gathering Tokyo 2018
  12. 12. RSGT2018で⾃分が理解したこと スクラムボード = スクラム開発のために利⽤するもの カンバンボード = 仕事の流れを⾒える化するもの バックログ = チームのタスクリスト スプリント = 固定された開発サイクル デイリースクラム = 毎⽇開催し、昨⽇何をしたか、今⽇何をするかを説明 する 運⽤業務にスクラムボード・スプリントを利⽤するのは 適切ではないことがわかった。
  13. 13. どうやらなにかが間違っているみたいだ… じゃあ、どうやってこの状態をKAIZENしようか。。。
  14. 14. RSGT2018の懇親会にて 懇親会で新井さんに「運⽤をどう改善したらいいか」を聞いてみたところ ・ ・ ・ カイゼン・ジャーニー っていう本が出るから、それを読んでくれ ればヒントあるかも! というアドバイスが
  15. 15. カイゼン・ジャーニーを読んで思った… スクラム開発とかスプリントなどの⼿法は 運⽤業務には適さないが、 その中でも何か活⽤できるものがありそうだから、 それを参考に⾃分なりに考えたカイゼンを 実践してみよう!と
  16. 16. 着⼿したのは スクラムボード+2週間のスプリ ント JIRAのカンバンボードで障害管 理 毎⽇30分朝会を実施 週⼀で定例を開催 基本ユーザからの依頼ベースで タスクが発⽣するため、2週間で 終わらずに次スプリントに引き 継がれるタスクが⼤多数 障害対応のステータスは管理で きているが、個々の障害の振り 返りができていない 当⽇やることを発表のみ タスクの共有、⼤まかな障害振 り返りだけ 運⽤改善タスク 運⽤業務に追われて、改善タス クに全然進捗がない 運⽤改善タスクはのちに
  17. 17. 運⽤タスク管理 JIRAのカンバンボードとチケットを活⽤! 改善点 成果 ✔ カンバンボードでタスクを管理・スプリント廃⽌ ✔ チケットに納期と依頼者を表⽰するように変更 ✔ チケットのクローズにかかった時間をクローズ時に記述 ◎ 意味のないスプリント管理をしなくて良くなった ◎ 納期ベースでタスクを管理できるようになった ◎ バックログのゴミ箱状態が解消された(そもそも機能がなくなったので)
  18. 18. 運⽤タスク管理 ~カンバンボード~ 優先度や納期で ⾏が分かれている 希望納期 依頼者 まだ担当者が割り当てられてい ないチケットはここから確認
  19. 19. 障害管理 振り返り強化! 障害対応優先度もわかりやすく! 改善点 成果 ✔ 対応完了したチケットはレビュー待ちのステータスに変更する ✔ レビュー待ちになっているチケットは朝会で振り返りを実施 ✔ 振り返りしやすいように、チケットに記述内容のテンプレートを⽤意 ✔ 重要度で⾏を分けて、障害対応の優先度をわかりやすくした ◎ 朝会で振り返ることで、誰が何をどうやって対応したかがチーム内で共有し やすくなった。 ◎ テンプレートを⽤意したことで、情報粒度がそろい振り返りがしやすくなっ た。 ◎ 重要度を分けることで、重要なジョブのリカバリ対応が迅速に開始できるよ うになった。
  20. 20. 障害管理 ~カンバンボード~ 朝会での振り返り待ち ジョブの重要度によっ て⾏か分かれている
  21. 21. 障害管理 ~⾃動チケット起票の仕組み~ 障害発⽣ バッチ処理
  22. 22. 朝会 昨⽇何した?何か問題あった?今⽇何する? 改善点 成果 ✔ 障害対応と運⽤タスクの2点を確認するようになった ✔ 今⽇やることの報告だけでなく、昨⽇何したのかとその中で何か問題 や懸念があるかの振り返りも実施 ◎ 振り返りにより、メンバー間で同様のタスクや障害があった時に、どう対応 したら良いかが共有できるようになった ◎ 朝のタイミングで問題や懸念を確認することで、その⽇のタスクがスムーズ に進むようになった。また、他メンバーの協⼒も仰ぎやすくなった ◎ ただ参加してTODOを⾔うだけ、という雰囲気が払拭された
  23. 23. 定例 再発防⽌検討・情報共有・⼀⾔コーナーを追加! 改善点 成果 ◎ 失敗した際に、どう再発を防⽌するかという考え⽅が定着できた ◎ ⾃分の作業が何に繋がっているのかを把握することで、タスクに対する理解 度が向上した。また、⾃分たちの業務の提供価値も認識できるようになった。 ◎ メンバー間の趣味などがわかることで、メンバー内の雰囲気が良くなった (きがする) ✔ ⾃責による障害(オペミス等)で発⽣した障害を振り返り、再発防⽌策を検討する 場を作り、その場で防⽌策を決めるようにした ✔ 他チームの状況報告をリーダーからメンバーに共有するようにし、 ⾃分の作業はどのチームの業務に繋がっているのかを伝えるようにした ✔ メンバーの⼀⾔コーナーを設けた(仕事中聴いてる⾳楽は?とか)
  24. 24. Index 1. Prologue 2. 運⽤チームの業務KAIZEN取り組み 3. 運⽤改善チーム⽴ち上げ 4. Epilogue
  25. 25. なんで⽴ち上げた? スクラムボード+2週間のスプリ ント JIRAのカンバンボードで障害管 理 毎⽇30分朝会を実施 週⼀で定例を開催 基本ユーザからの依頼ベースで タスクが発⽣するため、2週間で 終わらずに次スプリントに引き 継がれるタスクが⼤多数 障害対応のステータスは管理で きているが、個々の障害の振り 返りができていない 当⽇やることを発表のみ タスクの共有、⼤まかな障害振 り返りだけ 運⽤改善タスク 運⽤業務に追われて、改善タス クに全然進捗がない 運⽤タスクの⽚⼿間だと、障害が発⽣したり、利⽤者からの依頼が多い場合、 改善タスクが後ろ倒しになってしまい全然改善がすすまない。 しかも運⽤チームとしては、運⽤タスクがメインなので 改善タスクの優先度が必然的に下がる。 ↓ ↓ じゃあ、別チームに改善タスクを切り出しちゃおう!!
  26. 26. 運⽤改善チームでは仕事の進め⽅を変えてみた (その1) ・アジャイルボードを使い、2週間スプリントでタスクをこなす ・運⽤チーム朝会と⼀緒に、デイリースクラム(っぽいもの)を実施 ・バックログには、改善ポイントを思い付いたらチケット追加 ・タスクチケットに、「⽬的」・「ゴール」・「TODO」のFMTを事前に ⽤意
  27. 27. 運⽤改善チームでは仕事の進め⽅を変えてみた (その2) ・隔週でスプリント振り返りを実施 ・初回⾒積もり⼯数と実稼働⼯数の⽐較し、乖離がある場合なぜ乖離し たかを確認 ・KPTを各メンバーごとにヒアリング ・Outputの確認 ・振り返りの翌⽇にスプリントプランニングを実施 ・運⽤の現状把握のため、80%改善、20%運⽤というタスクの割り振り ・運⽤メンバにも20%改善タスクを割り振る → 改善という感覚をもって運⽤を⾏ってもらうために まだまだ⼿探り状態
  28. 28. 便利ツールも開発 つぶやく チケット ができる
  29. 29. Index 1. Prologue 2. 運⽤チームの業務KAIZEN取り組み 3. 運⽤改善チーム⽴ち上げ 4. Epilogue
  30. 30. Epilogue 運⽤チームはだいぶいい感じでKAIZENできたが、 運⽤改善チームの⽅はまだまだKAIZENの余地がありそう。 スクラム開発の⽅式や書籍の内容を取り⼊れたが、まだまだ⼿探り状態。 運⽤改善チームのカイゼン・ジャーニーは、来年のカンファレンスにて

×