Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

ソフトウェア工学における問題提起と機械学習の新たなあり方

3,414 views

Published on

日本ソフトウェア科学会機械学習工学研究会(MLSE)キックオフシンポジウム 基調講演1
講演者:工藤卓哉(アクセンチュアUSA / ARISE analytics)

Published in: Engineering
  • Be the first to comment

ソフトウェア工学における問題提起と機械学習の新たなあり方

  1. 1. 機械学習工学研究会 キックオフシンポジウム 基調講演1 2018年5月17日 ソフトウェア工学における問題提起と 機械学習の新たなあり方
  2. 2. 工藤 卓哉 Accenture Data Science Center of Excellence グローバル統括 ARISE analytics 取締役兼Chief Science Officer <外部顧問> • 慶応大学 データビジネス創造ラボ(村井純 理事所長)上席所員 • 厚生労働省大臣懇談会「医療政策2023」委員 (~2016) • 佐賀県知事アドバイザ:FORTUNE Change the World掲載、総務大臣賞受賞案件 <学歴> :Carnegie Mellon University, M.S. Columbia University, MPA in Environmental Science 慶応義塾大学商学部学士号 <経歴> :機械学習を軸としたサービス設計・開発・運用。新サービス領域の企画・開 発・人材戦略や採用・育成戦略や実行支援提供。 製造・流通業・通信ハイテクメディア産業・金融・公共・エネルギー産業領域 の機械学習案件と業務の最適化経験多数。 企業・行政機関の分析力の高度化や見える化、分析を武器とした企業の 組織立ち上げの案件を支援。ブルームバーグ前市長 政権のニューヨーク 市政府統計ディレクターを歴任。 Copyright © 2018 Accenture. All rights reserved. Copyright © 2018 Accenture. All rights reserved. 2
  3. 3. アクセンチュアの組織体系 世界共通の体制で、事例・ナレッジを最大限に活用できることが強みです。 Accenture Strategy Accenture Consulting Accenture Technology Accenture Operations Accenture Security 各産業のエキスパート・専門知識が結集 通信・メディア・ ハイテク 金融サービス 公共サービス・ 医療健康 素材・ エネルギー製造・流通 • 通信 • エレクトロニクス • ハイテク • メディア • エンターテイメント • 銀行 • 証券 • 保険 • 医療健康 • 公共サービス • 官公庁 • 化学 • エネルギー • 天然資源 • 電力・ガス事業 • 航空・貨物・旅行 • 自動車 • 消費財 • 産業機器 • インフラ・運輸 • ライフサイエンス • 流通・小売Copyright © 2017 Accenture. All rights reserved. Accenture Digital Copyright © 2018 Accenture. All rights reserved. 3
  4. 4. 最高の顧客体験をデザインし、お客さまのビジネスパ フォーマンスを最大化していくための「顧客体験を起 点とした企業変革」実現をお手伝いします。 データサイエンティストとデータエンジニアを軸足に、 人工知能の競争優位性と人間の英知を最適な 形で組み合わせ、経営課題別に設計したアプ ローチ・サービスを提供します。 インダストリーX.0とは、デジタル化時代の破壊的 変化がもたらす産業の地殻変動を意味します。 これからの時代に、企業が高度なテクノロジーを 用いて変革と成長を実現する支援をします。 Transformation デジタル変革実現のパートナー
  5. 5. 800+ 475以上のデータ・ 分析関連の特許 56 56の海外オフィス・ オペレーションセンター 1,300+ 1,300人以上のデータ サイエンティスト 70 フォーチュン100の うち70企業のご支援 Technology alliances 100+ 100社以上の業界 リーダー企業のご支援 20+ 20年以上にわたる 高度分析領域での経験 23+ 23のイノベーション センター • Athens • Bangalore • Barcelona • Beijing • Buenos Aires • Chengdu • Chicago • Dublin • Gurgaon • Johannesburg • Kolkata • Madrid • Melbourne • Milan • Mumbai • Murray Hill • San Jose • Shanghai • Singapore • Sophia Antipolis • Tokyo • Toronto • Warsaw Copyright © 2018 Accenture. All rights reserved. BEST-IN-CLASS PARTNER RELATIONSHIPS BRING FLEXIBILITY AND AGILITY
  6. 6. ACCENTURE DATA SCIENCE CENTER OF EXCELLENCE <拠点> • ディープ ラーニング • 機械学習 (Machine Learning) • 自然言語処理 (NLP) • Chainer (PFN) • Pytorch (Facebook) • Tensor Flow (Google) • Spark (Apache) • AWS (Amazon) • Azure (Microsoft) • Amelia (IPSoft) • IoT (Intel) 注力エリア オープン ソース活用 有力パートナー との協力関係 • 北米 • イギリス • スペイン • 日本 • シンガポール • インド Copyright © 2018 Accenture. All rights reserved.
  7. 7. ACCENTURE DATA SCIENCE CENTER OF EXCELLENCE London Singapore Tokyo + United States Bangalore
  8. 8. 1. AI/機械学習は活用の時代へ 2. 機械学習適用の7つのステップ 3. おわりに
  9. 9. AI/機械学習は活用の時代へ オープンソースの発達により コンピューターサイエンスの 最新研究成果の実行が容易に ANALYTICSを支える 技術の進化 誰もが気軽に使える環境これまでには得られなかった 新たなデータの獲得 並列分散コンピューティング やディープラーニングの活用 により画像認識や音声認識の 精度・スピードが大幅に向上 IoTデバイスから得られる センサーデータや、ドライブ レコーダーの動画など利用 できるデータが拡大 Copyright © 2018 Accenture. All rights reserved.
  10. 10. 従来のソフトウェア開発と機械学習の違い 出典: "Differences between machine learning and software engineering" https://futurice.com/blog/differences- between-machine-learning-and-software-engineering 従来のプログラミングは、 ルールをコーディングすることで、 タスクを自動化する。 機械学習では、 ルールの生成を自動化し、 正解データ(教師データ)を与えることで、 タスクを自動化する。 ソフトウェアによるタスク自動化の新しいアプローチとして機械学習の採用が注目されている。
  11. 11. CONFIDENTIAL ©2018 ARISE analytics 14 具体的に!例えば、機械学習目線でのKPI
  12. 12. 機械学習における盲点と問題提起 とはいえ… 特にオープンソースを生業とする機械学習領域に おいて、熟慮すべきソフトウェア開発における基 礎的なエンジニアリングアプローチ、開発工学更 には、運用設計などが軽視される傾向が大変強い
  13. 13. CONFIDENTIAL ©2018 ARISE analytics 16 例えば、想定ユースケース、業務目線のKPI ①異常予測の通知 ②初期画面(工場一覧)へ移動 ③イベント内容参照 • 通知設定したラインで故障予兆が検知さ れた際、SMS/電話/メールでユーザーに 届く •ログイン後機器予防保全SOLの初期画面 へ移動 •イベント通知で判定未登録のイベント内 容を確認 •すべてのイベント一覧へ移動 ④イベント一覧参照 ⑤イベント判定登録 •判定未登録・登録済みの、全てのイベン トを確認 •イベント名クリックし、登録画面へ移動 •管理者のライン確認後、検知されたイベ ントに対して異常有無をインプットする ユーザー
  14. 14. CONFIDENTIAL ©2018 ARISE analytics 17 さらには、開発工程管理のKPI 運用機能設計を経て決定
  15. 15. CONFIDENTIAL ©2018 ARISE analytics 18 ソフトウェア品質保証のKPI 本開発では、以下のテストを実施して品質を担保する。 単体・結合 テスト システムテスト パフォーマンステスト セキュリティテスト フロント エンド バック エンド 分析 エンジン インフラ フィールドテスト 検証項目 • 各ボタン・リンクが動作すること。 • 表示文言・表示内容に誤りがないこと。 • APIが仕様どおり実装されていること。 • 各分析プロセスにおいて、処理が正しく動くこと。 • 設計通り各サーバ、DB等が作成・設定されていること。 • 本ソリューションの想定用途を鑑みて、シナリオを決定し、動作すること。 ※本期間中に他システムとの連携やモンキーテストも実施 • 想定される同時接続ユーザー数、センサー数で性能が維持できること。 • 想定される脅威に対して、必要な対策が講じられていること。 • 実際の工場の機器からデータを収集し、問題なく稼働すること。 実施方法 • テストコードを用いた自動 テスト • コンディション作成し、確認 • テストシナリオを作成し、 テスターが動作確認 • 負荷テストツールで実施 • 設定内容の目視確認 • 脆弱性判断ツールで実施 • 現地またはリモートで確認 実施環境 開発 開発・本番 開発・本番 開発 開発・本番 本番
  16. 16. CONFIDENTIAL ©2018 ARISE analytics 19 モデルチューニングにおける完了基準のKPI 本フェーズで構築する分析モデルに関しては、以下の要件を満たした段階で開発/チューニング完了とす る。 終了要件 オート監視のモデルXX種類が網羅されている ベース 機能 モデル モデル テスト カスタム監視のモデルXX種類が網羅されている ダミーデータ(XXXパターン、正例X.XX%以下)に対してXX%以上の適合率/XX%以上の再現率で異常 検知できる 個社別 機能 大分類 小分類 モデル テスト PoC時に個別作成した特徴量パターンが網羅されている 個別作成した特徴量により検知した予兆パターンを過去データ(Xか月分)に対して検知できる ※今後PoC実施予定の他クライアントに対するモデルチューニング結果は本フェーズでは反映しない。
  17. 17. CONFIDENTIAL ©2018 ARISE analytics 20 サービス損益分岐におけるコストサイド算出目線のKPI カテゴリ サーバー運用 内容 本番環境+保守 コスト (千円/月) 見積根拠 開発環境+保守 導入支援 アプリ動作確認 保守(一次受け) 予算内外 運用保守 導入支援 保守(分析エンジン) 保守(バックエンド) 保守(フロントエンド) 外注
  18. 18. ソフトウェア開発工学における基礎として • リスク管理 • 要求管理 • 変更管理など 機械学習案件 との共通項は?
  19. 19. 機械学習でも変わらない共通項として • 期待値コントロールは共通概念。 1. 混同行列の精度追求(機械学習目線) 2. 稼働判定におけるオンスケ・オンバジェット のサービスイン(開発管理・要求工学目線) 3. データサービス利用率および顧客満足度 (ユースケースCX・SLA業務運用目線)
  20. 20. 1. AI/機械学習は活用の時代へ 2. 機械学習適用の7つのステップ 3. おわりに
  21. 21. 機械学習モデルのビジネス適用フロー ステップ データレイクなど分析処理基盤を構築分析基盤の構築 データ可視化 モデル構築 モデルの現場適用 全体最適化 企業意思決定 Joint Venture 1に加え可視化ツールを構築しデータ利活用の土壌を整備 統計・機械学習を中心とした予測モデルの構築 現場に適用可能な予測モデルの構築と、業務側のモデルへのアライン 予測モデルの導入のみならず、アプリレイヤやCX、意思決定、FBプロセス を含めた全体最適化設計 経営委任契約を交わし、企業の意思決定、採用プロセス設計と実行まで担 保支援 準委任契約ではなく、Joint Venture として包括的に改革を導入 1 2 3 4 5 6 7 内容
  22. 22. 外部連携領域大容量分析基盤システム Direct Connect データレイク環境 S3バッチ Proxy EMR Redshift 監査ログ格納環境 S3 WVS Proxy 監視 S3 クローラー環境 外部連携データ領域 アクセスログ管理 Active Directory オンプレ 分析室 作業端末 業務端末 基幹システム CX管理 ユーザ管理 WVS アカウント連携 分析者 保守員 ログイン環境 踏み台 VPN Zabbix Proxy 運用監視環境 Active Directory RedshiftS3 DataRobot EMR 分析 デスクトップ バッチ S3EMR モデル実行環境BI環境 RedshiftS3 BI Active Directory Direct Connect DXWVS グループ会社 サイトタグ SDK オウンドサイト/ アプリ 各種SNS インターネット 分析用サンドボックス環境 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定 ビッグデータ処理基盤を構築するケース
  23. 23. 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定 データ可視化の業務活用 データ基盤整備に加え可視化ツールを構築しデータ利活用の土壌を整備。 限られた予算を有効に使うために、複数の条件でキャンペーン対象者をクイックに抽出し、マーケティング効果を最大化。
  24. 24. DEMONSTRATION (MASK R-CNN) 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定
  25. 25. 28
  26. 26. タスク自動化ルールを学習データから生成 出典:http://cocodataset.org/ 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定
  27. 27. データ分析発注者 分析ベンダー データ アルゴリズム 分析力はあるが、その実力を示すには データが必要 データはあるがベンダーの実力を測るこ とが難しく、適切なSOWが出せない 情報非対称性への対応:POC貧乏 前述のように簡単なタスクなら良いが、データ分析を外部に発注する場合、情報の非対称性が発生し、適 切な分析プロジェクトを立ち上げることができないケースがある。この繰り返し。 データを提供 分析結果を提供 最初はお試しのデータで、ドメイン知識の導入も最低限 になり、分析コンペのようなPoCになりがち 業務ドメイン 知識 分析タレント 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定 お互いの理解と協力がより良い結果のために必要 非対称性
  28. 28. 開発プロセスへの機械学習開発の融合 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定 データ分析、機械学習モデルは構築するまでどの程度の精度が出せるかの見積もりが難しいため、トライアン ドエラーできるプロセスが向いている。これを融合して行く必要がある。 要求定義 アーキテクチャ 設計 コンポーネント 設計 実装 テスト 計画 要件 定義 設計 実装 テスト 分析 と 評価 小規模プロジェクトから開始しできるので最初 から膨大なデータを収集する前にフィージビリ ティスタディとしてのPoCが可能 大きなプロジェクトを1回で作りきるため、構 築後の業務からのフィードバックの反映に時間 がかかる 各フェーズにおいて完了条件 を設け、満たないと通過でき ない。しかしプロジェクトと してはひと回しで完了する。 小さなひと回しのプロ ジェクトを繰り返し実施 し、徐々に規模を拡大。 ウォーターフォールモデル イテレーション型開発 融合
  29. 29. CONFIDENTIAL ©2018 ARISE analytics 32 例:イテレーション開発のマスタスケジュール融合 2018/3 4 5 6 Q4 Q1 Q2 7 8 9 Q3 10 11 インフラ 構築 アプリ 開発 分析エンジン 開発 構築 (開発) テスト 運用 見積り 実施中 完了 未実施 フロントエンド開発 分析エンジン 開発 開発テスト 運用 テスト計画 凡例 運用機能 設計・開発 運用設計 ★ NBM ビジネス 検討 他部署調整 IoTクラウドスタンダード連携 (SSO/データ連携) ★ ソリューションプラン レビュー フロントエンド 残開発 バックエンド開発 分析エンジン残開発 チューニング 追加 発注 非機能 要件定義 ★稼働判定 ★開発環境構築完了 ★本番環境構築完了 フィールド テスト 構築 (本番) 本番 テスト 保守 発注 本番 テスト 準備 再見積 追加 発注 見積 ビジネスユースケース策定 導入ケース別ROI算出
  30. 30. モデルの評価方法の検討 分類器向けの指標の一例 Accuracy Recall Precision 一般的にはAccuracy高いほど良いモデルである ということができるが、不均衡データでの利用 には注意が必要 正例をなるべくとり逃さずカバーできることを 重要視した評価指標 分類結果がなるべくただしことを重要視した評 価指標 IOU※ 不均衡データで正例が少ない時に、少数の正例 をよく分類できていることを評価できる指標。 ※:ここでいうIOUは、TP/(TP+FP+FN) のこと 参考:https://www.kaggle.com/c/data-science-bowl-2018#evaluation 正例と負例の数が均衡している場合 病気の発見など、正例を逃してはならない業 務要件の場合 迷惑メールフィルタなど、間違って正例とし てしまい重要な情報の破棄が許されない場合 異常検知など、正例が非常に少なく、不均衡 データを対象とする場合 機械学習モデルを評価する指標はいくつもある。ソフトウェア開発における試験に相当するが、適用するター ゲットに応じて適切に選択することが必要であり、分析技術と適用ドメインに関する知識の双方が求められる。 説明 適合するシーン指標 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定
  31. 31. もっとも重要な精度はRecall[再現率](D/B) Eをなるべく減らすためにCが増えることは 妥協する F自体を機械学習のみでのりきろうとする誤っ たアプローチを推奨しがちだが、99%の精度 を追求したところで、100%を確率することは 、理論的に不可能なケースが多い。また費用 は逓増する。それよりは、AとGを優先度付け して、運用で費用効率的にEの損失を極小化す ることが重要。=ドメイン知識が重要。 ✓ 訴訟のリスク ✓ 顧客解約離脱のリスク ✓ 顧客ロイヤリティ 低下のリスク 全ての 契約者 とりあえず疑い 取引停止対象 (陽性) 本当に 不正をした 契約者 A データの真実 注意すべき意味 不正と判定したが不正でなかった場合 は間違いの取引停止のため、 謝罪する。(偽陽性) 不正を検知し取引停止!(真陽性) 本当は不正だが未検知(偽陰性) 不正なしを正しく検知(真陰性) 予測結果 シロの為 取引停止せず (陰性) 実際の結果 説明すべき点 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定 [事例]金融における不正検知事例 G B C D E F このケースでは一番悪影響大! 個別顧客対応 運用設計でリ スク低減を! Eがもっとも損失が大きいため、この発生を抑止。Cの発生は運用設計により対応することで、無理にAccuracyを高 精度にするアプローチより費用効率で有効性が高い。このケースの場合Recallを重要な指標をすると良い。
  32. 32. もっとも重要な精度はRecall[再現率](D/B) Eをなるべく減らすためにCが増えることは 妥協する F自体を機械学習のみでのりきろうとする誤っ たアプローチを推奨しがちだが、99%の精度 を追求したところで、100%を確率することは 、理論的に不可能なケースが多い。また費用 は逓増する。それよりは、AとGを優先度付け して、運用で費用効率的にEの損失を極小化す ることが重要。=ドメイン知識が重要。 ✓ 訴訟のリスク ✓ 顧客解約離脱のリスク ✓ 顧客ロイヤリティ 低下のリスク 全ての 契約者 とりあえず疑い 取引停止対象 (陽性) 本当に 不正をした 契約者 A データの真実 注意すべき意味 不正と判定したが不正でなかった場合 は間違いの取引停止のため、 謝罪する。(偽陽性) 不正を検知し取引停止!(真陽性) 本当は不正だが未検知(偽陰性) 不正なしを正しく検知(真陰性) 予測結果 シロの為 取引停止せず (陰性) 実際の結果 説明すべき点 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定 [事例]金融における不正検知事例 G B C D E F このケースでは一番悪影響大! 個別顧客対応 運用設計でリ スク低減を! Eがもっとも損失が大きいため、この発生を抑止。Cの発生は運用設計により対応することで、無理にAccuracyを高 精度にするアプローチより費用効率で有効性が高い。このケースの場合Recallを重要な指標をすると良い。 参考)費用逓増の法則 • 一般的な費用逓増の法則は分 析コストとモデル精度の向上 にも当てはまる。 • 費用対効果を見極め、どこま でをモデル精度向上で実現し、 どこまでを業務でカバーする かの判断が必要。
  33. 33. 十分な精度が出ない時の原因解析 十分な品質・量の データがない モデル選択、 チューニングが不十分 一般的に、どちらが理由であるか を判別することは難しい 想定 原因1 想定 原因2 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定 分析プロジェクトを実施した結果、予測モデルの精度が十分に出せないことがある。この時2つの原因が考えら れるが、どちらが根本原因であるかを判別することは難しい。
  34. 34. 網羅性を十分持ったデータの収集を行うためにも、データの収集と確認をイテレーティブ に行う必要性 概念図 十分なデータを網羅でき ていないため、実適用時 に外挿問題により精度が 出ない 未来過去含め、現実で 起こり得る全ての事象の 分布 データが原因であるケース 真のデータ分布 実際に利用するデータの分布 PoC時 学習データ PoC時 学習データ この付近も実適用時にデー タが発生するはずだが取れ ていない PoC時の学習データと実 適用時のデータ発生分布 が同じであるため、良い 精度が出せる PoC実施時に利用した学習データが、その後実務に適用した時に発生したデータの分布を網羅していない場合、 実適用時に外挿問題が発生し、一般に外挿に弱いモデルは十分な精度が出ない。 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定
  35. 35. データ仕様の例:サンプリングレート 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定 高サンプリングレート 低サンプリングレート 高サンプリングレートのメリット 高サンプリングレートのデメリット 1. 高性能なセンサーデータ取得デバイス(エッ ジデバイス)が必要になるケースがある 2. サーバーとの通信コストの増大 3. データを蓄積するストレージ容量の増大 ✓ 下記の要因により、コスト上昇の原因となる ✓ 時系列データの微細な変動も特徴量に取り込む ことが可能 ✓ 細かい変動パターンに特徴が表れている場合、 時系列データの分類問題において識別精度が向 上する 機械学習モデルのインプットとして利用する学習データの仕様に依存して、分析精度やデータ取得コストが決ま るが、一般的にトレードオフの関係にあるため、業務に求められる水準を見定めた選定が必要。
  36. 36. 開発リソース管理 従来のソフトウェア開発においてリソース管理の根幹はソースコードバージョン管理にあったが、機械学習ソ フト開発では加えてデータのバージョン管理や、予測精度の結果管理なども品質担保において重要。 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定 ソースコード バージョン管理 従来のソフト ウェア開発 ソースコード バージョン管理 機械学習 ソフト開発 データ バージョン 管理 予測精度 結果管理 適切なチューニングを行うための情 報として重要。(ハイパーパラメー タチューニング、Data Augmentation etc) 開発環境 管理 開発環境 管理 ライブラリのバージョ ン管理など開発環境の 管理は従来と変わらず 肝要。 CI (継続的インテ グレーション) 予測の再現性の要素として 大きな割合を占める CI (継続的インテ グレーション) CI適用可能な領域と、そうで ないところの切り分け。機械 学習モデルのシステムの組み 込みにおいては従来と同様。
  37. 37. Container カスタム開発環 境 開発環境管理 従来のソフトウェア開発同様、開発環境の整備とその展開は重要なテーマ。分析結果の再現性担保のためにラ イブラリのバージョンの組み合わせを維持することは重要であり、その一つの手段としてDockerなどの仮想環 境も有用。 Intel Movidiusによるエッジ推論デバイス適用の例 モデル開発環境へのDockerの適用 リアルタイム画像 分類 画像収集 出典:https://movidius.github.io/ncsdk/ NVIDIA Container Image TensorFlow, the TensorFlow logo and any related marks are trademarks of Google Inc.
  38. 38. 間違える前提で業務設計する ➢ 機械学習は、バグではなくとも本質的に間違いを包含し ていることを認識 ➢ 間違った時のリカバリーを含めたシステム設計 ➢ 完全に判断を任せるのではなく、人間の判断をサポート する役割 ➢ 全体で見たときに目的に対する十分な精度があれば、個 別の間違いを許容する 判断に間違いが入りうる事の対処 前ページで示したような指標できちんと評価した場合でも、Accuracyが100%となるケースはほぼないため、モ デルが誤った判断をした時の対応をきちんと定義しておくことが業務適用にあたり肝要。 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定
  39. 39. 既存業務 vs 機械学習モデル 既存業務 ベースライン精度 機械学習モデル 機械学習モデル精度 既存業務を超えることを 評価で確認した上で業務 適用に流す 前ページで示したような指標できちんと評価した場合でも、Accuracyが100%となるケースはほぼないため、モ デルが誤った判断をした時の対応をきちんと定義しておくことが業務適用にあたり肝要。 機械学習モデルで業務を置き換えた 後、現場の運用が回るかについて、 事前に検討しておくことも重要 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定
  40. 40. 43 SAGA PREF. ANALYTICS SAVE HUMAN LIVES データ分析に基づいた救急搬送プロセスの 最適化により”人の命を救う”ことに貢献 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定
  41. 41. 意思決定を支える準委任契約 一般的な請負契約 請負人が仕事を完成す ることを約し、注文者 がこれに対して報酬を 支払うことを内容とす る契約 成果物/提出物 ✓構築を請け負った全て を成果物として納品 準委任契約 一定の役務(作業)を 行うことを約する契約 要件定義 設計 開発 テスト 要件 定義書 基本 設計書 詳細 設計書 プログラム ソースコード テスト シナリ オ テスト 結果 納品成果物 ✓準委任契約では、作業工 程で利用するツール、既 存アプリ、プログラム等 は納品対象とはならない ✓分析結果のレポーティン グおよび分析結果に鑑み た対応策等を提出物とし て提示 事前準備 分析 レポート データ の整理 情報 解析モ デルの 詳細 シミュ レー ション 結果 課題 一覧・ 対応策 報告書 提出物 既存 アプリ データ 増幅手 法 分析作業 分析まとめ プログラム ソースコード 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定
  42. 42. KDDIと合弁会社を設立(ARISEANALYTICS) 他社との協業による 広告ターゲティング高度化 パートナー協業による B2B2C IoT新規ビジネス 最適なレコメンド実現 (AIシングルブレイン構想) 画像/音声解析による リテール事業の高度化 デジタルによる業界革新 に対する新規価値創造 IoTを活用したB2B ソリューション開発 新技術と分析による 新たな顧客体験創造 Future Retail Digital Advertising IoT New Biz IoT Solution New Experience Fin,Ed, HR-Tech Customer Experience 1 基盤 可視化 構築 適用 最適化 JV 2 3 4 5 6 7 意思 決定
  43. 43. 1. AI/機械学習は活用の時代へ 2. 機械学習適用の7つのステップ 3. おわりに
  44. 44. おわりに ➢ ソフトウェア開発と機械学習モデル構築の差分は見られるものの、期待値管理は同じアプローチ。 ➢ 情報の非対称性はSOWの稚拙さにより発生する。機械学習の運用設計は初期SOWでは特に対象データの同定が困難。開始前のリスク管理と初 期モデル構築後に、データ同定と精度管理により、対象源泉システムの同定、データパイプライン、想定処理バッチなど、想定スコープ変更 の可能性への事前同意が必要。 ➢ 機械学習モデルのアウトプットはデータにより大きく変わるので、単体テスト・自動化テストの作成が難しい問題がある。しかし、機械学習 モデルのエンジンのシステム組み込みという面では、システム側は従来のソフトウェア開発の枠組みでCIの導入が可能。 ➢ 精度が出ない、オーバーフィット時の原因解析は、適用モデル変更だけではなく、フィーチャーエンジニアリング時に適切な対象データを取 得するドメイン知識の前提が肝となる。仮にドメイン知識が不足している場合、データサイエンティストは、対象業務の専門家へのヒアリン グにより、既存の対象データや追加データ取得のためのセンサ設置対象業務またはヒアリングによるラベリング業務を同定する。 ➢ ベロシティの高いセンサデータを保有する機械学習が適用された高度な業務が存在し、対象がサンプルレートの変更による精度維持、コスト 抑制を目的とした案件においては、機械学習モデルのインプットとして利用する学習データの仕様に依存して、分析精度やデータ取得コスト が決まるが、一般的に精度と費用はトレードオフの関係にあるため、業務許容水準に求められるベースライン討議を見据えた着地点が必要。 ➢ 混同行列精度追求だけではなく、運用の損益分岐点計算との掛け合わせによる業務コストを加味した、収益のマージン最適化設計思想が必要 だが、多くの機械学習案件ではエンジニアやIT部門に軽視されがちで、高い確度で見落とされている。 ➢ 一般の開発管理工学に加え、データバージョン管理、ハイパーパラメターチューニングを含む予測精度結果管理も重要。 ➢ 従来のソフトウェア開発同様、開発環境の整備とその展開は重要なテーマ。分析結果の再現性担保のためにライブラリのバージョンの組み合 わせを維持することは重要であり、その一つの手段としてDockerなどの仮想環境も有用。 ➢ 機械学習を導入していない企業において、既存業務におけるベースライン測定とモデル適用時の比較は王道のアプローチとなる。指標できち んと評価した場合でも、Accuracyが100%となるケースはほぼないため、モデルが誤った判断をした時の例外対応を定義することが肝要 ➢ 機械学習はソフトウェア工学と違い確率の余地が入る世界。通常準委任契約を前提とし、支援する領域の結果が、システム的に担保されるSI の請負契約とは異なるため、常に間違いが包含されることを理解したPOC前提の導入部分を組み込み、シミュレーションを前提とした試験か ら、納品可能なレベルで業務運用を設計したのちに、大型システム開発、業務請負へのスケールアウト運用設計という順序を踏む。
  45. 45. ご静聴ありがとうございました。 takuya.kudo@accenture.com

×