Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~

3,199 views

Published on

機械学習を活用するために必要な3つの要素であるツール・データ、そして「データリテラシー」についての解説。そして、重要な要素の一つであるデータリテラシーを使いながら習得できるツールであるkaruraのデモ

Published in: Data & Analytics
  • Be the first to comment

機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~

  1. 1. Copyright © 2017 TIS Inc. All rights reserved. 機械学習を活用するための、3本の柱 戦略技術センター 久保隆宏 -教育型の機械学習ツールの必要性-
  2. 2. Copyright © 2017 TIS Inc. All rights reserved. 2  機械学習を活用するための、3本の柱  ツール・データ・データリテラシー  ケーススタディ  1:機械学習が考慮する情報の「種類」  2:機械学習が行う判断の「情報源」  3:機械学習が見ている「関係性」の真偽  欠くことのできない、最後の柱  karuraが目指す機能  karuraのコンセプト  karuraの機能  おわりに 目次
  3. 3. Copyright © 2017 TIS Inc. All rights reserved. 3 久保隆宏 TIS株式会社 戦略技術センター  化学系メーカーの業務コンサルタント出身  既存の技術では業務改善を行える範囲に限界があるとの実感から、戦 略技術センターへと異動  現在は機械学習や自然言語処理の研究・それらを用いたシステムのプ ロトタイピングを行う 自己紹介 OpenAI Gymを利用した、 強化学習に関する講演 (@PyConJP 2016) kintoneアプリ内にたまった データを簡単に学習・活用 (@Cybozu Days 2016) 機械学習のビジネスへの適用/ 音楽生成で同人誌ダブル出展 (@技術書典2 2017)
  4. 4. Copyright © 2017 TIS Inc. All rights reserved. 4 所属するチームのミッション chakki すべての人が、ティータイムに帰れるようにする すべての人が、ティータイム(15:00)に帰れる(茶帰) 社会の実現を目指します。 この実現には、既存の仕事を効率化するのでなく、 根本的に「仕事の仕方」を変える必要があります。 しかし、慣れた仕事の仕方というのは簡単には変わ りません。だからこそ、実際に「体験」をし、効果 を「実感」してもらうことが重要になります。 そのため、私たちは先進的技術を用い、仕事の仕方 が変わる体験を提供していきます。
  5. 5. Copyright © 2017 TIS Inc. All rights reserved. 5 chakki  まずは自分たち(システム開発者)が帰れるように  自然言語処理/機械学習を活用する Elephant Sense 「質の高い」文章を検索するための試み。ビュー数やいい ね数だけでなく、コンテンツの品質の評価も行う。 typot プログラムのレビューを行う際、スペルミスを検知して 修正候補の提案を行う。修正の実行もその場で可能。 arXivTimes 論文の一言サマリをGitHub上で共有する取り組み。併せ て会社共同での論文輪講も実施中(Twitterもやってます)
  6. 6. 機械学習を活用するための、3本の柱
  7. 7. Copyright © 2017 TIS Inc. All rights reserved. 7 機械学習を活用するための、3本の柱 本日は、機械学習を活用するために必要な三本の柱についてお話します。 そのうえで、これまでの「精度」を優先したツールでは機械学習の活用に は至れないのではという仮説を提示します。そして、その仮説に基づき現 在開発しているkaruraというツールをご紹介します。
  8. 8. Copyright © 2017 TIS Inc. All rights reserved. 8 機械学習を活用するための、3本の柱 三本の柱とは  ツール:機械学習を実装するためのツール  データ:機械学習に学習させるためのデータ  データリテラシー:機械学習による予測を解釈・検証するための知識
  9. 9. Copyright © 2017 TIS Inc. All rights reserved. 9 ツールについて(1/3) Amazon Machine Learning 導入のスピード 拡張性 ライブラリ型 パッケージ型 サービス型 scikit-learn(Python) MLlib (Scala等) mahout (Java) Jubatus Azure Machine Learning Cloud Machine Learning Prediction I/O サーバーを立て、API で機能を利用 プログラムに組み込む カタログ化された機能 を、APIで利用 TensorFlow(C++/Python) クラウド上でモデル を構築する プラットフォーム型 IBM Watson Cognitive Service ※プラットフォーム型、サービス型がいわゆ るクラウド経由で提供されるサービスになる
  10. 10. Copyright © 2017 TIS Inc. All rights reserved. 10 ツールについて(2/3) 業務で扱う際は、これら多くの選択肢からツールを選ぶ必要がある。その 時、以下のような観点が判断基準として有用になる。  「自社用」のモデルを作る必要があるか  音声認識や一般的な物体の認識は、自社用である必要は特段ない。  この場合、学習済みの機能を提供するサービス型が候補になる。  「独自」のモデルを作る必要があるか  レコメンドや異常検知、文書分類などの代表的な活用方法に使用さ れるモデルは、あらかじめ構築されたものが利用できる場合がある。  パッケージ型はこうした代表的なモデルを提供しており、提供され ているモデルと用途が合えば良い選択肢となる。サービス型も、一 部学習に対応しているものがある。 非常に多くのツールが登場しており、選択肢が多い
  11. 11. Copyright © 2017 TIS Inc. All rights reserved. 11 ツールについて(3/3) 「自社用」かつ「独自」のモデルを構築する必要がある場合は、ライブラ リ型やクラウド型を利用し、自前で機械学習モデルを構築することになる。 構築に当たっては機械学習に関する一定の知識が求められる。そのため、 そうしたスキルを持つ人材、講習の計画とセットで検討を行う必要がある。 機械学習に関する学習教材は既に多くあり、習得はそれほどハードルが高 いわけではない。変に忌避するほうが、高い勉強料(それほど知識のない コンサルに対する高額な費用など)を払うことになる。 非常に多くのツールが登場しており、選択肢が多い CourseraのMachine Learning のコースはお勧め
  12. 12. Copyright © 2017 TIS Inc. All rights reserved. 12 データについて(1/2) 報道されるような機械学習の成果は、データの整備に支えられている ImageNet 画像に対して「答え」 を付けたデータセット(この画像は 猫、など)。1000万ほど画像があり、すべて人手で答えが 付けられている。データは公開されており、これにより 画像認識のモデルが発展していった。 OpenAI Gym 強化学習で学習を行わせるためのプラットフォーム。コ ンピューターゲームからロボットシミュレーターなど幅 広い環境が用意されており、これにより強化学習の研究 がとても行いやすくなった。 The Ubuntu Dialogue Corpus UbuntuというコンピューターのOSの、テクニカルサポー トに寄せられた質問とその回答のデータセット。100万の 対話が収録されており、質問/回答を合わせた発話数は 700万にも及ぶ。
  13. 13. Copyright © 2017 TIS Inc. All rights reserved. 13 データについて(2/2) 報道されるような機械学習の成果は、データの整備に支えられている KITTI 自動運転車のためのデータセット。ドイツの中規模都市 であるカールスルーエ周辺~高速道路での運転から得ら れた画像が提供されている。画像は、最大15台の車と30 人の歩行者が映っている。 データの収集に使用した車、そこに搭載したセンサーの 情報なども公開されている。 このように、地道にデータを整備することで「機械学習でできるこ と」と「機械学習の性能」は向上していっている。 逆に言えば、データが整備されていない分野で十分な力を発揮するこ とはない。まずデータを整備し、それを公開することでエンジニアに 分析を促す(分析精度に対し賞金を払う)活動も行われている。
  14. 14. Copyright © 2017 TIS Inc. All rights reserved. 14 データリテラシーについて 昨今の報道から推察するに、一般的には機械学習の活用に重要な要素は以 下のような形と思われている。 ツール データ 機械学習の活用 すごい人工知能 があれば、どんなデー タでも上手くいく!
  15. 15. Copyright © 2017 TIS Inc. All rights reserved. 15 データリテラシーについて ただ、実際は以下のようになる。 このようになる理由を、ケーススタディをもとに解説していく。 ツール データ 機械学習の活用 データ リテラシー
  16. 16. Copyright © 2017 TIS Inc. All rights reserved. 16 データリテラシーについて 突然ですが、あなたは不動産会社の社員になりました。 そして、そこではすでに「AI」が導入されています。そのAIは、物件の価 格を予測をしてくれるという優れものです。 物件の査定なら お任せください! 予測精度は高く、大半の査定業務は自動化され多くの社員は16時が定時で す(給料は変わらないどころか、AIの働きにより若干のベースアップ) 。 ただ、AIの精度が100%でない以上やはり問題もあります。
  17. 17. Copyright © 2017 TIS Inc. All rights reserved. 17 ケーススタディ1:機械学習が考慮する情報の「種類」 とある物件について、このAIに査定を行ってもらいました。 その金額で家賃を設定したところ、該当の物件には入居者が殺到しました。 さすがAI!と思いきや、どうやら周辺の 物件に比べてかなり割安な価格が設定さ れていたということがわかりました。 しかし、AIが設定した価格は担当者とし てもそれほどおかしいと感じません。 そこで現地に行ってみると・・・ X円
  18. 18. Copyright © 2017 TIS Inc. All rights reserved. 18 ケーススタディ1:機械学習が考慮する情報の「種類」 周辺では再開発が始められ、大型スーパーやおしゃれなカフェがどんどん できていたのです! AIはこの情報を見逃していたのでした。いくらAIでも、教えられていない 情報は考慮できない、ということがわかりました。
  19. 19. Copyright © 2017 TIS Inc. All rights reserved. 19 ケーススタディ2:機械学習が行う判断の「情報源」 AIによる査定の精度は非常に高いものでしたが、担当者の間ではとあるう わさが出回っていました。 それは、方角が「北向き」の物件だけは、 予測精度が低いというものでした。 AIに北向きという不吉なキーワードが何 か影響を及ぼしているのでしょうか?ま さかそんな・・・ ?
  20. 20. Copyright © 2017 TIS Inc. All rights reserved. 20 ケーススタディ2:機械学習が行う判断の「情報源」 調べてみると、過去に他社から譲り受けた物件について、向きの情報がな かったため全て初期値の「北向き」で登録されていたことがわかりました。 実際の向きとは異なる物件が登録されていたため、AIはうまく判断できな かったのです。データの乱れは、そのままAIによる判断の乱れにつながる ということがわかりました。 実は東向き 実は南向き 実は西向き 北向き
  21. 21. Copyright © 2017 TIS Inc. All rights reserved. 21 ケーススタディ3:機械学習が見ている「関係性」の真偽 重要な物件についてはAIの予測値そのままでなく、その判断を参考にして 価格を設定することもあります。 そこで、AIに家賃に影響がある項目を聞いたところ、「山田さんが担当者 の場合家賃は低めになる」と奇妙なことを言いました。 これはどういうことでしょうか?担当者 によって物件の家賃が変わってしまうの はおかしいことです。 そこで山田さんに聞いてみると・・・
  22. 22. Copyright © 2017 TIS Inc. All rights reserved. 22 ケーススタディ3:機械学習が見ている「関係性」の真偽 山田さんは入居がなかなか進まない物件について、キャンペーンなどを行 い入居を促す活動をしていました。 価格の低さは、実際には担当が山田さんかどうかではなくキャンペーン中 かどうかに関係しているのでした。これに気づかなければ、山田さんが キャンペーン担当から外れた場合、山田さんの担当案件はほかの人より家 賃が低めになってしまうところでした。 AIが見ている関係性は、本当の関係性とは限らないんだなということがわ かりました。
  23. 23. Copyright © 2017 TIS Inc. All rights reserved. 23 欠くことのできない、最後の柱 ケーススタディで見てきた通り、賢いAIがオフィスに現れても、データを もとに学習している以上必ず落とし穴が存在する。それに気づくために必 要なのが、「データリテラシー」となる。 データリテラシーは、機械学習の活用に欠くことのできないピース ツール 機械学習の活用 データ データ リテラシー
  24. 24. Copyright © 2017 TIS Inc. All rights reserved. 24 欠くことのできない、最後の柱 先のケーススタディにおいて、AIはそれほど人の実感とはずれた予測をし ているわけではない(そもそも精度が高い設定なので)。しかし、以下のよ うな注意点があることがわかる。  教えられていないことは考慮できない  機械学習において、学習に使用したデータに含まれていない項目が 考慮されることはない。  教えられたことからしか判断しない  機械学習は与えられたデータから予測を行うため、与えたデータに 存在する傾向はそのまま反映される(それが入力者のミスなどによ るものであっても)。  判断根拠にする関係性は、真の関係とは限らない  機械学習が判断根拠にしている関係性は、真の関係とは限らない。 あくまで「データ上相関がある」だけで、実際の因果関係は異なる 可能性がある(疑似相関などと呼ばれる)。
  25. 25. Copyright © 2017 TIS Inc. All rights reserved. 25 欠くことのできない、最後の柱 時間がたつにつれ考慮すべき項目は変わり(再開発が行われたり)、データ の傾向は変遷し(新しいデータが増え)、判断根拠にしていた関係性も変 わってくる(山田さんが異動したり)。 精度を維持していくには、こうした時間に伴う変化をキャッチし、都度修 正を加えてく必要がある。
  26. 26. Copyright © 2017 TIS Inc. All rights reserved. 26 欠くことのできない、最後の柱 具体的には以下のようなチェックを行う必要があり、そのために求められ るスキルが「データリテラシー」となる。  学習に使用しているデータのチェック  精度が落ちている判断とその原因を特定し、必要な項目やデータを 追加して再学習を行う。  例:新たに周囲1km内の小売店数を考慮に入れるようにするなど  例:特定の年のデータに依存しないよう複数年のデータを使うなど  機械学習モデルのチェック  疑似的な相関関係への依存を見抜き、より真の関係に近いと思われ るほうを特徴として利用する。  例:担当者ではなく、キャンペーン対象フラグを導入するなど
  27. 27. Copyright © 2017 TIS Inc. All rights reserved. 27 欠くことのできない、最後の柱 AIにもメンテナンスが必要
  28. 28. Copyright © 2017 TIS Inc. All rights reserved. 28 欠くことのできない、最後の柱 機械学習モデルの構築は専門的な知識が 必要になるため、これを外部委託などで 賄うことはありうる。 しかし、データリテラシーは「活用する ために最低限必要な知識」であり、利用 者側にも求められる知識となる。 ※iPhoneアプリを作れる必要はなくても、 iPhoneの使い方を知っていなければアプ リを使いこなせないのと同様。 データリテラシーは、社内で保持しておくべき 機械学習に関する知識 データ リテラシー
  29. 29. Copyright © 2017 TIS Inc. All rights reserved. 29 欠くことのできない、最後の柱 ディープラーニングは、活用者にとっても上級者向け ディープラーニングは一般的にその判断根拠を解釈するのが難しいため、 どんなにリテラシーがあってもその調整を行うことが難しい。 ※判断根拠が不要なタスクでは問題ない(例えば、音声認識でいちいち 「なぜこの音が「あ」と思ったのか」と究明するのは不要) 精度が高い場合は疑似的な相関関係に依存していないか、精度が低い場合 はどんな項目を入れればいいのか、こうしたヒントをモデルから得ること が難しい。加えてモデルに多くのパラメーターがあるため、それらの調整 も困難を極める。 判断根拠が不要な場合を除き「初手ディープラーニング」は良い手でない
  30. 30. Copyright © 2017 TIS Inc. All rights reserved. 30 karura:データリテラシーを養うための機械学習ツール
  31. 31. Copyright © 2017 TIS Inc. All rights reserved. 31 karuraのコンセプト(1/2) karuraの目指すところは、以下3点  (ライブラリ型/クラウド型を使わなければならないような)「自社用」 かつ「独自」のモデルを簡単に作れるようにする  機械学習の活用に欠くことのできない、データリテラシーの習得を後 押しする ツール データ 機械学習の活用 データ リテラシー
  32. 32. Copyright © 2017 TIS Inc. All rights reserved. 32 karuraのコンセプト(2/2)  便利という実感をユーザーにもたらす karuraは元々kintoneに組み込む形で開発されているため、kintoneの良 い所である「簡単かつ便利で、誰かに教えたくなる」はそのまま引き継ぐ よう意識している。 (ただ、機械学習でこれを実現するのはなかなか大変)
  33. 33. Copyright © 2017 TIS Inc. All rights reserved. 33 kintoneとは(1/2) kintoneは業務アプリが誰でも簡単に作れてしまうプラットフォーム。 項目をドラッグ&ドロップして作成するほか、手元のExcel表をもとに作 成することも可能。これだけでどこからでも、モバイルアプリからでもア クセス可能なWebアプリケーションが作れてしまう。
  34. 34. Copyright © 2017 TIS Inc. All rights reserved. 34 kintoneとは(2/2) kintoneの利用方法や活用方法を共有する kintone Caféという有志のイベントがある。 なぜか全国に34個も支部があり(サイボウ ズ社が音頭を取ったわけでなく、すべてコ ミュニティ主導。シリコンバレーにもある よ)、これがkintoneの魅力を物語っている。
  35. 35. Copyright © 2017 TIS Inc. All rights reserved. 35 karuraの機能(1/4) 独自の機械学習モデルを構築する場合は、データの前処理に始まり、モデ ルの選択、学習・・・といった様々なハードルがあり、なかなかお手軽に とはいかない。 karuraは、それらの作業を自動で行ってくれる。 端的には、「データを入れたら自動的に予測モデルを作ってくれる」。
  36. 36. Copyright © 2017 TIS Inc. All rights reserved. 36 karuraの機能(2/4) karuraと一般的な機械学習ソリューションの違い  一般的なソリューション  精度を上げるために複雑なモデルを使う  複雑なモデル(特にディープラーニング)を使う分、説明力が犠牲に なる場合がある  karura  説明力を担保するために単純なモデルを使う  単純なモデルを使う分、精度が犠牲になる場合がある karuraにおいて、精度は第一目標としていない。 精度が出ない場合はデータにも相応の原因があり、データに問題がある場 合は業務にも問題があることが多い(人によって入力データの傾向が違う など)。この問題を見過ごして精度を上げるより、低い精度でアラートを 上げて議論のきっかけにする方が良いという判断をしている。
  37. 37. Copyright © 2017 TIS Inc. All rights reserved. 37 karuraの機能(3/4) 予測したいアプリを選んで 予測に使う項目を選んで 学習ボタンを押すだけ 学習結果が表示される
  38. 38. Copyright © 2017 TIS Inc. All rights reserved. 38 karuraの機能(4/4) データ・モデルのチェックを促すよう、様々な情報やアドバイスを提供。 重要視している 特徴などを図示 対話形式の場合、ア ドバイスや確認を提 供(Slackに組み込ん で使うこともできる)
  39. 39. おわりに
  40. 40. Copyright © 2017 TIS Inc. All rights reserved. 40  現在はα版となっている  登録しているアカウントやデータは保持されない  予告なしに挙動が変わることがある  検討に加わっていただいているお客様と、実際の業務で使われている kintoneアプリに適用しながら開発を行っている。  2017年のCybozu Days(11月)までには事例として報告したい!という 意気込みで開発中 karuraの今後(1/3) ちなみにkaruraはオープンソー スで公開している (Apache License 2.0)
  41. 41. Copyright © 2017 TIS Inc. All rights reserved. 41  モデル構築プロセスのサポート  実際は項目の出し入れだけではうまくいかないので、予測結果を見 ながら編集して、一括アップロードするような機能が必要となる。 現在はこちらの機能を優先して開発中。 karuraの今後(2/3) 初回実行 モデルによる予測結 果一括ダウンロード 項目/データ編集後ファ イルアップロード
  42. 42. Copyright © 2017 TIS Inc. All rights reserved. 42  テキスト項目のサポート  現在、日報のような長文テキストは項目として使用していない。  こうしたテキスト項目のサポートを検討中。  説明力の強化  精度の低下やその原因について、より具体的な返答を行うように改 修を行う予定。  Wiki的な解説用コンテンツを作成し、それを利用した回答を行うな ども考えている。 karuraの今後(3/3)
  43. 43. Copyright © 2017 TIS Inc. All rights reserved. 43 機械学習を活用するには、人間側も「データリテラシー」を身に着ける必 要がある。現在仕事をするのにパソコンが必要不可欠なように、データリ テラシーはいわゆるAI時代に必要不可欠な知識の一つとなる可能性がある。 karuraは、それを使いながら身に着けられるアプリケーションを目指して います。それが「簡単かつ便利で、誰かに教えたくなる」機械学習に必要 不可欠な要素であると考えているためです。 karuraの今後にご期待ください! おわりに
  44. 44. THANK YOU

×