More Related Content Similar to 機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~
Similar to 機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~ (20) More from Takahiro Kubo (20) 機械学習を活用するための、3本の柱~教育型の機械学習ツールの必要性~1. Copyright © 2017 TIS Inc. All rights reserved.
機械学習を活用するための、3本の柱
戦略技術センター
久保隆宏
-教育型の機械学習ツールの必要性-
2. Copyright © 2017 TIS Inc. All rights reserved. 2
機械学習を活用するための、3本の柱
ツール・データ・データリテラシー
ケーススタディ
1:機械学習が考慮する情報の「種類」
2:機械学習が行う判断の「情報源」
3:機械学習が見ている「関係性」の真偽
欠くことのできない、最後の柱
karuraが目指す機能
karuraのコンセプト
karuraの機能
おわりに
目次
3. Copyright © 2017 TIS Inc. All rights reserved. 3
久保隆宏
TIS株式会社 戦略技術センター
化学系メーカーの業務コンサルタント出身
既存の技術では業務改善を行える範囲に限界があるとの実感から、戦
略技術センターへと異動
現在は機械学習や自然言語処理の研究・それらを用いたシステムのプ
ロトタイピングを行う
自己紹介
OpenAI Gymを利用した、
強化学習に関する講演
(@PyConJP 2016)
kintoneアプリ内にたまった
データを簡単に学習・活用
(@Cybozu Days 2016)
機械学習のビジネスへの適用/
音楽生成で同人誌ダブル出展
(@技術書典2 2017)
4. Copyright © 2017 TIS Inc. All rights reserved. 4
所属するチームのミッション
chakki
すべての人が、ティータイムに帰れるようにする
すべての人が、ティータイム(15:00)に帰れる(茶帰)
社会の実現を目指します。
この実現には、既存の仕事を効率化するのでなく、
根本的に「仕事の仕方」を変える必要があります。
しかし、慣れた仕事の仕方というのは簡単には変わ
りません。だからこそ、実際に「体験」をし、効果
を「実感」してもらうことが重要になります。
そのため、私たちは先進的技術を用い、仕事の仕方
が変わる体験を提供していきます。
5. Copyright © 2017 TIS Inc. All rights reserved. 5
chakki
まずは自分たち(システム開発者)が帰れるように
自然言語処理/機械学習を活用する
Elephant Sense
「質の高い」文章を検索するための試み。ビュー数やいい
ね数だけでなく、コンテンツの品質の評価も行う。
typot
プログラムのレビューを行う際、スペルミスを検知して
修正候補の提案を行う。修正の実行もその場で可能。
arXivTimes
論文の一言サマリをGitHub上で共有する取り組み。併せ
て会社共同での論文輪講も実施中(Twitterもやってます)
7. Copyright © 2017 TIS Inc. All rights reserved. 7
機械学習を活用するための、3本の柱
本日は、機械学習を活用するために必要な三本の柱についてお話します。
そのうえで、これまでの「精度」を優先したツールでは機械学習の活用に
は至れないのではという仮説を提示します。そして、その仮説に基づき現
在開発しているkaruraというツールをご紹介します。
8. Copyright © 2017 TIS Inc. All rights reserved. 8
機械学習を活用するための、3本の柱
三本の柱とは
ツール:機械学習を実装するためのツール
データ:機械学習に学習させるためのデータ
データリテラシー:機械学習による予測を解釈・検証するための知識
9. Copyright © 2017 TIS Inc. All rights reserved. 9
ツールについて(1/3)
Amazon
Machine Learning
導入のスピード
拡張性
ライブラリ型
パッケージ型
サービス型
scikit-learn(Python)
MLlib (Scala等)
mahout (Java)
Jubatus
Azure
Machine Learning
Cloud Machine Learning
Prediction I/O
サーバーを立て、API
で機能を利用
プログラムに組み込む
カタログ化された機能
を、APIで利用
TensorFlow(C++/Python)
クラウド上でモデル
を構築する
プラットフォーム型
IBM Watson
Cognitive Service
※プラットフォーム型、サービス型がいわゆ
るクラウド経由で提供されるサービスになる
10. Copyright © 2017 TIS Inc. All rights reserved. 10
ツールについて(2/3)
業務で扱う際は、これら多くの選択肢からツールを選ぶ必要がある。その
時、以下のような観点が判断基準として有用になる。
「自社用」のモデルを作る必要があるか
音声認識や一般的な物体の認識は、自社用である必要は特段ない。
この場合、学習済みの機能を提供するサービス型が候補になる。
「独自」のモデルを作る必要があるか
レコメンドや異常検知、文書分類などの代表的な活用方法に使用さ
れるモデルは、あらかじめ構築されたものが利用できる場合がある。
パッケージ型はこうした代表的なモデルを提供しており、提供され
ているモデルと用途が合えば良い選択肢となる。サービス型も、一
部学習に対応しているものがある。
非常に多くのツールが登場しており、選択肢が多い
11. Copyright © 2017 TIS Inc. All rights reserved. 11
ツールについて(3/3)
「自社用」かつ「独自」のモデルを構築する必要がある場合は、ライブラ
リ型やクラウド型を利用し、自前で機械学習モデルを構築することになる。
構築に当たっては機械学習に関する一定の知識が求められる。そのため、
そうしたスキルを持つ人材、講習の計画とセットで検討を行う必要がある。
機械学習に関する学習教材は既に多くあり、習得はそれほどハードルが高
いわけではない。変に忌避するほうが、高い勉強料(それほど知識のない
コンサルに対する高額な費用など)を払うことになる。
非常に多くのツールが登場しており、選択肢が多い
CourseraのMachine Learning
のコースはお勧め
12. Copyright © 2017 TIS Inc. All rights reserved. 12
データについて(1/2)
報道されるような機械学習の成果は、データの整備に支えられている
ImageNet
画像に対して「答え」 を付けたデータセット(この画像は
猫、など)。1000万ほど画像があり、すべて人手で答えが
付けられている。データは公開されており、これにより
画像認識のモデルが発展していった。
OpenAI Gym
強化学習で学習を行わせるためのプラットフォーム。コ
ンピューターゲームからロボットシミュレーターなど幅
広い環境が用意されており、これにより強化学習の研究
がとても行いやすくなった。
The Ubuntu Dialogue Corpus
UbuntuというコンピューターのOSの、テクニカルサポー
トに寄せられた質問とその回答のデータセット。100万の
対話が収録されており、質問/回答を合わせた発話数は
700万にも及ぶ。
13. Copyright © 2017 TIS Inc. All rights reserved. 13
データについて(2/2)
報道されるような機械学習の成果は、データの整備に支えられている
KITTI
自動運転車のためのデータセット。ドイツの中規模都市
であるカールスルーエ周辺~高速道路での運転から得ら
れた画像が提供されている。画像は、最大15台の車と30
人の歩行者が映っている。
データの収集に使用した車、そこに搭載したセンサーの
情報なども公開されている。
このように、地道にデータを整備することで「機械学習でできるこ
と」と「機械学習の性能」は向上していっている。
逆に言えば、データが整備されていない分野で十分な力を発揮するこ
とはない。まずデータを整備し、それを公開することでエンジニアに
分析を促す(分析精度に対し賞金を払う)活動も行われている。
14. Copyright © 2017 TIS Inc. All rights reserved. 14
データリテラシーについて
昨今の報道から推察するに、一般的には機械学習の活用に重要な要素は以
下のような形と思われている。
ツール データ
機械学習の活用
すごい人工知能
があれば、どんなデー
タでも上手くいく!
15. Copyright © 2017 TIS Inc. All rights reserved. 15
データリテラシーについて
ただ、実際は以下のようになる。
このようになる理由を、ケーススタディをもとに解説していく。
ツール データ
機械学習の活用
データ
リテラシー
16. Copyright © 2017 TIS Inc. All rights reserved. 16
データリテラシーについて
突然ですが、あなたは不動産会社の社員になりました。
そして、そこではすでに「AI」が導入されています。そのAIは、物件の価
格を予測をしてくれるという優れものです。
物件の査定なら
お任せください!
予測精度は高く、大半の査定業務は自動化され多くの社員は16時が定時で
す(給料は変わらないどころか、AIの働きにより若干のベースアップ) 。
ただ、AIの精度が100%でない以上やはり問題もあります。
17. Copyright © 2017 TIS Inc. All rights reserved. 17
ケーススタディ1:機械学習が考慮する情報の「種類」
とある物件について、このAIに査定を行ってもらいました。
その金額で家賃を設定したところ、該当の物件には入居者が殺到しました。
さすがAI!と思いきや、どうやら周辺の
物件に比べてかなり割安な価格が設定さ
れていたということがわかりました。
しかし、AIが設定した価格は担当者とし
てもそれほどおかしいと感じません。
そこで現地に行ってみると・・・
X円
18. Copyright © 2017 TIS Inc. All rights reserved. 18
ケーススタディ1:機械学習が考慮する情報の「種類」
周辺では再開発が始められ、大型スーパーやおしゃれなカフェがどんどん
できていたのです!
AIはこの情報を見逃していたのでした。いくらAIでも、教えられていない
情報は考慮できない、ということがわかりました。
19. Copyright © 2017 TIS Inc. All rights reserved. 19
ケーススタディ2:機械学習が行う判断の「情報源」
AIによる査定の精度は非常に高いものでしたが、担当者の間ではとあるう
わさが出回っていました。
それは、方角が「北向き」の物件だけは、
予測精度が低いというものでした。
AIに北向きという不吉なキーワードが何
か影響を及ぼしているのでしょうか?ま
さかそんな・・・ ?
20. Copyright © 2017 TIS Inc. All rights reserved. 20
ケーススタディ2:機械学習が行う判断の「情報源」
調べてみると、過去に他社から譲り受けた物件について、向きの情報がな
かったため全て初期値の「北向き」で登録されていたことがわかりました。
実際の向きとは異なる物件が登録されていたため、AIはうまく判断できな
かったのです。データの乱れは、そのままAIによる判断の乱れにつながる
ということがわかりました。
実は東向き
実は南向き
実は西向き
北向き
21. Copyright © 2017 TIS Inc. All rights reserved. 21
ケーススタディ3:機械学習が見ている「関係性」の真偽
重要な物件についてはAIの予測値そのままでなく、その判断を参考にして
価格を設定することもあります。
そこで、AIに家賃に影響がある項目を聞いたところ、「山田さんが担当者
の場合家賃は低めになる」と奇妙なことを言いました。
これはどういうことでしょうか?担当者
によって物件の家賃が変わってしまうの
はおかしいことです。
そこで山田さんに聞いてみると・・・
22. Copyright © 2017 TIS Inc. All rights reserved. 22
ケーススタディ3:機械学習が見ている「関係性」の真偽
山田さんは入居がなかなか進まない物件について、キャンペーンなどを行
い入居を促す活動をしていました。
価格の低さは、実際には担当が山田さんかどうかではなくキャンペーン中
かどうかに関係しているのでした。これに気づかなければ、山田さんが
キャンペーン担当から外れた場合、山田さんの担当案件はほかの人より家
賃が低めになってしまうところでした。
AIが見ている関係性は、本当の関係性とは限らないんだなということがわ
かりました。
23. Copyright © 2017 TIS Inc. All rights reserved. 23
欠くことのできない、最後の柱
ケーススタディで見てきた通り、賢いAIがオフィスに現れても、データを
もとに学習している以上必ず落とし穴が存在する。それに気づくために必
要なのが、「データリテラシー」となる。
データリテラシーは、機械学習の活用に欠くことのできないピース
ツール
機械学習の活用
データ
データ
リテラシー
24. Copyright © 2017 TIS Inc. All rights reserved. 24
欠くことのできない、最後の柱
先のケーススタディにおいて、AIはそれほど人の実感とはずれた予測をし
ているわけではない(そもそも精度が高い設定なので)。しかし、以下のよ
うな注意点があることがわかる。
教えられていないことは考慮できない
機械学習において、学習に使用したデータに含まれていない項目が
考慮されることはない。
教えられたことからしか判断しない
機械学習は与えられたデータから予測を行うため、与えたデータに
存在する傾向はそのまま反映される(それが入力者のミスなどによ
るものであっても)。
判断根拠にする関係性は、真の関係とは限らない
機械学習が判断根拠にしている関係性は、真の関係とは限らない。
あくまで「データ上相関がある」だけで、実際の因果関係は異なる
可能性がある(疑似相関などと呼ばれる)。
25. Copyright © 2017 TIS Inc. All rights reserved. 25
欠くことのできない、最後の柱
時間がたつにつれ考慮すべき項目は変わり(再開発が行われたり)、データ
の傾向は変遷し(新しいデータが増え)、判断根拠にしていた関係性も変
わってくる(山田さんが異動したり)。
精度を維持していくには、こうした時間に伴う変化をキャッチし、都度修
正を加えてく必要がある。
26. Copyright © 2017 TIS Inc. All rights reserved. 26
欠くことのできない、最後の柱
具体的には以下のようなチェックを行う必要があり、そのために求められ
るスキルが「データリテラシー」となる。
学習に使用しているデータのチェック
精度が落ちている判断とその原因を特定し、必要な項目やデータを
追加して再学習を行う。
例:新たに周囲1km内の小売店数を考慮に入れるようにするなど
例:特定の年のデータに依存しないよう複数年のデータを使うなど
機械学習モデルのチェック
疑似的な相関関係への依存を見抜き、より真の関係に近いと思われ
るほうを特徴として利用する。
例:担当者ではなく、キャンペーン対象フラグを導入するなど
27. Copyright © 2017 TIS Inc. All rights reserved. 27
欠くことのできない、最後の柱
AIにもメンテナンスが必要
28. Copyright © 2017 TIS Inc. All rights reserved. 28
欠くことのできない、最後の柱
機械学習モデルの構築は専門的な知識が
必要になるため、これを外部委託などで
賄うことはありうる。
しかし、データリテラシーは「活用する
ために最低限必要な知識」であり、利用
者側にも求められる知識となる。
※iPhoneアプリを作れる必要はなくても、
iPhoneの使い方を知っていなければアプ
リを使いこなせないのと同様。
データリテラシーは、社内で保持しておくべき
機械学習に関する知識
データ
リテラシー
29. Copyright © 2017 TIS Inc. All rights reserved. 29
欠くことのできない、最後の柱
ディープラーニングは、活用者にとっても上級者向け
ディープラーニングは一般的にその判断根拠を解釈するのが難しいため、
どんなにリテラシーがあってもその調整を行うことが難しい。
※判断根拠が不要なタスクでは問題ない(例えば、音声認識でいちいち
「なぜこの音が「あ」と思ったのか」と究明するのは不要)
精度が高い場合は疑似的な相関関係に依存していないか、精度が低い場合
はどんな項目を入れればいいのか、こうしたヒントをモデルから得ること
が難しい。加えてモデルに多くのパラメーターがあるため、それらの調整
も困難を極める。
判断根拠が不要な場合を除き「初手ディープラーニング」は良い手でない
30. Copyright © 2017 TIS Inc. All rights reserved. 30
karura:データリテラシーを養うための機械学習ツール
31. Copyright © 2017 TIS Inc. All rights reserved. 31
karuraのコンセプト(1/2)
karuraの目指すところは、以下3点
(ライブラリ型/クラウド型を使わなければならないような)「自社用」
かつ「独自」のモデルを簡単に作れるようにする
機械学習の活用に欠くことのできない、データリテラシーの習得を後
押しする
ツール データ
機械学習の活用
データ
リテラシー
32. Copyright © 2017 TIS Inc. All rights reserved. 32
karuraのコンセプト(2/2)
便利という実感をユーザーにもたらす
karuraは元々kintoneに組み込む形で開発されているため、kintoneの良
い所である「簡単かつ便利で、誰かに教えたくなる」はそのまま引き継ぐ
よう意識している。
(ただ、機械学習でこれを実現するのはなかなか大変)
33. Copyright © 2017 TIS Inc. All rights reserved. 33
kintoneとは(1/2)
kintoneは業務アプリが誰でも簡単に作れてしまうプラットフォーム。
項目をドラッグ&ドロップして作成するほか、手元のExcel表をもとに作
成することも可能。これだけでどこからでも、モバイルアプリからでもア
クセス可能なWebアプリケーションが作れてしまう。
34. Copyright © 2017 TIS Inc. All rights reserved. 34
kintoneとは(2/2)
kintoneの利用方法や活用方法を共有する
kintone Caféという有志のイベントがある。
なぜか全国に34個も支部があり(サイボウ
ズ社が音頭を取ったわけでなく、すべてコ
ミュニティ主導。シリコンバレーにもある
よ)、これがkintoneの魅力を物語っている。
35. Copyright © 2017 TIS Inc. All rights reserved. 35
karuraの機能(1/4)
独自の機械学習モデルを構築する場合は、データの前処理に始まり、モデ
ルの選択、学習・・・といった様々なハードルがあり、なかなかお手軽に
とはいかない。
karuraは、それらの作業を自動で行ってくれる。
端的には、「データを入れたら自動的に予測モデルを作ってくれる」。
36. Copyright © 2017 TIS Inc. All rights reserved. 36
karuraの機能(2/4)
karuraと一般的な機械学習ソリューションの違い
一般的なソリューション
精度を上げるために複雑なモデルを使う
複雑なモデル(特にディープラーニング)を使う分、説明力が犠牲に
なる場合がある
karura
説明力を担保するために単純なモデルを使う
単純なモデルを使う分、精度が犠牲になる場合がある
karuraにおいて、精度は第一目標としていない。
精度が出ない場合はデータにも相応の原因があり、データに問題がある場
合は業務にも問題があることが多い(人によって入力データの傾向が違う
など)。この問題を見過ごして精度を上げるより、低い精度でアラートを
上げて議論のきっかけにする方が良いという判断をしている。
37. Copyright © 2017 TIS Inc. All rights reserved. 37
karuraの機能(3/4)
予測したいアプリを選んで
予測に使う項目を選んで
学習ボタンを押すだけ
学習結果が表示される
38. Copyright © 2017 TIS Inc. All rights reserved. 38
karuraの機能(4/4)
データ・モデルのチェックを促すよう、様々な情報やアドバイスを提供。
重要視している
特徴などを図示
対話形式の場合、ア
ドバイスや確認を提
供(Slackに組み込ん
で使うこともできる)
40. Copyright © 2017 TIS Inc. All rights reserved. 40
現在はα版となっている
登録しているアカウントやデータは保持されない
予告なしに挙動が変わることがある
検討に加わっていただいているお客様と、実際の業務で使われている
kintoneアプリに適用しながら開発を行っている。
2017年のCybozu Days(11月)までには事例として報告したい!という
意気込みで開発中
karuraの今後(1/3)
ちなみにkaruraはオープンソー
スで公開している
(Apache License 2.0)
41. Copyright © 2017 TIS Inc. All rights reserved. 41
モデル構築プロセスのサポート
実際は項目の出し入れだけではうまくいかないので、予測結果を見
ながら編集して、一括アップロードするような機能が必要となる。
現在はこちらの機能を優先して開発中。
karuraの今後(2/3)
初回実行
モデルによる予測結
果一括ダウンロード
項目/データ編集後ファ
イルアップロード
42. Copyright © 2017 TIS Inc. All rights reserved. 42
テキスト項目のサポート
現在、日報のような長文テキストは項目として使用していない。
こうしたテキスト項目のサポートを検討中。
説明力の強化
精度の低下やその原因について、より具体的な返答を行うように改
修を行う予定。
Wiki的な解説用コンテンツを作成し、それを利用した回答を行うな
ども考えている。
karuraの今後(3/3)
43. Copyright © 2017 TIS Inc. All rights reserved. 43
機械学習を活用するには、人間側も「データリテラシー」を身に着ける必
要がある。現在仕事をするのにパソコンが必要不可欠なように、データリ
テラシーはいわゆるAI時代に必要不可欠な知識の一つとなる可能性がある。
karuraは、それを使いながら身に着けられるアプリケーションを目指して
います。それが「簡単かつ便利で、誰かに教えたくなる」機械学習に必要
不可欠な要素であると考えているためです。
karuraの今後にご期待ください!
おわりに