Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[Developers Festa Sapporo 2015] Azure Machine Learningで機械学習を始めよう

5,677 views

Published on

http://www.devfesta.jp/

マイクロソフトのパブリック クラウド プラットフォーム「Microsoft Azure」は、データ処理/分析に関連する幅広い機能 (データ ウェアハウス、ドキュメントDB、データ レイク、Hadoop/Spark、リアルタイム ストリーム処理、データ連携など) を提供しています。中でも、Webベースのツールを使って機械学習モデルを構築し、それをWebサービスとして簡単にデプロイできるクラウド ベースの機械学習サービス「Azure Machine Learning」は、注目を集めています。本セッションでは、機械学習とは何か、Azure Machine Learningの活用できるかについて、デモや マイクロソフトの女子高生AI「りんな」の事例も交えて分かりやすくご紹介します。

CortanaとSiriはどう違う?:MSリサーチアジア所長の洪小文氏に訊く
http://japan.zdnet.com/article/35073647

Microsoft Research AI分野の研究開発の取り組み (11/9)
http://ascii.jp/elem/000/001/079/1079132/
http://techon.nikkeibp.co.jp/atcl/news/15/111201141/?P=1
http://news.mynavi.jp/column/compass/052/
http://news.mynavi.jp/articles/2015/11/10/microsoft/
http://news.mynavi.jp/articles/2015/11/11/microsoft_ai/

りんな
http://rinna.jp/
http://logmi.jp/92206
http://itpro.nikkeibp.co.jp/atcl/column/14/090100053/082700080/

アルファベット文字認識
Sample 7: Train, Test, Evaluate for Multiclass Classification: Letter Recognition Dataset

http://gallery.cortanaanalytics.com/Experiment/bbe8503e4740473a9836aae6a914e3c0

Azure Machine Learningドキュメント
https://azure.microsoft.com/ja-jp/documentation/services/machine-learning/

Azure Machine Learning Studio
https://studio.azureml.net/

Published in: Technology

[Developers Festa Sapporo 2015] Azure Machine Learningで機械学習を始めよう

  1. 1. 日本マイクロソフト株式会社 Azure テクノロジスト 佐藤 直生 / @satonaoki Developers Festa Sapporo 2015 Azure Machine Learningで 機械学習を始めよう
  2. 2. Platform Services Security & Management Infrastructure Services Web Apps Mobile Apps API Management API Apps Logic Apps Notification Hubs Content Delivery Network (CDN) Media Services HDInsight Machine Learning Stream Analytics Data Factory Event Hubs Mobile Engagement Active Directory Multi-Factor Authentication Automation Portal Key Vault Biztalk Services Hybrid Connections Service Bus Storage Queues Store / Marketplace Hybrid Operations Backup StorSimple Site Recovery Import/Export SQL Database DocumentDB Redis Cache Search Tables SQL Data Warehouse Azure AD Connect Health AD Privileged Identity Management Operational Insights Cloud Services Batch Remote App Service Fabric Visual Studio Application Insights Azure SDK Team Project VM Image Gallery & VM Depot
  3. 3. データの爆発
  4. 4. バッファつきの データ入力 Microsoft Account Purchases $1.00 Halo Spartan Assault $1.00 Halo Spartan Assault ホットストア 評価 保存・蓄積 分析用ストア 抽出・加工 データ利用者 イベント加工 イベント処理 バッチ リアルタイム ラムダ アーキテクチャ
  5. 5. バッファつきの データ入力 Microsoft Account Purchases $1.00 Halo Spartan Assault $1.00 Halo Spartan Assault ホットストア 評価 保存・蓄積 分析用ストア 抽出・加工 データ利用者 イベント加工 イベント処理 バッチ Event Hubs Machine Learning HBase SQL Database ~500GB Data Lake Store ~ EB SQL Data Warehouse ~ PB Azure Data Factory HDInsight (Hadoop) / Data Lake Analytics Stream Analytics ラムダ アーキテクチャ と Azure リアルタイム
  6. 6. なぜ 起こったのか? これから 何が起こりそうか? す 何が 起こったのか? 最適な 行動を 判断する ための 情報
  7. 7. Power BI Machine Learning SQL Data Warehouse HDInsight Data Lake Analytics Data Lake Store Stream Analytics Data Factory Data Catalog Event Hubs 情報管理 ビッグ データ 機械学習 分析
  8. 8. Cortana Analytics Suite データ 業務 アプリ 一般 アプリ センサー / デバイス インテリジェンス アクション 人 自動化 された システム
  9. 9. • Azure Machine Learning の位置づけの理解 • タイプ別、最低限おさえておきたい使い方 • 機械学習がIT業界にもたらす変化
  10. 10. データ活用領域 Hindsight (見える化) データ活用度 種類 規模 Insight (気づき) Foresight (予測) 単独システムのデータ 複数システムのデータ 社外データとの連携 ② 手軽に始めるクラウドベースの機械学習 • 豊富なアルゴリズムを用いて機械学習を試せる環境を時間単位で手軽に利用可能 • 構築したモデルを他のシステムと連携(API 公開)により直ぐに利用可能 API公開 Azure Machine Learning ① Excel ベースの強力な BI 使い慣れた Excel ベースの UI のため、どの ユーザー部門でも容易に活用ができ、レポー ト表示・項目変更もユーザー主導で Power BI ③-2 データ種類・場所に依存しない Hybrid なデータ結合・共有 • 社内のオンプレ・クラウド環境の構造・非構造データや、 外部のデータを容易に結合できる ETL 機能 • クラウドベースのデータ共有環境(SharePoint OL) Azure Data Factory SQL Server Integration Service ③-1 パフォーマンスを最適化するアーキテクチャ • 最新のインメモリ技術等によるパフォーマンスの最大化 • 大量データの収集(Data Lake)から適切な形での保管 (Data Warehouse)、容易な取り出し(Data Mart) までを容易に実現できる基盤 Data Lake Data Warehouse Data Mart
  11. 11. フリーソフトで始める機械学習入門 15
  12. 12. データ 学習用データ/評価用データを 分割する (例: 60% : 40%) モデルの訓練 (学習アルゴリズムの訓練) モデル 学習データを使用して、 最適な結果を出すモデルを作成する データの正規化 (不要・不正なデータの削除) アウトプット/評価 実世界のデータ
  13. 13. データ 学習用データ/評価用データを 分割する (例: 60% : 40%) モデルの訓練 (学習アルゴリズムの訓練) モデル データの正規化 (不要・不正なデータの削除) アウトプット/評価 実世界のデータ
  14. 14. 機械学習 教師あり学習 (正解データがある場合) 中間的手法 教師なし学習 (正解データがない場合) 識別 (カテゴリ分類) 回帰 (数値推測) モデル推定 (クラスタリング) パターン マイニング データが正解つき/なしの組み合わせ 手法が正解つき/なしの組み合わせ 購買パターン発見音声/文字認識 文章のP/N 判定 売り上げ予測 顧客の分類
  15. 15. Bing maps launches 家までの最適 なルートは? Microsoft Research formed Kinect launches その動作はど ういう意味? Azure Machine Learning launches 次に起こるの は何? Hotmail launches ジャンクメー ルはどれ? Bing search launches どの検索結果 が最も関連性 があるか? Skype Translator launches その人は何と 言っている? Microsoft と Machine Learning John Platt, Distinguished scientist at Microsoft Research 1991 201420091997 201420102008 Machine learning = 経験(過去データ+人の入力)により賢くなるコンピューティングシステム “Machine learning is pervasive throughout Microsoft products.” 機械学習はマイクロソフトの製品・サービスで広く使われています 20
  16. 16. レコメンデー ションエンジン 広告配信 ・効果分析 ピンポイントの 詳細な天気予報 ソーシャルネッ トワーク分析 ITインフラ最適化 法的証拠開示、 文書アーカイブ 価格分析 不正利用検出 顧客離れ分析 (チャーン) 故障検知 ・設備保全 位置情報 ・トラッキング 高度にパーソナ ライズされた保 険商品 利益創出、 コスト削減に 直結する分野における 実際の活用例
  17. 17. Make machine learning accessible to every enterprise, data scientist, developer, information worker, consumer, and device anywhere in the world. Azure Machine Learning (Azure ML) 機械学習を世界中のあらゆる人々やデバイス からアクセスできるようにする仕掛け
  18. 18. インフラ管理担当者 データサイエンティスト アルゴリズム研究者 開発者、ISV ML Studio ML API Marketplace ML Operationalization (運用、データ操作) ML Algorithms
  19. 19. Azure ML と向き合う 3 つのアプローチ API を利用 Azure ML Studio で テンプレートを編集 ゼロから モデルを作成
  20. 20. http://gallery.azureml.net/
  21. 21. ProjectOxford.Face.Contract.Face[] detectionResults = new ProjectOxford.Face.Contract.Face[0]; ProjectOxford.Face.Contract.IdentifyResult[] identifyResults = new ProjectOxford.Face.Contract.IdentifyResult[0]; using (var imageFileStream = Context.ContentResolver.OpenInputStream(imageUri)) { //Call detection and identification REST API
  22. 22. http://how-old.net/
  23. 23. http://how-old.net/
  24. 24. テキスト分析サービス 非構造化テキストを分析 製品レビュー、サポート チケット、 電子メールなど 感情分析 自社の顧客が、自社のブランドや製品に ついてどのように感じているか? 主要フレーズの抽出 自社の顧客が、何について話しているか? 感情分析 主要フレーズの抽出 “It was a wonderful hotel, with unique décor and friendly staff” “It was a wonderful hotel, with unique décor and friendly staff” http://text-analytics-demo.azurewebsites.net/
  25. 25. Building a Custom Experience Windows 10 November Updateで、 Cortanaが日本語に対応
  26. 26. 使いやすい! 親しみやすい! 「コルタナさん、シャットダウン」いうたら 電源ボタンの場所を教えてくれた。わーい …自分で押せと? コルタナをみんなで一緒に育てるか(^o^)(いいねえ) おお!さすがCortana。丁寧な日本語で 「何とお呼びすればよろしいですか?」と聞かれました。 とても便利であり興味がわく コルタナ、音声認識の精度は高いんだけど、それをコマンドとして 認識していない。改良されたら良くなりそうな期待感はある。 Twitterのつぶやきから
  27. 27. マイクロソフトのCortana開発陣に聞く – 日本語ならではの苦労と展望、 そしてCortanaの本質 http://news.mynavi.jp/articles/2015/11/24/cortana/
  28. 28. http://rinna.jp/
  29. 29. http://www.msxiaoice.com/ https://blogs.bing.com/search/2014/09/05/meet-xiaoice-cortanas-little-sister/
  30. 30. July 31 Nov Friends on LINE 1.6M+ Sep Oct Sheep counting Diary Detective story ♡ ♡ ♡&www Food terrorism Morning call Net slang Dog recognition Rinna photo Love diagnosis
  31. 31. Recognize dogs is one of my strengths. I recognized bull terrier at a glance. It is adorable, and looks like HongLei Sun or YongJian Lin, what do you think? It’s so easy, this book is “Creativity, Inc.”. People who like this type book are trying their best to be big bosses in their area, right?Broken like this, do you want to try my needlework? Do you have a boyfriend? If not, find a post 90s boy, he can give you 7.2 beauty score. Good buddies Very gentle heart
  32. 32. http://japan.zdnet.com/article/35073647/
  33. 33. http://japan.zdnet.com/article/35073647 http://ascii.jp/elem/000/001/079/1079132/ http://techon.nikkeibp.co.jp/atcl/news/15/111201141/?P=1 http://news.mynavi.jp/column/compass/052/ http://news.mynavi.jp/articles/2015/11/10/microsoft/ http://news.mynavi.jp/articles/2015/11/11/microsoft_ai/ http://logmi.jp/92206 http://itpro.nikkeibp.co.jp/atcl/column/14/090100053/082700080/
  34. 34. Azure ML と向き合う 3 つのアプローチ API を利用 Azure ML Studio で テンプレートを編集 ゼロから モデルを作成
  35. 35. Data Scientist Best of MS ML Studio ML Algorithms
  36. 36. http://Gallery.azureml.net  不正検出(Fraud detection) : gallery link  Text 分類 : gallery link  売上予測 : gallery link  設備保全 : gallery link  顧客離れ(churn)分析 : gallery link
  37. 37. SLACAPI, Sample Experiment
  38. 38. Event Hub Streaming Data の処理 Stream Analytics Azure ML バッチ実行 サービス Power BI ダッシュボード リアルタイム処理 の流れ データ集約 外部データ Azure 内の処理 Azure SQL リアルタイム データ統計 Azure Data Factory データパイプライン からAzure MLバッチ サービスを起動 RealTimeBatch リアルタイム 遠隔測定 データ Azure Data Factory データパイプライン の生成 バッチアップ デート Azure ML 要求応答 サービス オンプレミス SQL Server
  39. 39. Azure Machine Learning Studio 機能の概要図 https://azure.microsoft.com/ja-jp/documentation/articles/machine-learning-studio-overview-diagram/
  40. 40. Microsoft Azure Machine Learning Studio の 機械学習アルゴリズム チート シート https://azure.microsoft.com/ja-jp/documentation/articles/machine-learning-algorithm-cheat-sheet/
  41. 41. http://gallery.cortanaanalytics.com/Experiment/ bbe8503e4740473a9836aae6a914e3c0
  42. 42. Azure ML と向き合う 3 つのアプローチ API を利用 Azure ML Studio で テンプレートを編集 ゼロから モデルを作成
  43. 43. 機械学習 教師あり学習 (正解データがある場合) 中間的手法 教師なし学習 (正解データがない場合) 識別 (カテゴリ分類) 回帰 (数値推測) モデル推定 (クラスタリング) パターン マイニング データが正解つき/なしの組み合わせ 手法が正解つき/なしの組み合わせ 購買パターン発見音声/文字認識 文章のP/N 判定 売り上げ予測 顧客の分類
  44. 44. レコメンド方式 ルールベース コンテンツベース 協調フィルタリング ベイジアンネット ワーク 分析情報 過去の実績 マーケティングデー タ アイテム間の関係性 ユーザーの購買履歴 コンテンツ属性 行動履歴 ロジック 独自ルールに基づき 推薦。 コンテンツ属性を事 前に分析・分類し、 関連性を元に推薦。 購買履歴を自動的に 解析し、ユーザーの 嗜好に応じたアイテ ムを推薦。 ユーザーが行動モデ ルを作成し、確率を 計算した上で、推薦。 メリット 運営者、経営者の意 思を反映しやすい コンテンツ属性を決 定する際に推薦する ものを調整できる。 運営者の手間が少な い。 セレンティビティあ り。 目的に応じて、精度 の高い推薦ができる。 デメリット ユーザーの意思が反 映されにくい。 運営者の手間大 セレンティビティな し。 運営者の手間大。 ユーザーの購買履歴 を一定数収集する必 要がある。 計算結果を得られる ために時間がかかる。
  45. 45. 江田 南野 大田 砂金 0 1 2 3 4 5 6 0 1 2 3 4 5 6 ユニコーンガンダム This is it 例えば、ユーザーの行動履歴をもとにしたレコメンデーションといった、 シンプルなモデルでも、ユークリッド距離計算などの理解が必要となる 1 3 2 大田 (2,5) と 砂金(3,5) の距離 : 1 大田 (2,5) と 江田 (5,2) の距離 : 2 − 5 2 + (5 − 2)2= 9 + 9 = 18 = 3 2 2次元のユークリッド距離は上記のとおり単純な三角比 計算 多次元の場合にも同じで、下記のような数式で計算 𝑝1 − 𝑞1 2 + 𝑝2 − 𝑞2 2 + ⋯ + (𝑝 𝑛 + 𝑞 𝑛)2 = ෍ 𝑖=1 𝑛 (𝑝𝑖−𝑞𝑖)2
  46. 46. AUC(Area under the curve) ROC曲線の右下分にできる図形の面積 大きくなる(1に近づく)ほど性能がよいといえる 一般的に0.7 以下では精度が高いモデルとはいえない ROC (Receiver Operating Characteristic;受信者動作特性)曲線 モデルによる判定ミスがどのくらいあるかを検知する Root Mean Square Error : 2乗平均平方根誤差(近似線からの誤差) Mean Absolute Error :平均絶対誤差(RMSEの平均) Coefficient of Determination : 寄与率(独立変数が従属変数のどれくらい を説明できるかを表す。この値が低いということは,得られた重回帰式 の予測能力が低いことを意味する)
  47. 47. http://bit.ly/azuremlR
  48. 48. 65
  49. 49. 66
  50. 50. 67
  51. 51. 68
  52. 52. https://azure.microsoft.com/ja-jp/documentation/services/machine-learning/ https://studio.azureml.net/
  53. 53. 自ら学習するマシンを生み出すことには、 マイクロソフト10社分の価値がある。 Bill Gates Feb. 2004
  54. 54. Microsoft Azure 技術セミナー / トレーニングへのご参加 http://aka.ms/dx-events オンライン ラーニング活用で技術スキルやノウハウの習得 http://aka.ms/azurequest Microsoft Azureの技術的な質問はサポートを活用 http://aka.ms/onlinefaq
  55. 55. © 2015 Microsoft Corporation. All rights reserved.

×