Successfully reported this slideshow.
Your SlideShare is downloading. ×

データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 93 Ad

More Related Content

Slideshows for you (20)

Similar to データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~ (20)

Advertisement

More from The Japan DataScientist Society (20)

Recently uploaded (20)

Advertisement

データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~

  1. 1. 『データ分析に必要なスキルをつけるためのツール ~Jupyterノートブック、R連携、機械学習からSparkまで~』 Atsushi Tsuchiya Technical Lead, Analytics Client Architect IBM Analytics @eatsushi #datapalooza @bigdatau
  2. 2. Two Problems in Data Science: Skills Tools Commitment to Data Science Education
  3. 3. beta.bigdatauniversity.com
  4. 4. • MOOC community (sponsored by IBM) • データサイエンス・ビッグデータに関するコース • @yourpace, @yourplace • 完了証明書 and badges • 60+ コース • ユーザが430,000人+ BigDataUniversity.com What is Big Data University (BDU)?
  5. 5. • 5-5-5 rule • 各コースに • レッスンが5つ • ビデオレクチャーが5つ • ビデオレクチャーが5分間 • ハンズオン BigDataUniversity.com What is Big Data University (BDU)? bit.ly/introtokyoR
  6. 6. 6 bit.ly/introtokyoR
  7. 7. Meetups
  8. 8. www.bigdatauniversity.com/events Event Recordings bit.ly/introtokyoR
  9. 9. meetup.com/BDU-Tokyo 9 • 無償 • ハンズオン
  10. 10. Two Problems in Data Science: Skills Tools Commitment to Data Science Education
  11. 11. 11 無償オンラインツールへの登録方法は、補 足資料をご覧ください。
  12. 12. bit.ly/introtokyoR ←登録後にアクセス可能
  13. 13. 13
  14. 14. 14 Go to(デモ): bit.ly/introtokyoR 登録後にアクセス可能になります: 無償オンラインツールへの登録方法は、補足資料をご覧ください。
  15. 15. • Hadoopでやったこと+α • バッチ(集計)、ストリーム(ミニバッチ)や、分析(SPSS,Rでできる事、グラフ処理) • データストアは、HDFSに限定されない • ファイルシステム、DBなどなど • 言語は、SQL,R,Java,Scala,Pythonなどが使える • インターラクティブな分析 • Jupyter notebook , Apache zeppelin • Hadoopとは異なり、バッチが終わるまで待ち続けることはありません。 Apache Sparkでできること インターラクティブ分析が可能に! Packages
  16. 16. • Apache Sparkは、汎用的(多目 的)で柔軟性があります。 その理由は: • 複数言語(SQL, R, Java, Python, Scala)、HDFSだけで はなく複数データストア、YARNと の連携(MESOS)ができる • Sparkコア・エンジンを利用して、 複数のエントリー・ポイント; SQL, ストリーム処理, R,機械学 習, および、グラフ処理 Apache Sparkの構成 Apache Sparkの構成 Spark R Spark core Unified engine across diverse workloads and environments
  17. 17. Sparkと周辺のエコシステム 現在まで: フロント側の開発により力を 今後: フロントに加え、バックエンド側も重視 【アプリケーション】 【実行環境】 【データソース】
  18. 18. • コマンドライン • インターフェイス • jupyter • Apache Zeppelin Sparkにどのようにアクセスするのか? Standalone Cluster Zeppelin ※Laptopで試せます!
  19. 19. • 「Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク」で説明 されている内容に準じます; Sparkクラスタの構成コンポーネント ■一般的には、各サーバにHDFSと YARNのコンポーネント(DataNodeと NodeManager)をインストールします。 これは、データ・ローカリティを活用す るためにです。 ■NameNodeとResourceManagerは、 可用性の観点や運用保守観点を考慮 し、同一マシーンにインストールする ケース(ノード台数を減らせる)と、物 理的に異なるマシーン(ノード台数が 増える)ケースがあります。 ■この左の図は、Sparkマスタノードに NameNodeとResourceManagerを同居 させている例です。
  20. 20. • SPSSは、どうなるの? • Spark MLlib(機械学習モジュール)との組み合わせです。 • 加工部分で威力があるかも。 Sparkの使いどころと、SPSSの関係 1.システム部から基幹 取引データをCSV ファイルでもらう 2.文字コード変換する (ホストからのデータ の場合は注意が必 要) 3.不要なレコードを条 件抽出で排除 4.列と行を入れ替え 5. 顧客マスターを CSVでもらう 6. また文字コード変 換、不要レコード、 列と行・・ 7. 住所を GoogleMapAP Iを使って緯度経 度に変換 8. 緯度経度から最 寄り駅の距離を 算出する Pythonのプログ ラム ここでやっと アルゴリズム データの型が あわずエラー! Sparkの使いどころ② 機械学習 最も手間がかかるのはデータの加工です。ビッグデータ分析の多くを占める処理は、実は「データ整形」です。 ~作業の80%はデータ整備、それは基幹データが分析のために作られていないから、とも言われています。~ Sparkの使いどころ① ~SPSS(統計解析ミドルウェア)を利用した分析工程の内訳~
  21. 21. • Analytics serverコンポーネントは、 Hadoopクラスタ上で稼働し、 Sparkとの連結も可能 SPSS Analytics Server連携 SPSS Modeler Client SPSS Analytic Server Metadata HCatalog Resource Management YARN / Platform Symphony Distributed File System HDFS / GPFS Operations Ambari SQL Hive オンライン HBase Accumulo バッチ Map/Reduce インメモリ Spark Analytic Workbench Hadoop Cluster • BigInsights 4.1 • Hortonworks 2.3 SPSS Modeler Server SPSS Analytics Serverモジュールが 重要。Sparkだけでは なく、Hadoopにもアク セスができる仕組み DB
  22. 22. • インストール、設定、メンテナンスは、Ambariを介して実施します。 SPSS Analytics Server連携
  23. 23. • Sparkを呼び出すことも可能(pythonから) ①Sparkの呼び出し 規定のアルゴリズム以 外はPythonからロ ジックを実装することが 可能です
  24. 24. • Nine Algorithms for Big Data — Spark and/or MapReduce ②SPSSがあるのになぜSpark MLlib? SPSS democratizes analytics, extending benefits to users who do not want to program Access to a broader library of analytic algorithms delivers solutions to more use cases 1.In addition to SPSS algorithms that now run in Spark, Data Scientists can utilize more than 15 algorithms from Spark MLlib 2.Data Scientists can create new Modeler nodes to exploit MLlib algorithms & share them with non-programmer Data Scientists 3.Via shared Modeler nodes, non-programmer Data Scientists leverage Spark functionality in their own analytic workflows SPSS Modelerにある9つのアルゴリズム SPSSにはないアルゴリ ズム、R連携ができる ようになり、SPSSの使 い勝手は継承できる
  25. 25. • Using Modeler's Custom Dialog builder to abstract code behind a GUI makes Spark usable for non-programmers. ③SPSS Modeler カスタム・ダイアログ・ビルダー The Custom Dialog Builder – Python for Spark (The Custom Dialog Builder adds Python for Spark support ) Provides access to Spark & its machine learning library (MLlib) Also provides access to other common Python libraries e.g.: Numpy, Scipy, Scikit-learn, Pandas Data Scientists can create new Modeler nodes (extensions) that exploit algorithms from MLlib and other PySpark processes
  26. 26. • Github for SPSS http://ibmpredictiveanalytics.github.io/
  27. 27. SPSS Client R (R Studio IDE) 今までは・・・ データウェアハウス(PDA)SPSS Modeler Server 分析指示 分析結果表示 RDBデータリクエスト 分析指示 処理結果返信 ストリームイメージ
  28. 28. これからの”データレイク的な考え方”は・・・ SPSS Modeler Client データウェアハウス(PDA)SPSS Modeler Server SPSS Analytics ServerInfosphere BigInsights with SPSS Analytics Server (Hadoop基盤) 分析指示 分析結果表示 Hadoopデータ リクエスト 処理結果返信 処理結果返信 Hadoopデータ 分析指示 )BigInsights(Hadoop) で分析処理実行 SPSSの処理を Hadoop処理に変換 RDBデータリクエスト 分析指示 処理結果返信 FluidQuery連携 Hadoopデータを取り込む ストリームイメージ SPSS Analytics Server Sparkは、 インメモリ処理に なるので、 Hadoopクラスタ と共存する場合 はリソース割り 当てに中が必要 です。
  29. 29. SPSS - R(SparkR)連携 SPSS Client R (R Studio IDE) データウェアハウス(DB)SPSS Modeler Server SPSS Analytics ServerInfosphere BigInsights with SPSS Analytics Server (Hadoopクラスタ基盤) 分析指示 分析結果表示 Hadoopデータ リクエスト 処理結果返信 処理結果返信 Hadoopデータ 分析指示 Rスクリプトを Hadoopクラスタで実行(R), もしくは Sparkクラスタ(SparkR)で実行 RDBデータリクエスト 分析指示 処理結果返信 SPSS Analytics Server Big R/SparkR SPSSからRコード を生成することも可能 データ待避
  30. 30. SilentLogアプリ特徴 1日の活動を自動で記録する手軽さから、高い継続率を得ています ■アプリケーション名: SilentLog(サイレントログ) ※現在はiPhoneのみ対応 https://silentlog.com ■アプリケーションの特徴: ・移動手段、距離、時間、歩数を自動で記録し続ける ライフログ(生活記録)アプリケーションです ・バッテリーの消費を国内外の競合アプリよりも抑えた上で 同程度以上の記録精度を確保しています ■利用者の傾向: ・30代男性を中心に、40代や50代の健康や記憶に関心の 高いユーザー様にご利用いただいています ・30日継続率が約30%と、ユーザー様の定着率が高いです ・ライフログ分野の代表的なアプリとして、複数の書籍や 雑誌、ウェブメディアで取り上げられております ・ユーザーレビュー平均評価4.5(Ver2.4.1/評価24人)
  31. 31. SDKにより収集された行動情報を分析することができます SilentLog SDK 御社 ソリューション ・自家用車管理 ・道路プローブ測定 ・交通情報分析 ・DSP連携(アドテク) ・顧客行動調査 ・パネルリサーチ ・屋外広告の効果測定 ・健康情報管理 ・訪日外国人調査 ・高齢者向けスマート シティの設計 ・労働者の遠隔管理 など アクション 弊社アプリ 御社サービス SilentLog SDKを 組み込んだアプリ 人工知能で行動を分析 行動情報群 弊社アプリ 統計データ 御社サービス 統計データ オープンデータ 弊社追加データ ・行動情報(位置情報) ・個人属性データ ・アプリ利用データ ・人口・地価などの 公開済み動態情報 行動分析基盤 SilentLog Analytics ・行動パターン推定 ・属性の推定 ・滞在情報の分析 ・歩行情報の分析 ・乗物情報の分析 行動情報データプラットフォーム 行動収集 行動情報 行動情報 通知 可視化 iOS, Android
  32. 32. SilentLog Analytics における、Spark(Bluemix)活用 弊社アプリ 御社サービス SilentLog SDKを 組み込んだアプリ 行動情報群 弊社アプリ 統計データ 御社サービス 統計データ オープンデータ 弊社追加データ ・行動情報(位置情報) ・個人属性データ ・アプリ利用データ ・人口・地価などの 公開済み動態情報 行動分析基盤 SilentLog Analytics 行動情報データプラットフォーム 行動情報 行動情報 データクレンジング 機械学習 / オンライン学習 推定結果 可視化 地図 グラフ SilentLog SDK アクション人工知能で行動を分析行動収集
  33. 33. 33 SilentLog Analytics 行動情報を可視化。高い視点から人や物の動きが把握できます 同地区のヒートマップ表示 同地区の流入元表示
  34. 34. SilentLog SDK導入事例 株式会社イード様 e燃費アプリ
  35. 35. Two Problems in Data Science: Skills Tools Commitment to Data Science Education bit.ly/introtokyoR Is it Production READY?
  36. 36. © 2016 IBM Corporation36 IBM DATA SCIENCE EXPERIENCE A L L Y O U R T O O L S I N O N E P L A C E Data Science Experience (DSX)は、データサイエンティスト・データエンジニアが 必要とするデータ分析環境を1つにして提供をします。
  37. 37. © 2016 IBM Corporation37 ビルドインされた、簡 単なコースから、アド バンスなチュートリアル まで 学ぶ オープンソールや付加 価値機能を統合した データ分析ツール 作る コラボレーションのための コミュニティーと ソーシャル機能 共創 IBM DATA SCIENCE EXPERIENCE A L L Y O U R T O O L S I N O N E P L A C E
  38. 38. © 2016 IBM Corporation38 Data Science Experience コミュニティー オープンソース 付加価値機能 - チュートリアル、データセットの探索 - データサイエンティストとの共創 - 質問をする – Ask Question - 情報を収集する(記事、論文、技術情報) - プロジェクトのフォークと共有 - Scala/Python/R/SQL - Jupyter / Zeppelin* Notebooks - RStudio IDE / Shinyアプリケーション - Apache Spark - その他のライブラリ - データシェーピング/パイプラインUI * - 自動データ準備(Auto-data prep)* - 自動モデリング(Auto-modeling)* - 高度なビジュアライゼーション* - Model管理とデプロイメント* - Well documented Model APIs* IBM DATA SCIENCE EXPERIENCE A L L Y O U R T O O L S I N O N E P L A C E
  39. 39. © 2016 IBM Corporation39 Shaping(シェーピング): •Sparkling.Data APIs: Jupyterノートブック (Python/Scala) •チュートリアル(Python and Scala) RStudio: •Rstudio(オープンソースサーバ):16GB Memory/5GB領域 •Shiny: 分析WEBアプリの作成 •SparkR: Sparkサービスとの連携(Spark as a Service) プロジェクト: •共創(コラボ): プロジェクトへのユーザ追加 •ノートブックの共有/コネクション/ファイル管理 スケジューリング: •CRON •スケジューリングUI: スケジュールされたノートブック一覧、 前回/次 回実行予定、ステータス(初期版は機能制限あり) コミュニティー: • Analytics Exchange: コミュニティーによるオープン・ データとノートブック共有 • ソーシャルメディアによる共有機能 • ノートブックとデータのプリビュー機能 • ブログ(DSXブログ含む) • チュートリアル (e.g., Big Data University) ノートブック: Jupyterノートブック 言語: Scala/Python/R ライブラリ: Open Source and IBM (Brunel/Prescriptive) Import from File (*.ipynb)/URL/Templates URLによる共有 IBM DATA SCIENCE EXPERIENCE A L L Y O U R T O O L S I N O N E P L A C E
  40. 40. © 2016 IBM Corporation40 datascience.ibm.com オープンβのリストを受け付けています
  41. 41. © 2016 IBM Corporation41 開催期間 :2016年8月1日~9月30日 ※開催期間の変更がある場合もあります。 日本アイ・ビー・エム株式会社 懸賞金: 1位 30万 2位 20万 3位 10万
  42. 42. © 2016 IBM Corporation42 法人向け 個人向け 名刺を企業の資産に変える
  43. 43. © 2016 IBM Corporation43 ※本コンペで扱う名刺画像に記載されている内容は実在の団体・個人とは一切関係ございません。
  44. 44. © 2016 IBM Corporation44 名刺をスキャン 年間1憶枚以上の名刺が、 オペレーターの入力によりデータ化されている アプリケーションで活用 名刺の検索・閲覧・編集 お客様
  45. 45. © 2016 IBM Corporation45 名刺をスキャン 年間1憶枚以上の名刺が、 オペレーターの入力によりデータ化されている アプリケーションで活用 名刺の検索・閲覧・編集 お客様 AI
  46. 46. © 2016 IBM Corporation46 数千枚の名刺画像を使って、 名刺の項目を推定するアルゴリズムを募集します。
  47. 47. © 2016 IBM Corporation47 ビルドインされた、簡 単なコースから、アド バンスなチュートリアル まで 学ぶ オープンソールや付加 価値機能を統合した データ分析ツール 作る コラボレーションのための コミュニティーと ソーシャル機能 共創 IBM DATA SCIENCE EXPERIENCE A L L Y O U R T O O L S I N O N E P L A C E datascience.ibm.com
  48. 48. © 2016 IBM Corporation48 ご清聴ありがとうございました。
  49. 49. 補足資料 49
  50. 50. DataScientistWorkbenchハンズオン ~始めに編~
  51. 51. 本日の内容 ▪ ユーザー登録 ▪ Data Scientist Workbench ▪ (オプション)IBM Bluemix ▪ Data Scientist Workbenchとは ▪ ハンズオン(pyspark)
  52. 52. 本日の内容 ▪ ユーザー登録 ▪ Data Scientist Workbench ▪ (オプション)IBM Bluemix ▪ Data Scientist Workbenchとは ▪ ハンズオン
  53. 53. DataScientistWorkbenchの登録 • https://datascientistworkbench.com/
  54. 54. IBM Bluemixへの登録
  55. 55. IBM Bluemixへの登録
  56. 56. IBM Bluemixへの登録
  57. 57. 本日の内容 ▪ ユーザー登録 ▪ Data Scientist Workbench ▪ (オプション)IBM Bluemix ▪ Data Scientist Workbenchとは ▪ ハンズオン
  58. 58. データ分析のプロセス データ収集 クレンジング モデリング・ データ加工 アクション レポーティング DataScientistWorkbenchで対応可能
  59. 59. Data Science Workbench© Copyright IBM Corp. 2016 特徴 • Spark環境構築済み • Sparkを利用するためのプログラミング環境も用意 • インタラクティブかつ繰り返し実行可能 • コミュニティを通した知識の共有 • 継続的な機能追加 • 誰でも無料 “Making open source data science easy”
  60. 60. ログイン後の画面 データ操作および分析のためのツール Data Science Workbenchのフォーラム、情報共有、リクエスト ①データ投入 ②データ整形 ③データ整形と分析の実行 分析のためのデータ提供(Bluemixおよびpublicデータ)
  61. 61. ツール実行時の画面 Open Refine Jupyter Knowledge blog, BDU 機能追加のため の投票 seahouse Apache Zeppelin アイコン化 My Data Open Data RStudio
  62. 62. ①データ投入「My Data」 分析のためのデータの投入を行う 現在のディレクトリ構成 新規ディレクトリ作成 データのアップロード アップロードしたファイルは分析ツールから利用可能 (Jupyter画面から利用が可能)
  63. 63. ②データ整形「OpenRefine」 • Googleで開発されたGoogle Refineがベース • 2010年11月にイニシャルリリース、2012年10月にOpenRefineとして オープンソース化 • WebブラウザからのGUI操作のみでデータのクレンジングやフォー マット変換が可能 • CSV, TSV, text files, XML, RDF, and JSON様々なファイルフォーマットに 対応 • 分析を実行する前のデータの準備を実行
  64. 64. OpenRefineによるデータの絞込やクレンジング 数値データの範囲をグラフで絞り込み ※日本語データへの対応はされていません。
  65. 65. OpenRefineによるデータの絞込やクレンジング 数値データの範囲をグラフで絞り込み データのブレに対して GUIでクレンジングが可能
  66. 66. 「RStudio」 • Rを使いやすくするのための統合開発環境 • Rユーザーのデファクトスタンダード • Data Scientist WorkbenchではBig Rも実行可能 • IBMの提供するライブラリ • スケーラブルかつ高パフォーマンス • Sparkに統合予定のSystemML
  67. 67. RStudio - RユーザーがSparkRを利用するためのIDE Sparkと連携 BigRと連携済み、利用可能 https://www.ibm.com/support/knowledgecenter/SSPT3X_4. 1.0/com.ibm.swg.im.infosphere.biginsights.ref.doc/doc/refere nce_icnav.html
  68. 68. 「seahouse」 • DeepSense.ioにより2016年にver.1.0 • Sparkアプリケーションを作成するためのプラットフォーム • WebGUIからアイコンを配置して機械学習やETLのプログラミング可能
  69. 69. Jupyter, Zeppelin はNotebook… “Notebook”とは? •紙と鉛筆 • 紙と鉛筆は、これまで長い間、科学 者がメモや図面を通して進捗状況 を文書化するための重要なツール である: • 表現力 • 累積した情報 • コラボレーション •Notebooks • Notebooks は、これまでの紙と鉛 筆のデジタル版であり、再現性の ある分析と文書化を可能にする: • マークダウンとグラフ化 • 反復探索 • 共有が容易
  70. 70. ③データ整形と分析の実行「Jupyter Notebook」 • リリース • 2001年にリリースされたIPythonをベースに、2015年にJupyterとしてリリース • ノートブック • WebブラウザからのGUI操作可能 • コード実行、コメント記述、グラフの描画を実行可能 • カーネル • Data Scientist Workbenchでは、Scala,Python, Rを実行可能
  71. 71. ③データ整形と分析の実行「Zeppelin Notebook」 • リリース • 2012年にCommercial Product、2013年にオープンソース、2014年にASFインキュ ベーションプロダクト • ノートブック • WebブラウザからのGUI操作可能 • コード実行、コメント記述、グラフの描画を実行可能 • インタープリタ • Scala, Python, SQL,shellコマンド など
  72. 72. ファイルサーチ& URL挿 入(ノートの共有) 「My Data」のファイル コードに挿入可能 <参考>Jupyter 操作画面
  73. 73. <参考> Jupyterにおけるセル・コメント・コード コメント コード(実行中) コード(未実行) コメント セルの種類
  74. 74. <参考>よく使うJupyterのアイコン 状態のセーブ・チェックポイントの作成 セルの削除 セルの順番入れ替え セルの実行 セルの追加
  75. 75. <参考>修正したコード(セル)からの再実行 実行したセルに対して変更を加える
  76. 76. 修正したセルから再実行可能 番号が下のセルより上がっている <参考>修正したコード(セル)からの再実行
  77. 77. <参考>コード補完 Tabを押下することでコード補 完が行われる
  78. 78. <参考>キーボードショートカット キーボードショートカットによるviライクな操作が可能 (j、kでセ ル間を移動) Enterでセル毎の編集モードに入り、EscでNotebookへのコマンドモードに変更
  79. 79. <参考> ユーザーインターフェースの 細かい解説を確認可能
  80. 80. <参考>Jupyterで新規Notebookを作成する 1.左側のアイコンリストからJupyterを選択 2.右上のNew Notebook TypeからPythonを選択
  81. 81. フィードバックと投票 実現してほしいアイデアの投稿、投票が可能
  82. 82. <参考>日本語化とデータセンター • 画面左下のユーザーアイコンから Profileの設定が可能 • 言語を「日本語」にすることで UIの日本語化 • Tokyo データセンターも準備中 香港がもっとも近い場所 です(推奨)
  83. 83. 非常に多くの機能がありますが 触りながら覚えて、育てていきましょう
  84. 84. 本日の内容 ▪ ユーザー登録 ▪ Data Scientist Workbench ▪ (オプション)IBM Bluemix ▪ Sparkとは ▪ Data Scientist Workbenchとは ▪ ハンズオン(pyspark)
  85. 85. ハンズオンの内容 ハンズオン:JupyterでMLLibでクラスタリング ハンズオン:IBM Bluemixとの連携・移行
  86. 86. ハンズオン:Spark MLLibでクラスタリング JupyterでSpark MLLibを使った機械学習プログラムを体験します。 実行にはJupyterでPythonによるプログラムを実行します。 手順 1. シェアされているNotebookとデータを取得します。 Notebook> https://ibm.biz/BdrDnd データ> https://ibm.biz/BdrDnD 2. Jupyter画面および「マイ・データ」画面でファイルが取得されていることを確 認します。 3. Notebookを実行してK-Meansによるクラスタリングを実行します。
  87. 87. ハンズオン:Bluemixとの連携・移行 IBM BluemixにもSpark環境が「Spark as a Service」とし て用意されています。 DataScientistWorkbenchと比較して以下の利点があります。 • Enterprise向けのよりパワフルな実行環境と占有環境 • アプリケーション(spark-submit)の実行可能 • Bluemix上のサービスとの連携 手順 1. DSWBからJupyterノートブックのダウンロード 2. Spark as a Serviceからノートブックの読み込みと実行
  88. 88. “Apache Spark” - Sparkサービス - Jupyter (Python・Scala・Rランタイム) - サンプルコード - Objectストレージ BluemixのApache Spark(Spark as a Service) に含まれる内容 ストレージ (swiftベース) Sparkサービス (Jupyter)
  89. 89. <補足>ハンズオン 「Download」を選択してipynbファイルのシェアを実行
  90. 90. <補足>ハンズオン 「Bluemix Spark」からipynbファイルを読み込み BluemixではNotebookの実行とバッ チ実行モードが選択可能 今回はNotebookを選択 Create NotebookでFrom Fileを選択
  91. 91. <参考> Spark as a Service画面 データの投入および ノートブックの共有可能DSWB同様 Jupyter利用可能
  92. 92. <参考>リファレンス • Sparkプログラミングガイド (1.6.1) http://spark.apache.org/docs/latest/programming-guide.html • Pyspark APIドキュメント (1.6.1) http://spark.apache.org/docs/latest/api/python/pyspark.html • K-means(機械学習)のプログラミングガイド http://spark.apache.org/docs/latest/mllib-clustering.html * 日本語版も存在しますが現在最新バージョンではなく未翻訳があります * 上記は1.6.1ですがDSWは1.5.1となります
  93. 93. ワークショップ、セッション、および資料は、IBMまたはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。それらは情報提供の目的のみで提供されており、いかなる参加 者に対しても法律的またはその他の指導や助言を意図したものではなく、またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完全性と正確性を期するよう 努力しましたが、「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わないものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、 いかなる損害が生じた場合も、IBMは責任を負わないものとします。 本講演資料に含まれている内容は、IBMまたはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすこ とを意図したものでも、IBMソフトウェアの使用を規定する適用ライセンス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。 本講演資料でIBM製品、プログラム、またはサービスに言及していても、IBMが営業活動を行っているすべての国でそれらが使用可能であることを暗示するものではありません。本講演資料で言及 している製品リリース日付や製品機能は、市場機会またはその他の要因に基づいてIBM独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将来の製品または機能が使用 可能になると確約することを意図したものではありません。本講演資料に含まれている内容は、参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、 または暗示することを意図したものでも、またそのような結果を生むものでもありません。 パフォーマンスは、管理された環境において標準的なIBMベンチマークを使用した測定と予測に基づいてい ます。ユーザーが経験する実際のスループットやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理されるワークロード などの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと同様の結果を得られると確約するものではありません。 記述されているすべてのお客様事例は、それらのお客様がどのようにIBM製品を使用したか、またそれらのお客様が達成した結果の実例として示されたものです。実際の環境コストおよびパフォー マンス特性は、お客様ごとに異なる場合があります。 IBM、IBM ロゴ、ibm.com、[以下当該情報に関連し商標リスト中に掲載されたIBMブランドやIBMの製品名称があれば追加する]は、 世界の多くの国で登録されたInternational Business Machines Corporationの商標です。他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。現時点での IBM の商標リストについては、 www.ibm.com/legal/copytrade.shtmlをご覧ください。 Adobe, Adobeロゴ, PostScript, PostScriptロゴは、Adobe Systems Incorporatedの米国およびその他の国における登録商標または商標です。 IT Infrastructure LibraryはAXELOS Limitedの登録商標です。 インテル, Intel, Intelロゴ, Intel Inside, Intel Insideロゴ, Centrino, Intel Centrinoロゴ, Celeron, Xeon, Intel SpeedStep, Itanium, およびPentium は Intel Corporationまたは子会社の米国およびその他の 国における商標または登録商標です。 Linuxは、Linus Torvaldsの米国およびその他の国における登録商標です。 PowerLinux is a trademark of International Business Machines Corp. The registered trademark Linux is used pursuant to a sublicense from LMI, the exclusive licensee of Linus Torvalds, owner of the mark on a world-wide basis. Microsoft, Windows, Windows NT および Windowsロゴは Microsoft Corporationの米国およびその他の国における商標です。 ITILはAXELOS Limitedの登録商標です。 UNIXはThe Open Groupの米国およびその他の国における登録商標です。 Cell Broadband Engineは、Sony Computer Entertainment, Inc.の米国およびその他の国における商標であり、同社の許諾を受けて使用しています。 JavaおよびすべてのJava関連の商標およびロゴは Oracleやその関連会社の米国およびその他の国における商標または登録商標です。 Linear Tape-Open, LTO, LTOロゴ, UltriumおよびUltriumロゴは、HP, IBM Corp.およびQuantumの米国およびその他の国における商標です。

×