Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

JAWSUG 20191028 (modified)

117 views

Published on

2019年10月28日に CodeBase Nagoya で開催されたイベント「JAWS-UG 名古屋 データ分析の勉強会」で使った資料です。
Amazon Athena(S3 上の CSV や JSON などに対して SQL で問い合わせできるサービス)に関する初心者向けの紹介資料です。手軽ですぐに試せるのでお勧めです。

Published in: Technology
  • DOWNLOAD THAT BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m77EgH } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m77EgH } ......................................................................................................................... Download Full doc Ebook here { http://bit.ly/2m77EgH } ......................................................................................................................... Download PDF EBOOK here { http://bit.ly/2m77EgH } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m77EgH } ......................................................................................................................... Download doc Ebook here { http://bit.ly/2m77EgH } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book that can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer that is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story That Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money That the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths that Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

JAWSUG 20191028 (modified)

  1. 1. 初 心 者 は だ ま っ て A m a z o n A t h e n a C o d e B a s e N a g o y a 2 0 1 9 . 1 0 . 2 8 来 栖 川 電 算 取 締 役 山 口 陽 平 J A W S - U G 名 古 屋 デ ー タ 分 析 の 勉 強 会 # j a w s u g
  2. 2. 話の流れ 1. はじめに 2. Amazon Athena 3. まとめ 4. 付録 2
  3. 3. はじめに 自己紹介 & 会社紹介 3
  4. 4. 山 口 陽 平 @melleo1978 • 所属 – 有限会社 来栖川電算 取締役 – 名古屋工業大学大学院博士前期課程修了 • 実績 – IPA 未踏ソフトウェア創造事業採択 – Mashup Awards 9 優秀賞受賞 • 興味 – 機械学習,強化学習,UI/UX – 高速化,省資源化,並列分散 ※実物に髪の毛はありません 4
  5. 5. 山 口 陽 平 @melleo1978 • [実践]画像認識 を執筆 WEB+DB PRESS Vol.83 – これから画像認識をはじめる人におススメ 5 – OpenCV の使い 方や実装例 – SIFTなどの各種 アルゴリズムや 特定物体認識の しくみ – 精度改善への取 り組み方
  6. 6. 来栖川電算 設立 2003年(名古屋工業大学発ベンチャー) 従業員 66人 • SF 世界の技術を実現し、社会に役立てる – AI 技術のライセンス販売・研究・SI • 文字認識,物体認識,動作認識,行動認識 – スマホアプリの企画・制作・運営 スマートライフ技術 NTTドコモ様との共同研究 スマートドライブ技術 大手自動車メーカー様むけ メイドさん もふくめて 6
  7. 7. 7 AR付箋 書籍の中身を検索するアプリ Cellars ワインラベルで情報検索するアプリ 画像認識API 商品パッケージで情報検索するAPI 生活情報調査 道路沿いの視覚情報を収集し、活用 交通情報調査 道路沿いの視覚情報を収集し、活用 研究開発支援 タンゴチュウ 写真に写る単語を抽出するサービス 走行データ解析 周辺環境を認識し、様々な解析に活用 地図生成 オルソ画像から地物・交通規則を抽出 動作推定API 加速度センサで人の行動を推定 毎朝体操 腕の動きで体操採点するアプリ ヒーローの動きでゲームを制御 なりきり2.0 ー シ ョ ン 認 識 研究開発支援 研究開発支援 AHAB 大量の実験と計算資源を効率的に管理 ANNOFAB 高品質なアノテーションを大量に生産可能 DNNコンパイラ DNNの推論を10~1000倍も効率化 GameControllerizer プログラマブル・ゲームコントローラ 研究開発支援 類似検索 類似検索 類似検索 文字認識 物体認識 物体認識 物体認識 物体認識 モーション認識 モーション認識 モーション認識物体認識 瞳孔位置推定 眼球運動を監視し、眠気の推定に活用
  8. 8. 体制 AI に関わる全てを提供できる体制 8 技術者育成 プロセス開発 ツール開発 チーム育成 データ収集 データ作成 サービス開発 アルゴリズム研究 アルゴリズム開発 サービス運営 企画
  9. 9. 技術者集団 様々なアルゴリズムや知識で課題解決 • 最先端の AI 技術 – 文字認識,物体認識,モーション認識 • 限界性能を引き出す優れた実装技術 – 機械学習・コンパイラ・データベースなどの アルゴリズムやバイナリハックを駆使した高 精度化・高速化・省資源化・並列化・分散化 • 高品質なソフトウェアを実現する技術 – 言語・アーキテクチャ・プロセスに対する深 い理解に基づく設計と計画 9
  10. 10. コミュニティ活動 様々な勉強会を主催 スタッフ・会場・懇親会費を提供 10
  11. 11. Amazon Athena S3 にあるファイルに SQL で問い合わせできる 11
  12. 12. Amazon Athena S3 にあるファイルに SQL で問い合わせできる • 様々なファイル形式・圧縮形式に対応 – CSV, TSV, JSON, ORC, Parquet ※Prestoのおかげ • パーティショニング・列指向に対応 – 不要な行・列をスキャンせずに済む • 頻繁に問い合わせしないなら安い – 5 $/TB + S3 費用 • クエリのスキャン量に比例する • 10MB 以下のクエリは 10MB 扱いになる – ※機械学習のデータレイクに適している 12
  13. 13. 使い方は簡単 S3 条のデータをインポートし、SQL で問い合わせるだけ 1. ワークグループの作成 2. データのインポート 3. データへの問い合わせ 4. テーブルのパーティション 5. データへの問い合わせ(パーティション 版) 13
  14. 14. 1. ワークグループの作成 事前準備 14
  15. 15. 1. ワークグループの一覧 上段の「Workgroup : ~」でいつでもこの画面に来れる 15
  16. 16. 2. ワークグループの作成 ワークグループの名称とクエリの結果の格納場所を決める 16
  17. 17. 3. ワークグループの切替 作成したワークグループを選択して切り替える 17
  18. 18. 2. データのインポート 分析対象のデータが増えるたびにやること 18
  19. 19. 1. データの準備 分析対象のデータの格納場所を確認する 19
  20. 20. 2. テーブルの作成 分析対象のデータをテーブルとして取り込む 20
  21. 21. 3. 名称と格納場所の指定 データの格納場所(フォルダ)を指定する 21
  22. 22. 4. データ形式の指定 データのファイル形式(今回は TSV)を指定する 22
  23. 23. 5. カラムの指定 データに含まれる順にカラムの名称と型を指定する 23
  24. 24. 6. パーティションの指定 カラム値に応じてデータの格納先が決まる(今回はなし) 24
  25. 25. 7. スキーマの確認 テーブルのスキーマはクエリ(DDL)として確認できる 25
  26. 26. 3. データへの問い合わせ 分析対象のデータのインポートが終わったらやること 26
  27. 27. 1. データへの問い合わせ 問い合わせ(今回はフルスキャン)を SQL で記述実行する 27
  28. 28. 2. 問い合わせ結果の確認 問い合わせ結果はコンソールからすぐに確認できる 28
  29. 29. 4. テーブルのパーティション フルスキャンだとお金がかかりすぎると感じたときにやること 29
  30. 30. 1. 変換先テーブルの作成 年月日でパーティションする変換先テーブルを作成する 30 raw_reports のスキーマを修正すると簡単
  31. 31. 2. データの変換 変換問い合わせ(insert-select)を記述実行する 31 パーティションに使うカラムを生成する
  32. 32. 3. 変換後データの確認 スキーマで指定した格納場所を確認する(272 個に分割) 32
  33. 33. 5. データへの問い合わせ (パーティション版) パーティションを絞り込めるクエリであれば速く安くなる 33
  34. 34. 1. データへの問い合わせ パーティションに使ったカラムで絞り込む必要がある 34 パーティション(272 分割)と列指向 (Parquet 形式)の適用でスキャン量 が 1/100 になった。スキャン量が下 限を下回ったため費用は 1/10 だった。
  35. 35. 2. 問い合わせ結果の確認 当然だが、パーティションする前と同じ結果になっている 35
  36. 36. まとめ 初心者はだまって Amazon Athena 36
  37. 37. まとめ 初心者はだまって Amazon Athena • とりあえず S3 に入れておけばいい – 頻繁に問い合わせしないデータはとありあえず S3 に入れて、Athena で処理ればいい。 • 例:機械学習のデータレイク • コスト(スキャン量)を抑えるには – パーティショニングと列指向を活用する。 – 問い合わせのデバッグ中は LIMIT 句を付ける。 – ワークグループにスキャン量の上限を設定する。 • 何気ない問い合わせによる膨大なスキャンへの対策 37
  38. 38. JAWS FESTA 2019 SAPPORO 私は参加します!参加する方、一緒に楽しみましょう! • とりあえず S3 に入れておけばいい – 頻繁に問い合わせしないデータはとありあえ ず S3 に入れて、Athena で処理ればいい • コストを抑えるには – Parquet 形式のファイルをパーティションし て、パーティションに使ったカラムで問い合 わせする – 何気ない問い合わせが膨大なスキャンを発生 させるのを防ぐために LIMIT 句を付けよう 38
  39. 39. 機械学習 名古屋 https://machine-learning.connpass.com/ • 勉強会 隔月開催 次回:2019年11月16日(土) – 初心者や非エンジニアも含む幅広い層に向け たアルゴリズム紹介・事例紹介・ハンズオン • 研究会 毎月開催 次回:2019年11月21日(木) – エンジニアや研究者に向けた機械学習関連の 論文紹介(これまで109件) 39 次回 Annofab ハンズオン
  40. 40. 製品・サービス 付録① 40
  41. 41. 類似検索 膨大なデータの中から類似データを高速・高精度に照合できる 41
  42. 42. 画像認識 API 商品パッケージで情報検索する API 商品パッケージが写った画像を送信するだけで、膨大 な DB から瞬時に種類を特定。クロールした画像から 直接構築した DB を利用。 42
  43. 43. Cellars ワインラベルで情報検索するアプリ ワインラベルにスマホをかざすだけで、18 万件から 瞬時に種類を特定。国内外のコンテストで入賞。株式 会社 Cellars 様による弊社技術の応用事例。 43
  44. 44. AR 付箋 書籍の中身を検索するアプリ 書籍を開いてスマホをかざすだけで、膨大な DB から 瞬時にページを特定し、貼られている付箋を表示。お 客様による弊社技術の応用事例。 44
  45. 45. 物体認識 物体の位置・向き・姿勢・種類を高速・高精度に捉える 45
  46. 46. 走行データ解析 周辺環境を認識し、様々な解析に活用 膨大な走行データから歩行者・車両・白線・標識など を検出・追跡し、索引化。必要に応じて、CAN や Lidar なども活用し、高品質化。 46
  47. 47. 地図生成 オルソ画像から地物・交通規則を抽出 自動運転に使用可能な高品質な地図をオルソ画像から 高速に抽出できる深層学習手法を開発。株式会社トヨ タマップマスター様との応用事例。 47
  48. 48. 交通情報調査 道路沿いの視覚情報を収集し、活用 首都圏を走行する大量の車両のドラレコを解析し、視 覚情報(天候,路面状態,レーン別交通量,…)を DB 化。顧客との研究事例。 48
  49. 49. 生活情報調査 道路沿いの視覚情報を収集し、活用 アスクル株式会社様の営業車のドラレコを解析し、視 覚情報(ガソリン価格,駐車場満空,渋滞,事故,行 列,…)を DB 化。ヤフー株式会社様との共同研究。 49
  50. 50. 瞳孔位置推定 眼球運動を監視し、眠気の推定に活用 スマートグラスで撮影した映像から瞳孔位置・閉眼状 態を高精度に推定。個人差・外乱に頑健。エッジで 60 fps。知の拠点あいち重点研究プロジェクト事業。 50
  51. 51. 文字認識 様々な書体・外乱に対応した 51
  52. 52. タンゴチュウ 写真に写る単語を抽出するサービス 情景画像(スマホで撮影した写真など)に写る単語を 抽出。様々な書体・配置・劣悪な環境(歪み・隠れ・ 擦れ・照明など)での利用を想定。 52
  53. 53. モーション認識 身体の動き・姿勢を高速・高精度に捉える 53
  54. 54. 動作推定 API 加速度センサで人の行動を推定 スマホやウォッチの動きから静止・歩行・走行・食 事・睡眠などを推定。同じ仕組みで撮影時の手振れ検 出も可能。株式会社 NTT ドコモ様との共同研究。 54
  55. 55. 毎朝体操 腕の動きで体操採点するアプリ 100 ヶ国 20 万人を超えるユーザから日々送られてく るセンサデータを学習することで体操採点の正確さが 自動改善。JFE スチール株式会社様へ導入。 55
  56. 56. なりきり 2.0 ヒーローの動きでゲームを制御 腕や脚に装着したセンサで体の動きを捉え、家庭用 ゲーム機のコマンドを生成。格闘ゲームが遊べるほど の速さと正確さをスマホ上で実現。 56
  57. 57. 研究開発支援 日々使い改良される道具による 57
  58. 58. DNN コンパイラ DNNの推論を 10 ~ 1000 倍も高速化 重みや活性の量子化・スパース化、計算の共有などの 様々な手法で DNN を近似し、高速化・省資源化され た実行形式(Linux・Android・iOS)へ変換。 58
  59. 59. AHAB 大量の実験と計算資源を効率的に管理 計算資源をハイブリッドクラウド化する実験スケ ジューラ。実験のスクリプト化、信頼性や再現性の向 上、資源割り当ての効率化などを促進。 59
  60. 60. ANNOFAB 高品質な教師データを大量に生産可能 品質と生産性のトレードオフ、誤り漏れの削減、きめ 細かく柔軟な仕様・課題・進捗の管理。実務で培った ノウハウが詰まったアノテーションサービス。 60
  61. 61. GameControllerizer プログラマブル・ゲームコントローラ ゲーム機・PC・スマホなどに接続するだけでゲーム 操作をプログラミング可能にするデバイス。ビジュア ル・プログラミング(Node-REDなど)にも対応。 61
  62. 62. 体制・設備・サポート 付録② 62
  63. 63. 体制 AI 実現のための全業務をカバー 63 AI アプリ SI インフラ AI インフラ データ モデル 研究者アノテータ デザイナ 開発者 職種 正社員 アルバイト 合計 24 時/週以上 12 時/週以上 ※即戦力 試用期間 研究者 20 % 2 % 10 % 0 % 32 % 開発者 15 % 7 % 12 % 3 % 37 % デザイナ 0 % 0 % 3 % 0 % 3 % アノテータ 5 % 23 % 0 % 0 % 28 % 合計 40 % 32 % 25 % 3 % 100 %
  64. 64. 設備 研究開発を円滑にするためにあらゆる手を尽くす • 理想的な個人設備 ※好きなものが選べる – PC,椅子,モニタ,キーボード,マウス,… • 豊富な計算資源とアノテータ ※使いやすい – Ahab:実験用ハイブリッドクラウド – ANNOFAB:アノテーションサービス • 豊富な独自データ ※世界中からどんどん集まる – 自動運転用データ,商品認識用データ,文字 認識用データ,体操採点用データ,… 64
  65. 65. サポート 技術を磨きやすくするためにあらゆる手を尽くす • 様々な働き方 – 自由な時間帯・場所,冒険者制度,… • 優秀な同僚 ※メンタリング(JEDI) – IPA 未踏ソフトウェア創造事業採択者,コン テスト入賞者,OSS コントリビュータ,… • その他 ※全て会社負担 – 自己研鑽のための書籍・機材の購入 – 勉強会・懇親会の開催・参加・移動・宿泊 – 会社の昼会・夕会・飲み会で供される飲食物 65
  66. 66. 66 募集中 研究者 開発者 デザイナ

×