Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Annotation Meetup 20180705

942 views

Published on

2018年7月5日にABEJAセミナールームで開催されたAnnotation Meetupの発表で使った資料です。

来栖川電算がどのような考え方に従ってアノテーションしているかが分かります。参考にしてください。
たくさんのアノテーションプロジェクトで鍛えられた来栖川電算製のアノテーションツールAnnoFabについても載っています。無料なのでぜひ使ってください。

 [AnnoFab] http://annofab.com/

Published in: Technology
  • Be the first to comment

Annotation Meetup 20180705

  1. 1. アノテーションこそが本質 A B E J A セ ミ ナ ー ル ー ム 2 0 1 8 . 7 . 5 来 栖 川 電 算 取 締 役 山 口 陽 平 A B E J A C l o u d A I N i g h t A n n o t a t i o n M e e t u p # a b e j a a i
  2. 2. 今日話すこと 1. はじめに 2. 背景 3. 来栖川電算のプロセス 4. 来栖川電算のツール 5. まとめ 2
  3. 3. はじめに 自己紹介 & 会社紹介 3
  4. 4. 山 口 陽 平 @melleo1978 • 所属 & 経歴 – 有限会社 来栖川電算 取締役 – 名古屋工業大学大学院 博士前期課程修了 – IPA未踏ソフトウェア創造事業 採択 – Mashup Awards 9 優秀賞受賞 • 自己紹介 企画から実装まで全部やる人 – AI技術 & アルゴリズム の研究開発 • 文字認識,物体認識,動作認識,行動認識 – 言語処理系 の研究開発 • 分散DB,仮想機械,コンパイラ • 好きなサービス AWS Lambda ※実物に髪の毛はありません。 4
  5. 5. 山 口 陽 平 @melleo1978 • [実践]画像認識 を執筆 WEB+DB PRESS Vol.83 – これから画像認識をはじめる人におススメ 5 – OpenCV の使い 方や実装例 – SIFTなどの各種 アルゴリズムや 特定物体認識の しくみ – 精度改善への取 り組み方
  6. 6. 来栖川電算 設立 2003年(名古屋工業大学発ベンチャー) 従業員 50人 • SF 世界の技術を実現し、社会に役立てる – AI 技術のライセンス販売・研究・SI • 文字認識,物体認識,動作認識,行動認識 – スマホアプリの企画・制作・運営 スマートライフ技術 NTTドコモ様との共同研究 スマートドライブ技術 大手自動車メーカー様むけ メイドさん もふくめて 6
  7. 7. 技術者集団 様々なアルゴリズムや知識で課題解決 • 最先端の AI 技術 – 文字認識,物体認識,モーション認識 • 限界性能を引き出す優れた実装技術 – 機械学習・コンパイラ・データベースなどの アルゴリズムやバイナリハックを駆使した高 精度化・高速化・省資源化・並列化・分散化 • 高品質なソフトウェアを実現する技術 – 言語・アーキテクチャ・プロセスに対する深 い理解に基づく設計と計画 7
  8. 8. 8 なりきり2.0 ヒーローの動きでゲームを制御 毎朝体操 腕の動きで体操採点するアプリ 動作推定API 加速度センサで人の行動を推定 タンゴチュウ 写真に写る単語を抽出するサービス 地図生成 オルソ画像から地物・交通規則を抽出 走行データ解析 周辺環境を認識し、様々な解析に活用 AR付箋 書籍の中身を検索するアプリ Cellars ワインラベルで情報検索するアプリ 画像認識API 商品パッケージで情報検索するAPI AnnoFab(アノテーションサービス) 高品質なアノテーションを大量に作成可能 Ahab(実験スケジューラ) 大量の実験と計算資源を効率的に管理 DNNコンパイラ DNNの推論を10~1000倍も効率化
  9. 9. コミュニティ活動 様々な勉強会を積極的に主催、スタッフとして協力 9
  10. 10. 背景 今、アノテーションがアツい 10
  11. 11. AI 実現のための力点 そもそも仕様(データ収集・アノテーション)は重要 1. タスク設計 重要度:40% • システム全体のデータフローの設計 • 機械学習を適用する機能と入出力の明確化 2. データ収集・アノテーション 重要度:40% • データの質・量・時期の計画・生産 • アノテーションルールの明確化・改良 3. 機械学習 重要度:20% • パイプライン(学習・推論)の設計・改良 • 訓練・検証・ハイパーパラメータの調整 11
  12. 12. 最近の傾向 深層学習以降、データ整備による性能改善がよく効く • モデルがデータによく適合 ⇒ 切り分け◎ 12 推 論 の 誤 り 性 能 の 改 善 モデルアーキテクチャの改善 データ収集・アノテーションの改善 サンプリング・シンセサイズの改善 評価手法の改善 タスク設計の改善
  13. 13. 来栖川電算のプロセス 「データからの学び」を重視する 13
  14. 14. 素人ができる? そもそも想定外のケースが山ほどでてくる… 14 出典: google street view
  15. 15. 我々は間違っている 研究者・アノテータが賢くならないとダメ • 練習・チェックにより学ぶ機会を得る 15 アノテーション(練習) アノテーション設計 アノテーション(本番) チェック
  16. 16. 学びの例 学びにより「差し戻し回数」が減ってゆく 16
  17. 17. ルールの例1 アノテーションが終わるたびに膨大なルールが完成 17 都合により削除
  18. 18. ルールの例2 具体例や判断フローチャートなど 18 都合により削除
  19. 19. 他の知見 まずいルールには種類がある • 時間がかかる部分 – ×作図 – ●探索 & 判断の迷い • ブレるルール – 主観に基づく入力 – 予測に基づく入力 • 漏れるルール – 特定の条件でだけ囲うなど 19
  20. 20. 来栖川電算のツール すみません。ここからは宣伝ではないです!!! 20
  21. 21. 高品質アノテーションを効率的に生産する “技” が詰まったクラウドサービス 21
  22. 22. 開始までたったの3分 カスタマイズされたエディタを利用可能(改修不要) ⇒ データをアップロードして、アノテーション仕様を入力するだけ 22
  23. 23. 豊富な編集機能 漏れと矛盾を防ぎ迅速で正確な作業を可能にする機能が満載 ⇒ 自動検査,入力補完,ショートカット,ガイド表示,検査コメント,… 23
  24. 24. きめ細やかな課題管理 指摘と現物を見比べながら円滑な修正が可能 ⇒ タスク一覧,エディタに統合された課題管理(前頁図) 24
  25. 25. 自動的な計測と可視化 品質や生産性に関わる様々な指標を確認可能 ⇒ 差戻回数,進捗状況,作業時間,… 25
  26. 26. その他 徹底的な自動化支援 ⇒ Web API と CLI により、大量一括処理や外部システムとの連携が容易 多言語対応 ⇒ 表示されるメッセージは全て日本語と英語に対応。カスタマイズ可能 プライベートストレージ対応 ※有料オプション ⇒ セキュリティが心配な方のために、社内ストレージに対応 プロフェッショナルサービス ※有料オプション ⇒ アノテーション作業,AI開発,これらに対するコンサルティング 26
  27. 27. まとめ 全然、言い足りないけど 27
  28. 28. まとめ 来栖川電算流 アノテーションはこうしろ • ルールが確定するまで丸投げしない • 研究者と一緒にルール策定 • 最初にみんなで練習 • 緊密な課題管理ができるツールの使用 – ABEJA のツール – 来栖川電算のツール 28

×