Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

文字認識はCNNで終わるのか?

28,769 views

Published on

電子情報通信学会「パターン認識・メディア理解研究会」(2016年2月14日@九州工業大学,福岡県飯塚市)でのプレゼン資料です.
対応する原稿は以下です.
電子情報通信学会技術研究報告, PRMU2015-133
http://www.ieice.org/ken/paper/20160221UbGo/
以下はアブストラクトです.===========================
印刷数字,手書き数字,多フォント数字を対象として,畳み込みニューラルネッ トワーク(CNN) による認識実験を試みた.いずれのタスクにも大規模な データセットを用いた.得られた認識率は,印刷数字について99.99%,手書き数字について99.89%,そして多フォント数字について96.4%であった. さらに印刷数字と手書き数字の混合認識という,予想される困難性からか従来あまり試みられなかった課題についても,CNNの利用により99.92%の認識率を得た.以上の実験を通して,人間の認識能力に近い性能が得られるように
なった事実を確認した上で,本稿ではさらに今後の研究課題としてどのような 方向性がありうるか,私見を述べたい.

Published in: Data & Analytics
  • Be the first to comment

文字認識はCNNで終わるのか?

  1. 1. 文字認識は CNNで 終わるのか? 内田誠一・井手将太(九大) Dipesh Dangol(Univ. Kaiserslautern) Convolutional Neural Network
  2. 2. 突然ですが… 北九州市をご存じでしょうか?  ここです  治安で度々お騒がせ JNN twitter 現在地
  3. 3. 突然ですが… 北九州市をご存じでしょうか?  公害でも悪名を馳せた 【1960年代】大腸菌も棲めない 死の海 洞海湾 【1960年代】煙に覆われた空、 多数のぜん息患者が現われた http://www.city.kitakyushu.lg.jp/kankyou/
  4. 4. いち早く環境問題に取り組んだ北九州 http://www.kcta.or.jp/shugaku 1950年代から 取組みの萌芽が 1970~80年代 環境技術の進展 1990年代~ 環境問題克服の ノウハウを世界に 展開
  5. 5. 環境問題で世界をリードする北九州へ
  6. 6. 環境問題で世界をリードする北九州へ 早くから問題が顕在化した領域は (努力次第では) いち早く問題の解決法を見出し, さらに他の領域に貢献できる
  7. 7. 環境問題で世界をリードする北九州へ 早くから問題が顕在化した領域は (努力次第では) いち早く問題の解決法を見出し, さらに他の領域に貢献できる 文字認識研究
  8. 8. 環境問題で世界をリードする北九州へ 早くから問題が顕在化した領域は (努力次第では) いち早く問題の解決法を見出し, さらに他の領域に貢献できる 文字認識研究 認識率がCNNで飽和?研究終わる?
  9. 9. 環境問題で世界をリードする北九州へ 早くから問題が顕在化した領域は (努力次第では) いち早く問題の解決法を見出し, さらに他の領域に貢献できる 文字認識研究 パターン認識研究全般 認識率がCNNで飽和?研究終わる?
  10. 10. 本発表の内容  「大規模データ + CNN」の実験を通し 文字認識研究の危機的(?)現状を確認  上を踏まえ,今後の文字認識研究が 進むべき方向を考察
  11. 11. 「大規模データ + CNN」の 実験結果 活字 手書 フォント
  12. 12. 使用したCNN  ベタベタのデフォルトLeNet  ReLU + back-propagation, ランダム初期値 32x32画素
  13. 13. バトル1:印刷数字認識 スキャンした活字数字 フォントは2種類程度 512,265サンプル 全サンプル 10% 90%Random 認識 学習 Trained CNN 認識率: 99.99 % (誤認識は2画像のみ!) 5→6 6→4
  14. 14. バトル2:手書き数字認識 スキャンした手書き数字 不特定多数の筆記者 819,652サンプル 全サンプル 10% 90%Random 認識 学習 Trained CNN 認識率: 99.89 % (誤認識は92画像のみ) MNISTの 10倍規模 MNISTだと 99.77% [Ciresan,CVPR2012]
  15. 15. 全ての誤認識
  16. 16. 全ての誤認識 ここまできたら頑張って読んでほしかった 「納得」してしまう誤認識(人間の認識限界に近い?)
  17. 17. バトル3:ユニバーサルOCR実験 (活字と手書きの混合認識) 先ほどの2つのデータセットを混合 819,652+52,265サンプル 全サンプル 10% 90%Random 認識 学習 Trained CNN 認識率: 99.92 % 誤認識→115 ユニバーサル化で誤認識に転化→36 ユニバーサル化で改善→15
  18. 18. 最後(?)の聖戦:多フォント数字認識 6,721種のフォント 飾り文字的なものも非常に多い 全サンプル 10% 90%Random 認識 学習 Trained CNN 認識率: 96.4 %
  19. 19. 聖戦ver.2:多フォント英文字認識 32 x 32画素 26 文字種 6,721種のフォント x 26文字種 全サンプル 10% 90%Random 認識 学習 Trained CNN 認識率: 94%程度
  20. 20. 正しく認識した 文字の例
  21. 21. 大規模データを全部使った最近傍認識でも 同程度では?と疑ってみる データ 最近傍認識 (ハミング距離) (%) CNN (%) 印刷数字 100.00 99.99 手書き数字 99.03 99.89 印刷+手書き 混合数字 99.45 99.92 多フォント数字 90.00 96.40 誤認識が1/10に 上記の手書きの差がそのまま出た ちなみにCNNの方が1000倍高速 誤認識が1/3に
  22. 22. こんな感じで,個人的には,文字認識 研究について心が折れそうな状態
  23. 23. こんな感じで,個人的には,文字認識 研究について心が折れそうな状態
  24. 24. お断り: もちろん今回の結果は限定的!  高々「10カテゴリ/切り出し済/大量データ」での話  残る疑問:手書き漢字認識は出来るのか?  2000~4000カテゴリのfine-grained problem  「千」「干」の差異がプーリングに耐えられるのか?  残る疑問:自動切り出しは?  残る疑問:レイアウト解析は? 文字認識は終わってない!
  25. 25. お断り: もちろん今回の結果は限定的!  高々「10カテゴリ/切り出し済/大量データ」での話  残る疑問:手書き漢字認識は出来るのか?  2000~4000カテゴリのfine-grained problem  「千」「干」の差異がプーリングに耐えられるのか?  残る疑問:自動切り出しは?  残る疑問:レイアウト解析は? 文字認識は終わってない! しかし,それでも, 早暁来るかも知れない「Xデー」に対して 心構えは必要では? 世界的には現状で 96-98%ぐらい (データが決定的に不足) 認識精度向上の 恩恵を直接受ける
  26. 26. 認識率100%が達成できたとして 次に何をやるべきか? それを考えるときが来ている
  27. 27. 100%の認識精度があって 初めて展開できる研究 「すべてが読める,全能状態」 Topics Beyond 100% (1)
  28. 28. 超詳細(ultra high-grained)物体認識  文字の存在意義の一つは「非」曖昧化 wikipedia naturalsobsessed.blogspot.com “bar-code free” world!
  29. 29. 情景理解への応用  情景や状態の「非」曖昧化も,文字の重要な仕事 www.theaircanadacentre.com lifehacker.com www.thomasmorris.co.uk www.insidehousing.co.uk
  30. 30. “The total recall”  読んだ文字をすべて認識,ライフログ的に記録  Reading-life log 備忘録/自動日記/パーソナル知識ベース/ シェア/比較/評価/定量化/ 推薦/To-Doサポート/ 教育/福祉 応用
  31. 31. 情景内文字画像処理  情景内テキスト強調・拡大  プライバシ保護のためのテキスト情報隠蔽 www.proidee.co.uk by [Inai, et al., ICPR2014] 文字検出
  32. 32. “ドキュメント”の新たな定義へ Texts on signboard Texts on digital displayTexts on notebook Texts on object label すべてシームレスに扱える Texts on poster / ad Texts on book page
  33. 33. 認識率競争とは無縁な “ブルーオーシャン”へ 「Accuracistよ,さらば」 Topics Beyond 100% (2) http://daiko-yushutsu.com
  34. 34. デザインと工学の架け橋: フォント自動デザイン Campbell, ACM Trans.Graphics, 2014 Font manifold by Gaussian Process Latent Variable Model [Uchida, ICDAR, 2015]
  35. 35. 文字質感の解明 Dior Dior Dior
  36. 36. ちょっとした実施例 食品関係には サンセリフ体が多め フォント形状特徴 “food” 意味特徴
  37. 37. 情景内文字が与える意味的情報の解析  我々はどのような言語情報を環境から受け取っているか?  情景内単語16,500の意味分布  Word2vec + k-means + Multidimensional-scaling [品原, PRMU2015]
  38. 38. 人工知能の中心課題である 「文字Aとは何か?」をめぐる旅 Average before registration Average after registration [Uchida, ICDAR, 2015] Hofstadter, Metamagical Themas, 1985
  39. 39. まとめ  大規模データ+CNNによる文字認識  人間の可読限界にも近い認識率  今後は“Beyond 100%”も積極的に考えるべき!  100%認識器でできること  認識率とは無関係な文字研究 そろそろ “北九州”の話だけ ではないかも
  40. 40. 乞う, ご意見・ ご批判! 内田誠一(北九州市出身)

×