1
あなたがいま読んでいるものは
文字です
画像情報学から見た文字研究のこれから
フェロー記念講演 PRMU@東京大学 生産技術研究所
2019年10月18日(金) 13:00-13:45 (including Q&A)
内田誠一(九州大学・システム情報科学研究院)
2
イントロダクション:
文字はオモシロい!
3
4
こらー!
5
もちろん,確かに認識率は向上してきた!
「10年は飯が食える」と思ってた情景内文字検出・認識も…
 EAST [Zhou+, CVPR, 2017]  CRNN [Shi+, TPAMI, 2017]
CRNNで読めた文字列
6
もちろん,確かに認識率は向上してきた!
こんなのも楽に読めちゃうし(人間以上?)
7
だからこそ,今こそ
身の回りの文字が全部機械で
読めたとして何ができるか,
考えてみてもいいじゃん?
(すくなくともアカデミアでは)
88
1. 文字は色々な性質があって面白い!
2. その面白い性質を扱える時代がようやく到来!
3. だから文字研究はこれからがオモシロイ!
我々の日常は,「文字」とのかかわりにあふれている!
(その程度は犬やカエルや飛行機とは比べものにならない.)
「文字=MNIST」という先入観を捨てて
身の回りの文字の性質を見ていきましょう!
9
画像パターンとしての文字
1010
文字=Plain な画像である
基本的に2値画像
平面的
線分(ストローク)で構成
サイズ小
8x8画素ぐらいでも読める
こうした性質を考慮した文字画像変換
Q.文字に特化したデノイジング,超解像,拡大は?
Q.重なり文字を分離できるか?
Q.ストロークに分解できるか?
Q.ストロークだけスタイライズできるか?
美咲ゴシック
美咲明朝
[Gantugs+, DAS2018]
分離→分+離
1111
あらかじめ決まったクラスが存在する
=文字はパターン認識の対象として極めて有利
例えば英語大文字であれば,26 クラス!
家具認識のためにどのクラスをいくつ準備すべきかは自明ではない
Q: 分布状況解析や,機械学習の挙動解析のために,
もっと文字を積極的に使っては?
クラス境界や分離状況などを厳密に測るためのテストベッドに
(おそらくフォントなら)非ガウシアンな分布解析
[R. Ghrist, Bulletin-American Mathematical Society, 2008]
void構造的? Persistence analysisのようなTopological
Data Analysis(TDA)で解析?
教育目的に
ぴったり!
1212
人為的にデザインされたパターンである
人間が人間のためにつくった通信記号
「文字は脳によって淘汰されたパターンである」(山本和彦先生 岐阜大名誉教授)
Q. アルファベット(文字記号セット)は自動生成可能?
変形に対するinvarianceのためのロスは?
相当込み入っても識別性を保つためのロスは?
まずは「27番目の英文字が生成できるか?」
“0” “1” “2” “3” “4”
…
price
182!071 293?
https://en.wikipedia.org/wiki/Tangut_script
西夏文字
13
[Uchida+, ICDAR
通信符号としての文字
1414
誤り訂正符号としての文字
文字はノイズが印加されても,下手でも,結構読める!
課題
Q. 「なぜ」文字は誤り耐性を持つのか?
• 局所構造が強い? 大局構造が強い?
Q. どの程度耐性を持つのか?どうすれば読めなくなるのか?
Q. 画像変換により誤り訂正可能なのか?
Q. 文字と非文字の厳密な区別は可能か?
[小川英光+, IEICE1994]
1515
(少々重い)Q. 文字Aを定義できるのか?
[Hofstadter, Metamagical Themas, 1985]
=文字”A”のクラスを定義できるのか?
文字には明確なクラスがあるものの,パターンとの関係は非自明
トップダウン(“A”のイデアの定義)は難しそうだが,いまなら
ボトムアップアプローチで”A”を定義できる?
𝑥 ⟼ 𝑐
384
16
時系列パターンとしての文字
https://en.wikipedia.org/wiki/Dysgraphia
1717
文字のマルチモーダル性
手書き文字=画像かつ時系列パターン (稀有!)
マルチモーダル解析手法の対象として好適
Q. モダリティの壁を越えられるか?(筆順復元)
z
z’
result
(時系列)
input
(画像)
“Cross-Modal VAE” [Sumi+, ICDAR2019]
=
画像化
1818
文字筆記の特異性
数字”0”の筆記過程は,明らかに非マルコフ!
=始点と終点を合致させる必要がある
Q. 妥当な筆記モデルとは何か?
ミクロ=マルコフ性で表現しうる局所的構造
メゾ=腕の運動モデル
• sigma-lognormal モデル や minimum-jerkモデル
マクロ=全体のバランスを保つための大局的構造
Q.筆記の発達過程は
参考にならないか?
統合すべき?
20 basic scribbles by [Rhoda Kellogg, Analyzing Children’s Art,
National Press Books, 1969]
1919
文字筆記からの筆記者情報推定
Q. 年齢の影響は?
Q. 性別の影響は?
Q. 気分・感情・性格の影響は?
Q.病気の影響は?
パーキンソン病,アルツハイマー,失読症(ディスレクシア)等
https://en.wikipedia.org/wiki/Micrographia_(handwriting)
https://en.wikipedia.org/wiki/Dysgraphia
http://media.npr.org/assets/img/2014/08/20/irma_signatures_custom-
c1397421ac93fc8541ce07ca39d6ad96e85fd091-s3-c85.jpeg
20
ヴィジュアルデザインとしての文字
2121
多様なフォントの存在:
通信記号なのに多様性が存在する不思議
「より読みやすい文字を!」の成果系列
特定の機能を持ったフォントの必要性
芸術的パッション
特定の雰囲気を持ったフォントの必要性
captcha dyslexia-font MICR font
公団ゴシック Frutiger (案内標識で多用) UDフォント
2222
フォントと印象の関係~確かにある!
課題
Q. 特定印象に合致したフォントを選べるか?
Q. 背景画像/TPOにマッチしたフォントを選べるか?
Q. 特定印象を持ったフォントを自動生成できるか?
Q. フォントのどのような要素がどのように印象を決定?
• それは大局的特徴か?局所的特徴か? 両方か?パラメタライズ可能か?
• それは先天的か? 後天的か? 両方か?
• 認知心理学者やフォントデザイナとのコラボが必要
23
ちなみにフォント印象の主観的評価は1920年代から!
[Poffenberger+, J. Applied Psychology, 1922]
いまなら客観的評価も可能では?
2424
トライアル:書籍ジャンルとタイトルフォントの相関解析
(ジャンル≒印象としたフォント利用の客観的評価)
 Amazonにある20万冊の書籍表紙画像を対象
 文字検出・文字認識・フォント分類には,様々な機械学習を多用
[Shinahara+, ICDAR2019]
25
Genre
Color Font
書籍タイトルフォントのジャンル別頻度解析
200,000
bookcover images
Text detection
Text recognition
Title extraction
Font classification
[Shinahara+, ICDAR2019]
on Bookcovers
26
フォントの使用頻度で評価したジャンルの類似度
距離評価
27
フォントの使用頻度で評価したジャンルの類似度
how-to books
humanity and mentality recreation
タイトル色の使用頻度でも
同様の傾向
2828
余談:2019年9月13日リリース
Fontgraphy (DeNAさんとのコラボ)
https://fontgraphy.dena.com
あなたの声の「質」にあったロゴを生成します
29
文字のデザインに関する余談(研究課題?):
フォントデザインと音
 Bouba/kiki 効果
 どっちがBoubaでどっちがkiki?
 形と音は繋がっている!
• 共感覚=シナスタジア
 キャラの声をフォントで再現!?
Wikipedia “ブーバ/キキ効果”
月刊MdN 2017年2月号
文字は声に出して読める!
フォントデザインも音と関連?
文字×音のマルチモダリティ
30
文字のデザインに関する余談 (研究課題?) :
フォントが擬人化(フォントの印象→キャラ性格)
 となりのヘルベチカ(洋フォント)  フォント男子(和フォント)
↑「ヤングエースアップ」というサイトで無料で読めます
※九大ではどちらm「特別な理由がないと校費では買えません」と言われた
31
文字のデザインに関する余談(研究課題?) :
マニアックなユースケース解析
校費で買えたけど,ちょっと恥ずかしかった…
3232
文字のデザインに関する余談(研究課題?) :
文字が飛んだり跳ねたり… これもデザイン?
Lyric video中の文字の動き解析
 後藤真孝先生@AISTとのコラボ
“DREAM - Dream a
Dream - Lyric Video”
Songwriters: Dream,
Valerie Fahren, Peter
Roberts, Video:
Social Light
[坂口+, 九州支部2019
33
情報系でもフォントデザインがアツい!?
バリアブルフォント(下段)の概念図[服部, 同号記事より引用]
従来(離散的)
バリアブルフォント(連続的)
34
メッセージとしての文字
「知の形」 (世界を変えた書物展, 2019より)
3535
文字(列)から与えられる情報
メッセージ
文字情報そのものが独立で意味を持つ
スマートフォン上のニュースの文字や,書籍紙面上の文字
ラベル(次項)
文字列が添付されている物体等を明確にするための文字
従ってその場を離れてはその価値を失う
ワインの瓶に貼付されているラベル,商品パッケージ上の商品名
非言語情報(前項)
フォントデザインによる印象
3636
“You are what you read”
我々の知識の多くは文字を経由して得られたもの
では,文字を経由してどのような知識を日々得ている?
本から,ディスプレイから,ポスターから,看板から
職場で,街中で,教育の場で,娯楽の場で
Reading-life Log(全文字認識)の実現とログの解析!
Q: 我々の知的活動の定量化は可能か?
Q: どのメディア,時間,場所から,どのような知識が得られるか?
Q: トレンド,個人差,個人内変動,成績との関係?
Q: 読後の行動への影響
黄瀬先生@府大に
教えて頂いたフレーズ
37
Reading-life log:
身の回りの文字をログ化してみると…
郊外旅行 学内うろうろ 町をウロウロ
time (6 hours) time (6 hours) time (6 hours)
単語の意味カテゴリ300
[Uchida+, Unpublished]
38
外国人「東京の看板を全部取っ払った写真がすごい!」→ http://kaigai-matome.net/archives/35546295.html
ラベルとしての文字
3939
ラベルとしての文字
文字にはセマンティックギャップがない→ラベルとして機能
例えば「ワイン」という文字は,特定の飲料をダイレクトに指定
課題
Q: ラベルを利用したfine-grained物体認識は?
• 既にトライアルが始まっている(ex. )
Q: 情景内文字を使ったcaptioningは?
• 以前少しやってみました(with 牛久様@オムロンサイニックエックス)
Q: 文字を読まないと答えられないVisual Q&A
• ICDAR2019でコンペ開催!
Q: メッセージとラベルの識別は可能か?
Q: どのような事物がラベルで明確に?
Q: そのラベルが明確にしている領域は?
↓EXIT
[青バスはどこ行き?]
s2art “One of Two #2“ (Frickr CreativeCommons, CC BY-SA 2.0)
40
予備的検討:物体ラベルとしての文字 (1/2)
Open Images v4
(174万枚)
物体 ”person”
情景内単語 “police”
物体名
意味
情景内単語
意味
任意の物体名と
情景内単語の
共起確率がわかる
word2vec
カーネル
密度推定
person
police
person
police
security
共起
[竹下+, MIRU2019]
41
予備的検討:物体ラベルとしての文字(2/2)
文字が書かれやすい
物体 top 10
rank word
1 direction
2 member
3 council
4 child
25 student
35 university
91 school
rank object word
1 car police
2 bus bus
3 man army
4 bus school
5 book one
6 book land
7 book new
8 tree park
9 person army
10 book book
rank word
1 ambulance
2 calculator
3 scoreboard
4 poster
5 scale
6 ruler
7 envelope
8 fax
9 bus
10 cream
物体と単語の
共起 top 10
バスにあって電車にない
単語の上位
[竹下+, MIRU2019]
42
予備的検討: Scene Text Eraser
われわれがどれぐらい文字に支配されているかを知るために
[Nakamura+, ICDAR2017]
文字の
diminished reality!
43
メディア変換の
ハブとしての文字
France TGVにて
44
(贔屓目に見て)文字はあらゆるメディアのハブである
画像
画像認識
犬
文字
音声認識
音声
ウチの犬がね~
うちの犬がね~
画像キャプショニング
画像生成
音声合成
言語
自然言語処理
犬が立ってます
4545
言語と画像と文字
 Q: 画像と文字と言語(意味)の境界がなくなると何ができるか?
 Q: 文字&画像情報をつかって言語理解を深化できないか?
Mike “beware of dog“ (Frickr CreativeCommons, CC BY-SA 2.0)
“dog” 𝐯
文字認識
scene
text
2画像は関係あり
word
embedding
“bulldog”𝐯′
画像認識
(クラス名)
word
embedding
≅
SonnyandSandy “Hot and Cold in St. Clair, Missouri“ (Frickr CreativeCommons, CC BY-BY-NC-ND 2.0)
Hotは赤,coldは青で印字されること
が多いことを活かして,両単語の意味
的差異を強調できないか?
(今夕,生駒君が発表予定)
46
余談?:「画像から画像へ」の言語変換
[Baba+, ICDAR2019]
[Hoshen+, AAAI2016]
元ネタ:画像ベース足し算
47
最後に
D. Knuth, “The concept of a Meta-font”,
Visible Language, 16(1), 1982
varying28parameters
4848
「対象の性質の見極め」について (1/2)
表現学習ができても,やはり対象の性質の見極めは大事,
と思いたい!
Why?
結局は,ドメイン知識が必要に
CNNの解釈性のためには内部表現(=特徴)の理解が必要
文字認識研究では「対象の性質の見極め」を叩きこまれた
対象の性質を離れた特徴抽出も識別理論もあり得なかった
4949
「対象の性質の見極め」について (2/2)
Accuracist になるよりも,田の字のループを数えよう!
結局そのスキルが我々を「パターン認識研究者」たらしめ,
さらに様々な分野のデータ解析に渇望されているのでは?
斎藤, 山田, 山本, "手書漢字の
方向パターン・マッチング法による
解析", 信学論D, J65-D(5),
1982.
5050
「文字にしかできない研究,
文字だからやりやすい研究」を!
その昔,文字研究がパターン認識をリードしていた
小さい文字画像ならば,当時の計算機能力でも様々な認識
実験が可能だった
=「文字だからできる」研究をやっていたからリードできた!
これからもそうあるべき!
パターン認識の一応用分野に留まるべきではない
「文字にしかできない研究,文字だからやりやすい研究」を
他の分野に先んじて推進すべき
• 「鶏口牛後」の精神で!
さぁ,そんな課題を考えてみましょう!
51
ご清聴ありがとうございました!
Take-home message:
文字はこれからがオモシロイはず!
Note: 公開版では謝辞部分を割愛させて頂きました

「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから