20190407 第7章事例研究:自然言語処理における素性

@kmotohas
本郷言語処理勉強会 #3
第7章事例研究：自然言語処理における素性

自己紹介
!2
- 本橋和貴 (@kmotohas)
‣ 東工大基礎物理学専攻 PhD (2017)
‣ ソフトバンク株式会社 (2017-2019)
‣ DEEPCORE Inc. (2018-)
‣ スカイマインド株式会社 (2019-)
• 深層学習モデルの開発・運用プラットフォーム SKIL 作ってる会社
• Java/Scalaでできる deeplearning4j の開発
• Keras 2nd (&6th) contributors がいたりする
• 僕はプリセールスエンジニア

目次
!3
- 第２編自然言語データの扱い
‣ 第６章テキストデータのための素性
‣ 第７章事例研究：自然言語処理における素性
• 7.1 文書分類：言語同定
• 7.2 文書分類：トピック分類
• 7.3 文書分類：著者特定
• 7.4 文脈に埋め込まれた単語：品詞タグ付け
• 7.4 文脈に埋め込まれた単語：固有表現認識
• 7.4 文脈に埋め込まれた単語と言語学的素性：前置詞意味曖昧性解消
• 7.4 文脈に埋め込まれた単語の間の関係：アークを単位としたパージング

7.1 文書分類：言語同定
!4
- 文字バイグラムのバッグ（bag of letter-bigrams）が強力
@btsmith #nlp
▪ Character n-gram frequencies for English
Language Identification
28
e 12.6%
t 9.1%
a 8.0%
o 7.6%
i 6.9%
n 6.9%
s 6.3%
h 6.2%
…
th 3.9%
he 3.7%
in 2.3%
er 2.2%
an 2.1%
re 1.7%
nd 1.6%
on 1.4%
…
the 3.5%
and 1.6%
ing 1.1%
her 0.8%
hat 0.7%
his 0.6%
tha 0.6%
ere 0.6%
…
From Cryptograms.org, derived from English documents at Project Gutenberg
https://www.slideshare.net/LithiumTech/lightweight-natural-language-processing-nlp

7.1 文書分類：言語同定
!5
- 文字符号化方式同定（encoding detection）にはバイトバイグラムのバッグが有効
Figure 2: Byte-based method vs. character-based method
– ISO-2022-{JP,KR} [ja,ko]
– UTF-8 [universal]
or characters (unigram
models can use two or
ters (bigrams, trigram
parameter space is exp
between the accuracy
ing, computation and s
tant as the size of the
Asian charsets with ch
3.3 Algorithm
Our ﬁrst choice was N
http://cs229.stanford.edu/proj2007/KimPark-AutomaticDetectionOfCharacterEncodingAndLanguages.pdf

7.2 文書分類：トピック分類
!6
- 文章 {経済/政治/スポーツ/レジャー/ゴシップ/生活/その他}？
- 意味的な基本的な単位は単語 
（語順はあまり意味を持たない）
‣ 単語のバッグ (back-of-words)
‣ 単語バイグラムのバッグ (bag-of-word-bigrams)
• プラスで、レンマ化、単語埋め込みベクトル、TF-IDF重み付けなども効果あり
https://aylien.com/text-api/text-classiﬁcation/

7.3 文書分類：著者特定
!7
- 著者名・性別・年齢・母語など、著者の特徴を推定
- 文章のスタイルに関する特徴が有用
‣ 品詞タグと機能語 (function word)
• 機能語：on, of, the, and, before, … he, she, I, they, …
• それ自身は内容を伝えず、内容を伝える単語と結びついて意味を割り当てる
• 大規模コーパスの再頻出単語上位300語程度が近似的に機能語のリストになる
• それぞれの bigram, trigram, 4-gram, 機能語の密度などが使える

7.3 文書分類：著者特定
!8
- 例： Building Machine Learning Systems with Python の各章の著者特定
‣ by Willi Richert and Luis Pedro Coelho
- 教師なし学習の手法を利用して全12章の著者特定で全問正解
‣ 一文あたりの平均単語数
‣ 一文の長さの分散
‣ 語彙数
‣ 一文あたりのカンマ、セミコロン、コロンの平均数
‣ 機能語のバッグ
‣ 各品詞タグの出現割合
- これらの特徴量を使って k-means (k=2) クラスタリング
http://www.aicbt.com/authorship-attribution/

7.4 文脈に埋め込まれた単語：品詞タグ付け
!9
- 品詞タグ付け (parts-of-speech tagging)
• 例 (Universal Treebank Project): 形容詞、接置詞、副詞、助動詞、等位接続詞、限定詞、間投詞、
名詞、数詞、不変化詞、代名詞、固有名詞、句読点、従属接続詞、記号、動詞、その他
‣ 構造問題、または両側２単語の窓における品詞タグ分類のタスクに近似
• intrinsic（単語それ自体に基づく）手がかり
- 単語それ自身、接頭辞、接尾辞、形状（-ed、un-、大文字）、出現頻度
• extrinsic（その文脈に基づく）手がかり
- 周りの単語の、単語それ自身、接頭辞、接尾辞、前後の品詞予測結果

7.5 文脈に埋め込まれた単語：固有表現認識
!10
タスク説明: 固有表現抽出
• テキスト中から人名や組織名ような固有表現 (NE) を抽出する
• 固有表現定義ほしい情報に基づいて柔軟に定義する
• 情報抽出や検索エンジンインデキシングなどで有用
https://explosion.ai/demos/displacy-ent 5

https://speakerdeck.com/himkt/neural-named-entity-recognition

7.5 文脈に埋め込まれた単語：固有表現認識
!11
- 系列ラベリング問題 (sequence labeling task) として定式化
‣ ラベル付けのスキーマ: BIOタグ (Begin/Inside/Outside encoded tag)
Tag Meaning
O Not part of a named entity
B-PER
I-PER
First word of a person name
Continuation of a person name
B-LOC First word of a location name
期待出力
BIOタグ付け
•IOB (or IOB1): CoNLL 2003 データセットで使われている
• 接頭辞 I を付与; NEが連続する場合，2番目以降 NE 開始単語に
I-PER E-PER S-PER O S-LOC OB-PER
I-PER I-PER B-PER O I-LOC OB-PER
I-PER I-PER B-PER O I-LOC OI-PERIOB
BIO
BIOES
系列タグスキーマ
https://speakerdeck.com/himkt/neural-named-entity-recognition
B-LOC

7.6 文脈に埋め込まれた単語と言語学的素性：前置詞意味曖昧性解消
!12
- 前置詞意味曖昧性解消 (preposition-sense disambiguation)
‣ [a] 目的 (PURPOSE) [b] 受益者 (BENEFICIARY) [c] 期間 (DURATION) [d] 場所 (LOCATION)
‣ 前置詞周りの窓を素性として用いるのは理想的ではない
‣ むしろヒューリスティック（左側の最初の動詞＆右側の最初の名詞）が有効
• 前置詞の支配要素 (governor) と目的語 (object)を獲得できる
h i
h i

7.6 文脈に埋め込まれた単語と言語学的素性：前置詞意味曖昧性解消
!13
- 前置詞意味曖昧性解消 (preposition-sense disambiguation)
‣ [a] 目的 (PURPOSE) [b] 受益者 (BENEFICIARY) [c] 期間 (DURATION) [d] 場所 (LOCATION)
‣ 前置詞周りの窓を素性として用いるのは理想的ではない
‣ むしろヒューリスティック（左側の最初の動詞＆右側の最初の名詞）が有効
• 前置詞の支配要素 (governor) と目的語 (object)を獲得できる
• 依存構造パーザ（後述）の結果も用いてロバストにする h i
h i
h
h i
he liked the round object from the very first time he saw it
nsubj nsubj dobj
det
amod amod amod
det rcmod
dobj
prep pobj
root

7.7 文脈に埋め込まれた単語の間の関係：アークを単位としたパージング
!14
- 依存構造パージング (dependency parsing)
‣ 統語的依存構造木 (syntactic dependency tree) を返す
‣ n2個の単語と単語の関係（アーク）にスコア ARC-SCORE(h, m, sent) を割り当てる
• 文sent、主辞単語候補のインデックスh、修飾語単語候補のインデックスm
the boy with the black shirt opened the door with a key
det prep
prep
amod
det
pobj
nsubj
root
dobj pobj
det det
n2
.h; m; sent/
h m h
m

7.7 文脈に埋め込まれた単語の間の関係：アークを単位としたパージング
!15
- よく使われる素性
‣ 主辞単語の語形と品詞タグ
• cake -> ate
‣ 修飾語の語形と品詞タグ（the, a）
‣ 主辞単語の両側２語の窓
‣ 修飾語の両側２語の窓
‣ 単語クラスタ・単語埋め込みなどの分布論的情報
• 一般に依存構造木の訓練コーパスはあまり大きくない
‣ 単語と単語の距離 dist=¦h-m¦
‣ 単語間の方向
• wm=the, wh=boy のとき、m < h だとアークが貼られる可能性高いが、m > h だとほぼない
‣ 単語間に現れる単語の語形
• the … a … boy のように (the, boy) の間に限定詞がある場合、the が boy にかかる可能性は低い

目次
!16
- 第２編自然言語データの扱い
‣ 第６章テキストデータのための素性
‣ 第７章事例研究：自然言語処理における素性
• 7.1 文書分類：言語同定
• 7.2 文書分類：トピック分類
• 7.3 文書分類：著者特定
• 7.4 文脈に埋め込まれた単語：品詞タグ付け
• 7.4 文脈に埋め込まれた単語：固有表現認識
• 7.4 文脈に埋め込まれた単語と言語学的素性：前置詞意味曖昧性解消
• 7.4 文脈に埋め込まれた単語の間の関係：アークを単位としたパージング

20190407 第7章事例研究:自然言語処理における素性

Recommended

Recommended

More Related Content

Similar to 20190407 第7章事例研究:自然言語処理における素性

Similar to 20190407 第7章事例研究:自然言語処理における素性 (16)

Recently uploaded

Recently uploaded (9)