SlideShare a Scribd company logo
1 of 16
Download to read offline
@kmotohas
本郷言語処理勉強会 #3
第7章 事例研究:自然言語処理における素性
自己紹介
!2
- 本橋 和貴 (@kmotohas)
‣ 東工大 基礎物理学専攻 PhD (2017)
‣ ソフトバンク株式会社 (2017-2019)
‣ DEEPCORE Inc. (2018-)
‣ スカイマインド株式会社 (2019-)
• 深層学習モデルの開発・運用プラットフォーム SKIL 作ってる会社
• Java/Scalaでできる deeplearning4j の開発
• Keras 2nd (&6th) contributors がいたりする
• 僕はプリセールスエンジニア
目次
!3
- 第2編 自然言語データの扱い
‣ 第6章 テキストデータのための素性
‣ 第7章 事例研究:自然言語処理における素性
• 7.1 文書分類:言語同定
• 7.2 文書分類:トピック分類
• 7.3 文書分類:著者特定
• 7.4 文脈に埋め込まれた単語:品詞タグ付け
• 7.4 文脈に埋め込まれた単語:固有表現認識
• 7.4 文脈に埋め込まれた単語と言語学的素性:前置詞意味曖昧性解消
• 7.4 文脈に埋め込まれた単語の間の関係:アークを単位としたパージング
7.1 文書分類:言語同定
!4
- 文字バイグラムのバッグ(bag of letter-bigrams)が強力
@btsmith #nlp
▪ Character n-gram frequencies for English
Language Identification
28
e 12.6%
t 9.1%
a 8.0%
o 7.6%
i 6.9%
n 6.9%
s 6.3%
h 6.2%
…
th 3.9%
he 3.7%
in 2.3%
er 2.2%
an 2.1%
re 1.7%
nd 1.6%
on 1.4%
…
the 3.5%
and 1.6%
ing 1.1%
her 0.8%
hat 0.7%
his 0.6%
tha 0.6%
ere 0.6%
…
From Cryptograms.org, derived from English documents at Project Gutenberg
https://www.slideshare.net/LithiumTech/lightweight-natural-language-processing-nlp
7.1 文書分類:言語同定
!5
- 文字符号化方式同定(encoding detection)にはバイトバイグラムのバッグが有効
Figure 2: Byte-based method vs. character-based method
– ISO-2022-{JP,KR} [ja,ko]
– UTF-8 [universal]
or characters (unigram
models can use two or
ters (bigrams, trigram
parameter space is exp
between the accuracy
ing, computation and s
tant as the size of the
Asian charsets with ch
3.3 Algorithm
Our first choice was N
http://cs229.stanford.edu/proj2007/KimPark-AutomaticDetectionOfCharacterEncodingAndLanguages.pdf
7.2 文書分類:トピック分類
!6
- 文章 {経済/政治/スポーツ/レジャー/ゴシップ/生活/その他}?
- 意味的な基本的な単位は単語

(語順はあまり意味を持たない)
‣ 単語のバッグ (back-of-words)
‣ 単語バイグラムのバッグ (bag-of-word-bigrams)
• プラスで、レンマ化、単語埋め込みベクトル、TF-IDF重み付けなども効果あり
https://aylien.com/text-api/text-classification/
7.3 文書分類:著者特定
!7
- 著者名・性別・年齢・母語など、著者の特徴を推定
- 文章のスタイルに関する特徴が有用
‣ 品詞タグと機能語 (function word)
• 機能語:on, of, the, and, before, … he, she, I, they, …
• それ自身は内容を伝えず、内容を伝える単語と結びついて意味を割り当てる
• 大規模コーパスの再頻出単語上位300語程度が近似的に機能語のリストになる
• それぞれの bigram, trigram, 4-gram, 機能語の密度などが使える
7.3 文書分類:著者特定
!8
- 例: Building Machine Learning Systems with Python の各章の著者特定
‣ by Willi Richert and Luis Pedro Coelho
- 教師なし学習の手法を利用して全12章の著者特定で全問正解
‣ 一文あたりの平均単語数
‣ 一文の長さの分散
‣ 語彙数
‣ 一文あたりのカンマ、セミコロン、コロンの平均数
‣ 機能語のバッグ
‣ 各品詞タグの出現割合
- これらの特徴量を使って k-means (k=2) クラスタリング
http://www.aicbt.com/authorship-attribution/
7.4 文脈に埋め込まれた単語:品詞タグ付け
!9
- 品詞タグ付け (parts-of-speech tagging)
• 例 (Universal Treebank Project): 形容詞、接置詞、副詞、助動詞、等位接続詞、限定詞、間投詞、
名詞、数詞、不変化詞、代名詞、固有名詞、句読点、従属接続詞、記号、動詞、その他
‣ 構造問題、または両側2単語の窓における品詞タグ分類のタスクに近似
• intrinsic(単語それ自体に基づく)手がかり
- 単語それ自身、接頭辞、接尾辞、形状(-ed、un-、大文字)、出現頻度
• extrinsic(その文脈に基づく)手がかり
- 周りの単語の、単語それ自身、接頭辞、接尾辞、前後の品詞予測結果
7.5 文脈に埋め込まれた単語:固有表現認識
!10
タスク 説明: 固有表現抽出
• テキスト 中から人名や組織名 ような固有表現 (NE) を抽出する
• 固有表現 定義 ほしい情報に基づいて柔軟に定義する
• 情報抽出や検索エンジン インデキシングなどで有用
https://explosion.ai/demos/displacy-ent 5

https://speakerdeck.com/himkt/neural-named-entity-recognition
7.5 文脈に埋め込まれた単語:固有表現認識
!11
- 系列ラベリング問題 (sequence labeling task) として定式化
‣ ラベル付けのスキーマ: BIOタグ (Begin/Inside/Outside encoded tag)
Tag Meaning
O Not part of a named entity
B-PER
I-PER
First word of a person name
Continuation of a person name
B-LOC First word of a location name
期待出力
BIOタグ付け
•IOB (or IOB1): CoNLL 2003 データセットで使われている
• 接頭辞 I を付与; NEが連続する場合,2番目以降 NE 開始単語に
I-PER E-PER S-PER O S-LOC OB-PER
I-PER I-PER B-PER O I-LOC OB-PER
I-PER I-PER B-PER O I-LOC OI-PERIOB
BIO
BIOES
系列タグスキーマ
https://speakerdeck.com/himkt/neural-named-entity-recognition
B-LOC
7.6 文脈に埋め込まれた単語と言語学的素性:前置詞意味曖昧性解消
!12
- 前置詞意味曖昧性解消 (preposition-sense disambiguation)
‣ [a] 目的 (PURPOSE) [b] 受益者 (BENEFICIARY) [c] 期間 (DURATION) [d] 場所 (LOCATION)
‣ 前置詞周りの窓を素性として用いるのは理想的ではない
‣ むしろヒューリスティック(左側の最初の動詞&右側の最初の名詞)が有効
• 前置詞の支配要素 (governor) と目的語 (object)を獲得できる
h i
h i
7.6 文脈に埋め込まれた単語と言語学的素性:前置詞意味曖昧性解消
!13
- 前置詞意味曖昧性解消 (preposition-sense disambiguation)
‣ [a] 目的 (PURPOSE) [b] 受益者 (BENEFICIARY) [c] 期間 (DURATION) [d] 場所 (LOCATION)
‣ 前置詞周りの窓を素性として用いるのは理想的ではない
‣ むしろヒューリスティック(左側の最初の動詞&右側の最初の名詞)が有効
• 前置詞の支配要素 (governor) と目的語 (object)を獲得できる
• 依存構造パーザ(後述)の結果も用いてロバストにする h i
h i
h
h i
he liked the round object from the very first time he saw it
nsubj nsubj dobj
det
amod amod amod
det rcmod
dobj
prep pobj
root
7.7 文脈に埋め込まれた単語の間の関係:アークを単位としたパージング
!14
- 依存構造パージング (dependency parsing)
‣ 統語的依存構造木 (syntactic dependency tree) を返す
‣ n2個の単語と単語の関係(アーク)にスコア ARC-SCORE(h, m, sent) を割り当てる
• 文sent、主辞単語候補のインデックスh、修飾語単語候補のインデックスm
the boy with the black shirt opened the door with a key
det prep
prep
amod
det
pobj
nsubj
root
dobj pobj
det det
n2
.h; m; sent/
h m h
m
7.7 文脈に埋め込まれた単語の間の関係:アークを単位としたパージング
!15
- よく使われる素性
‣ 主辞単語の語形と品詞タグ
• cake -> ate
‣ 修飾語の語形と品詞タグ(the, a)
‣ 主辞単語の両側2語の窓
‣ 修飾語の両側2語の窓
‣ 単語クラスタ・単語埋め込みなどの分布論的情報
• 一般に依存構造木の訓練コーパスはあまり大きくない
‣ 単語と単語の距離 dist=¦h-m¦
‣ 単語間の方向
• wm=the, wh=boy のとき、m < h だとアークが貼られる可能性高いが、m > h だとほぼない
‣ 単語間に現れる単語の語形
• the … a … boy のように (the, boy) の間に限定詞がある場合、the が boy にかかる可能性は低い
目次
!16
- 第2編 自然言語データの扱い
‣ 第6章 テキストデータのための素性
‣ 第7章 事例研究:自然言語処理における素性
• 7.1 文書分類:言語同定
• 7.2 文書分類:トピック分類
• 7.3 文書分類:著者特定
• 7.4 文脈に埋め込まれた単語:品詞タグ付け
• 7.4 文脈に埋め込まれた単語:固有表現認識
• 7.4 文脈に埋め込まれた単語と言語学的素性:前置詞意味曖昧性解消
• 7.4 文脈に埋め込まれた単語の間の関係:アークを単位としたパージング

More Related Content

Similar to 20190407 第7章 事例研究:自然言語処理における素性

Neural Architecture for Named Entity Recognition
Neural Architecture for Named Entity RecognitionNeural Architecture for Named Entity Recognition
Neural Architecture for Named Entity RecognitionHiroki Nakayama
 
Cocoa勉強会#57-Baseによるローカライズまとめ
Cocoa勉強会#57-BaseによるローカライズまとめCocoa勉強会#57-Baseによるローカライズまとめ
Cocoa勉強会#57-BaseによるローカライズまとめMasayuki Nii
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Hironori Washizaki
 
形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方についてKow Kuroda
 
Perl で自然言語処理
Perl で自然言語処理Perl で自然言語処理
Perl で自然言語処理Toshinori Sato
 
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Taku Tsuzuki
 
Scala採用の背景とその後 @ hitomedia night #5
Scala採用の背景とその後 @ hitomedia night #5Scala採用の背景とその後 @ hitomedia night #5
Scala採用の背景とその後 @ hitomedia night #5Jiro Hiraiwa
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築Tomoyuki Kajiwara
 
関数型っぽくROSロボットプログラミング
関数型っぽくROSロボットプログラミング関数型っぽくROSロボットプログラミング
関数型っぽくROSロボットプログラミングHideki Takase
 
Xcode グループとフォルダー参照 #yhios
Xcode グループとフォルダー参照 #yhiosXcode グループとフォルダー参照 #yhios
Xcode グループとフォルダー参照 #yhiosTomohiro Kumagai
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会正志 坪坂
 
プログラマになれないあなたのための言語戦略 (Gunma.web #7 2011/12/17)
プログラマになれないあなたのための言語戦略 (Gunma.web #7 2011/12/17)プログラマになれないあなたのための言語戦略 (Gunma.web #7 2011/12/17)
プログラマになれないあなたのための言語戦略 (Gunma.web #7 2011/12/17)parrotstudio
 
オブジェクト指向っぽい話
オブジェクト指向っぽい話オブジェクト指向っぽい話
オブジェクト指向っぽい話Tomohiro Shinden
 
TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化tetsuro ito
 
より良いコードを書くための名前付け
より良いコードを書くための名前付けより良いコードを書くための名前付け
より良いコードを書くための名前付けkoji kobayashi
 

Similar to 20190407 第7章 事例研究:自然言語処理における素性 (16)

Neural Architecture for Named Entity Recognition
Neural Architecture for Named Entity RecognitionNeural Architecture for Named Entity Recognition
Neural Architecture for Named Entity Recognition
 
Cocoa勉強会#57-Baseによるローカライズまとめ
Cocoa勉強会#57-BaseによるローカライズまとめCocoa勉強会#57-Baseによるローカライズまとめ
Cocoa勉強会#57-Baseによるローカライズまとめ
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について形容詞と意味フレームの係わり方について
形容詞と意味フレームの係わり方について
 
Perl で自然言語処理
Perl で自然言語処理Perl で自然言語処理
Perl で自然言語処理
 
Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西Active Learning from Imperfect Labelers @ NIPS読み会・関西
Active Learning from Imperfect Labelers @ NIPS読み会・関西
 
Scala採用の背景とその後 @ hitomedia night #5
Scala採用の背景とその後 @ hitomedia night #5Scala採用の背景とその後 @ hitomedia night #5
Scala採用の背景とその後 @ hitomedia night #5
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築日本語の語彙平易化システムの構築
日本語の語彙平易化システムの構築
 
関数型っぽくROSロボットプログラミング
関数型っぽくROSロボットプログラミング関数型っぽくROSロボットプログラミング
関数型っぽくROSロボットプログラミング
 
Xcode グループとフォルダー参照 #yhios
Xcode グループとフォルダー参照 #yhiosXcode グループとフォルダー参照 #yhios
Xcode グループとフォルダー参照 #yhios
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会A scalable probablistic classifier for language modeling: ACL 2011 読み会
A scalable probablistic classifier for language modeling: ACL 2011 読み会
 
プログラマになれないあなたのための言語戦略 (Gunma.web #7 2011/12/17)
プログラマになれないあなたのための言語戦略 (Gunma.web #7 2011/12/17)プログラマになれないあなたのための言語戦略 (Gunma.web #7 2011/12/17)
プログラマになれないあなたのための言語戦略 (Gunma.web #7 2011/12/17)
 
オブジェクト指向っぽい話
オブジェクト指向っぽい話オブジェクト指向っぽい話
オブジェクト指向っぽい話
 
TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化TokyoR LT Rで連続データを離散化
TokyoR LT Rで連続データを離散化
 
より良いコードを書くための名前付け
より良いコードを書くための名前付けより良いコードを書くための名前付け
より良いコードを書くための名前付け
 

Recently uploaded

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 

Recently uploaded (9)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 

20190407 第7章 事例研究:自然言語処理における素性

  • 2. 自己紹介 !2 - 本橋 和貴 (@kmotohas) ‣ 東工大 基礎物理学専攻 PhD (2017) ‣ ソフトバンク株式会社 (2017-2019) ‣ DEEPCORE Inc. (2018-) ‣ スカイマインド株式会社 (2019-) • 深層学習モデルの開発・運用プラットフォーム SKIL 作ってる会社 • Java/Scalaでできる deeplearning4j の開発 • Keras 2nd (&6th) contributors がいたりする • 僕はプリセールスエンジニア
  • 3. 目次 !3 - 第2編 自然言語データの扱い ‣ 第6章 テキストデータのための素性 ‣ 第7章 事例研究:自然言語処理における素性 • 7.1 文書分類:言語同定 • 7.2 文書分類:トピック分類 • 7.3 文書分類:著者特定 • 7.4 文脈に埋め込まれた単語:品詞タグ付け • 7.4 文脈に埋め込まれた単語:固有表現認識 • 7.4 文脈に埋め込まれた単語と言語学的素性:前置詞意味曖昧性解消 • 7.4 文脈に埋め込まれた単語の間の関係:アークを単位としたパージング
  • 4. 7.1 文書分類:言語同定 !4 - 文字バイグラムのバッグ(bag of letter-bigrams)が強力 @btsmith #nlp ▪ Character n-gram frequencies for English Language Identification 28 e 12.6% t 9.1% a 8.0% o 7.6% i 6.9% n 6.9% s 6.3% h 6.2% … th 3.9% he 3.7% in 2.3% er 2.2% an 2.1% re 1.7% nd 1.6% on 1.4% … the 3.5% and 1.6% ing 1.1% her 0.8% hat 0.7% his 0.6% tha 0.6% ere 0.6% … From Cryptograms.org, derived from English documents at Project Gutenberg https://www.slideshare.net/LithiumTech/lightweight-natural-language-processing-nlp
  • 5. 7.1 文書分類:言語同定 !5 - 文字符号化方式同定(encoding detection)にはバイトバイグラムのバッグが有効 Figure 2: Byte-based method vs. character-based method – ISO-2022-{JP,KR} [ja,ko] – UTF-8 [universal] or characters (unigram models can use two or ters (bigrams, trigram parameter space is exp between the accuracy ing, computation and s tant as the size of the Asian charsets with ch 3.3 Algorithm Our first choice was N http://cs229.stanford.edu/proj2007/KimPark-AutomaticDetectionOfCharacterEncodingAndLanguages.pdf
  • 6. 7.2 文書分類:トピック分類 !6 - 文章 {経済/政治/スポーツ/レジャー/ゴシップ/生活/その他}? - 意味的な基本的な単位は単語
 (語順はあまり意味を持たない) ‣ 単語のバッグ (back-of-words) ‣ 単語バイグラムのバッグ (bag-of-word-bigrams) • プラスで、レンマ化、単語埋め込みベクトル、TF-IDF重み付けなども効果あり https://aylien.com/text-api/text-classification/
  • 7. 7.3 文書分類:著者特定 !7 - 著者名・性別・年齢・母語など、著者の特徴を推定 - 文章のスタイルに関する特徴が有用 ‣ 品詞タグと機能語 (function word) • 機能語:on, of, the, and, before, … he, she, I, they, … • それ自身は内容を伝えず、内容を伝える単語と結びついて意味を割り当てる • 大規模コーパスの再頻出単語上位300語程度が近似的に機能語のリストになる • それぞれの bigram, trigram, 4-gram, 機能語の密度などが使える
  • 8. 7.3 文書分類:著者特定 !8 - 例: Building Machine Learning Systems with Python の各章の著者特定 ‣ by Willi Richert and Luis Pedro Coelho - 教師なし学習の手法を利用して全12章の著者特定で全問正解 ‣ 一文あたりの平均単語数 ‣ 一文の長さの分散 ‣ 語彙数 ‣ 一文あたりのカンマ、セミコロン、コロンの平均数 ‣ 機能語のバッグ ‣ 各品詞タグの出現割合 - これらの特徴量を使って k-means (k=2) クラスタリング http://www.aicbt.com/authorship-attribution/
  • 9. 7.4 文脈に埋め込まれた単語:品詞タグ付け !9 - 品詞タグ付け (parts-of-speech tagging) • 例 (Universal Treebank Project): 形容詞、接置詞、副詞、助動詞、等位接続詞、限定詞、間投詞、 名詞、数詞、不変化詞、代名詞、固有名詞、句読点、従属接続詞、記号、動詞、その他 ‣ 構造問題、または両側2単語の窓における品詞タグ分類のタスクに近似 • intrinsic(単語それ自体に基づく)手がかり - 単語それ自身、接頭辞、接尾辞、形状(-ed、un-、大文字)、出現頻度 • extrinsic(その文脈に基づく)手がかり - 周りの単語の、単語それ自身、接頭辞、接尾辞、前後の品詞予測結果
  • 10. 7.5 文脈に埋め込まれた単語:固有表現認識 !10 タスク 説明: 固有表現抽出 • テキスト 中から人名や組織名 ような固有表現 (NE) を抽出する • 固有表現 定義 ほしい情報に基づいて柔軟に定義する • 情報抽出や検索エンジン インデキシングなどで有用 https://explosion.ai/demos/displacy-ent 5  https://speakerdeck.com/himkt/neural-named-entity-recognition
  • 11. 7.5 文脈に埋め込まれた単語:固有表現認識 !11 - 系列ラベリング問題 (sequence labeling task) として定式化 ‣ ラベル付けのスキーマ: BIOタグ (Begin/Inside/Outside encoded tag) Tag Meaning O Not part of a named entity B-PER I-PER First word of a person name Continuation of a person name B-LOC First word of a location name 期待出力 BIOタグ付け •IOB (or IOB1): CoNLL 2003 データセットで使われている • 接頭辞 I を付与; NEが連続する場合,2番目以降 NE 開始単語に I-PER E-PER S-PER O S-LOC OB-PER I-PER I-PER B-PER O I-LOC OB-PER I-PER I-PER B-PER O I-LOC OI-PERIOB BIO BIOES 系列タグスキーマ https://speakerdeck.com/himkt/neural-named-entity-recognition B-LOC
  • 12. 7.6 文脈に埋め込まれた単語と言語学的素性:前置詞意味曖昧性解消 !12 - 前置詞意味曖昧性解消 (preposition-sense disambiguation) ‣ [a] 目的 (PURPOSE) [b] 受益者 (BENEFICIARY) [c] 期間 (DURATION) [d] 場所 (LOCATION) ‣ 前置詞周りの窓を素性として用いるのは理想的ではない ‣ むしろヒューリスティック(左側の最初の動詞&右側の最初の名詞)が有効 • 前置詞の支配要素 (governor) と目的語 (object)を獲得できる h i h i
  • 13. 7.6 文脈に埋め込まれた単語と言語学的素性:前置詞意味曖昧性解消 !13 - 前置詞意味曖昧性解消 (preposition-sense disambiguation) ‣ [a] 目的 (PURPOSE) [b] 受益者 (BENEFICIARY) [c] 期間 (DURATION) [d] 場所 (LOCATION) ‣ 前置詞周りの窓を素性として用いるのは理想的ではない ‣ むしろヒューリスティック(左側の最初の動詞&右側の最初の名詞)が有効 • 前置詞の支配要素 (governor) と目的語 (object)を獲得できる • 依存構造パーザ(後述)の結果も用いてロバストにする h i h i h h i he liked the round object from the very first time he saw it nsubj nsubj dobj det amod amod amod det rcmod dobj prep pobj root
  • 14. 7.7 文脈に埋め込まれた単語の間の関係:アークを単位としたパージング !14 - 依存構造パージング (dependency parsing) ‣ 統語的依存構造木 (syntactic dependency tree) を返す ‣ n2個の単語と単語の関係(アーク)にスコア ARC-SCORE(h, m, sent) を割り当てる • 文sent、主辞単語候補のインデックスh、修飾語単語候補のインデックスm the boy with the black shirt opened the door with a key det prep prep amod det pobj nsubj root dobj pobj det det n2 .h; m; sent/ h m h m
  • 15. 7.7 文脈に埋め込まれた単語の間の関係:アークを単位としたパージング !15 - よく使われる素性 ‣ 主辞単語の語形と品詞タグ • cake -> ate ‣ 修飾語の語形と品詞タグ(the, a) ‣ 主辞単語の両側2語の窓 ‣ 修飾語の両側2語の窓 ‣ 単語クラスタ・単語埋め込みなどの分布論的情報 • 一般に依存構造木の訓練コーパスはあまり大きくない ‣ 単語と単語の距離 dist=¦h-m¦ ‣ 単語間の方向 • wm=the, wh=boy のとき、m < h だとアークが貼られる可能性高いが、m > h だとほぼない ‣ 単語間に現れる単語の語形 • the … a … boy のように (the, boy) の間に限定詞がある場合、the が boy にかかる可能性は低い
  • 16. 目次 !16 - 第2編 自然言語データの扱い ‣ 第6章 テキストデータのための素性 ‣ 第7章 事例研究:自然言語処理における素性 • 7.1 文書分類:言語同定 • 7.2 文書分類:トピック分類 • 7.3 文書分類:著者特定 • 7.4 文脈に埋め込まれた単語:品詞タグ付け • 7.4 文脈に埋め込まれた単語:固有表現認識 • 7.4 文脈に埋め込まれた単語と言語学的素性:前置詞意味曖昧性解消 • 7.4 文脈に埋め込まれた単語の間の関係:アークを単位としたパージング