自然言語処理.pptx

自然言語処理
会議資料

Step
１．形態素解析(MeCab)
２．テキストセグメンテーション
2.1 単純モデル
2.2 BERT or GPT
３．その他

Step1. 形態素解析
文章を最小単語に分解する必要がある。

MeCab
形態素解析：文章を最小の品詞に分解していく処理方法のこと。
MeCabは、大量の単語を保有している辞書。
例：私は日本人です。
私/は/日本人/です/。
名詞/副助詞/名詞/副動詞/記号/

MeCab
注意点：専門用語の辞書登録
* * * * * * * * * * * * *
政治家 1292 1292 10名詞固有名詞一般 * * * せいじかセイジカセイジカ
自民政権 1292 1292 10名詞固有名詞一般 * * * じみんせいけんジミンセイケンジミンセイケン
安倍晋三 1291 1291 1名詞固有名詞人名名 * * あべしんぞうアベシンゾウアベシンゾウ
民主主義 1292 1292 10名詞固有名詞一般 * * * みんしゅしゅぎミンシュシュギミンシュシュギ
誹謗中傷 1292 1292 10名詞固有名詞一般 * * * ひぼうちゅうしょうヒボウチュウショウヒボウチュウショウ
有効性 1292 1292 10名詞固有名詞一般 * * * ゆうこうせいユウコウセイユウコウセイ
緊縮財政 1292 1292 10名詞固有名詞一般 * * * きんしゅくざいせいキンシュクザイセイキンシュクザイセイ
財務次官 1292 1292 10名詞固有名詞一般 * * * ざいむじかんザイムジカンザイムジカン
新型コロナ 1292 1292 10名詞固有名詞一般 * * * しんがたころなういるすシンガタコロナウイルスシンガタコロナウイルス
新型コロナウイルス 1292 1292 10名詞固有名詞一般 * * * しんがたころなういるすシンガタコロナウイルスシンガタコロナウイルス
コロナ 1292 1292 10名詞固有名詞一般 * * * しんがたころなういるすシンガタコロナウイルスシンガタコロナウイルス
大喝采 1292 1292 10名詞固有名詞一般 * * * だいかっさいダイカッサイダイカッサイ
橋下 1292 1292 10名詞固有名詞一般 * * * はしもとハシモトハシモト
環境大臣 1292 1292 10名詞固有名詞一般 * * * かんきょうだいじんカンキョウダイジンカンキョウダイジン
高市早苗 1280 1280 0名詞固有名詞人名名 * * たかいちさなえタカイチサナエタカイチサナエ
さん 1280 1280 0名詞固有名詞一般 * * * さんサンサン
防衛費 1292 1292 10名詞固有名詞一般 * * * ぼうえいひボウエイヒボウエイヒ
河野太郎 1292 1292 10名詞固有名詞人名名 * * こうのたろうコウノタロウコウノタロウ
政務会長 1292 1292 10名詞固有名詞一般 * * * せいむかいちょうセイムカイチョウセイムカイチョウ
財務事務次官 1292 1292 10名詞固有名詞一般 * * * ざいむじむじかんザイムジムジカンザイムジムジカン
氏 1292 1292 10名詞固有名詞一般 * * * しシシ
消費税 1292 1292 10名詞固有名詞一般 * * * しょうひぜいショウジゼイショウヒゼイ

MeCab
Stop Wordsの選択。
私は日本人です。
・必要：私/日本人
・不必要：は/です/。
方法：単語で消すか、品詞で消すか。

Step2. テキストセグメンテーション
文章はセンテンスで分かれている。
例：「それでは会議を始めましょう。今回のお題は、３つあります。それでは、岡部くんお願い。
はい、岡部です。今回、生じましたインシデントに関して、様々な処置をし、なんとか３日間で終
わらせることができました。質問なのですが、インシデントの３日間の解決手段は適切でした
か？はい、適切でした。ありがとうございます。では、次のお題に参りましょう。佐竹くん。はい、
ABS商店の開発案件に関しては、まだ工程数の半分のみですね。いつまでに終わりそうです
か？お客様とご相談次第です。了解です。では、最後どうぞ。はい、今回の社内案件に関して
は、工数をオーバーしております。開発プロジェクトへの増員をお願いしたいです。了解です。
では、他になにか伝えたいことなどあり方はいますか？では会議を終了します。お疲れ様でし
た。お疲れ様でした。」

単純モデル
論文” Text Segmentation as a Supervised Learning
Task”(2018) - Omri Koshorek∗ Adir Cohen∗ Noam Mor
Michael Rotman Jonathan Berant School of Computer
Science Tel-Aviv University, Israel-
下位部では、binary word を２層の双方向LSTMにかける。
Max Poolingに通しデータを圧縮し、Sentence Embedding
のbinary sentencesを作成する。
上位部では、binary sentencesを２層の双方向LSTMにか
ける。Softmaxにより、0～1のデータを出力する。

単純モデル
例：「それでは会議を始めましょう。今回のお題は、３つあります。それでは、岡部くんお願い。
はい、岡部です。今回、生じましたインシデントに関して、様々な処置をし、なんとか３日間で終
わらせることができました。質問なのですが、インシデントの３日間の解決手段は適切でした
か？はい、適切でした。ありがとうございます。では、次のお題に参りましょう。佐竹くん。はい、
ABS商店の開発案件に関しては、まだ工程数の半分のみですね。いつまでに終わりそうです
か？お客様とご相談次第です。了解です。では、最後どうぞ。はい、今回の社内案件に関して
は、工数をオーバーしております。開発プロジェクトへの増員をお願いしたいです。了解です。
では、他になにか伝えたいことなどあり方はいますか？では会議を終了します。お疲れ様でし
た。お疲れ様でした。」
↓
「0100000100000100010001」

単純モデル
・LSTMとは
Long Short Term Memory
・RNN（その前に）
𝑖𝑛𝑝𝑢𝑡 ∶ 𝑥0
, 𝑥1
, … , 𝑥𝑇
, ℎ−1
𝑐𝑒𝑙𝑙 ∶ 𝑦𝑡, ℎ𝑡 = 𝑓(𝑥𝑡, 𝑦𝑡−1, ℎ𝑡−1)
𝑜𝑢𝑡𝑝𝑢𝑡 ∶ 𝑦0, 𝑦1, … , 𝑦𝑇, ℎ𝑇
hは、以前までの情報と捉えて良い。
・RNNの欠点
記憶力が悪い！
𝑦 𝑡 = ℎ 𝑡 = 𝑓𝑡𝑎𝑛ℎ
𝑥𝑡
, ℎ𝑡−1
= tanh 𝑥𝑡𝑊𝑥ℎ + ℎ𝑡−1𝑊ℎℎ + 𝑏
※上の数式はsimple RNNである。
RNNだと数式が複雑になるので。
xがhの情報を消してしまう。
つまり、5～6個前の情報を覚えていない。

単純モデル
・LSTM
𝑓𝑡
= 𝑓𝑓
𝜎
(𝑥𝑡
, ℎ𝑡−1
)
𝑖𝑡 = 𝑓𝑖
𝜎
(𝑥𝑡, ℎ𝑡−1)
𝑜𝑡
= 𝑓𝑜
𝜎
(𝑥𝑡
, ℎ𝑡−1
)
𝑐𝑡
= 𝑓𝑐
𝑡𝑎𝑛ℎ
(𝑥𝑡
, ℎ𝑡−1
)
𝑐𝑡
= 𝑓𝑡
°𝑐𝑡−1
+ 𝑖𝑡
°𝑐𝑡
𝑦𝑡
= ℎ𝑡
= 𝑜𝑡
°𝑐𝑡
1
2
° 3
4
= 1∗3
2∗4
= 3
8
゜はアダマール積
c:長期記憶 h:短期記憶
𝑐𝑡
= 𝑓𝑡
°𝑐𝑡−1
+ 𝑖𝑡
°𝑐𝑡
𝑐𝑡−1
は１つ前の長期記憶
𝑓𝑡はforget gate vector。 𝑓𝑡は、0～1 を取るsigmoid関数なので、0に近いときは記憶を喪
失させ、1に近いときは記憶を引き継ぐ。
𝑖𝑡
°𝑐𝑡
は、xとhを読んで次に追加する新たな記憶のこと。xは今回の記憶。hは短期記憶。
𝑐𝑡
が追加させるべき情報を持つ。 𝑖𝑡
は、0～1を取るので、文脈を加味して、その情報を追
加させるべきかを判断する。
ℎ𝑡 = 𝑜𝑡°𝑐𝑡
これは、長期記憶の中から短期記憶に必要なものを選んでいる。
ちなみに、全てベクトルで出てくるので、それぞれの単語で記憶している。
今回では、 𝑐

単純モデル
・欠点
大量のデータが必要
1万～100万程度

BERT
手法１
“Text Segmentation -
Approaches, Datasets, and
Evaluation Metrics”(2021) -
Taufiquzzaman Peyash-

BERT
手法２
“Two-Level Transformer
and Auxiliary Coherence
Modeling for Improved
Text
Segmentation”(2020)-
Goran Glavas and
Swapna Somasundaran
Dataa nd WebScience
Research Group
University of Mannheim
goran

BERT
・Bidirectional Encoder Representations from Transformers
・2019.10にGoogle検索が適応（日本語は12月）
・自然言語処理AI当時最強モデル。
2017.06 Transformer
2018.02 ELMO
.06 GPT
.10 BERT

BERT
・BERTのポイント
１．Transformerを応用
２．双方向

BERT
Pre-Training & Fine-Tuning
事前学習：Pre-Training
大量のデータ
例：Wiki-727k
個別学習：Fine-Tuning
少量のデータ
例：会議資料（今回）
1,000件程度

BERT
Attention→ Transformer →BERT

BERT
・Attention：Transformerの原型
・時代背景
Encoder-Decoderの限界
入力分→（Encoder）→ベクトル→（Decoder)→出力文
ベクトルには表現できる量に限界があった。
したがって、機械翻訳の精度が30単語から逓減するようになった。
30 単語数
精度
この問題を解決したのが、Attentionであ
る。

BERT
・Attentionは、訳文と元の単語の位置関係を参照できるようにし、情報量を節約した。
I am Japanese .
Encoder-Decoderモデル
意味ベクトルは固定次元
→扱える情報の量や複雑
さに制限
Attentionモデル
固定次元の意味ベクトル
＋入力単語への参照
出力単語毎に用意
して情報を補う

BERT
・問題設定：
英語を日語に翻訳しよう。
入力：𝑥1, 𝑥2, … , 𝑥𝑛
出力：𝑦1, 𝑦2, … , 𝑦𝑚
実際は、𝑝(𝑦𝑖)を出力する。
・Encoder-Decoderの翻訳方法
Encoder:入力を意味ベクトル
へ変換（GRUを利用）
Decoder：
𝑃 𝑦𝑖 = 𝑃 𝑦𝑖 𝑦𝑖−1, 𝑆𝑖
𝑑
, 𝐶
𝑦𝑖：今の単語
𝑦𝑖−1：前回の単語：短期
𝑆𝑖
𝑑
：隠れ状態（これまで何を書
いてきたか）：長期
𝐶：意味ベクトル：全体の意味
𝑠1
𝑒
𝑠2
𝑒
𝑠𝑛
𝑒
= 𝐶
𝑥1 𝑥2 𝑥𝑛
GRU 意味ベクトル
𝑠1
𝑑
𝑠2
𝑑
𝐵𝑂𝑆 𝑦1 𝑦𝑚
𝑃 𝑦1 𝑃 𝑦2 𝑃 𝑦𝑚+1 = 𝐸𝑂𝑆
BOS:Begin of sentence EOS:End of sentence
今回出力したい単語は、前回書いていた単
語と、これまで書いてきた内容と、全体の意
味を加味して出力する。
𝐶
出力が𝑃(𝑦𝑖)だが、これを
BEAM searchにかけて、一つ
の𝑦𝑖を出力し、次の入力とし
て使用している。

BERT
・Attention(RNN search)の翻訳方法
Encoder:固定次元の意味ベクトルで
はなく、文脈を加味した単語ベクト
ルを作る。
ℎ𝑖 = 𝑐𝑜𝑛𝑐𝑎𝑡 ℎ𝑖, ℎ𝑖 =
ℎ𝑖
ℎ𝑖
ℎ1 ℎ2
𝑥2 𝑥𝑛
ℎ1 ℎ2
ℎ𝑛
𝑥1
ℎ𝑛−1
ℎ1
ℎ𝑛−1 ℎ𝑛
𝑥𝑛−1 𝑥𝑛
𝑥1
ℎ𝑛
BiGRU
GRU
前後の文脈を加味して、
各単語（の意味）をベクトル化
Decoder：
𝑃 𝑦𝑖 = 𝑃 𝑦𝑖 𝑦𝑖−1, 𝑆𝑖
𝑑
, 𝐶𝑖
𝐶𝑖 = 𝑗 α𝑖𝑗ℎ𝑗
α𝑖𝑗 =
exp 𝑒𝑖𝑗
𝑘 exp 𝑒𝑖𝑘
=
𝑗
𝑠𝑜𝑓𝑡𝑚𝑎𝑥
𝑒𝑖𝑗
𝑒𝑖𝑗 = 𝑡𝑣𝑎 𝑓𝑡𝑎𝑛ℎ
𝑆𝑖−1
𝑑
, ℎ𝑗
= 𝑡𝑣𝑎 tanh 𝑊𝑠𝑖−1
𝑑
+ 𝑈ℎ𝑖
Attention
softmaxは、0～1なので、その和は１となる。
つまり、意味ベクトルの重み付きの和である。
この意味は、注目したい単語に重みを付けて
いるということ。Attention!→今回の単語の翻訳
ではこの単語を注目してね！ということ。
I am Japanese .
二層のNNを使って、どの
単語に注目するかを𝑆𝑖−1
𝑑
とℎ𝑗から決ている。
Bi GRU
𝑥2 𝑥𝑛
𝑥1
ℎ1 ℎ2 ℎ𝑛
𝑦𝑖−1
𝑠𝑖−1
𝑑
𝑃 𝑦𝑖
𝑠𝑖
𝑑
𝐶𝑖
𝑑𝑖1
𝑑𝑖2
𝑑𝑖𝑛

tf-idf(検索アルゴリズム)
１．tf-idfとは
term frequency-insuerse document frequency
→自然言語処理（NLP）
リコメンド検索
２．問題点：「青い鳥とは」と検索
（１）検索結果を何にするか？
→「とは」は何度も出てくる
（２）どういう順で並べるか？
→長い文章が不当に有利

３．定義と意味
tf-idf(t, d) は単語tと文章dのマッチ度を測る
たくさん登場→高ポイント
レア単語 →高ポイント
前提：
①大量のデータが存在する
文章の集合をDとすると
𝐷 = 𝑑1, 𝑑2, … #D（#Dは、存在する文章数を記号化したもの）
②文章中に単語がある
文章d ( <- D)は
𝑑 = 𝑡1, 𝑡2, … , 𝑡𝑁 N = #d（Nは文章中の単語数）
③単語tが文章dの中に出てくる
単語t ( <- D)

# of t ind = 単語tの登場回数
#d = 文章dの単語数
#D = 全体の文章数
#{d <- D|t <- d} = 単語tを含む文章数
𝑡𝑓 𝑡, 𝑑 =
# 𝑜𝑓 𝑡 𝑖𝑛𝑑
#𝑑
𝑖𝑑𝑓 𝑡 = log
#𝐷
#{𝑑←𝐷|𝑡←𝑑}
𝑡𝑓 − 𝑖𝑑𝑓 𝑡, 𝑑 = 𝑡𝑓 𝑡, 𝑑 ∗ 𝑖𝑑𝑓(𝑡)

・ 𝑡𝑓 𝑡, 𝑑 =
# 𝑜𝑓 𝑡 𝑖𝑛𝑑
#𝑑
文章dの中の単語tの割合
→「長い文章の不当な有利」が解消される。

・𝑖𝑑𝑓 𝑡 = log
#𝐷
まず、
#𝐷
とは、単語tを含む文章の割当を示す。つまり、レア度のこと。
#𝐷
= 𝑝(𝑡)と置くと、
#𝐷
=
1
𝑝 𝑡
となる。
つまり、idf(t)は、レア度が高いと数値が大きくなる。
logは、確率を情報量として扱うことができる。

つまり、「青い鳥とは」はtf-idfでは、
1
𝑝 鳥
>
1
𝑝 青い
>
1
𝑝 とは
となり、
𝑡𝑓 鳥 ∗
1
𝑝 鳥
+ 𝑡𝑓 青い ∗
1
𝑝 青い
+ 𝑡𝑓 とは ∗
1
𝑝 とは
検索結果順序
・「鳥」を多く含むと上位
・「青い」を含むと加点
・「とは」は少しだけ加点

BM25（検索アルゴリズム）
・tf-idfの進化版
文章： d <- D
検索クエリ：𝑞 = (𝑞1, 𝑞2, … 𝑞𝑛) クエリは、単語と同義

𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑖 𝑖𝑑𝑓(𝑞𝑖) ∗
𝑘1+1 𝑓 𝑞𝑖,𝑑
𝑓 𝑞𝑖,𝑑 +𝑘1 1−𝑏+𝑏∗
#𝑑
𝑎𝑣𝑔𝑑𝑙
𝑘1, 𝑏 ∶ 制御パラメータ 𝑘1 = 1.2, 𝑏 = 0.75 が一般的
#𝑑: 文章dの単語数
avgdl: （文章中に出現する）単語数の平均 average of document length
𝑓 𝑞𝑖, 𝑑 : 文章dの中の単語𝑞𝑖の量

式を単純化するため、
#𝑑
= 1とする。
つまり、今回の文章の単語数は平均的な単語出現数と同一であったと仮定するということ。
すると、右側の式は以下のようになる。 𝑓 𝑞𝑖, 𝑑 = 𝑓と省略
𝜑 =
𝑘1+1 𝑓
𝑓+𝑘1
また、 𝑓 = 0（ある文章中に特定の単語が一回も出ないということ。）とすると、
𝜑 = 0となる。
つまり、１回も出ないならレア度は0ということ。

𝜑 =
𝑘1+1 𝑓
𝑓+𝑘1
𝑓 = 1とすると、𝜑 = 1となる。つまり、１回出現ならレア度は１となる。
𝑓 = 2とすると、𝜑 = 2 −
2
2+𝑘1
。レア度は２より少し小さい。
fが増えても青天井にはしない。
𝑘1 + 1
𝜑
𝑓
1
1
𝜑 =
𝑘1 + 1 𝑓
𝑓 + 𝑘1
つまり、たくさんの単語が登
場すると、ポイントも大きい
が。ただ、K_1 + 1までである。

・次に、1 − 𝑏 + 𝑏 ∗
#𝑑
を見ていく。
1 − 𝑏 + 𝑏 ∗
#𝑑
= 𝑏 ∗
#𝑏
+ 1 − 𝑏 ∗ 1 となる。これをグラフ化してみる。
1
1 − 𝑏 + 𝑏 ∗
#𝑑
#𝑑
b = 0
1
b = 1
b = 0.75 右のグラフから分かること、
文章の相対的な長さ（
#𝑑
）が大きいほど、
1 − 𝑏 + 𝑏 ∗
#𝑑
が大きくなる。

長い文章に、特定の単語が大量に含まれるのは当然のこと。
文章が相対的に長いものは、マッチ度を低く見積もろうとするのが、下のグラフ。
#d = avgdlは、相対的単語出現率と同等である。
#d < avgdl は、相対的単語出現率より小さい。
#d > avgdlは、相対的単語出現率より大きい。
𝑘1 + 1
𝜑
𝑓
1
#𝑑 = 𝑎𝑣𝑔𝑑𝑙
#𝑑 > 𝑎𝑣𝑔𝑑𝑙
#𝑑 < 𝑎𝑣𝑔𝑑𝑙
少ない文量の中に特定の単語が大量に出て
るので、ポイントを多めにしてる。
多い文量の中に特定の単語が大量に出てる
きても、当然のことなので、ポイントが少なめ。
bの役割は、この文量の大きさへのペナル
ティ率を表している。
bが大きいと、罰則が大きくなる。
#d > avgdlはより小さくなる。

LDA
・Latent Dirichlet Allocation（潜在的ディリクレ配分法）
・いわゆる、トピックモデル
どのトピックに所属するかを確率的に予測するモデル。クラスタリングモデルの一種。
潜在的意味からトピックを導き出す。
・教師なし学習

LDA
・k-meansとの違い
k平均法
データは一つのクラスタのみに属する
トピックモデル
データは複数のクラスタに属する

自然言語処理.pptx

More Related Content

Similar to 自然言語処理.pptx

Recently uploaded

自然言語処理.pptx