SlideShare a Scribd company logo
1 of 26
機械学習勉強会(5)
自然言語処理の基礎
June 18, 2020
Tomoya Nakayama
今日説明すること
• 自然言語処理の全体像
• テキストの前処理
• テキストデータの特徴量の作り方
2
今日説明しないこと
• ディープラーニングによる自然言語処理
• 日本語の自然言語処理
3
1. 全体の流れ
4
【復習】機械学習のワークフロー
5
データ
収集
データ
分析
データ
前処理
モデル
作成
モデル
評価
組込み
監視
参考: https://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/how-it-works-mlconcepts.html
主にここで
自然言語処理独自の
手法を用いる
自然言語処理における全体の流れ
テキストの前処理
• 不要な要素の
除去
• 単語分割
• 正規化
• …など
特徴量の作成
• 出現回数
• 出現頻度(TF)
• TF-IDF
• word2vec
• BERT
• …など
モデル構築
• 線形回帰
• 二値分類
• マルチクラス
分類
• …など
6
【復習】データの前処理
• ダミー化(質的変数を0/1の数値に変換)
• 欠損値・外れ値の処理
• 正規化(値を0~1に変換)
• 標準化(標準正規分布に従わせる)
7
【復習】二値分類
科目1 科目2 合否
64 75 ×
77 66 ○
82 55 ×
49 95 ○
58 83 ○
69 69 ?
40
50
60
70
80
90
100
40 50 60 70 80 90
8
合格と不合格の
境界線を見つける
【復習】二値分類の論理
• 目的関数
• 𝑦 = 𝜎(𝑊 𝑇 𝑋 + 𝑏)
• σはシグモイド(sigmoid)関数
• 損失関数
• 交差エントロピー
• 𝐽 =
1
𝑛 𝑖=1
𝑛 (−𝑦𝑖 log 𝑦𝑖 −
0
0.5
1
-6 -4 -2 0 2 4 6
y
x
シグモイド関数
9
2. テキストの前処理
10
前処理の主な手法
• 不要な要素の除去
• 単語分割
• 単語の正規化
11
例文
12
The ship may have sunk but the movie didn't!!! Director, James Cameron, from 'The Terminator' did
it again with this amazing picture. One of my favorite scenes is 'The Dinner table' scene, in which
Rose's family and friends meet Jack after he saves her. Rose has a look on her face that every
woman should have when you meet 'THE ONE'...I hope I have that look when I am in the room with
my future husband.<br /><br />Jack and Rose have a connection that is 'MOVIE STUFF' but it's good
movie stuff. We have the greedy mom and all her elite stuck up associates who live off of their
husbands wealth. Rose almost commits suicide but the Gilbert Grape star rescues her. I really liked
the hanging over the boat scene. It was a good risk.<br /><br />The movie is long but it's fantastic!!!
Good story, good flow, good actors!!! Go see it twice if you want, Its worth it!!!
出典:
Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011).
Learning Word Vectors for Sentiment Analysis.
The 49th Annual Meeting of the Association for Computational Linguistics (ACL 2011).
不要な要素の除去
• 句読点や記号
• ストップワード(使用頻度が高すぎて特徴として不適なもの)
• 英語では冠詞 (a, the)・代名詞 (I, you, they, …)・前置詞 (in, on, of, …)など
• 文章とは関係ない情報(HTMLタグなど)
• (数字)
13
単語分割
• 文章を単語で分割してリスト化
• 日本語だと形態素解析という手法を使う
(日本語のNLPは後日やりたい)
14
正規化 (normalization)
• 大文字を小文字に変換
• 短縮形の展開
• didn’t -> did not
• 語幹化(stemming) …接頭辞・接尾辞を取り除く
• scenes -> scene, played -> play
• レンマ化(lemmatization) …語の原形に変換する
• sunk -> sink, knives -> knife
15
3. 特徴量の作成
16
特徴量作成の主な手法
• テキストのベクトル化
• bag-of-words
• TF
• IF-IDF
• 単語のベクトル化
• word2vec
• GloVe
• BERT
• テキストと単語のベクトル化
• doc2vec(今回は触れない)
17
例文
1. This movie is terrible. It’s a waste of time.
2. This movie was good and made me happy. Had a very good time.
3. This movie is just boring.
1. [movie, terrible, waste, time]
2. [movie, good, made, happy, good, time]
3. [movie, boring]
18
前処理
出現回数 (bag of words)
• テキストごとの各単語の出現回数をそのまま特徴量とする
19
boring good happy made movie terrible time waste
Text 1 0 0 0 0 1 1 1 1
Text 2 0 2 1 1 1 0 1 0
Text 3 1 0 0 0 1 0 0 0
出現頻度(TF: Term Frequency)
• テキストごとの各単語の出現回数を全単語数で割った値を
特徴量とする
• 𝑇𝐹𝑑,𝑤 =
テキスト 𝑑における単語 𝑤の出現回数
テキスト 𝑑の全単語数
20
boring good happy made movie terrible time waste
Text 1 0.00 0.00 0.00 0.00 0.25 0.25 0.25 0.25
Text 2 0.00 0.33 0.17 0.17 0.17 0.00 0.17 0.00
Text 3 0.50 0.00 0.00 0.00 0.50 0.00 0.00 0.00
TF-IDF (IDF: Inverse Document Frequency)
• TFに対し、ほぼすべてのテキストに出現するような
「レア度の低い」単語の重みを下げる
• 𝐼𝐷𝐹𝑤 = log
全テキスト数
単語 𝑤が出現するテキスト数
• 𝑇𝐹𝐼𝐷𝐹𝑑,𝑤 = 𝑇𝐹𝑑,𝑤 × 𝐼𝐷𝐹𝑤
21
boring good happy made movie terrible time waste
IDF 0.48 0.48 0.48 0.48 0.00 0.48 0.30 0.48
Text 1 0.00 0.00 0.00 0.00 0.00 0.12 0.08 0.12
Text 2 0.00 0.16 0.08 0.08 0.00 0.00 0.05 0.00
Text 3 0.24 0.00 0.00 0.00 0.00 0.00 0.00 0.00
単語のベクトル化
• 単語を低次元のベクトルで表現
• このベクトルを「単語埋め込み(word embedding)」とも言う
• 個人的な感覚では50~200次元くらい
• 「近い」単語はベクトルが近くなる
• 単語のベクトルを組み合わせてテキストのベクトルを作る
• 単語のベクトルの合計or平均をとる
• 単語のベクトルを連結させる(全データの長さを合わせる必要あり)
• 学習済みのベクトルが公開されていることも
22
word2vec
• Distributed Representation of
Words and Phrases and their
Compositionality
(Mikolov et al., 2013)
• 共起する(近くに現れる)単
語を学習させる
• ベクトルどうしの関係性もベ
クトルで表せる
• Paris – France + Japan = ?
23
その他の単語埋め込みモデル
• GloVe: Global Vectors for Word Representation
• Pennington et al., 2014
• BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding
• Devlin, et al. 2018
24
4. ハンズオン
25
ハンズオン
• Google Colab版 • ハンズオンの実行にはGoogle
アカウントが必要です。
• 今回からBinder版は廃止しま
した(過去に利用者がいな
かったため)
26

More Related Content

Similar to Machine Learning Seminar (5)

nl-1. 形態素解析と構文解析
nl-1. 形態素解析と構文解析nl-1. 形態素解析と構文解析
nl-1. 形態素解析と構文解析kunihikokaneko1
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meetingakikom0819
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelKei Uchiumi
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクールYuya Unno
 
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジーLucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジーBasis Technology K.K.
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一悠一 鈴木
 
第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案
第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案
第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案Yahoo!デベロッパーネットワーク
 
Pythonで自然言語処理
Pythonで自然言語処理Pythonで自然言語処理
Pythonで自然言語処理moai kids
 
簡単な算数でできる文章校正
簡単な算数でできる文章校正簡単な算数でできる文章校正
簡単な算数でできる文章校正hirokiky
 
拡がるディープラーニングの活用
拡がるディープラーニングの活用拡がるディープラーニングの活用
拡がるディープラーニングの活用NVIDIA Japan
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定Shuyo Nakatani
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English ProficiencyAsahiko Matsuda
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来Preferred Networks
 
Statistical Machine Translation Overview
Statistical Machine Translation OverviewStatistical Machine Translation Overview
Statistical Machine Translation OverviewHiroki Kawano
 
自然言語処理.pptx
自然言語処理.pptx自然言語処理.pptx
自然言語処理.pptxSora Kubota
 

Similar to Machine Learning Seminar (5) (20)

nl-1. 形態素解析と構文解析
nl-1. 形態素解析と構文解析nl-1. 形態素解析と構文解析
nl-1. 形態素解析と構文解析
 
20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting20120731 ALC Eijiro User Meeting
20120731 ALC Eijiro User Meeting
 
Nl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov ModelNl220 Pitman-Yor Hidden Semi Markov Model
Nl220 Pitman-Yor Hidden Semi Markov Model
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
 
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジーLucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
Lucene/Solr 用形態素解析システムのご紹介 ベイシス・テクノロジー
 
内省するTensorFlow
内省するTensorFlow内省するTensorFlow
内省するTensorFlow
 
Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一Dic 1707 ai_人工知能概論_鈴木悠一
Dic 1707 ai_人工知能概論_鈴木悠一
 
Developing User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text AnalyzerDeveloping User-friendly and Customizable Text Analyzer
Developing User-friendly and Customizable Text Analyzer
 
第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案
第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案
第17回Lucene/Solr勉強会 #SolrJP – Apache Lucene Solrによる形態素解析の課題とN-bestの提案
 
Pythonで自然言語処理
Pythonで自然言語処理Pythonで自然言語処理
Pythonで自然言語処理
 
簡単な算数でできる文章校正
簡単な算数でできる文章校正簡単な算数でできる文章校正
簡単な算数でできる文章校正
 
拡がるディープラーニングの活用
拡がるディープラーニングの活用拡がるディープラーニングの活用
拡がるディープラーニングの活用
 
ナイーブベイズによる言語判定
ナイーブベイズによる言語判定ナイーブベイズによる言語判定
ナイーブベイズによる言語判定
 
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
科学技術英語の考え方と学習ツール Mindset and Learning Tools for Scientific English Proficiency
 
大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理大規模発話ログデータを活用した音声対話処理
大規模発話ログデータを活用した音声対話処理
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来
 
NLTK Book Chapter 2
NLTK Book Chapter 2NLTK Book Chapter 2
NLTK Book Chapter 2
 
Statistical Machine Translation Overview
Statistical Machine Translation OverviewStatistical Machine Translation Overview
Statistical Machine Translation Overview
 
自然言語処理.pptx
自然言語処理.pptx自然言語処理.pptx
自然言語処理.pptx
 

Recently uploaded

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Recently uploaded (9)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

Machine Learning Seminar (5)