Successfully reported this slideshow.
Your SlideShare is downloading. ×

research.pdf

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 35 Ad

More Related Content

Recently uploaded (20)

Advertisement

research.pdf

  1. 1. 研究紹介 広島市立大学大学院 知能工学専攻 データ工学研究室 渡辺 春希(2267026)
  2. 2. 学部での研究 2
  3. 3. はじめに ・SNSの発展により多くの人が情報を発信できるようになった ・フェイクニュースが投稿され人々を混乱に巻き込んでいる ・人手によるファクトチェックでは時間がかかり情報の真偽を 即座に知ることが出来ない 機械学習や自然言語処理の技術を用いてフェイクニュースかどう かテキスト分類を行う必要がある 3
  4. 4. 研究課題 • 常に学習に必要なデータが十分にあるとは限らない 未知の話題やマイナーな話題など • 少ないデータ量でもモデルを学習させる技術が必要 手法としてデータの拡張を使用 4
  5. 5. 従来手法:EDA ・同義語置換,同義語挿入,単語移動は処理を𝑁回行う ・𝑁 = 𝛼𝑙を満たし,𝛼は単語の変換率,𝑙はテキストの単語数 ・ストップワードに関しては変換を行わない 5 I have a pen I have a pen I have a pen I have a pen I have a pencil Pen have a I I have a Pencil I have a pen 同義語置換 単語移動 単語削除 同義語挿入
  6. 6. EDAの欠点 ・同義語置換のみを行うように𝛼の値を設定 ・EDAでは重要な単語に関して変形が行われる可能性がある. ・テキストの情報を損ねないようなデータ拡張が必要 Taro will do good business together Cocoyam will do salutary stage business together 6
  7. 7. 改善案 • 変形が行われた単語の品詞によってテキスト の意味が変わりやすい 名詞 主語や目的語が変化 動詞 人物が行ったことが変化 データ拡張の際に指定された品詞の単語に関しては変形 が行われないようにする 7
  8. 8. 提案手法:PDA ・データ拡張の際に変形を行わない単語の品詞を指定 ・名詞を指定したため,Taroとbusinessは変形が行われない ・ストップワードにデータセットの頻出単語を追加 Taro will do good business together Cocoyam will do salutary stage business together Taro will do estimable business unitedly 8 EDAで生成したテキスト PDAで生成したテキスト
  9. 9. PDAによるフェイクニュース検出 9
  10. 10. 使用データセット • シリア戦争に関するデータセット,FA-KESを使用 • 426件のリアルニュースと378件のフェイクニュースから構成 • ラベル付けの基準は,死因,死者の数,殺害を行った組織 10
  11. 11. ラベル付け 11 ・VDCの情報と比較し,Gower距離を 算出 ・距離を基準にクラスタリングを行い 自動でラベル付け 2次元投影によるクラスタリング
  12. 12. 実験設定 • 従来のEDAと提案手法を比較 • 7つの機械学習モデルとHybrid CNN-RNNを使用 • 提案手法のパラメータ 増やした数:2倍,3倍,4倍,5倍 品詞:名詞(NN),動詞(VB) 操作:全て(ALL),単語削除(RD),同義語置換(SR), 単語削除と同義語置換(RD&SR) 𝛼の値:0.05~0.10と0.10~0.50 12
  13. 13. Hybrid CNN-RNN 13 CNN LSTM 分類 CNNとLSRMを用いて分類を行う 空間的,時間的な特徴を抽出
  14. 14. 実験結果 パラメータ 正解率 適合率 再現率 F値 2倍,0.06,RD, NN,K近傍法 0.621 0.616 0.654 0.635 3倍,0.10,RD, VB,K近傍法 0.609 0.607 0.630 0.618 2倍,0.05,SR, NN,アダブースト 0.602 0.598 0.642 0.619 パラメータ 正解率 適合率 再現率 F値 2倍,0.30, SR,K近傍法 0.615 0.634 0.556 0.592 3倍,0.30, ALL,アダブースト 0.609 0.604 0.642 0.623 3倍,0.05, RD&SR,SGD 0.609 0.621 0.568 0.594 提案手法による分類結果 EDAによる分類結果 14
  15. 15. 考察 • 品詞の指定やストップワードの追加によりテキストの情報が保 持され,従来のEDAよりも高い正解率を示した • データを増やす量を適切に選ぶ必要がある 15
  16. 16. まとめ • テキストデータの拡張を行いフェイクニュース検出を行った • 従来のEDAと比較し最も高い正解率を示した PDA:62.1% EDA:61.5% • 今後の課題として異なるデータセットでも有効かどうか調査 することが挙げられる 16
  17. 17. 現状 17 ⚫マルチモーダルやグラフベースで検討するも... ⚫データの拡張や水増しは... ある程度研究がされている ・再翻訳の使用。 ・フェイクニュース検出のためのデータ拡張は 行われていない? テキストデータの拡張論文からヒントを得る
  18. 18. 大学院での研究 18
  19. 19. 提案アプローチ 19 ①データ拡張 ②ラベル付与 ③学習,分類 ①PDA,EDAを用いてテキストデータの拡張 ②半教師あり学習などを用いて拡張されたデータのラベル付与 ③モデルを学習させテストデータの分類 単語が変換すればラベルが変わる可能性がある。そこで
  20. 20. 半教師あり学習:Delta-training 20 ・事前学習済みの単語埋め込みはランダムに初期化された 単語埋め込みよりも優れているという仮説を使用 ⚫“Delta-training: Simple Semi-Supervised Text Classification using Pretrained Word Embeddings” Hwiyeol Jo,Ceyda Cinarel. (https://arxiv.org/abs/1901.07651) ・2つの学習器を用いたアンサンブル分類器
  21. 21. モデルの概要 21 ①それぞれの分散表現でモデルの学習を行う ②検証データを用いて早期停止を行う ③学習したそれぞれのモデルを用いて未ラベルデータの分類 ④異なる分類結果のデータを訓練データに追加する
  22. 22. Delta-trainingのイメージ 22 勉強で例えると... A?B? ①難問(未知ラベル) ②質問(分類) ③判断(ラベル割り当て) Bだな! A! B! ①分からない問題に対し,2人の知り合いに質問する。 ②二人の答えがともに違った。 ③優秀な方の回答を参考にする。
  23. 23. 実験設定 23 Epoch数:10 単語の分散表現:Gloveの100次元 入力の単語数:訓練データの1件当たりの平均単語数(約300) 最適化関数:Adam 損失関数:バイナリクロスエントロピー 評価指標 正解率,適合率,再現率,F値の5回の平均値を使用 使用モデル:Bi-LSTM,CNN
  24. 24. パラメータ:EDA,PDA 24 増やした数:2~5倍 品詞:名詞,動詞 操作:全て(ALL),単語削除(RD),同義語置換(SR), 単語削除と同義語置換(RD&SR) αの値:0.05,0.10,0.50 ・EDAに関しては品詞以外同じ ・合計 96+48=144種類のデータセットを作成した ・“FA-KES” の記事の日付が新しいテキストをテストデータとする
  25. 25. 結果:PDA 25 パラメータ 正解率 適合率 再現率 F値 SR,0.10,NN,3倍,Bi-LSTM 0.568 0.557 0.552 0.546 SR,0.05,VB,4倍,Bi-LSTM 0.565 0.555 0.549 0.546 SR,0.05,VB,2倍,Bi-LSTM 0.558 0.540 0.533 0.521 SR,0.10,VB,4倍,Bi-LSTM 0.558 0.546 0.544 0.542 ALL,0.50,VB,3倍,CNN 0.555 0.536 0.528 0.508 パラメータ 正解率 適合率 再現率 F値 RD,0.50,NN,4倍,Bi-LSTM 0.581 0.579 0.577 0.575 RD,0.50,VB,4倍,Bi-LSTM 0.575 0.562 0.533 0.482 RD&SR,0.10,VB,4倍,Bi-LSTM 0.570 0.554 0.539 0.518 RD,0.10,VB,2倍,CNN 0.561 0.416 0.508 0.384 RD&SR,0.05,NN,2倍,CNN 0.560 0.629 0.505 0.372 PDAの上位5件 PDAのDelta-trainingの上位5件
  26. 26. 結果:EDA 26 パラメータ 正解率 適合率 再現率 F値 RD&SR,0.50,5倍,Bi-LSTM 0.570 0.552 0.541 0.522 RD&SR,0.50,4倍,Bi-LSTM 0.559 0.546 0.541 0.536 SR,0.50,5倍,Bi-LSTM 0.558 0.550 0.543 0.535 SR,0.50,2倍,Bi-LSTM 0.558 0.545 0.533 0.515 SR,0.10,2倍,CNN 0.555 0.537 0.526 0.506 EDAの上位5件 EDAのDelta-trainingの上位5件 パラメータ 正解率 適合率 再現率 F値 RD&SR,0.50,4倍,Bi-LSTM 0.590 0.582 0.565 0.552 RD&SR,0.10,5倍,Bi-LSTM 0.589 0.580 0.567 0.558 ALL,0.05,4倍,Bi-LSTM 0.565 0.558 0.536 0.512 RD&SR,0.50,4倍,Bi-LSTM 0.565 0.544 0.522 0.462 RD&SR,0.50,5倍, Bi-LSTM 0.564 0.563 0.562 0.558
  27. 27. Delta-trainingのみの結果 27 パラメータ 正解率 適合率 再現率 F値 RD&SR,0.50,4倍,Bi-LSTM(EDA) 0.590 0.582 0.565 0.552 RD&SR,0.10,5倍,Bi-LSTM(EDA) 0.589 0.580 0.567 0.558 RD,0.50,NN,4倍,Bi-LSTM(PDA) 0.581 0.579 0.577 0.575 RD,0.50,VB,4倍,Bi-LSTM(PDA) 0.575 0.562 0.533 0.482 RD&SR,0.10,VB,4倍,Bi-LSTM(PDA) 0.570 0.554 0.539 0.518 Delta-trainingの上位5件 Delta-trainingの下位5件 パラメータ 正解率 適合率 再現率 F値 SR,0.10,3倍,Bi-LSTM(EDA) 0.407 0.378 0.389 0.379 SR,0.05,5倍,Bi-LSTM(EDA) 0.422 0.426 0.445 0.397 SR,0.05,NN,4倍,Bi-LSTM(PDA) 0.422 0.435 0.448 0.403 SR,0.50,VB,4倍,Bi-LSTM(PDA) 0.427 0.439 0.459 0.396 RD,0.10,VB,5倍,Bi-LSTM(PDA) 0.427 0.424 0.424 0.422
  28. 28. 結果から考えたこと 28 ⚫ PDA:変換する単語に制限を設けている ⚫ EDA:変換する単語に制限を設けていない 幅広いテキストデータが生成されやすい 生成されるテキストデータが似たようなものになりやすい ラベル付与を行う場合,幅広いテキストデータを 生成する手法が効果的だと考えられる
  29. 29. 今後行うこと 29 ・追加されたデータの可視化の実施 Delta-trainingで追加されたデータ は決定境界付近のデータなのか? 分散表現に対しt-SNEを用いて2次元上にプロットする
  30. 30. 30
  31. 31. 補足
  32. 32. 先行研究の結果 モデル 正解率 適合率 再現率 F値 ロジスティック回帰(LR) 0.490 0.500 0.490 0.490 ランダムフォレスト(RF) 0.530 0.560 0.530 0.540 多項式ナイーブベイズ(MNB) 0.380 0.390 0.380 0.320 SGD 0.470 0.490 0.470 0.480 K近傍法(KNN) 0.570 0.580 0.570 0.570 決定木(DT) 0.550 0.560 0.550 0.550 アダブースト(AB) 0.470 0.490 0.470 0.470 Hybrid CNN-RNN 0.600 0.590 0.600 0.590 32
  33. 33. 品詞を複数指定した場合 33 パラメータ 正解率 適合率 再現率 F値 5倍,0.06,SR, K近傍法 0.615 0.623 0.593 0.608 2倍,0.06,RD, K近傍法 0.602 0.605 0.605 0.605 4倍,0.20,ALL, K近傍法 0.602 0.613 0.568 0.590 複数の場合の分類結果 提案手法による分類結果 パラメータ 正解率 適合率 再現率 F値 2倍,0.06,RD, NN,K近傍法 0.621 0.616 0.654 0.635 3倍,0.10,RD, VB,K近傍法 0.609 0.607 0.630 0.618 2倍,0.05,SR, NN,アダブースト 0.602 0.598 0.642 0.619 単体の場合の分類結果
  34. 34. 単語埋め込みの比較 34 TT:Randで正しい予測をし,Embで間違った予測をしたデータ FT:Embで正しい予測をし,Randで間違った予測をしたデータ FF:RandとEmbともに間違った予測をしたデータ
  35. 35. Self Trainingとの比較 35 異なるデータセットにおいてもDelta-trainingが優れている

×