Graph Convolution Networks For Text Classification
- 3. 背景
• 文書分類問題
• 文書に一個あるいは複数のラベルをつけること
• 応用
• news filtering、spam detectionなど
• 文書表現
• bag-of-words、n-grams、word2vec
• 最近は、DL modelを使った文書表現の学習も盛んになっている
• 意味的な情報や構文的情報は学習可能
• (コーバス範囲での)単語共起関係は無視されるため、non-consecutive semanticsと
long-distanceは学習不可能
- 5. 関連研究(1)
• 特徴量エンジニアリング
• bag-of-words
• n-grams
• 文書自体を単語グラフに変換 => グラフ分類問題
• 本研究では、文書の表現を自動的に学習
• アルゴリズム
• 深層学習技術の活用
• word embedding based modelの構築
• word embeddingをモデルの前処理として行う
• 本研究では、結果として出力される
• 既存deep neural networkの利用 : (CNN, RNN, LSTM)
• 単語のlocal consecutive関係は学習できる
• しかし、コーパス範囲でのグローバル的な関係は考慮されない
- 6. 関連研究(2)
• Graph Neural Networks
• Grid structure
• Bruna 2014, Henaff, Bruna and LeCun 2015など
• Graph structure
• GCN関連研究
• GCNを使った自然言語処理では、大体文書間の関係を用いてグラ
フを作成している
• 本研究では、グラフノードとして、単語と文書、両方を用いる
- 7. 提案手法: グラフ作成(1)
• 単語、文書をノードとするグラフの構築
• 理由:(コーパス範囲で)グローバル単語共起関係が学習可能になるため
• 各ノード初期状態特徴量: X = 単位ベクトル (one-hot)
• 単語と文書間エッジ
• 単語の出現関係
• 重み:TF-IDF
• 単語と単語間エッジ
• 単語同士の共起関係
• 重み:PMI (Point-wise mutual information、自己相互情報量)
• self-loop エッジ重み:1
- 8. 提案手法: グラフ作成(2)
• PMI (Point-wise mutual information、自己相互情報量)
• PMIが正の値の場合 (PMIが正値の場合のみ、エッジ生成)
• xとyが一緒に出現しやすい. (独立よりも)共起しやすい傾向にある.
• PMIが負の場合
• xとyが一緒に出現しにくい. (独立よりも)共起しにくい傾向にある.
• PMIが0の場合
• xとyの関連がない. それぞれ独立に出現する.
• 正の値, 負の値の絶対値が大きいほど傾向が強い.
- 11. 提案手法: 全体図
• Two-layer GCNを実現しているため、文書間の情報交換も可能になっている
• one-layerの場合、文書ラベル情報が1 step 隣接の文書ノードや単語ノードにしか、伝達できない
•
- 12. 実験: 目的
• 主に2方面
• 文書分類タスクにおいて、十分な性能を出しているの
か? 教師データが少ない場合でも、上手く分類できる?
• モデル学習で、同時に行なわれた単語、文書embedding
結果は有効な結果なのか?
- 14. 実験: 設定
• Layer 1の embedding size : 200
• window size : 20 (共起計算で使う)
• Learning rate : 0.02
• Dropout rate : 0.5
• 最適化: 200 epochs by Adam
- 16. 考察
• TextGCNが有効である理由
• The text graph can capture both document-word relations and global word-word
relations
• 各ノードが持つ情報は自分自身と隣接ノードの情報をもとに計算されるため
• 単語ノード
• bridge、 key path
• 隣接文書のラベル情報を集めて、次の文書に伝える役割を果たす
• 例外として、MRにおいては、LSTMに負ける結果となっている
• 理由1: TextGCNは単語共起関係を考慮しているが、順序関係が無視されているため
• 理由2: MRデータは、スパースなデータになっている (文書が短いので#edgesが少ない)