Graph Convolution Networks For Text Classification

Graph Convolution
Networks for
Text Classiﬁcation
Liang Yao, Chengsheng Mao, Yuan Luo

GCNに関して
• GCNが有効な理由のひとつ
• 各ノードが持つ特徴量だけではなく、ノード間の関係も学習に含まれる
• 1 message passingは
• layer構造が一つの場合に対応するのでは？
• #layer >2の場合、あまり精度が変わらない
• ノード間でお互いに影響しうる情報が #layer 2で収束しているためかも
• ノード間の影響力がそれほど強くない
• 更に、考えるとこの結果はデータ依存の結果ではないか？
• Streaming 処理ができれば嬉しいな。

背景
• 文書分類問題
• 文書に一個あるいは複数のラベルをつけること
• 応用
• news ﬁltering、spam detectionなど
• 文書表現
• bag-of-words、n-grams、word2vec
• 最近は、DL modelを使った文書表現の学習も盛んになっている
• 意味的な情報や構文的情報は学習可能
• (コーバス範囲での)単語共起関係は無視されるため、non-consecutive semanticsと
long-distanceは学習不可能

本研究
• GCNを使った文書分類手法を提案
• GCNを使うことによって、単語間、単語と文書間、文書間の関係もモ
デリングに考慮することが可能に
• 結果
• 従来手法より優れた文書分類結果が得られた
• 文書分類と同時に、単語と文書のembeddingを得ることが可能に
• ラベル付きデータの割合が少ない場合でも、良い結果が得られた
• ソースコード: https://github.com/yao8839836/text_gcn

関連研究(1)
• 特徴量エンジニアリング
• bag-of-words
• n-grams
• 文書自体を単語グラフに変換 => グラフ分類問題
• 本研究では、文書の表現を自動的に学習
• アルゴリズム
• 深層学習技術の活用
• word embedding based modelの構築
• word embeddingをモデルの前処理として行う
• 本研究では、結果として出力される
• 既存deep neural networkの利用 : (CNN, RNN, LSTM)
• 単語のlocal consecutive関係は学習できる
• しかし、コーパス範囲でのグローバル的な関係は考慮されない

関連研究(2)
• Graph Neural Networks
• Grid structure
• Bruna 2014, Henaﬀ, Bruna and LeCun 2015など
• Graph structure
• GCN関連研究
• GCNを使った自然言語処理では、大体文書間の関係を用いてグラ
フを作成している
• 本研究では、グラフノードとして、単語と文書、両方を用いる

提案手法: グラフ作成(1)
• 単語、文書をノードとするグラフの構築
• 理由：(コーパス範囲で)グローバル単語共起関係が学習可能になるため
• 各ノード初期状態特徴量: X = 単位ベクトル (one-hot)
• 単語と文書間エッジ
• 単語の出現関係
• 重み：TF-IDF
• 単語と単語間エッジ
• 単語同士の共起関係
• 重み：PMI (Point-wise mutual information、自己相互情報量)
• self-loop エッジ重み：1

提案手法: グラフ作成(2)
• PMI (Point-wise mutual information、自己相互情報量)
• PMIが正の値の場合 (PMIが正値の場合のみ、エッジ生成)
• xとyが一緒に出現しやすい. (独立よりも)共起しやすい傾向にある.
• PMIが負の場合
• xとyが一緒に出現しにくい. (独立よりも)共起しにくい傾向にある.
• PMIが0の場合
• xとyの関連がない. それぞれ独立に出現する.
• 正の値, 負の値の絶対値が大きいほど傾向が強い.

提案手法: 出力関数
• 単語、文書をノードとするグラフを用いてGCN modelを
学習する
• 出力関数
• X: 特徴量、W0 / W1: モデルパラメータ、A: 隣接行列

提案手法: 損失関数
• 単語、文書をノードとするグラフを用いてGCN modelを
学習する
• Loss Function
• Ydf : ラベル付き文書集合

提案手法: 全体図
• Two-layer GCNを実現しているため、文書間の情報交換も可能になっている
• one-layerの場合、文書ラベル情報が1 step 隣接の文書ノードや単語ノードにしか、伝達できない
•

実験: 目的
• 主に2方面
• 文書分類タスクにおいて、十分な性能を出しているの
か？教師データが少ない場合でも、上手く分類できる？
• モデル学習で、同時に行なわれた単語、文書embedding
結果は有効な結果なのか？

実験: データセット
• 前処理
• 分かち書き
• stopwordの削除 (based on NLTK stopwords)
• 頻度の低い単語の削除

実験: 設定
• Layer 1の embedding size : 200
• window size : 20 (共起計算で使う)
• Learning rate : 0.02
• Dropout rate : 0.5
• 最適化: 200 epochs by Adam

考察
• TextGCNが有効である理由
• The text graph can capture both document-word relations and global word-word
relations
• 各ノードが持つ情報は自分自身と隣接ノードの情報をもとに計算されるため
• 単語ノード
• bridge、 key path
• 隣接文書のラベル情報を集めて、次の文書に伝える役割を果たす
• 例外として、MRにおいては、LSTMに負ける結果となっている
• 理由1: TextGCNは単語共起関係を考慮しているが、順序関係が無視されているため
• 理由2: MRデータは、スパースなデータになっている (文書が短いので#edgesが少ない)

実験: パラメータ調整 (1)
• Window size of co-occurrence

実験: パラメータ調整 (2)
• Dimension of embeddings in layer 1

実験: 教師データ割合
• 考察
• ラベル情報が全graph範囲で十分伝達されている
• グローバル単語共起関係が上手く機能している

実験: 文書カテゴリの詳細

まとめと課題
• まとめ
• Text-GCNを提案した
• グラフデータの作成で、単語の共起関係を応用
• 結果として、既存手法より良い精度を持つモデルが作成できた
• 課題
• attention mechanismの利用
• 教師なし学習への拡張

Graph Convolution Networks For Text Classification

More Related Content

Similar to Graph Convolution Networks For Text Classification

Graph Convolution Networks For Text Classification