Graph Convolution
Networks for
Text Classification
Liang Yao, Chengsheng Mao, Yuan Luo
GCNに関して
• GCNが有効な理由のひとつ
• 各ノードが持つ特徴量だけではなく、ノード間の関係も学習に含まれる
• 1 message passingは
• layer構造が一つの場合に対応するのでは?
• #layer >2の場合、あまり精度が変わらない
• ノード間でお互いに影響しうる情報が #layer 2で収束しているためかも
• ノード間の影響力がそれほど強くない
• 更に、考えるとこの結果はデータ依存の結果ではないか?
• Streaming 処理ができれば嬉しいな。
背景
• 文書分類問題
• 文書に一個あるいは複数のラベルをつけること
• 応用
• news filtering、spam detectionなど
• 文書表現
• bag-of-words、n-grams、word2vec
• 最近は、DL modelを使った文書表現の学習も盛んになっている
• 意味的な情報や構文的情報は学習可能
• (コーバス範囲での)単語共起関係は無視されるため、non-consecutive semanticsと
long-distanceは学習不可能
本研究
• GCNを使った文書分類手法を提案
• GCNを使うことによって、単語間、単語と文書間、文書間の関係もモ
デリングに考慮することが可能に
• 結果
• 従来手法より優れた文書分類結果が得られた
• 文書分類と同時に、単語と文書のembeddingを得ることが可能に
• ラベル付きデータの割合が少ない場合でも、良い結果が得られた
• ソースコード: https://github.com/yao8839836/text_gcn
関連研究(1)
• 特徴量エンジニアリング
• bag-of-words
• n-grams
• 文書自体を単語グラフに変換 => グラフ分類問題
• 本研究では、文書の表現を自動的に学習
• アルゴリズム
• 深層学習技術の活用
• word embedding based modelの構築
• word embeddingをモデルの前処理として行う
• 本研究では、結果として出力される
• 既存deep neural networkの利用 : (CNN, RNN, LSTM)
• 単語のlocal consecutive関係は学習できる
• しかし、コーパス範囲でのグローバル的な関係は考慮されない
関連研究(2)
• Graph Neural Networks
• Grid structure
• Bruna 2014, Henaff, Bruna and LeCun 2015など
• Graph structure
• GCN関連研究
• GCNを使った自然言語処理では、大体文書間の関係を用いてグラ
フを作成している
• 本研究では、グラフノードとして、単語と文書、両方を用いる
提案手法: グラフ作成(1)
• 単語、文書をノードとするグラフの構築
• 理由:(コーパス範囲で)グローバル単語共起関係が学習可能になるため
• 各ノード初期状態特徴量: X = 単位ベクトル (one-hot)
• 単語と文書間エッジ
• 単語の出現関係
• 重み:TF-IDF
• 単語と単語間エッジ
• 単語同士の共起関係
• 重み:PMI (Point-wise mutual information、自己相互情報量)
• self-loop エッジ重み:1
提案手法: グラフ作成(2)
• PMI (Point-wise mutual information、自己相互情報量)
• PMIが正の値の場合 (PMIが正値の場合のみ、エッジ生成)
• xとyが一緒に出現しやすい. (独立よりも)共起しやすい傾向にある.
• PMIが負の場合
• xとyが一緒に出現しにくい. (独立よりも)共起しにくい傾向にある.
• PMIが0の場合
• xとyの関連がない. それぞれ独立に出現する.
• 正の値, 負の値の絶対値が大きいほど傾向が強い.
提案手法: 出力関数
• 単語、文書をノードとするグラフを用いてGCN modelを
学習する
• 出力関数
• X: 特徴量、W0 / W1: モデルパラメータ、A: 隣接行列
提案手法: 損失関数
• 単語、文書をノードとするグラフを用いてGCN modelを
学習する
• Loss Function
• Ydf : ラベル付き文書集合
提案手法: 全体図
• Two-layer GCNを実現しているため、文書間の情報交換も可能になっている
• one-layerの場合、文書ラベル情報が1 step 隣接の文書ノードや単語ノードにしか、伝達できない
•
実験: 目的
• 主に2方面
• 文書分類タスクにおいて、十分な性能を出しているの
か? 教師データが少ない場合でも、上手く分類できる?
• モデル学習で、同時に行なわれた単語、文書embedding
結果は有効な結果なのか?
実験: データセット
• 前処理
• 分かち書き
• stopwordの削除 (based on NLTK stopwords)
• 頻度の低い単語の削除
実験: 設定
• Layer 1の embedding size : 200
• window size : 20 (共起計算で使う)
• Learning rate : 0.02
• Dropout rate : 0.5
• 最適化: 200 epochs by Adam
実験: 精度比較
考察
• TextGCNが有効である理由
• The text graph can capture both document-word relations and global word-word
relations
• 各ノードが持つ情報は自分自身と隣接ノードの情報をもとに計算されるため
• 単語ノード
• bridge、 key path
• 隣接文書のラベル情報を集めて、次の文書に伝える役割を果たす
• 例外として、MRにおいては、LSTMに負ける結果となっている
• 理由1: TextGCNは単語共起関係を考慮しているが、順序関係が無視されているため
• 理由2: MRデータは、スパースなデータになっている (文書が短いので#edgesが少ない)
実験: パラメータ調整 (1)
• Window size of co-occurrence
実験: パラメータ調整 (2)
• Dimension of embeddings in layer 1
実験: 教師データ割合
• 考察
• ラベル情報が全graph範囲で十分伝達されている
• グローバル単語共起関係が上手く機能している
実験: 文書分類可視化
実験: 単語可視化
実験: 文書カテゴリの詳細
まとめと課題
• まとめ
• Text-GCNを提案した
• グラフデータの作成で、単語の共起関係を応用
• 結果として、既存手法より良い精度を持つモデルが作成できた
• 課題
• attention mechanismの利用
• 教師なし学習への拡張

Graph Convolution Networks For Text Classification