ACL'14読み会
- 2. • 目的関数
問題設定: 二値分類
• 訓練データ
– : 素性ベクトル(例: Bag-of-words)
– : 二値ラベル
正則化項
損失関数
• log損失:
• 正則化項:
– Ridge:
– Lasso:
– Group Lasso:
言語的構造を
ここに入れる
2
L(xd, yd, w) = log 1 + exp( ydw>
xd)
- 9. 実験: トピック分類、極性分類、テキストによる予測
の3種類で評価
• データセット
– トピック分類: 20Newsgroupsで二値分類
– 極性分類: Stanford sentiment treebankとUS議会の投票
– 予測: 3年以内の引用予測、法案の提出予測
• セットアップ
– parser: Berkeley parser
– LDA:
• トピック数K=1000で学習、トップ10単語を抽出
– Brown:
• 5000クラスタ(トピック分類、極性分類)
• 1000クラスタ(予測)
9