Attribute Value Tagging (presented at NLP2012)

1,826 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,826
On SlideShare
0
From Embeds
0
Number of Embeds
1,068
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Attribute Value Tagging (presented at NLP2012)

  1. 1. 商品説明文に対する属性値タギング宇佐美 佑東京大学大学院情報理工学系研究科萩原 正人 関根 聡楽天技術研究所
  2. 2. 商品の属性値商品と属性値の紐付け 豊富なアプリケーション例 ‣ ファセットサーチ 赤ワイン ‣ 評判分析 [Liu & Hu WWW’05, フランスボルドー産  Popescu & Etzioni EMNLP’05] 750ml ファセットサーチ例 2
  3. 3. なぜ重要かファセットサーチは不可欠‣ “ It has become the prevailing user interaction mechanism in e-commerce [SIGIR ’06 Workshop on Faceted Search CFP]手作業での入力はコスト高‣ 約50,000 カテゴリ 90,000,000 商品 (楽天市場)属性値の自動付与の必要性‣ 商品説明文に対する属性値タギング問題を解く 3
  4. 4. 属性値タギングとは商品説明文 ◆ 生産者 : クロスター・エバーバッハ◆ 容量 : 750MLご注文の... 属性名 winery 属性名 volume 属性名: 生産者, 容量, etc 属性値: クロスター・エバーバッハ, 750ML, etc. 4
  5. 5. 本研究の貢献新規性‣ 固有表現抽出手法の商品説明文に対する適用得られた知見‣ 辞書の利用は,固有表現抽出と同様に有効‣ 辞書の網羅性のみでは対応できない困難さ 5
  6. 6. 関連研究 人名固有表現抽出 地名‣ 様々な種類の固有表現 組織名[Nadeau & Sekine Lingisticae Investigations’07] 日時 ‣ 表現辞書の利用 遺伝子名[Cohen+ SIGKDD’06, Tsuruoka+ BioNLP’03] タンパク質名属性値辞書の拡張‣ 商品タイトル文 + Bootstrapping (SVM) [Putthividhya & Hu EMNLP’11] ‣ 商品説明文 + Bootstrapping (Co-EM) [Ghani+ SIGKDD’06, Probst+ IJCAI’07] 6
  7. 7. 手法概要 自動 手作業299,851商品の商品説明文(タイトル含む) → 楽天データ公開,ワインカテゴリ中の全商品 属性名ラベル毎 112商品 winery ◆ 生産者 : クロスター・エバーバッハ winery ドメーヌアストラック ◆ 容量 : 750MLご注文の... グラハム・ベック volume 属性値辞書 { タグ付きコーパス 商品説明文 A. ヴィオ ・ ブリュット ・ ロゼ winery taste type 属性値タガーモデル 7
  8. 8. 属性値辞書構築属性名リストの用意と 対象属性名ラベル (18種類) ラベル付与 [坂地+ NLP’10]属性値は属性名の直後に 出現する [Ghani+ SIGKDD’06] ◆ 生産者 : クロスター・エバーバッハ 属性名 winery有意に隣接して出現する ペアをT検定により抽出 属性名,属性値ペア(3,526件)人手によるクリーニング 属性値表現の獲得(2,844件) 8
  9. 9. コーパス作成ワインカテゴリ中より112商品を無作為抽出 → 18種類の属性名ラベルを対象にタグ付け 属性名ラベル 属性名 属性値例 事例数grape 品種, ブドウ品種 CHARDONNAY, 甲州種 261production area 産地, 原産国, 生産地 シャンパーニュ地方, ドイツ 235 DOMAINE ASTRUC,winery 生産者, ワイナリー名 183 グラハム・ベックtype 種類 ロゼ, 赤ワイン, 白泡 158 ヴィンテージ, 収穫年,year 1991, NV, 2007年 130 生産年, 醸造年aroma 香り スイカ, 熟れたイチゴ 103 9
  10. 10. タガーの学習モデル : 文字ベース 位置 i-8 c pos ド B-名詞-固有名詞 type dic K B-PRODUCTION_AREA L2 正則化 CRF i-7 イ I-名詞-固有名詞 K I-PRODUCTION_AREA i-6 ツ I-名詞-固有名詞 K I-PRODUCTION_AREA 実装 : CRFSuite† i-5 産 B-名詞-接尾 C i-4 の B-助詞 H 記法 : IOB2 i-3 赤 B-名詞-一般 C B-TYPE i-2 ワ I-名詞-一般 K I-TYPE i-1 イ I-名詞-一般 K I-TYPE i ン I-名詞-一般 K I-TYPE使用した特徴量 i + 1 と B-助詞 H‣ 文字 (c) i + 2 言 B-動詞 C‣ 品詞 (pos) i + 3 う I-動詞 H i + 4 と B-助詞 H‣ 文字種 (type) i + 5 や B-副詞 H‣ 辞書 (dic) i + 6 や I-副詞 i + 7 甘 B-名詞-一般 H C B-TASTE†http://www.chokkan.org/software/crfsuite/ i + 8 口 I-名詞-一般 C I-TASTE 10
  11. 11. なぜ文字ベースかMeCabによる単語分割/ A / . / ヴィオ・ブリュット・ロゼ / / アイスワインピノ・ノワール /正解アノテーション/ A. ヴィオ / ・ / ブリュット / ・ / ロゼ / / アイスワイン / ピノ・ノワール / winery taste type type grape単語分割が正解と一致しない例が多い → 正しい学習やデコードの妨げとなる 11
  12. 12. 実験‣ 構築した辞書を用いない教師あり学習(S)‣ 構築した辞書を用いた教師あり学習(S+D)‣ (Oracle)全属性値表現を追加した辞書 を用いた教師あり学習(S+D+A) P (%) R (%) F1 S 80.55 56.17 63.11 S+D 79.99 58.45 66.03 (S+D+A) 89.97 84.19 86.18 Leave-one-out 交差検定法にて評価 12
  13. 13. 分析(S+D+A) 属性毎の難易度のばらつき F10080604020 0 grape area winery type year aroma taste volume dish rating alcohol color 13
  14. 14. 分析(S+D+A)False-negative ‣ 訓練データ中での出現が少ない表現 → 特徴量の工夫で表現を汎化 ■ True-positive ブラックベリー、プラム、土の香り ■ False-negative aroma aroma aromaFalse-positive ‣ 商品自体に向けてではない言及 ■ True-positive → タグ付け後の選別 ■ False-positive タイ、サウスウェスタンのようなスパイシーな料理 production area dish 14
  15. 15. 今後の課題‣ 実用可能なレベルでの属性値紐付けの達成 → タグ付けのFNを減らし,後処理でFPを減らす → 商品への属性値紐付けで評価‣ 他のカテゴリへの応用 → 現状の手法の適用可能性 → Semi-supervised手法による分野適応の可能性 15

×