Towards Knowledge-Based Personalized Product Description Generation in E-comm...harmonylab
出典:Qibin Chen, Junyang Lin, Yichang Zhang, Hongxia Yang, Jingren Zhou, Jie Tang : Towards Knowledge-Based Personalized Product Description Generation in E-commerce, Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD2019), Anchorage, Alaska, USA, (2019)
公開URL:https://arxiv.org/abs/1903.12457
概要:ECサイトにおける商品説明文の自動生成に関する論文です。商品タイトルから商品説明文を生成するEncoder-Decoderモデル(Base lineモデル)を考えます。このBase lineモデルによって生成される文章は一般的で曖昧な記述をすることが多くあまり使い物にならないとされています。商品説明文に必要な要素は次の2点であると本論文では主張しています。1.顧客の興味を促進するために、商品説明文は顧客の好みに基づいてパーソナライズされる必要があるとされています。2.顧客の意思決定に役立つ説明文には、商品の関連知識が含まれている必要があります。本論文では、パーソナライズされた情報量の多い説明文を生成するために、ユーザカテゴリや外部の知識ベースから取得してきた知識に基づいて商品紹介文を生成するKnowledge Based Personalizedモデルを提案します。
Paper Introduction "A Topic-Sensitive Model for Salient Entity Linking"TatsuroMiyamoto
This is a paper introduction of "A Topic-Sensitive Model for Salient Entity Linking".
Entity Linking is kind of NLP task.
The purpose of the task is identifying a set of entities which target input document contains.
The salient entities are defined as entities that have a really important role to catch a document's aboutness. In other words, salient entities are central to the input document.
The paper introduced on this slide proposed a new Graph-based linking method that identifies a set of salient entities.
The method introduced a Wikipedia category information into Graph structure.
Towards Knowledge-Based Personalized Product Description Generation in E-comm...harmonylab
出典:Qibin Chen, Junyang Lin, Yichang Zhang, Hongxia Yang, Jingren Zhou, Jie Tang : Towards Knowledge-Based Personalized Product Description Generation in E-commerce, Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD2019), Anchorage, Alaska, USA, (2019)
公開URL:https://arxiv.org/abs/1903.12457
概要:ECサイトにおける商品説明文の自動生成に関する論文です。商品タイトルから商品説明文を生成するEncoder-Decoderモデル(Base lineモデル)を考えます。このBase lineモデルによって生成される文章は一般的で曖昧な記述をすることが多くあまり使い物にならないとされています。商品説明文に必要な要素は次の2点であると本論文では主張しています。1.顧客の興味を促進するために、商品説明文は顧客の好みに基づいてパーソナライズされる必要があるとされています。2.顧客の意思決定に役立つ説明文には、商品の関連知識が含まれている必要があります。本論文では、パーソナライズされた情報量の多い説明文を生成するために、ユーザカテゴリや外部の知識ベースから取得してきた知識に基づいて商品紹介文を生成するKnowledge Based Personalizedモデルを提案します。
Paper Introduction "A Topic-Sensitive Model for Salient Entity Linking"TatsuroMiyamoto
This is a paper introduction of "A Topic-Sensitive Model for Salient Entity Linking".
Entity Linking is kind of NLP task.
The purpose of the task is identifying a set of entities which target input document contains.
The salient entities are defined as entities that have a really important role to catch a document's aboutness. In other words, salient entities are central to the input document.
The paper introduced on this slide proposed a new Graph-based linking method that identifies a set of salient entities.
The method introduced a Wikipedia category information into Graph structure.
Variational Template Machine for Data-to-Text Generationharmonylab
公開URL:https://openreview.net/forum?id=HkejNgBtPB
出典:Rong Ye, Wenxian Shi, Hao Zhou, Zhongyu Wei, Lei Li : Variational Template Machine for Data-to-Text Generation, 8th International Conference on Learning Representations(ICLR2020), Addis Ababa, Ethiopia (2020)
概要:Table形式の構造化データから文章を生成するタスク(Data-to-Text)において、Variational Auto Encoder(VAE)ベースの手法Variational Template Machine(VTM)を提案する論文です。Encoder-Decoderモデルを用いた既存のアプローチでは、生成文の多様性に欠けるという課題があります。本論文では多様な文章を生成するためにはテンプレートが重要であるという主張に基づき、テンプレートを学習可能なVAEベースの手法を提案します。提案手法では潜在変数の空間をテンプレート空間とコンテンツ空間に明示的に分離することによって、正確で多様な文生成が可能となります。また、table-textのペアデータだけではなくtableデータのないraw textデータを利用した半教師あり学習を行います。
7. Slot Labeling & Clustering
▶ 名詞をWordNetで置き換えてスロット化
各名詞の上位語をスロットとして置換
• ただし,このままでは詳細すぎる文が多く存在
• テンプレートの一般化(統合)が必要
- 統合するために類似するテンプレートをクラスタリング
- WordNet上の主動詞観の距離で類似度を計算
7
Template Generation
参照要約の例文
The project manager introduced the upcoming project along
with more tools and equipment to the team members.
[speaker] introduced [act.n.02] along
with [artifact.n.01] and [artifact.n.01] to the team members.
:
8. Template Fusion
8
Template Generation
Start と end ノードをセット
□After introducing [situation.n.01], [speaker] then discussed [content.n.05] .
□Before beginning [act.n.02] of [artifact.n.01], [speaker] discussed [act.n.02] and
[content.n.05] for [artifact.n.01] .
□[speaker] discussed [content.n.05] of [artifact.n.01] and [material.n.01] .
□[speaker] discussed [act.n.02] and [asset.n.01] in attracting [living_thing.n.01] .
9. Template Fusion
9
Template Generation
Word Graphにノードと辺を登録
□After introducing [situation.n.01], [speaker] then discussed [content.n.05] .
□Before beginning [act.n.02] of [artifact.n.01], [speaker] discussed [act.n.02] and
[content.n.05] for [artifact.n.01] .
□[speaker] discussed [content.n.05] of [artifact.n.01] and [material.n.01] .
□[speaker] discussed [act.n.02] and [asset.n.01] in attracting [living_thing.n.01] .
10. Template Fusion
10
Template Generation
既存の単語ノードがあればリンク
□After introducing [situation.n.01], [speaker] then discussed [content.n.05] .
□Before beginning [act.n.02] of [artifact.n.01], [speaker] discussed [act.n.02] and
[content.n.05] for [artifact.n.01] .
□[speaker] discussed [content.n.05] of [artifact.n.01] and [material.n.01] .
□[speaker] discussed [act.n.02] and [asset.n.01] in attracting [living_thing.n.01] .
11. Template Fusion
11
Template Generation
既存の単語ノードがあればリンク(以下同様)
□After introducing [situation.n.01], [speaker] then discussed [content.n.05] .
□Before beginning [act.n.02] of [artifact.n.01], [speaker] discussed [act.n.02] and
[content.n.05] for [artifact.n.01] .
□[speaker] discussed [content.n.05] of [artifact.n.01] and [material.n.01] .
□[speaker] discussed [act.n.02] and [asset.n.01] in attracting [living_thing.n.01] .
13. Four Heuristics
▶ 参照要約と対話文の紐付けデータを自動生成
要約文とのコサイン類似度が高い4発話を選択
• AMIコーパスの紐付け数の平均が4発話
- H1 (Baseline)
⁃ 対話全体がCommunity
- H2
⁃ コサイン類似度の上位4発話
- H3
⁃ 動詞をWNで置き換えたものとの類似度の上位4発話
- H4
⁃ 単語の埋め込みベクトルの平均によるコサイン類似度
• English : Google News data
• Italian : Europarl Italian corpus
13
Community Creation
16. Data Sets
▶ 2種類のコーパスで要約生成実験
The AMI meeting corpus [Carletta et al., 2006]
• 全139対話
- 開発データ : 20対話
- 実験データ : 119対話 (3分割交差検定)
The LUNA Human-Human corpus [Dinarelli et al., 2009]
• コールセンタの Client-Agent 間による572対話
• イタリア語の200対話に各5つの要約
- train : test = 100 : 100
• 100対話が英語に翻訳
- Train : test = 50 : 50
16
Experiments
17. Results on AMI
▶ AMI Corpus 上での評価実験
先行研究 (Mehdad, Oya) と ROUGE-2 を比較
より単純な要約文ランキングとCommunity生成
で先行研究を上回る
H[2-4] が 人手の紐づけデータよりも性能が良い
17
Experiments
有意差あり
18. Results on LUNA
▶ LUNA Corpus 上での評価実験
3つのベースラインと比較
• Baseline-L : 長い発話を要約長 (7%) まで選択
• Baseline-LB : 対話の冒頭から長い発話を選択
• MMR : 𝜆 = 0.7
対話の冒頭を抽出するモデルは強力なベースライン
• 議論の問題定義など重要な話題が多いため
• CCCS Shared Task (2015) では,どのモデルも
上回ることができなかった
18
Experiments
19. Results on LUNA
▶ Word2Vec (H4) によるモデルが一番良い結果
H2 : Token < H3 : WordNet < H4 : Word2Vec
• Word2Vec によって,WordNetのスパース性を回避
• English では H2, H3 もベースラインを上回る
全体的に Eng. > It.
• 言語性か学習データ数やドメインに依るのかは今後
Experiments
20. Conclusion
▶ Community 生成によるテンプレート型要約
Word2Vec によってより適切にテンプレートを選択
AMI Corpus と LUNA Corpus 上で最も良い結果
▶ 今後の課題
全体的に英語の方が精度が良かった
• イタリア語の Word2Vec の学習データは小規模
- より大規模なデータで精度を検証
20
Automatic Community Creation for Abs. … Summarization