Chatbot with Persona Based

1 | P a g e
ashrovy.tumblr.com | ashrovy.wordpress.com |medium.com/ashrovy
____
01:Data-driven response generation in social media. Ritter
et al. 2011
komunikasi antarpribadi :
penerima :
dyadic
addressee
02:A neural network approach to context-sensitive
generation of conversational responses. Sordon et ali.
2015
teman bicara :
daya tarik :
menghasilkan :
interlocutor
traction
yield
03:A neural conversational model. Vinyals. 2015 kecenderungan : propensity
A Persona-Based Neural Conversation Model
Jiwei Li, Michel Galley, Chirs Brockett, Georgios P. Spithouraskis, Jianfeng Gao, Bill Dolan
paper resume by ashrovy
Abstract
Paper ini memperkenalkan persona-based models untuk menghandling isu konsistensi
pembicara didalam neural response generation. Persona-based model di-encode
didalam distributed embedding yang dapat menangkap karakterisitik individual
seperti background information dan speaker style. Model ini menghasilkan
peningkatan kualitatif performa baik untuk perplexity dan BLEU score berdasarkan
sequence to sequence model. Hasil yang sama juga diperoleh teknik evaluasi yang lain
yaitu human judges.
Introduction
Conversational agent telah dikembangkan
dengan tujuan membuat pembicaraan antara
manusia dan bot (chatbot) bisa terasa cukup
realistik dan memilliki response yang
relevant1,2,3,4
. Pada paper ini fokus dalam
menghadapi tantangan konsistensi dan
bagaimana data yang diberikan oleh data
kepada sistem itu koheren dengan menampilkan
“persona” seperti layaknya manusia.
Persona merupakan campuran dari beberapa
indentitas (profile, fact atau latarbelakang,
language behavior dan gaya berbicara).
Untungnya neural model conversational
generation2,3,4,5
sudah ada yang mengarah
kepada personas sebagai embedding. Maka
pada paper ini akan mengeksplore dua persona
model: single-speaker (Speaker model) dan
diadik (Speaker-Addressee model), didalam
framework sequence-to-sequence (seq2seq).
Pada Speaker model akan mengintegrasikan
speaker-level vector representation kedalam
bagian target pada seq2seq model. Secara
analog, Speaker-Addressee model meng-
encode pola interaksi dari dua pembicara
dengan mengkonstruksi gambaran interaksi dari
individual embedding dan menggabungkan ke
dalam seq2seq model. Dan eksperimen ini
bersifat open-domain corpus pada percakapan
di Twitter dan dialog dataset dari TV series script
yang memanfaatkan persona vector.
Harapannya itu semua dapat meningkatkan
performa hingga 20% pada BLEU score dan 12%
pada perplexity.
Related Work
Pengerjaan ini dinisiasi dari conversational
dialog sebagai stastiscal machine translation
problem atau SMT7
yang menggambarkan
bahwa tidak perlu terlalu bergantung pada
aturan hand-coded dengan membangun model
statis aturan heuristik atau template7,8,9,10,11
,
atau dengan learning geration rules dari minimal
set authored rules atau label12,13,14,15,16,17
. Baru-

2 | P a g e
____
04:A diversity-promoting objective function for neural
conversation models. Li et al.2016
memberikan :
campuran :
composite
endow
05:Neural responding machine for short-text
conversation. Shang et al. 2015
sepadan :
vague :
commensurate
samar
06:Data-driven response generation in social media.
Ritter et al. 2011
menggabungkan :
terdiri dari :
incorporating
comprising
07:A stochastic model of human-machine interaction
for learning dialog strategies. Levin et al. 2000
memanfaatkan teknologi :
Sejaman :
leveraging
contemporaneous
08:The hidden information state model: A practical
framework for pomdp-based spoken dialogue
management. Young et al. 2010
membedakan :
menunjukkan:
sudut:
distinguish
denotes
generation
baru ini malah menggunakan Long Short-Term
Memory (LSTM)18
untuk mempelajari data yang
tidak memiliki identitas waktu untuk
mengurangi heuristic space pada kalimat.
SMT model1
adalah end-to-end, data murni dan
berisi model yang tidak eksplisit pada struktur
dialog. Pada prosesnya. SMT stemming
menggunakan natural language model19,20,21,22
yang telah menginspirasikan pada kinerja teknik
neural pada SMT-based respon hasil
pembicaraan dengan rescoring ouput
menggunakan seq2seq model yang dikondisikan
pada history percakapan. Penelitian yang lain
menggunakan seq2seq untuk menghasilkan
response dengan gaya end-to-end tanpa
mengandalkan SMT phrase table3,23,24
ialah
dengan menggunakan hierarchical neural model
yang menangkap keterkaitan pada history
percakapan. Ada juga penelitian yang mengukur
informasi4
yang dikenal antara pesan dan
response untuk mengurangi proporsi generic
response seq2seq sistem. Ada juga yang
menjaga relevansi response5
terhadap masukan
yang ada.
Modeling user dan speaker telah dipelajari
didalam dialog standar modeling
framework25,26,27
. Open-domain skenario
menjadi sulit dipelajari didalam conventional
dialog system, model model yang ada cenderung
fokus dalam menghasilkan karakter28,29
. Pada
pengerjaan saat ini, lebih cenderung
memperkaya model dengan men-training
persona vector langsung dari data pembicaraan
dan informasi yang relevant.
Sequence to Sequence Models
Sequence input adalah 𝑋 = {𝑥1, 𝑥2, … , 𝑥 𝑛 𝑋
}
LSTM mengasosiasikan setiap langkah dengan
memory gate dan ouput gate, masing-masing
elemen dilambangkan sebagai 𝑖 𝑡, 𝑓𝑡 dan 𝑜𝑡.
Bedakan antara 𝑒 dan ℎ dimana 𝑒𝑡
melambangkan vector untuk unit teks individual
(kata atau kalimat) pada waktu timestep 𝑡 pada
ℎ 𝑡 menujukkan vector yang dikomputasikan oleh
LSTM pada waktu 𝑡, kemudian dikombinasikan
dengan 𝑒𝑡 dan ℎ 𝑡−1. Cell state vector 𝑐𝑡 pada
waktu 𝑡, dan σ melambangkan fungsi sigmoid.
Kemduan vector menggambarkan ℎ 𝑡 untuk
setiap time step 𝑡:
[
𝑖 𝑡
𝑓𝑡
𝑜𝑡
𝑙 𝑡
] = [
𝜎
𝜎
𝜎
𝑡𝑎𝑛ℎ
] 𝑊 ∙ [
ℎ 𝑡−1
𝑒𝑡
8 ]
⋯ 01 ⋯
𝑐𝑡 = 𝑓𝑡 ∙ 𝑐𝑡−1 + 𝑖 𝑡 ∙ 𝑙 𝑡
⋯ 02 ⋯
ℎ 𝑡
8
= 𝑜𝑡 ∙ tanh(𝑐𝑡)
⋯ 03 ⋯
dimana 𝑊 ialah 𝑊𝑖, 𝑊𝑓, 𝑊𝑜, 𝑊𝑙 ∈ ℝ 𝐾 ×2𝐾
.
Didalam sudut seq2seq memiliki tugas, setiap
input 𝑋 dipasangkan dengan sebuah sequence
output untuk memprediksi: 𝑌 = {𝑦1, 𝑦2, … , 𝑦𝑛 𝑌
}.
LSTM mendefenisiskan sebuah distribusi melalui
output dan diteruskan pada rentetan token
prediksi menggunakan fungsi softmax:

3 | P a g e
____
09:A trainable generator for recommendations in
multimodal dialog. Walker et al. 2003
komposisi:
berbeda:
compositional
distinct
10:Are we there yet? research in commercial spoken
dialog systems.Pieraccini et al. 2009
sangat:
beranotasi:
tremendously
annotated
11:Improving spoken dialogue understanding using
phonetic mixture models. Wang et al. 2011
sifat:
menempati:
traits
occupying
12:Stochastic language generation for spoken
dialogue systems. Oh et al. 2000
anggap saja:
Sebagai gantinya:
suppose that
Instead
𝑝(𝑌|𝑋) = ∏ 𝑝(𝑦𝑡|𝑥1, 𝑥2, … , 𝑥𝑡, 𝑦1, 𝑦2, … , 𝑦𝑡−1)
𝑛 𝑦
𝑡=1
= ∏
exp(𝑓(ℎ 𝑡−1, 𝑒 𝑦𝑡))
∑ 𝑒𝑥𝑝(𝑓(ℎ 𝑡−1, 𝑒 𝑦′))𝑦′
𝑛 𝑦
𝑡=1
dimana 𝑓(ℎ 𝑡−1, 𝑒 𝑦𝑡) menunjukkan fungsi
aktivasi antara ℎ 𝑡−1 dan 𝑒 𝑦𝑡. Setiap kalimat
diakhiri dengan simbol EOS (end-of-sentence).
Untuk menjaga percobaan umum, input dan
ouput menggunakan LSTM yang berbeda dengan
memisahkan parameter untuk menangkap pola
komposisi.
Selama decoding, algoritma berhenti ketika
sebuah token telah diprediksi. Untuk setiap
timestep, baik pendekatan greedy ataupun
beam search dapat mengambil prediksi kata.
Personlized Response Generation
Pengerjaan yang dipaparkan didalam paper ini
memperkenalkan dua persona-based models:
Speaker Model, dimana personality model
sebagai respoden, dan Speaker-Addressee
Model dimana alur model mengadaptasi
pembicaraan yang diberikan oleh penerima30
.
Notation
Untuk merespon tugas turunan. Biarkan 𝑀
menunjukkan input sequence kata (message)
𝑀 = {𝑚1, 𝑚2, … , 𝑚𝐼}. 𝑅 menunjukkan sequence
kata didalam response 𝑀, dimana reponse 𝑅 =
{𝑟1, 𝑟2, … , 𝑟𝐽, 𝐸𝑂𝑆} dan 𝐽 adalah panjang dari
response (yang dihentikan oleh token EOS).
Sedangkan 𝑟𝑡 sendiri menunjukkan token kata
yang terasosiasi dengan dimensional 𝐾pada
word embedding yang berbeda 𝑒𝑡. Besaran
vocabulary disimbolkan oleh 𝑉.
Speaker Model
Model pertama yang akan dibahas disini ialaah
Speaker Model, yang meresponden sendiri.
Model ini menggambarkan pembicara individual
sebagai vector atau embedding, yang akan
meng-encode spesifik informasi pembicara
(seperti: dialek, umur, gender dan lain-lain) dan
ini berperngaruh pada respon konten. Sebagai
catatan atribut-atribut diatas tidak secara
explisit di anotasikan karena akan sangat mahal
dan besar untuk pengumpulan dataset. Sebagai
gantinya, model ini dapat menggabungkan
pengguna dari beberapa ciri (seperti umur,
wilayah dan lain-lain) berdasarkan responden
sendiri.
Gambar 1 memberikan ilustrasi jelas tentang
Speaker Model. Setiap speaker 𝑖 𝜖 [1, 𝑁]
terasosiakan dengan user-level 𝑣𝑖 ∈ ℝ 𝐾×1
.
Sebagai standar seq2seq model, pertama
encode message 𝑆 kedalam sebuah vector ℎ 𝑆
menggunakan sumber pada LSTM. Kemudian
setiap step pada target, hidden unit didapatkan
dengan menggabungkan gambaran yang
diproduksi dari target LSTM di waktu sebelum
timestep, representasikan kata di timestep yang
sama dan speaker embedding 𝑣𝑖.
[
𝑖 𝑡
𝑓𝑡
𝑜𝑡
𝑙 𝑡
] = [
𝜎
𝜎
𝜎
𝑡𝑎𝑛ℎ
] 𝑊 ∙ [
ℎ 𝑡−1
𝑒𝑡
8
𝑣𝑖
]
⋯ 04 ⋯
𝑐𝑡 = 𝑓𝑡 ∙ 𝑐𝑡−1 + 𝑖 𝑡 ∙ 𝑙 𝑡
⋯ 05 ⋯
ℎ 𝑡
8
⋯ 06 ⋯

4 | P a g e
____
13:Trainable approaches to surface natural language
generation and their application to conversational
dialog systems. Ratnapharki. 2002
perpanjangan:
tunangan:
semaunya:
extension
engaged
arbitary
14:IRIS: a chatoriented dialogue system based on the
vector space model. Banchs et al. 2012
menonjol:
secara linear:
salient
linearly
15:Luke, I am your father: dealing with out-of-domain
requests by using movies subtitles. Ameixa et al.
2014
mencoba:
tergabung:
yaitu:
attempt
incoporated
namely
16:Developing non-goal dialog system based on
examplesofdramatelevision. Nio et al. 2014.
berasal:
memeriksa:
derives
examine
17:An empirical investigation of sparse log-linear
models for improved dialogue act classiﬁcation.
Chen et al. 2013
kemungkinan:
terkait:
paling banyak:
likelihood
associated
at most
dimana 𝑊 ∈ ℝ4𝐾×3𝐾
. Pada tahap ini informasi
dari speaker di encoded dan di inject ke dalam
hidden layer disetiap timestepnya dan dengan
demikian dapat membantu memprediksi respon
secara personalitas melalui proses generation.
Embedding speaker {𝑣𝑖} dishare melalui
percakapan yang terkait dengan speaker 𝑖. {𝑣𝑖}
dipelajari dengan back propagating word
prediction errors untuk setiap neural component
selama latihan.
Model ini dapat membantu mengambil
kesimpulan pada jawaban dari soal meskipun
tidak ada bukti (yang membenarkan jawaban
tersebut pada dataset) yang muncul pada
training dataset. Ini yang penting sewaktu
training, data yang terdapat didalam training
data tidak explicit secara informasi (atau detail)
untuk setiap attribute pada setiap pengguna
(seperti gender, age, country residence). Model
mempelajari representasi pembicara based on
kontent pembicaraan yang dihasilkan oleh
pembicara yang lain. Kemudian pembicara akan
memproduksi similar response terkait dengan
similar embeddings, atau penempatan didekat
dengan vector space. Dengan ini training data
speaker diambil pada vector space terdekat
untuk membantu menaikkan kapabilitas
generalization pada speaker model. Contoh:
anggaplah ada dua speaker 𝑖 dan 𝑗 yang memiliki
suara berbeda dari british yang berarti keduanya
dekat dengan speaker embedding space.
Sekarang, anggap saja, didalam training data,
speaker 𝑖 ditanya “dimana kamu tinggal?” dan
direspon didalam UK. Sekalipun speaker 𝑗 tidak
pernah menanyakan hal yang sama, jawaban ini
dapat membantu respon bahwa speaker 𝑗 dapat
berfungsi dengan baik, tanpa labal yang explicit.
Speaker -Addressee Model
Natural extension Speaker model adalah sebuah
model yang sensitif kepada pola interaksi
speaker-addressee didalam percakapan. Tidak
hanya semua jenis speaking style tetapi juga
penerima (addressee). Speaker-Addressee
Model beroperasi sebagai berikut: Pertama,
memprediksi bagaimana speaker 𝑖 akan
merespon sebuah message yang diberikan oleh
speaker 𝑗. Kedua, hampir sama dengan Speaker
model, setiap speaker terasosiasi dengan
deminsional 𝐾 speaker-level represntation, yaitu
𝑣𝑖 untuk user 𝑖 dan 𝑣𝑗 untuk user 𝑗. Representasi
interaksi didapatkan 𝑉𝑖,𝑗 ∈ ℝ 𝐾×1
digabungkan
secara linear oleh vector user 𝑣𝑖 dan 𝑣𝑗 didalam
upaya untuk interaktif model user style user 𝑖 ke
user 𝑗,
𝑉𝑖,𝑗 = tanh(𝑊1 ∙ 𝑣𝑖 + 𝑊2 ∙ 𝑣2)
⋯ 07 ⋯
dimana 𝑊1, 𝑊2 ∈ ℝ 𝐾 ×𝐾
. Sedangkan 𝑉𝑖,𝑗
tergabung secara linear didalam LSTM model
pada setiap target step-nya:
[
𝑖 𝑡
𝑓𝑡
𝑜𝑡
𝑙 𝑡
] = [
𝜎
𝜎
𝜎
𝑡𝑎𝑛ℎ
] 𝑊 ∙ [
ℎ 𝑡−1
𝑒𝑡
8
𝑣𝑖,𝑗
]
⋯ 08 ⋯

5 | P a g e
____
18:Long short-term memory. Hochreiter et al. 1997 penyamarataan: generalization
19:Sequence to sequence learning with neural
networks. Sutskever et al. 2014
menghasilkan:
pembicara:
yielded
conversationalists
Gambar 1: Ilustrasi dari Speaker model yang diperkenalkan pada paper ini. Speaker IDs yang terdapat
dekat dengan embedding space cenderung untuk merespon dengan cara yang sama. Speaker embeddings
mempelajari bersamaan dengan word embeddings dan parameter lainnya di neural model via
backpropagation. Contoh: Rob adalah speaker yang di kumpulkan dari orang yang biasa mention kata
England pada training data, lalu turunan pada token “England” pada waktu t = 2 jauh lebih banyak dari
“U.S”. Non-persona model akan lebih memilih men-generate in the U.S. jika “U.S.” lebih banyak terdapat
pada training data diantara banyak speaker.
***
𝑐𝑡 = 𝑓𝑡 ∙ 𝑐𝑡−1 + 𝑖 𝑡 ∙ 𝑙 𝑡
⋯ 09 ⋯
ℎ 𝑡
8
⋯ 10 ⋯
Speaker dan addresssee dan juga pembicara
yang sama akan merespon jawaban yang
berbeda dari lawan bicara yang berbeda pula.
Salah satu isu potensial yang mungkin terjadi
ialah dimana modelling Speaker-addresssee
sulit dikaitkan didalam pengumpulan dataset
training skala besar diamana setiap speaker
berkecimpung pada percakapan dengan
berbagai macam orang. Seperti halnya Speaker
Model, namun, Speaker-Addressee Model
berasal dari penyamarataan kapabilitas dari
speaker embeddings. Bahkan jika kedua speaker
pada test time (𝑖 dan 𝑗) tidak pernah terlibat
didalam percakapan yang sama selama training,
dua pembicara 𝑖′ dan 𝑗′ meskipun dekat dengan
embeddings mungkin dapat membantu dalam
pemodelan bagaimana cara 𝑖 menanggapi 𝑗.
Decoding and Rerangking
Untuk decoding, N-best list dihasilkan dengan
menggunakan decoder dengan beam size 𝐵 =
200 (decoding pada paper ini memakai beam
search). 𝐵 memiliki panjang maksimum 20 untuk
men-generated candidate. Untuk
mengoperasikan decoding ikuti langkah berikut:
setiap langkah periksa semua 𝐵×𝐵
kemungkinan pada kandidat next-word, dan
tambahakan semua hipotesis dengan ending
EOS token pada N-best list. Kemudian
pertahankan top-𝐵 yang hipotesisnya belum
selesai lalu pindahkan ke posisi next-word.

6 | P a g e
____
20:Learning continuous phrase representations for
translation modeling. Gao et al. 2014
21:Neural machine translation by jointly learning to
align and translate. Bahdanau et al. 2015
22:Addressing the rare word problem in neural
machine translation. Luong et al. 2015.
penyamarataan:
terutama:
barangkali:
menekankan:
semau-maunya:
muncul:
generalization
primarily
presumably
emphasized
arbitrarily
emergent
Untuk menghadapi masalah pada seq2seq yang
cenderung men-generate generic dan response
biasa seperti “I don’t know, dengan
menggunakan reranking pada N-best list
memakai fungsi scoring yang secara lienear
digabungkan dengan penalty dan kemungkinan
log target:
log 𝑝(𝑅|𝑀, 𝑣) + 𝜆 log 𝑝 (𝑀|𝑅) + 𝛾|𝑅|
⋯ 11 ⋯
dimana 𝑝(𝑅|𝑀, 𝑣) menunjukkan kemungkinan
untuk menghasilkan response yang diberikan
oleh message 𝑀 dan responden speaker ID. |𝑅|
menyimbolkan panjang dari target dan simbol 𝛾
terkait dengan berat penalty. Optimasi 𝛾 dan 𝜆
pada N-best list merupakan kandidat response
yang dihasilkan dari MERT31
dengan
mengoptimasi BLEU. Untuk mengkomputasi
𝑝(𝑅|𝑀), training akan dilakukan secara terbalik
pada seq2seq model dengan cara menukar
message dan response. Sedangkan pada standar
seq2seq model 𝑝(𝑅|𝑀) akan di training tanpa
speaker information.
Dataset
Twitter Persona Dataset
Data Collection: Training data untuk Speaker
Model ter-extract dari Twitter FireHouse selama
6 bulan dimulai dari 1 Januari, 2012. Sequence
dibatasi untuk response (jawaban) paling sedikit
60 dan paling banyak 300, dan percakapan
selama 3 kali bolak-balik dihitung satu (contoh:
{A halo, B  halo juga, C  gimana kabar?}
percakapan disitu dihitung sebagai satu 1
percakapan). Dataset yang dihasilkan sekitar
74.003 pengguna dari 60 dan maksimal turn
sebanyak 164-conversational turn (average:
92.24, median: 90). Dataset yang di-extract
menggunakan reponses pembicara ini adalah
24.725.711 selama 3-turn sliding-window
(context-message-response) sequence
percakapan.
Sebagai tambahan, terdapat sample 12000 3-
turn conversation dari user set yang sama dari
Twitter FireHose, dari hasil ini divalidasi dan
dihasilkan test set (4000 percakapan disetiap
percakapan).
Training Protocols: Seq2seq detraining
sebanyak 4-layer pada Twitter corpus19
. Berikut
detailnya:
❖ 4 Layer LSTM model memiliki 1000
hidden cells untuk setiap layernya.
❖ Ukuran batch disetting hingga 128
❖ Learning rate diset hingga 1.0
❖ Parameter diinisialisasi oleh sampling
dari uniform distribution[-0.1,0.1].
❖ Gradient dipotong untuk menghindari
gradient explosion dengan threshold
sebanyak 5.
❖ Batas vocabulary 50.000
❖ Dropout rate dimulai dari 0.2
Sumber dan LSTM target menggunakan
parameter set yang berbeda.
Twitter Sordoni Dataset
Twitter Sordoni Dataset yang diambil dari paper
ini adalah speaker ID information. Untuk
mendapatkan perbandingan state-of-the-art
work2,4
sebelumnya, baseline (non-persona)
LSTM model pengerjaan sebelumnya juga perlu
diukur untuk Twitter Sordoni Dataset. Perlu
dicatat bahwa Sordoni dataset menawarkan
hamper 10 references per message, sedangan
Twitter Persona dataset hanya memberikan 1
references per-message. BLEU score tidak bias
membandingkan terhadap dua dataset twitter

7 | P a g e
____
23:Building end-to-end dialogue systems using
generative hierarchical neural network models.
Serban et al. 2015
24:Attention with intention for a neural network
conversation model. Yao et al. 2015
25:User models in dialog systems. Whalster et al. 1989
26:Effects of the user model on simulation-based
learning of dialogue strategies. Schatztnann et al.
2005
27:All the world’s a stage: Learning character models
from ﬁlm. Lin et al. 2011
28: Perceived or not perceived: Film character models
for expressive nlg. Walker et al. 2011
Penyetelan:
Menyimpulkan:
Merupakan:
sebelumnya:
memeriksa:
kemungkinan:
terkait:
paling banyak:
memeriksa:
kemungkinan:
terkait:
menghasilkan:
pembicara:
mencapuradukkan:
tuning
inferring
constitute
prior
examine
likelihood
associated
at most
examine
likelihood
associated
yielded
conversationalists
confound
(BLEU Score pada 10 references biasanya jauh
lebih tinggi dibanding 1 references).
Television Series Transcripts
Data Collection: untuk percakapan diadik
Speaker Addressee Model menggunakan
transcript dari acara televise Friends dan The Big
Bang Theory yang bias diakses di Internet Movie
Script Database (IMSDb). 13 tokoh utama
dikumpulkan dari corpus sebanyak 69.565
putaran. Corpus dibagi-bagi untuk keperluan
training/development/testing set (development
dan testing sendirin setiap set-nya
membutuhkan sekitar 2000 putaran).
Training dikarenakan jumlah dataset yang kecil
proses training tidak teruntuk untuk open-
domain dialog model. Difase pertama men-
training Seq2seq model menggunakan dataset
yang sedikit besar yaitu OpenSubtitles (OSDb)
dataset. Tetapi OSDb memiliki noisy yang tinggi
dan merupakan open-domain dataset, bahkan
dataset ini tidak memiliki detail spesifik
mengenai siapa yang berbicara disetiap subtitle
line. Masalah ini menyulitkan untuk mengambil
kesimpulan pada siapa yang berbicara. Pada
training menggunakan standar Seq2seq
menggunakan protocol yang telah di
deskripsikan pada Twitter Persona Dataset.
Inisialisasi dimulai pada word embeddings dan
LSTM parameter pada Speaker Model,
sedangkan pada Speaker-Addressee model
menggunakan parameter yang telah dipelajari
dari OpenSubtitles dataset.
⋯ second_table ⋯
System BLEU
MT baseline1 3.60%
Standard LSTM MMI4 5.26%
Standard LSTM MMI 5.82%
Human 6.08%
Table 2: BLEU pada dataset Twitter Sordoni (10 references).
Terdapat kontras antara baseline pada paper ini dan SMT
baseline2 dan hasil terbaik4 dibangun dari dataset Twitter
Sordoni. Hasil terakhir pada human oracle, tetapi tidak
cocok untuk dibandingkan langsung dengan oracle BLEU
dikarenakan komputasinya terlalu ketinggalan zaman.
Experiment
Evaluation
Bila mengacup pada paper2,4
maka pada evaluasi
menggunakan BLEU33
sebagai parameter
penyetelan dan evaluasi. BLEU telah
menunjukkan korelasi dengan baik pada human
judgement response dan tugas turunan.
⋯ third_table ⋯
Model Standard LSTM Speaker Model
Perplexity 47.2 42.2(-10.6%)
Table 3: Standard perplexity seq2seq dan Speaker model
pada Twitter Persona development set.
Baseline
Semenjak experiment menggunakan dataset
yang baru (Twitter Persona Dataset), LSTM
baseline cukup kompetitif dengan state-of-the-
art2
pada pembuatan datasetnya. Baseline pada
paper ini sederhananya mengimpelemntasikan
LSTM-MMI2
, sehingga hasilnya harusnya relative
sama dengan hasil yang sudah dilaporkan pada
paper tersebut.

8 | P a g e
____
29:An annotated corpus of ﬁlm dialogue for learning
and characterizing character style. Walker et al.
2012
30:Social interaction and the development of deﬁnite
descriptions. Deutsch et al. 1982
31:Minimum error rate training in statistical machine
translation. Och. 2003
32:A collection of multilingual parallel corpora with
tools and interfaces. Tiedemann. 2009
33:BLEU: a method for automatic evaluation of
machine translation. Papineni et al. 2002
cukup:
mengungguli:
sedalam-dalamnya
menghalangi
tawaran
masuk akal
salah
kontingen
berlebihan
dimana-mana
halangan:
sufficent
outperform
profusely
impede
overture
plausible
amiss
contigents
exaggerate
ubiquitous
hitch
⋯ fourth_table ⋯
Model Objective BLEU
Standard LSTM MLE 0.92%
Speaker Model MLE 1.12%(+21.7%)
Standard LSTM MMI 1.41%
Speaker Model MMI 1.66% (+11.7%)
Table 4: BLEU pada Twitter Persona dataset (1 reference),
untuk standard Seq2seq model dan Speaker model
menggunakan objek kemungkinan maksimum (MLE) atau
maksimum mutual information.
Result
Perplexity pada Twitter Persona dataset dapat
dilihat pada table 3. Hasil observasi menyatakan
bahwa sekitar 10% penurunan pada perplexity
untuk Speaker model dibandingkan dengan
standard seq2seq model. Pada table 4 (BLEU
Score) ada peningkatan signifikan pada Speaker
model dibandingkan seq2seq model, 21%
peningkatan didalam maximum likelihood
(MLE) setting dan 11.7% untuk mutual
information setting (MMI). Pada titik ini
observasi menyimpulkan adanya konsistensi
yang diperkenalkan oleh fungsi objek MMI
melalui standard seq2seq model based on fungsi
objekl MLE. Ini menjadi catatan bahwa persona
model dengan menggunakan MLE lebih
bermanfaat ketimbang MMI Model.
Untuk TV series dataset, perplexity dan BLEU
score dilaporkan pada table 5 dan table 6.
Perplexity pada Speaker dan Speaker addressee
model mencapai 25.4 dan 25.0 pada TV series
dataset, 7.0% dan 8.4% lebih rendah dari
koresponden standar seq2seq model. Tidak ada
perbedaan yang signifikan antara perbandingan
model Speaker-Addresssee dan Speaker model,
mungkin karena kecil dataset yang digunakan
pada paper ini sehingga pola tidak bisa ditangkap
atau bisa juga dikarenakan noisy pada dataset.
Qualitative Analysis
Diverse Responses by Different Speaker table 7
merepresentasikan response yang dihasilkan
oleh persona model didalam merespon 3 input
pertanyaan yang berbeda. Disini 10 speaker akan
diambil secara acak pada Twitter dataset. Model
cenderung untuk menghasilkan jawaban yang
spesifik dari orang-orang yang berbeda.
Jawaban yang dihasilkan pada table 8 adalah
table dengan menggunakan Speaker-Addressee
Model dan menggunakan dataset TV-Series.
Menariknya, pada model ini jawaban justru
sangat sensitive pada penerimanya. Contoh
model bisa menghasilkan jawaban “Of course, I
love you Emily” bahkan model juga bisa
menjawab seperti ini “Of course, I love you
(kisses her)” dimana model bisa mengetahui
gender pengirim pesan.
Human Evaluation pada output Speaker Model
menggunakan crowdsourcing service. Disini
konsistensi evaluasi di desain dari output yang
terasosiasi dengan Speaker ID. Sebagai contoh,
model harus mampu menangkap knowledge
juga, jika message berupa “Are you vegan or
vegetarian?” “Do you eat beef?” jika jawaban
pertamanya ialah “Yes, I’am vegan.” Maka
jawaban berikutnya ialah “Of course not!”

9 | P a g e
____
⋯ fifth_table ⋯
Model Standard LSTM Speaker Model Speaker-Addressee Model
Perplexity 27.3 25.4(-7%) 25.0(-8.4%)
Table 5: Perplexity untuk standard seq2seq dan persona model pada TV Series Dataset.
⋯ sixth_table ⋯
Model Standard LSTM Speaker Model Speaker-Addressee Model
MLE 1.60% 1.82%(+13.7%) 1.83(+14.3%)
MMI 1.70% 1.90%(+10.6%) 1.88%(+10.9)
Table 6: BLEU pada dataset TV Series (1 reference), untuk standard seq2seq2 dan persona models.
Pada table 9 mengambarkan konsistensi yang
muncul pada property dari dua user yang diambil
secara random. Model memiliki kemampuan
untuk menemukan relasi antara katagori lokasi,
seperti Jakarta dan Indonesia, London dan UK,
namun model tidak konsisten dalam
memberikan keputusan tersebut.
⋯ seventh_table ⋯
message What company do you work for?
baseline I work for a company
user1 I don’t have a job
user2 I am a manager
user3 I am working
user4 I work for a company
user5 I’m working
user6 Customer service
user7 I work in retail
user8 I work in a café
user9 I work at a gas station
user10 I don’t know
Table 7: merupakan response yang dihasilkan dari baseline
(LSTM-MMI) dan Speaker Model pada 10 user yang diambil
secara acak. Strikeout merupakan jawaban dengan kualitas
yang buruk.
⋯ eighth_table ⋯
message Do you Love me?
baseline Of Course, I love you
addressee: Emily, Speaker: Sheldon
of course, I love you, Emily
addressee: Emily, Speaker: Penny
of course, I love you, Emily
addressee: Monica, speaker: Chandler
Of course I love you. I want to marry you
addressee: Ross, speaker: Rachel
Of course I love you. (kisses him)
Table 8: Response dari Do you love me? Dari Speaker
Addressee model pada TV-series dataset menggunakan
addresses dan speaker
User1
message Where is your hometown?
response I’m from England
message Where are you from?
response I’m from England.
message In which city do you live now?
response I live in London
message In which country do you live now?
response I live in England
User2
message Where is your hometown?
response I’m from Indonesia
message Where are you from?
response England, you?
message In which city do you live now?
response I live in Jakarta
message In which country do you live now?
response I live in Indonesia
Table 9: Contoh speaker yang konsisten dan tidak, yang
dihasilkan oleh Speaker Model.
Conclusion
Paper ini menjelaskan dua persona-based
response generation model dari open-domain
generation. Masih ada dimensi lain yang tidak
masuk di paper ini diantaranya mood, emosi dan
kebiasaan. Meskipun begitu pada kenyataannya
model pada paper ini tidak begitu spektakular
system berhasil mengungguli seq2seq system
dari BLEU, Perplexity dan human judgement
consistency. Disini juga mendemonstrasikan
encoding persona didalam distribusi
representation, juga dapat meng-capture
personal characteristic. Goal pada paper ini ialah
berhasil mengambil profil pada individu secara
acak belum berhasil diketahui sukses tidaknya,
menghasilkan pembicaraan yang akurat dengan
meniru seseorang secara individu.

Chatbot with Persona Based

Recommended

Recommended

More Related Content

Similar to Chatbot with Persona Based

Similar to Chatbot with Persona Based (20)

More from Ron Ashrovy

More from Ron Ashrovy (6)

Chatbot with Persona Based