Chatbot with Personality integration with Social Media

1 | P a g e
medium.com/ashrovy | ashrovy.tumblr.com | ashrovy.wordpress.com
Ref____
[6] J. Eisenstein, B. OaˆA ̆Z ́Connor, N. A. Smith, and E. P.
Xing. A latent variable model for geographic lexical
variation. EMNLP, 2010.
Kekhasan:
Kepribadian:
Memperoleh:
Idiosyncrasies
Personalized
Deriving
Social Embedding meets Conversational Model
Paraminder Bhatia, Marsal Gavaldà, Arash Einolghozati
Resume Paper by Ashrovy
Abstract - Upvote dan like adalah hal yang umum dan biasa pada sosial media dan itu
mudah dilakukan, sedangkan comment dan reply juga mudah dilakukan tetapi user
cenderung malas melakukannya. Bagaimana jika ada fitur semacam auto-reply atau
auto-predict yang dapat mempermudah user dalam melakukan reply. Paper ini
memperkenalkan terbosan baru tentang reply generation model yang melampaui
model auto-reply biasa atau prediksi teks saat ini. Keunggulannya pada auto-reply
atau prediksi memperhatikan khas user dan kontent yang dibicarakan bahkan hingga
struktur grafik sosial itu sendiri. Secara spesifik kami (penulis paper) menggunakan
dua model personalisasi interaksi user yaitu: content-based conversation model
yang dapat melakukan tracking lokasi, geografis wilayah dan informasi user sendiri,
dan social-graph-based conversaiton model merupakan gabungan dari content-
based conversation models dengan social graphs.
Introduction
Yik Yak merupakan aplikasi sosial media
berbasis lokasi dimana penggunanya bisa mem-
posting text dan gambar pada radius 5 mil. User
juga bisa melakukan upvotes/downvotes, like
dan comment.
Informasi yang beranekaragam ini (user profile,
location dan content) dianalisis untuk
mendaptkan informasi yang lebih spesifik
terhadap user itu sendiri.
Permasalahan pada Yik Yak ialah pada
pengetikan reply di handphone yang terasa
kurang nyaman, sehingga paper ini
bereskperimen dengan menyajikan reply
suggestion yang berbasiskan sifat pribadi. Reply
Suggestion bukanlah merupakan hal yang baru
tetapi suggestion yang dihasilkan bersifat
kurang relevan6
dan akurat.note
Pada paper ini seangkah lebih maju dengan
memperluas vector-space lexical semantic
model untuk mempelajari gamabaran geografis
hingga situasi di suatu wilayah. Terdapat dua
model personalisasi yang akan dibahas disini,
yaitu conversation model dan social graph
conversation. Conversation model didalamnya
terdapat informasi lokasi dan user-based,
sedangkan pada social graph conversation
merupakan gabungan dari conversation model
dan social graphic. Ini merupakan pertama
kalianya neural conversation model
digabungkan dengan social graph.
Related Work
Banyak literatur terkait dengan
mengindentifikasi informasi penting ataupun
node yang berpengaruh didalam jaringan baik
unsupervised dan semi-supervised manner.
Juga beragam penelitian terkait conversation
model atau chatbot yang menggunakan neural
generative model seperti sequence to
sequence (seq2seq).

2 | P a g e
Ref____
[7] M. Galley, C. Brockett, A. Sordoni, Y. Ji, and M. Auli. A
discriminative metric for generation tasks with intrinsically
diverse targets. arXiv:1506.06863, 2015.
[11] A. Kannan, K. Kurach, S. Ravi, T. Kaufmann, A.
Tomkins, and B. Miklos. Smart reply: Automated response
suggestion for email. KDD, August 2016.
[14] R. Lowe, N. Pow, I. V. Serban, and J. Pineau. The
ubuntu dialogue corpus: A large dataset for research in
unstructured multi-turn dialogue systems. SIGDIAL, 2015.
Kekhasan:
Kepribadian:
Memperoleh:
Menelan:
Intisari:
Kecenderungan:
Tekanan:
Berlawanan:
Idiosyncrasies
Personalized
Deriving
Ingest
Gist
Tendency
Emphasis
Opposed
Gambar 2: Google’s Smart Reply11 menggunakan sequence to sequence
Conversation Models
Chatbot atau conversatino agent atau juga bisa
disebut dialog sistem, memiliki dua class utama
didalam conversatinon model ini: retrieval-
based dan generative models.
Retrieval-Based Models
Retrieval-based model menggunakan
repository sebagai standar response (jawaban)
dan heuristic yang bertugas untuk memilih
response-based yang berarti sesuai dengan
input dan konteks yang ada. Pada hakikatnya
heuristic sederhananya mirip dengan rule-
based expression match7
dan kompleksnya
seperti machine learning classifiers14
. Sistem ini
tidak menghasilkan jawaban baru dan hanya
mengambil response yang tersedia pada fixed
set.
Generative Models
Sedangkan Generative model sebaliknya tidak
menggunakan standar reponse dan sebaliknya
menghasilkan response. Mirip teknik machine
translation tapi disini input ditranslated ke
response out. Paper ini menggunakan seq2seq
sebagai baseline.
Gambar 1: Yik Yak app posting, replies dan votes

3 | P a g e
Ref____
[7] M. Galley, C. Brockett, A. Sordoni, Y. Ji, and M. Auli. A
discriminative metric for generation tasks with intrinsically
diverse targets. arXiv:1506.06863, 2015.
[8] S. Ghosh, O. Vinyals, B. Strope, S. Roy, T. Dean, and L.
Heck. Contextual lstm (clstm) models for large scale nlp
tasks. arXiv:1602.06291, September 2016.
[11] A. Kannan, K. Kurach, S. Ravi, T. Kaufmann, A.
Tomkins, and B. Miklos. Smart reply: Automated response
suggestion for email. KDD, August 2016.
[18] C. Xing, W. Wu, Y. Wu, and J. Liu. Topic aware neural
response generation. arXiv:1606.08340, September 2016
Menggambarkan:
Secara luas:
Teman bicara:
Kedekatan:
Titik:
Meskipun:
Melengkapai:
Jarang-jarang:
Semaunya:
Cocok:
Mempertahankan:
Depict
Broadly
Interlocutor
Proximity
Vertice
Even though
Complement
Sparsity
Arbitrary
Suitable
Preserve
Gambar 3: Contoh dari suggested reply yang tidak valid.
Sequence to Sequence Models
Seq2seq atau sequence-to-sequence memiliki
dua recurrent network (RNN) yaitu encoder
yang bertugas memproses input decoder yang
bertugas menghasilkan output. Sequence di
masukkan ke dalam input 𝑋 = {𝑥 , 𝑥 , … , 𝑥 },
kemudian LSTM mengasosiasikan atau
menghubungkannya pada setiap timestep ke
input gate, memory gate dan ouput gate
disimbolkan dengan 𝑖 , 𝑓 dan 𝑜 . Sedangkan 𝑚
menggambarkan cell state vector pada time 𝑡
dan menyimbokan 𝜎 sebagai fungsi sigmoid.
Maka pada setiap time step 𝑡 digambarkan oleh
vector representation ℎ sebagai berikut:
𝑖 = 𝜎(𝑊 ∗ ℎ + 𝐼 ∗ 𝑥 )
𝑓 = 𝜎 𝑊 ∗ ℎ + 𝐼 ∗ 𝑥
𝑜 = 𝜎(𝑊 ∗ ℎ + 𝐼 ∗ 𝑥 )
𝑐 = tanh(𝑊 ∗ ℎ + 𝐼 ∗ 𝑥 )
𝑚 = 𝑓 ⊙ + 𝑖 ⨀ 𝑐
ℎ = tanh(𝑜 ⨀𝑚 )
Didalam tugas generation seq2seq, setiap input
𝑋 dihubungkan dengan sequence output untuk
memprediksi 𝑌 = {𝑦 𝑦 , … , 𝑦 }. Lalu LSTM
mendistribusikan output dan secara bertahap
akan memprediksi token menggunakan fungsi
softmax.
Pada Smart reply11
(gambar 2) google
menggunakan teknik yang mirip dengan
seq2seq model, dimana Smart reply memasang-
masangkan incoming email dan kemungkinan
prediksi response. Encoding network ini
menelan hampir semua kata pada incoming
email lalu menjadikannya vector (list angka).
Vector ini disebut dengan thought vector yang
berfungsi menangkap intisari dari kata-kata
abstrak ke kata yang sering digunakan. Model
ini masih memiliki masalah yang disebut dengan
vanishing gradient yang mudahnya jika kata
input terlalu panjang. Dilain sisi ada model yang
lain yaitu attention-based model1
yang dapat
meniru bagaimana manusia lebih
mementingkan kata-kata tertentu dalam
sebuah kalimat.
Attention mechanism (gambar 5) memprediksi
outpu menggunakan weighted-average context
vector dan tidak hanya sate terakhir. Contoh:
What is good to watch on TV penekanan ada
pada kata watch dan TV.
Pada baseline pada paper ini akan mentraining
attention-based di model seq2seq memakai Yik
Yak Post dan reply data kemudian di
dimasukkan ke dalam bot pada Slack untuk
demo. Gambar 4 adalah contoh pada beberapa
reply dari model tadi dengan beam search size
200.
Penelitian yang terakit pada topic18
dan
konteks8
didalam seq2seq model yang
bertujuan menghasilkan jawaban topic-based
response.

4 | P a g e
Ref____
[1] D. Bahdanau, K. Cho, and Y. Bengio. Neural machine
translation by jointly learning to align and translate. ICLR,
2015.
[2] M. Belkin and P. Niyogi. Laplacian eigenmaps and
spectral techniques for embedding and clustering. NIPS,
14:585–591, 2001.
[5] T. F. Cox and M. A. Cox. Multidimensional scaling. CRC,
2000.
[17] J. B. Tenenbaum, V. D. Silva, and J. C. Langford. A
global geometric framework for nonlinear dimensionality
reduction. Science,290(5500), pages 2319–2323, 2000.
Perbedaan:
Gagasan:
Diliputi:
Kesimpulan:
Kontainer:
Tuntutan:
Kurang lebih:
Berbeda:
Dengan kondisi:
Sedangkan:
Berbagai bentuk:
Variance
Notition
Encompassed
Inference
Containerized
Demand
Roughly
Vary
in terms
Whereas
Multimodal
Gambar 4: YikYak's Smart Reply menggunakan seq2seq dengan attention, reply_yak adalah Slack Bot
Personalized Respond Generation
Gambar 6 menggambarkan proses penggunaan
persona untuk membangun conversation
model12
. Penelitian ini sebelumnya sebelumnya
pernah ada tentang personalized conversation
model yang secara umum terdapat dua model:
Speaker model yang mengintegrasikan speaker-
level vector representation ke dalam beberapa
bagian didalam seq2seq model. Sedangkan
Speaker-Addressee model men-encode pola
interaksi antara dua pembicara dengan
mengkonstruksikan interaction representation
dari individual embedddings dan
menggabungkannya ke seq2seq model. Persona
vector sendiri di training dengan human-to-
human data conversation dan menggunakan
test time untuk menghasilkan personalized
response.
Gambar 5: Attention-based model1
.
Social Graphs and Embeddings
Beberapa metode graph embedding telah
banyak diusulkan didalam literature machine
learning2,5,17
dan kebanyakan diantaranya
berjalan di network skala kecil.

5 | P a g e
Ref____
[9] A. Grover and J. Leskovec. node2vec: Scalable feature
learning for networks. KDD, August 2016.
[12] J. Li, M. Galley, C. Brockett, G. Spithourakis, J. Gao,
and B. Dolan. A persona-based neural conversation
model. ACM Trans. Program. Lang. Syst., 1(5):994–1003,
2016.
[16] J. Tang, M. Qu, and M. Wang. Line: Large-scale
information network embedding. WWW, 2015.
Pembungkusan:
Penggabungan:
Jarang:
Mengungguli:
Ditambah:
Pengaruh:
Persamaan:
Keseluruhan:
Encapsulate
Concatenate
Sparse
Outperform
Supplemented
Leverage
Affinity
Aggregate
Gambar 6: contoh dari Speaker model yang terintegrasi
pada speaker-level vector representation didalam bagian
target di seq2seq model.
Masalahnya ialah implementasinya pada skala
besar akan sangat berbeda dikarenakan jumlah
node pada network akan mencapai milyaran.
Jika begitu maka diperlukan low-dimenstional
embeddings yang efesien untuk meng-catpure
network structure.
Gambar 7: Contoh information network pada LiNE16. Titik
6 & 7 disebut dengan low-dimensional space karena
mereka terkoneksi dengan kuat. Titik 5 & 6 disebut share
similar negihbors.
Gambar 7 diatas adalah gambaran ilustrasi.
Weight pada titik 6 & 7 adalah besarnote
, pada
waktu yang sama tidak ada direct link antara
titik 5 & 6, mereka cuman berbagi neighbors
yang sama dan disebut second order.note
Aplikasi LiNE16
menggunakan network
embedding model yang cocok dengan model
informasi network yang acak untuk meng-
efesiensikan milyaran nodes. Fungsi objek
didesain untuk mempertahankan kedekatan
first-order dan second-order. Berat gradient
akan berlipat ganda dan ini menjadi masalah
tapi untuk mengatasinya LiNE menggunakan
edge sampling. Fungsi tersebut ialah
mengambil berat dari probabilitas sebagai
sampling secara proposional. Pendekatan
lainnya mengunakan Node2Vec9
yang
menyediakan gagasan flexible terhadap
neighborhood dan dibiaskan secara efesien
untuk meng-eksplorasi didalam perbedaan
neighborhoods.
Training and Implementation
Pada pengerjaannya akan mengikuti pengerjaan
pada paper persona based conversation
model12
, yang memperkenalkan dua persona-
based models: Speaker Model, yaitu model
personality respondent dan Speaker-Addressee
Model yaitu bagaimana model mengadaptasi
setiap addressee yang diberikan.
Training Protocols
Berikut ialah Procedure training method:
4 Layer LSTM model dengan 1000
hidden cell untuk setiap layer.
Ukuran Batch sebesar 128
Learning rate di set 1.0 decay
Inisialisasi Parameter dengan sampling
dari distribusi uniform [-0.1,0.1]
Titik potong gradient untuk
menghindari gradient explosion dengan
threshold 5.
Batas vocabulary 100,000
Dropout rate 0.25

6 | P a g e
Ref____
[9] A. Grover and J. Leskovec. node2vec: Scalable feature
learning for networks. KDD, August 2016.
[12] J. Li, M. Galley, C. Brockett, G. Spithourakis, J. Gao,
and B. Dolan. A persona-based neural conversation
model. ACM Trans. Program. Lang. Syst., 1(5):994–1003,
2016.
[16] J. Tang, M. Qu, and M. Wang. Line: Large-scale
information network embedding. WWW, 2015.
Kekurangan:
Terpendam:
Pilihan:
Hanya pada:
Ditetapkan oleh:
Sangat:
Perkiraan:
Cenderung:
Deficiencies
Latent
Preferance
Solely on
Determined by
Vastly
Approximate
Inclined
Decoding
Untuk fase decoding, N-best list yang dihasilkan
menggunakan decoder dengan beam size 𝐵 =
200. Maximum length yang ditetap pada paper
ini 20 generated candidates. Decoding
dilakukan dengan cara berikut: Disetiap step-
nya periksa setiap 𝐵 × 𝐵 pada kandidat
kemungkinan next-word, dan setiap hipostesis
diakhir symbol EOS token pada N-best list. Lalu
hipotesis (yang belum selesai) top-𝐵 dipindah
ke next-word.
Dataset
Dataset yang digunakan pada training disini
menggunakan pada datasert Yik Yak (post dan
pasangan comment-reply). Pada proses
Preprocess disini ialah memasangkan setiap
post yang berisikan sedikitnya 5 kata dan
bahasa yang tidak explisit. Setelah
preprocessing, akan diperoleh sekitar 10 milyar
pasangan yang akan dibagi secara acak kedalam
training dan test. Dataset ini meliputi 10,000
lokasi (daerah dan level kota) tersebar di 13
negara dan 100,000 unique user.
Implementation
Impelentasi hanya dibagi menjadi dua tahapan
yaitu training dan kesimpulan/inference:
Training
Source dan target LSTM disini menggunakan
parameter set yang berbeda. 20 epochs dan
training berlangsung kurang lebih selama
seminggu untuk menyelesaikan g2.8xlarge AWS
instance dengan 32 high frequency Intel Xeon
E5-2670 (Sandy Bridge) processors yang sama
dengan 4 performa tertinggi NVIDIA GPU,
dengan setiap CUDA score 1,536 dan 4 GB
video memory.
Inference
Untuk inference (kesimpulan,dugaan) disini
menggunakan Kubernetes, open-source system
untuk penyebaran otomatis, scaling, dan
management containerized application.
Kubernetas akan dipadukan dengan
TensorFlow Serving, high-perofrmance, open-
source serving system untuk machine learning
models, untuk menemukan intensitas
computasi dan scaling demands pada aplikasi
ini. Server mengeksekusi grafik proses
TensorFlow disetiap text suggestion request
yang diterima. Model digambarkan didalam file
set kemudian di deskripsikan didalam bentuk
pada grafik TensorFlow, berat model, asset, dan
lain-lain. Setelah semuanya dipaketkan bersama
secara dinamis jumlah skala terreplikasikan oleh
pod menggunakan Kubernetes Replication
Controller.
Conversation-Based Model
Terdapat dua tipe conversation models yang
akan diperkenalkan: location based model
adalah model untuk mencapture komunitas dan
user-based model merupakan model yang akan
mem-personalisasi setiap user.
Location-based model
Lokasi yang diberikan oleh Yik Yak sangat
penting didalam penggabungan informasi
didalam model. Berdasarkan beberapa studi,
telah ditemukan berbagai komunitas yang
sagnat berbeda antara satu dan lainnya baik
dari social connectivity dan penggunaan bahasa.
Pada pengerjaan ini akan lebih menuju kepada
multimodal learning pada general domain.
Tidak seperti multimodal system klasik yang

7 | P a g e
Ref____
[15] S. Oviatt. The Human-computer Interaction
Handbook. Julie A. Jacko and Andrew Sears, Hillsdale, NJ,
USA, 2003.
Keluar:
Penurut:
Hilir:
Outward
Tractable
Downstream
Gambar 8: Location-based Conversation Model.
tergabung pada banyak bentuk (seperti gesture)
user15
, disini input yang paling penting ialah
textual data, ditambah dengan metadata
tentang author dan waktu.
Untuk pendekatan pengembangan dua
persona-based model: decoder model yang
tugasnya ialah meng-capture personality dari
responden, dan encoder-decoder model
bertugas meng-capture langkah atau jalan
bagaimana respondent beradaptasi dengan
lawan bicaranya. Secara spesifik menggunakan
location embedding untuk dua encoder dan
decoder.
User diberikan tag dengan latitude dan
longitude, pada Yik Yak memiliki understanding
location yang cukup robust. Disini informasi
lokasi akan di bungkus dengan 3 level
granularity: county, city, dan country.
Gambaran koresponding akan digabungkan
untuk setiap level agar mendapatkan final local
embedding (Gambar 8).
Maksud dari strategi ini adalah jika
koresponding data lebih tinggi level-granularity-
nya dan melebar, level yang lebih rendah akan
memperoleh sinyal yang kuat.
Contoh: final local embedding untuk Queens
county di dalam New York:
𝑙𝑜𝑐𝐹⃑ 𝑖𝑛𝑎𝑙 = 𝑙𝑜⃑𝑐 , 𝑙𝑜⃑𝑐 , 𝑙𝑜⃑𝑐
Besar final location embedding adalah 300
didalam model. Berdasarkan standard Seq2seq
model, pertama encode messge 𝑆 ke dalam
vector representation ℎ menggunakan source
LSTM. Lalu untuk setiap step didalam target
side, hidden unit diperoleh dengan
penggabungan hasil representasi dengan target
LSTM pada langkah sebelumnya, word
representation pada setiap timestep dan
location embedding:
𝑖 = 𝜎 𝑊 ∗ ℎ + 𝐼 ∗ [𝑥 , 𝑙𝑜𝑐𝐹⃑ 𝑖𝑛𝑎𝑙 ]
𝑓 = 𝜎(𝑊 ∗ ℎ + 𝐼 ∗ 𝑥 )
𝑜 = 𝜎(𝑊 ∗ ℎ + 𝐼 ∗ 𝑥 )
𝑐 = tanh(𝑊 ∗ ℎ + 𝐼 ∗ 𝑥 )
𝑚 = 𝑓 ⊙ + 𝑖 ⨀ 𝑐
ℎ = tanh(𝑜 ⨀𝑚 )
Disini kita berhasil mendapatkan rumus untuk
simple LSTM. Pada final model, kita gunakan
attention-based model yang mengungguli
standard LSTM.
LSTM mendefenisikan distribusi dari output dan
tahapan token prediksi menggunakan fungsi
softmax. Saat ingin memprediksi next word
pada kalimat, maka perlu menggunakan
probabilitas vector didalam vocabulary 𝑉.
𝑜 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑉 ∗ ℎ )

8 | P a g e
Ref____
Lalu diminimalisasi rata-rata kemungkinan log
negative pada target words menjadi:
𝑙𝑜𝑠𝑠 = ln 𝑝
User-Based Model
User-based model mirip dengan location-based
dengan perbedaan penggunaan location
embeddings, pada paper ini menggunakan user
mebedding based on conversational interaction
antara user.
Table 1: Location Perplexity dan user-based models.
Model Perplexity
LSTM Standard 79.1
LSTM Attention 77.2
Location-based
model
Decoder 73.3
Location-based
model
Decoder & encoder 72.7
User-based model Decoder 79.6
User-based model Decoder & encoder 80.7
Result and Discussion
Ukuran yang untuk digunakan didalam
membandingkan perbedaan model perplexity:
𝑒 ∑
= 𝑒
Pada table 1 telah diringkas hasil dari model
dan perbadingan diantara mereka.
Kami mengobservasi hasil location-based model
mengalami peningkatan signifikan (sekitar 8%
pengurangan perplexity), sedangkan untuk
user-based model mengungguli baseline(LSTM)
model sekitar 2% peningkatan pada perplexity.
Jarak antara data untuk user dapat dijelaskan
pada observasi ini,
Terdapat per-user yang dibandingkan dengan
per-location. Jumlah embeddings yang
dipelajari untuk user-based model (1,00,000)
merupakan 10 kali lebih banyak dari nomor
korepsonding untuk location-based model
(10,000). Obeservasi selanjutnya ialah terhadap
decoder-and encoder model yang sangat buruk
dibandingkan decoder model, yang
menunjukkan bahwa informasi dari speaker
tidak menunjukkan hasil yang baik di lingkungan
anonymous. Hal ini bisa dilakukan terbosan
model yang menggabungkan inforamsi yang
lebih robust.
SOC2SEQ
Untuk mengatasi kekurangan pada user-based
model pada paper ini mengajukan
pengggabungan model social embedding
dengan conversation model. Berdasarakan
dengan hasil yang ada di tabel 1, cukup gunakan
decoder model. Selanjutnya pengerjaan akan
berbasis online tanpa perlu di training ulang
seluruh model yang sudah robust pada data
sparsity. Pertama, kami ingin mendiskusikan
social graph dan bagaimana cara
mengkonstruksikannya ke Yik Yak dan
mendeskripsikan bagaimana social graph bisa
digunakan untuk mempelajari low-dimensional
embedding dan menjelaskan bagaimana
menggabungkannya dengan model yang ada
sebelumnya.
Interaction-based Social Graph
Social graph memiliki berbagai macam aplikasi
tapi yang terpenting ialah bagaimana cara
melakukan perangkingan (ranking factor) untuk
beberapa fungsionalitas seperti people
discovery (mirip "people you may know") dan
algoritma content feed creation. Sebagai
catatan, Yik Yak tidak se-eksplisit Facebook,
Twitter dan lain-lain, yang memiliki social link
antar teman atau follower. Social grapb
nantinya harus bisa membuat user merasa
memiliki interaksi dengan platform, karena
nantinya model harus bisa menyesuaikan
dengan fakta seiring berjalannya waktu, dan
orang-orang cenderung berkembang dengan
pilihan-pilihan (reply suggestion) yang ada.

9 | P a g e
Ref____
Gambar 10: Soc2Seq: Social Conversation Model
Setelah kita memiliki general loaction-based
social graph maka akan lebih mudah
mengaplikasikan pada deep learning models
seperti Node2Vec, DeepWalk, LiNE dan lain-lain
untuk menemukan kesamaan diantara
pengguna. Aspek penting yang wajib dicatat
ialah untuk memenuhi pembangunan model ini,
jangan menggunakan textual content tapi
hanya pada user-to-user interaction.
Building Interaction Graphs
Salah satu tantangan yang dihadapi oleh Yik Yak
adalah lemahnya pengartian menjadi teman
atau follower satu sama lain. Membangun
social graph bertujuan untuk mendalami
interaksi antara user dan platform. Terutama
beragam informasi yang akan dikombinasikan
dan kalkulasi berat persamaannya. Tanda
apabila secara keseluruhan interaksi telah
terpenuhi:
Profile View (directed dan binary):
Grafik ini berdasarkan apakah user
telah melihat profile user lain atau
tidak.
Chat request (directed and binary):
Grafik ini berbasis apakah user telah
mengirim chat request ke user lain.
Comment (directed and weighted):
Edge respond untuk membalas, dimana
user meng-comment post user lain.
Weight ditetapkan oleh jumlah
interaksi.
Like (directed): Upvotes (like) pada
koresponden, dimana user yang
melakukan like pada user post yang
lain. Weight ditentukan oleh jumlah
interaksi serupa.
View (directed-weak signal dan
weighted): Koresponden post view,
dimana user dapat melakukan view ke
user lainnya atau comment. Weight
ditentukan dari jumlah interaksi serupa.

10 | P a g e
Ref____
Figure 9: Weighted Social Graph based on Interaction.
Pada prakteknya, perbedaan grafik digunakan
pada aplikasi yang berbeda. Contoh, untuk fitur
user recommendation atau “people you may
know”, tujuannya ialah memaksimalkan chat
request dan profile views. Disini kami
menggunakan Node2Vec untuk mengambil
social embedding untuk setiap user. Node2Vec
dioptimasi menurut fungsi target, yang berarti
memaksimalkan log-probability untuk meng-
observasi network neighborhood 𝑁 (𝑢) untuk
node 𝑢 dikondisikan pada fitur representasi
yang diberikan oleh 𝑓
𝑚𝑎𝑥 log 𝑝 𝑁 (𝑢) 𝑓(𝑢)
∈
dan bisa permudah menjadi
𝑚𝑎𝑥 [− log 𝑍 + log 𝑓(𝑛 ). 𝑓(𝑢))
∈ ( )
]
∈
Gambar 11: Ilustrasi dari random walk procedure didalam
Node2Vec. Walk hanya ditransisi dari node 𝑡 ke 𝑣 dan
dievaluasi pada step selanjutnya di nove 𝑣. Edge label
mengindikasi search biases 𝛼.
Selanjutnya, sampling negatif digunakan untuk
mempercepat pada proses, daripada
mengkalkulasikan fungsi partisi per-node.
Tantangna disini ialah neighbos defenition.
Neighborhoods 𝑁 (𝑢) tidak terlalu dibatasi
secara langsung oleh neighbors dan bisa
berbeda sturukturnya tergantung pada strategi
sampling 𝑆.
Faktanya, keuntungan Node2Vec model ini
fleksible pada notion neighborhoofs dnegnan
men-desain biased random walk untuk
mengefesiensikan eskplorasi perbedaan
neighborhoods.
Table 2: Result using soc2seq model..
Model Perplexity
LSTM Standard 79.1
LSTM Attention 77.2
Location-based
model
Decoder 73.3
Location-based
model
Decoder & encoder 72.7
Social user model Standard 72.4
Social user model tuned 70.9
Pada gambar 11 second-degree random walk di
Node2Vec memeiliki dua parameter, p dan q.
Return parameter p mengontrol likelihood
untuk langsung mendatangi node pada walk.
Setting untuk high value (> max(q,1)) yang akan
memastikan sample sudah dikunjungi node di

11 | P a g e
Ref____
langkah kedua (kecuali next node di walk tidak
memiliki neighbor). Strategi ini mendorong
model untuk bereksplorasi dan menghindari 2-
hop redudancy didalam sampling. Dilain hal, jika
p rendah (< min(q,1)), akan membawa walk ke
backtrack step (lihat gambar 11) yang akan
membawa walk lebih ke local. Disisi lain juga in-
out parameter, q memperbolehkan untuk
mencari perbedaan antara inward dan outward
nodes. Lihatlah kembali gambar 11, jika q>1,
random walk membiaskan kearah nodes yang
dekat dengan node 𝑡.
Berbeda jika q<1, walk akan lebih condong
untuk mem-visit nodes yang jauh dari node 𝑡.
Hal tersebut dikarenakan karena node tersebut
mirip dengan DFS, yang mendorong explorasi
keluar. Namun, perebedaan utamannya disini
ialah pencapaian DFS seperti explorasi didalam
ranom walk framework. Dengan demikian,
Node2Vec sample tidak dengan ketat
menambah jarak yang diberikan dari source
node 𝑢, tetapi sebagai gantinya kita menikmati
dari preprocessing dan efisensi superior
sampling dari random walks. Berikut ini adalah
rumus gabungan dari loss function pada model:
𝑙𝑜𝑠𝑠 = 𝑙𝑜𝑠𝑠 + 𝑙𝑜𝑠𝑠
= − ln 𝑝 + 𝑆𝐺𝐷(𝑛𝑜𝑑𝑒2𝑣𝑒𝑐_𝑤𝑎𝑙𝑘)
dimana SGD adalah stohastic gradient descent
pada Node2Vec random walk.
Sekarang, berkat training complexity yang
dilakukan random walk pada seluru graph di
setiap pembicaraan, pertama training
Node2Vec dari interaksi graph dan embeddings
didalam user-based conversation models. p dan
q diset sama dengan 1, agar mendapatkan
optimal value untuk downstream stask seperti
chat link prediction.
Secara spesifik untuk tugas reply suggestion,
kita menggunakan gabungan dari comment dan
like grafik, jadi embedding user akan
menggunakan Alice:
𝑢𝑠⃑𝑒𝑟 = 𝑐𝑜𝑚𝑚⃑𝑒𝑛𝑡 , 𝑙𝚤𝑘⃑ 𝑒
Seperti yang bisa kita lihat pad table 2
menggunakan pre-trained embedding dari like
dan comment view social graph boosts,
meskipun tanpa pretraining user embedding.
Selain itu peningkatan signifikan ditemukan dari
tune user embeddings menggunakan baik social
dan conversation information.note
Practical Outputs
Pengukuran hasil sistem ini dilihat dari sudut
perplexity, penting juga untuk mengobservasi
performa pada prakteknya.
Result 1: Sample output dari location-based
conversation model.
Anyone wanna watch netflix?
New York: Daredevil is lit!!!
LA: Lets go for House of Cards
SF: orange is the new black 😊😊
London: GOT
Atlanta: netflix and chill
I am feeling lonely and depressed
New York: Lets Party
LA: Find a date dude
SF: we are there op
London: I think of yo as friend
Atlanta: Are you a girl?
Location-based Examples
Lokasi dipilih secara acak dan post-replied juga
diambil secara acak. Result 1 memberikan
contoh question Anyone wanna watch Neflix
dan memperlihatkan jawaban dari berbagai

12 | P a g e
Ref____
[3] P. Bhatia, R. Guthrie, and J. Eisenstein. Morphological
priors for probabilistic neural word embeddings. EMNLP,
2016.
[10] D. Ha, A. Dai, and Q. Le. Hypernetworks.
arXiv:1609.09106, September 2016.
[13] J. Li, W. Monroe, A. Ritter, M. Galley, J. Gao, and D.
Jurafsky. Deep reinforcement learning for dialogue
generation. EMNLP, 2016
Besar:
Satuan bahasa terkecil yang memiliki arti:
yang stabi:
Sudut:
Cenderung:
Dengan Demikian:
Gantinya:
Menikmati:
Substantial
Morpheme
Standpoint
Incline
As Such
In Turn
Benefit
tempat dan berbeda lokasi. Dari jawaban
tersebut dapat di observasi bahwa Daredevil
populer diantar New Yorkers sedangkan Game
of Thrones popular di London. Fleksibilitas ini
tidak akan dimiliki pada model sebelumnya.
Result 2: Sample output dari soc2seq social
conversation model.
I Wanna start gym?
User1: good luck op
User2: I am too fat ☹
User3: you are the man
User4: I want to start too
User5: Go out of course
I love you
User1: I love you
User2: I have a boy friend 😊
User3: I am a boy
User4: I am a girl lol.
User5: Are you a girl?
Social-Graph-Based Examples
Untuk user juga diambil hanya 5 dari 100,000
user, kemudian mengevaluasi response dari set
post yang berbeda. Observasi pada Result 2
setiap user memiliki jawaban tetapi
personality-nya konsisten. Sebagai contoh
User1 extrovert sedangkan User4 (sepertinya)
perempuan.
Conclusion and Future Work
Paper ini terlah persentasikan terbosan
pendekatan dari conversinoal dan social aspek
pada user interaction. Model dapat membuat
intelligent agent (chatbot) mempelajari konten
dan mengetahui struktur user interaction untuk
lebih baik mempersonalisasi kebiasaan orang.
Pencapaian ini merupakan peningkatan besar
pada per-plexity untuk location-based dan juga
social-based model. Encoding personas didalam
distribusi representation conversation dan
social graph juga telah dipersentasikan. Salah
satunya dapat meng-capture personal
characteristics seperti speaking style dan
background informastion.
Model ini juga merepresentasikan building
block untuk pengerjaan kedepanna, diantarnya
membuat model ini lebih robust pada kata yang
tidak diketahui dari gabungan morfem3
atau
level character-embedding. Juga kami
merencanakan untuk menggabungkan social
graph dan pendekatan reinforcement
learning13
. Tapi dibeda area mungkin juga untuk
membuat sequntial network seperti LSTM lebih
pintar seperti HpyerNetworks10
dimana
networks yang lebih kecil membantu network
untuk utama untuk membuat keputusan yang
cerdas.

Chatbot with Personality integration with Social Media

Recommended

Recommended

More Related Content

Similar to Chatbot with Personality integration with Social Media

Similar to Chatbot with Personality integration with Social Media (20)

More from Ron Ashrovy

More from Ron Ashrovy (8)

Chatbot with Personality integration with Social Media