Advertisement

Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス

Senior Researcher - National Institute of Advanced Industrial Science and Technology (AIST)
Sep. 19, 2017
Advertisement

More Related Content

More from Kosetsu Tsukuda(20)

Advertisement

Recently uploaded(20)

Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス

  1. 1 スマホでアクセス WebDB Forum 2017(2017. 9. 20) Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス 産業技術総合研究所 佃 洸摂 石田 啓介 後藤 真孝
  2. 歌詞トピック 2 各アーティストには固有の歌詞トピックの傾向が存在 アーティストA 恋愛 青春 自然 アーティストB 友情 青春 夢
  3. 歌詞トピックに基づくアプリケーション例 3 検索 推薦 「恋愛」についてよく 歌うアーティストを 探したい アーティストA アーティストC アーティストF 恋愛 恋愛 恋愛 アーティストBが好き 友情 アーティストD アーティストG アーティストH 友情 友情 友情
  4. Lyric Jumper 4 様々な歌詞やアーティストに出会える新しい歌詞探索サービス  歌詞のトピックを可視化  アーティストごとの歌詞の傾向に基づく歌詞探索
  5. 歌詞のトピックを決める難しさ 5 膨大な歌詞データに どんなトピックが存在するか 不明 各歌詞が どのトピックに所属するか 不明 「恋愛」と 「青春」と・・? 15万歌詞 「自分探し」? 「夢と未来」? YELL / いきものがかり 「“わたしは”今 どこに在るの」と 踏みしめた足あとを 何度も見つめ返す 枯れ葉を抱き 秋めく窓辺に かじかんだ指先で 夢を描いた 翼はあるのに 飛べずにいるんだ ひとりになるのが 恐くて つらくて …
  6. 提案モデル概要 6 歌詞データ (15万曲) 大規模な歌詞データを与えるだけでトピックを自動的に推定 確率モデルによる 歌詞トピック解析 歌詞 トピック 松田聖子/ あなたに逢いたくて 4 松田聖子/ 赤いスイートピー 11 井上陽水/少年時代 16  アーティスト・歌詞・単語という3階層の構造を考慮  歌詞データ全体での単語の出現傾向を利用  傾向の差異が端的に表現されるようトピックを自動決定 「恋愛」 永遠の愛・一途な恋・ラブソング 大人の恋愛(女性編)・大人の恋愛(男性編)
  7. Latent Dirichlet Allocation (LDA) 7 LDA:歌詞トピックを扱う際のデファクトスタンダード  Sharma+, “Mining sentiments from songs using latent Dirichlet allocation”, IDA’11  Johnson-Roverson+, “Temporal and regional variation in rap lyrics”, NIPSW’13  Sasaki+, “LyricsRader: A lyrics retrieval system based on latent topics of lyrics”, ISMIR’14  Ren+, “What makes a music track popular in online social networks?”, WWW’16 𝛼𝛼 𝜃𝜃 𝑧𝑧 𝑣𝑣 𝜑𝜑 𝛽𝛽 トピ ック 楽曲 単語 …夏 海 太 陽 トピック2  楽曲ごとにトピック分布𝜃𝜃を持つ  単語ごとにトピック𝑧𝑧を生成  トピックの単語分布に応じて単語𝑣𝑣を生成 1 2 3 20 … トピック
  8. 提案モデル 8 𝛼𝛼 𝜃𝜃 𝑧𝑧 𝑣𝑣 𝜑𝜑 𝛽𝛽 トピ ック 楽曲 単語 ポイント1:アーティストごとにトピックの分布を持つ アーテ ィスト 星野源
  9. 提案モデル 9 𝛼𝛼 𝜃𝜃 𝑧𝑧 𝑣𝑣 𝜑𝜑 𝛽𝛽 トピ ック 楽曲 単語 アーテ ィスト 星野源 ポイント2:楽曲ごとに1つのトピック𝒛𝒛を持つ 歌詞を書き始める前に主題を決めることが一般的 [Baxter, Toivanen+] トピック3
  10. 提案モデル 10 𝛼𝛼 𝜃𝜃 𝑧𝑧 𝑣𝑣 𝜑𝜑 𝛽𝛽 トピ ック 楽曲 単語 アーテ ィスト ポイント3:トピックとは無関係な背景語の分布𝝍𝝍を持つ 𝑠𝑠 𝜆𝜆 𝜌𝜌𝜓𝜓𝛾𝛾 …こ れ 事 時 星野源 ト ピ ッ ク 背 景 語
  11. 評価実験
  12. Research Question 12 アーティストの歌詞に対する好みを考慮することは 歌詞のモデル化を行う際に有用か LDA 提案モデル VS
  13. 実験設定 13 データセット 評価指標 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝐷𝐷𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = 𝑒𝑒𝑒𝑒𝑒𝑒 − ∑𝑎𝑎∈𝐴𝐴 ∑𝑟𝑟=1 𝑅𝑅𝑎𝑎 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 ∑𝑗𝑗=1 𝑉𝑉𝑎𝑎𝑎𝑎 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑝𝑝 𝑣𝑣𝑎𝑎𝑎𝑎𝑎𝑎 ∑𝑎𝑎∈𝐴𝐴 ∑𝑟𝑟=1 𝑅𝑅𝑎𝑎 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑉𝑉𝑎𝑎𝑎𝑎 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡  歌詞配信業者から提供された歌詞データ  登録歌詞数の上位1,000アーティストの93,716件の歌詞  各歌詞の単語の80%を学習データ・20%をテストデータ
  14. 評価 14 トピック数 1100 1200 1300 1400 0 10 20 30 40 50 LDA 提案モデル 良 悪 Perplexity  トピック数:2、4、6、8、10、20、30、40、50  トピック数によらず提案モデルがLDAより高精度
  15. Lyric Jumper
  16. 2017/2/21公開(https://lyric-jumper.petitlyrics.com) 16  2016/12/31時点で10曲以上の楽曲を持つアーティストが対象  3,722アーティストの147,990件の歌詞を使用 データ  トピック数:20  少なすぎると飽きやすいが多すぎると似たトピックが出現  トピック名を単語分布と代表アーティストから人手で決定 トピック PC版 スマホ版
  17. トピック別アーティストランキング機能
  18. トピック別アーティストランキング機能 18 トピックとの関連度が高い順にアーティストをランキング トピック:大人の恋愛(女性編) 割合:1位 / 20トピック 曲数:58曲 トピックの割合の順位を第1キー トピックを持つ曲数を第2キー としてランキング トピック:大人の恋愛(女性編) 割合:5位 / 20トピック 曲数:3曲
  19. アーティスト推薦機能
  20. アーティスト推薦機能 20 1 2 3 20 1 2 3 20 … … トピックの確率分布のJS距離を元に類似度計算  曲数が100曲以上のアーティストから上位8アーティストを推薦  曲数が100曲未満のアーティストから上位2アーティストを推薦  ユーザがメジャー・マイナーなアーティストに触れられる トピックの傾向が類似したアーティストを推薦 奥田民生 斉藤和義
  21. 歌詞の強調表示機能
  22. 歌詞の強調表示機能 22 順位 単語 スコア 1 君 100 2 愛 99 99 真実 2 100 祈り 1 101 現実 0 102 ぬくもり 0 … トピックとの関連度が高い行ほど強調して表示 …  トピック内生起確率の順位に応じて単語をスコア付け  順位が100位より下の単語のスコアは0 「永遠の愛」トピックの単語生起確率の順位
  23. 歌詞の強調表示機能 23 トピックとの関連度が高い行ほど強調して表示 この愛を捧げて / THE ALFEE 星に命があるとしたならば 君はその生命を守りきれるのか 名もなく生まれし消えゆく運命よ 愛しき人の命…君は守れるのか …  行ごとに単語スコアの和を求めてMIN-MAX法で正規化  スコアに応じて に変化 文字サイズを16pt~36pt 文字色を白~トピック色 109 131 36 227 0.36 0.43 0.12 0.74 正規化前 正規化後
  24. 楽曲ランキング機能
  25. 楽曲ランキング機能 25 トピックとの関連度が高い順に楽曲をランキング この愛を捧げて / THE ALFEE 星に命があるとしたならば 君はその生命を守りきれるのか 名もなく生まれし消えゆく運命よ 幾千億の星に誓う永遠の愛を … 平均値 109 131 36 246 118  単語スコアを元に各行のスコアを計算  各行のスコアの平均値=楽曲とトピックの関連度
  26. フレーズ推薦機能
  27. フレーズ推薦機能 27 様々な楽曲からトピックと関連度の高いフレーズを推薦  トピックとの関連度の高い行から順に最大100フレーズ抽出  多様なフレーズに触れられるようフレーズをランダムに表示 「家入レオ」の「夢と未来」トピックに関する楽曲 僕達の未来 世界が君に夢を見てる TWO HEARTS 探してた未来 Message 心のまま今は進める …
  28. ログ分析
  29. ログ分析 29 機能 PC スマホ アーティストランキング 2,092 30,295 アーティスト推薦 1,706 4,016 楽曲ランキング 5,399 14,665 フレーズ推薦 4,997 253,430  2017/2/21~3/22の30日間に渡る全ユーザの操作ログ  PCユーザ数:1,288 スマホユーザ数:11,065  スマホユーザのフレーズ推薦機能の使用頻度が高く トピックの様々なフレーズの提示がユーザの興味を喚起  両ユーザのアーティスト推薦機能の使用頻度は低く インタフェース面での改善が必要 (回)
  30. まとめ|本研究の貢献・今後の課題 30 2実データを用いて提案モデルを定量的に評価 歌詞トピック推定のデファクトスタンダードであるLDAと比較し有用性を示した 1歌詞生成モデルを提案 各アーティストがトピック分布を持ち歌詞ごとにひとつのトピックを割り当て 3WebサービスLyric Jumperを公開 3,722アーティストの約15万件の歌詞に提案モデルを適用 今後の 課題  モデルの言語非依存性を活かし洋楽板Lyric Jumperを公開  音響特徴量やタグと組み合わせたより柔軟なシステム提案
Advertisement