problemsolved.key

2,407 views

Published on

  • @士朗 石田 返信が大変遅くなってしまい申し訳ありません。今からでもよろしければお送りさせていただきます
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • (株)IHIの石田と申します。「売れる歌詞の作り方 randomForest法を用いたテキストマイニング」のプレゼンテーションについて,社内でテキスト分析する際の参考としたいので,Microsoft PowerPoint 形式のファイルを送付いただけないでしょうか?連絡先のメールアドレスをお教えいただければ,送付用のアドレスをご連絡します。
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

problemsolved.key

  1. 1. 売れる歌詞の作り方randomForest法を用いたテキストマイニング
  2. 2. アウトライン
  3. 3. 背景 目的アウトライン アプローチ 研究内容 まとめ
  4. 4. 背景 目的アウトライン アプローチ 研究内容 まとめ
  5. 5. 背景 音楽不況4
  6. 6. CDの売上枚数 シングル アルバム 400,000,000 300,000,000枚数 200,000,000 100,000,000 0 19971998 2007 20092010 大幅に減少
  7. 7. 音楽不況売れ続けるアーティスト−いきものがかり アルバム「いきものばかり」132万枚−西野カナ アルバム「to LOVE」71万枚−FUNKY MONKEY BABYS アルバム「BEST」55万枚
  8. 8. 売れ続けるアーティストの共通点若者が共感する歌詞
  9. 9. 若者が共感する歌詞CDの売上を伸ばせるかも
  10. 10. 背景 目的アウトライン アプローチ 研究内容 まとめ
  11. 11. 目的 共感する歌詞若者が 共感しない歌詞を分類するモデルを構築しよう
  12. 12. 背景 目的アウトライン アプローチ 研究内容 まとめ
  13. 13. アプローチテキストマイニング使用したソフトKH CORDER
  14. 14. モデルの構築randomForest法樹木モデルの集団学習により高精度の分類・予測を行うメリット 精度の高さ、扱える説明変数の多さ
  15. 15. 背景 目的アウトライン アプローチ 研究内容 まとめ
  16. 16. 手順1、訓練データ(正例、負例)を用意する2、訓練データから予測モデルをたてる3、実際に歌詞を予測モデルに入れて判定する
  17. 17. 訓練データを集める「うたまっぷ」から歌詞データを入手 西野カナ、いきものがかり、正例 FUNKY MONKEY BABYS [自分が知っているあんまり売れてない歌手]負例 andymori、NonaReeves、クラムボン、 星野源、清竜人 ※無作為に選択
  18. 18. 訓練データの加工 KH CODERを使って集めた歌詞データを加工!!
  19. 19. 実際のデータ説明変数は2260個!!
  20. 20. モデルを立てるRのパッケージ「randomForest」を使って 歌詞を分類するモデルを立てる!!
  21. 21. Rのコード> data <- read.csv(file = "data.csv") #データをRに読み込む> ndata <- nrow(data)  #データの行> ridx <- sample(ndata,ndata*0.5)  #データを2分割する> data.learn <- data[ridx,]  #訓練用> data.test <- data[-ridx,]  #判定用> forest <- randomForest(artist~.,data = data.learn) #randomForestでモデル構築 > pred.forest <- predict(forest,newdata = data.test,type = "class")   #実際に分類
  22. 22. 精度> table(pred.forest,data.test[,1]) 実際 正例 負例 正例 69 21予測 負例 4 93 黄色いセルが正しく分類 正解率=87%!!
  23. 23. 使い方 判別したい曲のデータを入れる > predict(forest,newdata = test,type = "class")            1               2 positive example  negative example1行目:若者が共感する歌詞 2行目:若者が共感しない歌詞
  24. 24. 背景 目的アウトライン アプローチ 研究内容 まとめ
  25. 25. まとめ モデルが構築できた!! 売り出す前の歌詞をモデルにかければ若者が共感する歌詞であるかどうかがわかるつまりその曲が売れるかどうか判別可能!!? 秋元康も夢じゃない!?
  26. 26. 参考資料ランダムフォレスト法による文章の書き手の同定 (金 明哲,村上 征勝)はじめてでもわかるrandomForest入門 (hamada koichi)Rによるtwitterテキストマイニング (AntiBaysian)
  27. 27. ご清聴ありがとうございました
  28. 28. 使用したソフトKH CORDER テキストマイニングLyrics Master 歌詞データの収集txtjoin15 歌詞データの編集Speeeeed
  29. 29. 関連研究はてなブログ「あんちべ」twitterで自分がつぶやいたtweetがウケるか(お気に入りにされるか)どうかをrandomForest法を用いて判断
  30. 30. 関連研究randomForest法による文章の書き手の同定 (金・村上,2007)randomForestを用いて10人が書いた200編の小説の筆者を予測 randomForest法が持つ高精度の予測能力を証明
  31. 31. 音楽不況原因−レンタル・中古市場の隆盛−違法コピー・違法アップロードの蔓延−コンテンツ市場の多様化
  32. 32. 音楽不況原因−レンタル・中古市場の隆盛−違法コピー・違法アップロードの蔓延−コンテンツ市場の多様化インターネット・携帯電話の普及で人々が音楽に使う消費の割合が少なくなった特に若者の音楽離れが深刻に−−−
  33. 33. 若者の興味以前 現在ジャンル 市場の多様化音楽性完成度 共感

×