SlideShare a Scribd company logo
感情分析で株価を予測して
おこづかい稼ぎ 日経版
AVA 斉藤広和
前置き
2014年に社内のテックレポートで以下の内容を提出
機械学習で女性のアカウントだけ抽出し、女性アカウントからツイートされたつぶやきを
センチメント分析器にかけ、そこから自分の好みの女の子を選ぶ、、という実験
事の発端
http://arxiv.org/abs/1010.3003v1
レポート提出から遡ること
1ヶ月ほど前
twitterの感情分析で
87.6%の精度で
ダウ予測できたよ
みたいな論文をネットで発見
事の発端
http://networkpaper.blogspot.jp/2012/04/twitter.html
前の論文を検証した
親切な人の
日本語のブログ
感情分析(センチメント分析)とは?
ある文章に対して、感情がどのように含まれてるかを分析すること
うれしい、悲しい、好き、嫌い、怒り、、、などなど
主に、対象の文章がポジティブなのか、ネガティブなのかを判断するのに使います。
「今日晴れててうれしい」
ポジティブ
「仕事疲れた、だるい」
ネガティブ
「パクチーは嫌いじゃない」 「好きだけど別れたい」
日本語の感情分析の方法
1.解析器を使う
zunda
https://code.google.com/archive/p/zunda/
mecab (日本語形態素解析エンジン) ベースの解析器
> 文中のイベントに対して、その真偽判断(イベントが起こったかどうか)、
仮想性(仮定の話かどうか)などを解析します
2.機械学習で分類
ポジティブ、ネガティブの教師データを用意し、分類していく方法
最近出たGoogle Cloud Natural Language APIもセンチメント分析ができるが、
現時点では英語のみ対応
株価をどう分析するか
・参考にしたレポートはダウ平均
ダウ売買するわけじゃないので、そのままでは使えない
・ダウと連動性の高い日経平均を予測するか
日経平均を予測して実売買する場合、
ETF(日経225連動型上場投資信託など)を買うことになる
・できれば特定の銘柄に対するセンチメント分析をしたい
昨今のポケモンブームの任天堂や、PCデポのような兆候を捉えたい
・センチメント分析だけで売買するのは不安
実際にお金が絡んでるので慎重に
データ収集
・まずは上場している企業のデータを収集する。
企業に関するキーワードを収集し、キーワードは分かち書きしておく
→キーワードの共起から企業を関連付けしたかった
検索用キーワード作成
前ページのキーワードを基に、名詞だけピックアップし
出現頻度と共に保存しておく
このキーワードを使って
twitterのキーワード検索を行う
・
・
・
と思ったけどノイズが酷い!!
結局企業名で直接検索することに
twitter検索
twitterで検索してきたつぶやきとそれを分かち書きしたデータを取得
そして、そのつぶやきデータをzundaにかけて、ポジティブかネガティブを判定して保存
0:中立 1:ポジ 2:ネガ
実際のzunda解析の流れ
twitter検索プログラム
① ②
③④
twitter検索とzunda解析は重たいのでプログラムは随時回しっぱなし
1.twitter検索プログラムがtwitterで検索かける
2.検索結果のつぶやきををRabbitMQに保存
3.コンシューマーがMQからメッセージを取り出してzunda解析
4.つぶやきのポジネガ結果をMySQLに保存
わーい
これでtwitterのつぶやきとポジネガと企業を紐付けることができた
だけど、ほんとにこれだけで売買するつもり?
否
無理!おこづかいかかってるし!
twitterのつぶやきだけで売買できるほど
ギャンブラーではない!
そこで、、、、
別のモデルと組み合わせる
オーソドックスな移動平均線を用いた予測モデルと組み合わせる
1.終値予測
ロジスティック回帰で翌日終値を予測する
簡単に言うと、、
線形回帰は量的変数を予測する(上がる1か下がる0か)のに対し
ロジスティック回帰分析は発生確率(1の確率が0.9みたいな)を予測します
説明変数として、始値、終値、高値、安値、値幅、などなどを用いてました。
翌日の終値が当日の終値より上がるか下がるかの確率を出しました。
あとは嫁がいろいろチューニングしてました。
移動平均乖離率とは、現在の価格が移動平均線からどれだけ乖離
しているかを数値化したもの
価格が移動平均線より大きく乖離している場合
移動平均線に戻ってくる事が多い習性を利用したモデル
2.移動平均乖離率
移動平均線から
大きく乖離したあと
平均線に近づいてく
レポート
前述の1と2を組み合わせた予測データはこんな感じ
項目名 内容
rank おすすめ度
低いほうがオススメ
estimate_price 翌日終値予想価格
reliability 信頼性 1に近いほうが信頼性が高い
tend 傾向 数値が高いほど翌日の上昇率が高い
zunda_pozi ポジティブ度
高いほどポジティブ
結果
全然儲からない
レポートを元に、rankが高いものをピックアップし売買した結果
原因
・twitterの崩れた文章に対しての解析が微妙
・日本株は米国株、為替、原油価格などの外部要因の影響が
すごく大きいのでそれらも考慮する必要がある
・買い、売りのタイミングもルール化したほうがよい
・どうしても売買に自分の感情が入る
→なんか上がりそうだからまだ持っとこう
→やばい下がり続けてるから売っちゃわないと、、
→これ予測では下がるってでてるけど、絶対上がりそう
・嫁曰く「売買戦略がなかったのが敗因」
まとめ
twitterの感情分析をするより、己の感情を分析し売買に役立てるべし

More Related Content

Viewers also liked

Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007
Christian Schieder
 
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
antibayesian 俺がS式だ
 
最近挑戦していること at MF Geeks Night 2015.03.19
最近挑戦していること at MF Geeks Night 2015.03.19最近挑戦していること at MF Geeks Night 2015.03.19
最近挑戦していること at MF Geeks Night 2015.03.19
Naoto Koshikawa
 
推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass
Yoshifumi Seki
 

Viewers also liked (20)

書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説書籍『シグナル&ノイズ』解説
書籍『シグナル&ノイズ』解説
 
言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ
 
素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた素人がTF-IDFでキーワード抽出をやってみた
素人がTF-IDFでキーワード抽出をやってみた
 
Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007Open Source Data Mining - Data Mining Cup 2007
Open Source Data Mining - Data Mining Cup 2007
 
テキストマイニングのイメージと実際
テキストマイニングのイメージと実際テキストマイニングのイメージと実際
テキストマイニングのイメージと実際
 
最近挑戦していること at MF Geeks Night 2015.03.19
最近挑戦していること at MF Geeks Night 2015.03.19最近挑戦していること at MF Geeks Night 2015.03.19
最近挑戦していること at MF Geeks Night 2015.03.19
 
Dynamic+arms+fx090930
Dynamic+arms+fx090930Dynamic+arms+fx090930
Dynamic+arms+fx090930
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
 
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
テキストマイニングで発掘!? 売上とユーザーレビューの相関分析
 
推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass推薦システムになにができるのか - Techcompass
推薦システムになにができるのか - Techcompass
 
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
勉強会資料:プログラムもアルゴリズム理解も不要な 機械学習テキストマイニング
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
 
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
データサイエンティスト協会 木曜勉強会 #02 講演2:『ビッグデータの0次分析手法と適用例のご紹介 ~俯瞰から始まる企業内ビッグデータの活用~』
 
RではじめるTwitter解析
RではじめるTwitter解析RではじめるTwitter解析
RではじめるTwitter解析
 
第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016
 
あなたのScalaを爆速にする7つの方法(日本語版)
あなたのScalaを爆速にする7つの方法(日本語版)あなたのScalaを爆速にする7つの方法(日本語版)
あなたのScalaを爆速にする7つの方法(日本語版)
 
プログラマのための文書推薦入門
プログラマのための文書推薦入門プログラマのための文書推薦入門
プログラマのための文書推薦入門
 
A-Frameコンポーネントを公開しよう
A-Frameコンポーネントを公開しようA-Frameコンポーネントを公開しよう
A-Frameコンポーネントを公開しよう
 
IBM Blluemix を Pepper とつないでみよう
IBM Blluemix を Pepper とつないでみようIBM Blluemix を Pepper とつないでみよう
IBM Blluemix を Pepper とつないでみよう
 
人工知能が変える投資の世界 人工知能はすでにここまで身近になっている
人工知能が変える投資の世界 人工知能はすでにここまで身近になっている人工知能が変える投資の世界 人工知能はすでにここまで身近になっている
人工知能が変える投資の世界 人工知能はすでにここまで身近になっている
 

Recently uploaded

《ビルコム株式会社》エンジニア向け会社紹介資料.pptx
《ビルコム株式会社》エンジニア向け会社紹介資料.pptx《ビルコム株式会社》エンジニア向け会社紹介資料.pptx
《ビルコム株式会社》エンジニア向け会社紹介資料.pptx
ssuser82ee2b
 
最先端の勝ち筋 を常に考えてきた SAKIYOMIだからできる 全く新しい運用代行 Instagram総合支援
最先端の勝ち筋 を常に考えてきた SAKIYOMIだからできる 全く新しい運用代行 Instagram総合支援最先端の勝ち筋 を常に考えてきた SAKIYOMIだからできる 全く新しい運用代行 Instagram総合支援
最先端の勝ち筋 を常に考えてきた SAKIYOMIだからできる 全く新しい運用代行 Instagram総合支援
toshifumiyase1
 

Recently uploaded (9)

LINEコンサルティング事例資料 | 北海道イノベーション&インキュベーション株式会社
LINEコンサルティング事例資料 | 北海道イノベーション&インキュベーション株式会社LINEコンサルティング事例資料 | 北海道イノベーション&インキュベーション株式会社
LINEコンサルティング事例資料 | 北海道イノベーション&インキュベーション株式会社
 
HRMOS-saiyo_overview_material_powred_by_bizreach
HRMOS-saiyo_overview_material_powred_by_bizreachHRMOS-saiyo_overview_material_powred_by_bizreach
HRMOS-saiyo_overview_material_powred_by_bizreach
 
《ビルコム株式会社》エンジニア向け会社紹介資料.pptx
《ビルコム株式会社》エンジニア向け会社紹介資料.pptx《ビルコム株式会社》エンジニア向け会社紹介資料.pptx
《ビルコム株式会社》エンジニア向け会社紹介資料.pptx
 
株式会社種村建設_新卒向け会社紹介資料_____________________
株式会社種村建設_新卒向け会社紹介資料_____________________株式会社種村建設_新卒向け会社紹介資料_____________________
株式会社種村建設_新卒向け会社紹介資料_____________________
 
【スポンサープラン】Marketing Native Fes 2024summer
【スポンサープラン】Marketing Native Fes 2024summer【スポンサープラン】Marketing Native Fes 2024summer
【スポンサープラン】Marketing Native Fes 2024summer
 
株式会社メンバーズ社内報MEMBUZZ(メンバズ)2024年4・5月合併号(♯168,169)
株式会社メンバーズ社内報MEMBUZZ(メンバズ)2024年4・5月合併号(♯168,169)株式会社メンバーズ社内報MEMBUZZ(メンバズ)2024年4・5月合併号(♯168,169)
株式会社メンバーズ社内報MEMBUZZ(メンバズ)2024年4・5月合併号(♯168,169)
 
The AI service "MMOL Pot (MMOT)" by MMOL Holdings
The AI service "MMOL Pot (MMOT)" by MMOL HoldingsThe AI service "MMOL Pot (MMOT)" by MMOL Holdings
The AI service "MMOL Pot (MMOT)" by MMOL Holdings
 
【株式会社ゆめみ】 会社紹介 & 実績資料 ≫≫Saleshub_企業様向け≪≪
【株式会社ゆめみ】 会社紹介 & 実績資料 ≫≫Saleshub_企業様向け≪≪【株式会社ゆめみ】 会社紹介 & 実績資料 ≫≫Saleshub_企業様向け≪≪
【株式会社ゆめみ】 会社紹介 & 実績資料 ≫≫Saleshub_企業様向け≪≪
 
最先端の勝ち筋 を常に考えてきた SAKIYOMIだからできる 全く新しい運用代行 Instagram総合支援
最先端の勝ち筋 を常に考えてきた SAKIYOMIだからできる 全く新しい運用代行 Instagram総合支援最先端の勝ち筋 を常に考えてきた SAKIYOMIだからできる 全く新しい運用代行 Instagram総合支援
最先端の勝ち筋 を常に考えてきた SAKIYOMIだからできる 全く新しい運用代行 Instagram総合支援
 

感情分析で株価を予測して おこづかい稼ぎ 日経版

Editor's Notes

  1. 前回はチームビルディングだけど、今回は実生活で役に立つかも!?
  2. このレポートの裏には次のような思惑が、、、
  3. なんかよさそう
  4. ツンデレとか難しい
  5. twitterとかだったら2のほうが精度は高そう
  6. センチメント分析だけじゃないのはあとで紹介
  7. もちろん過去の株価データも 共起(きょうき)は、ある単語がある文章(または文)中に出たとき、その文章(文)中に別の限られた単語が頻繁に出現すること。 'take'という単語に'part' 'in'と言う単語がともに使われていたり、differentialと言う単語が出現した文章とともにintegralと言う単語が出現することがあげられる。
  8. 例えばサイバーエージェント 当初は出現頻度の高い単語と企業を結びつけようとしてたが、 あまりに関係ないツイートを引っ張ってきちゃうので企業名で直接ツイッター検索するようにした
  9. 移動平均線は、一定期間の株価の終値平均値を、毎日(または毎週、毎月)割り出してグラフ化したものです。例えば25日移動平均線の場合、直近の25日間の終値を合計し、25で割ったものが第1日目(直近日)の移動平均値となります。
  10. ロジスティック回帰の詳しい説明は割愛 値の正規化はしてた
  11. mark_up_ratio マークアップレシオは忘れちゃった