SlideShare a Scribd company logo
1 of 15
Download to read offline
UEC.R(R 勉強会 in 電通大 )



    R でテキストマイニング
--YjdnJlp パッケージを使って --
自己紹介

   名前:早川 敦士
   電気通信大学システム工学科三年
   サークルは MMA と ICES に所属
   ツイッターは、 @gepuro
   ブログは、 http://d.hatena.ne.jp/gepuro/
   資料は、 http://www.slideshare.net/gepuro/
   学外で社会人の方も参加される勉強会でプレゼン
    テーションをやらせてもらっています。
R って何?


   正しくは R 言語と言います
   統計解析を得意とするプログラミング言語
   プログラミングをするのに難しい知識は不要
   プログラムを書くことを専門としていない人も使って
    います。
誰が使ってるの?

   金融業界
   マーケティング
   経営工学
   医療業界
   生物学
   統計学
   Web 業界
   などなど・・・
なんで R を使うの?

   最新の手法を使うため
   多くのソフトでは、古典的な手法しか使えない
   無料
   同じ計算を繰り返すのが楽
   早い( Excel と比べて)
   たくさんのデータを扱える( Excel と比べて)
   Excel から R 言語を使う事もできます。
テキストマイニングって何ぞや



   マイニングとは、「発掘」を意味する英単語
   テキストデータから、価値ある情報を発掘すること
何が嬉しいの?

   数値データに比べて、量が多い。
   世の中にあるすべての文章が分析対象になる。
   新聞、雑誌、 web サイト、ブログ、ツイッターなど


                つまり、

   web からデータをとれば、無限のように情報がある
実際にやってみた

   分析するテキストデータを手に入れる。
   日経経済新聞の記事を対象にしました。
   http://www.nikkei.com/

   NY円、続伸 1ドル= 80 円 70 ~ 80 銭で終了 
    対ユーロは大幅高( 2011/5/14 6:39 )
   http://www.nikkei.com/markets/kawase/summar
    y.aspx?
    g=DGXNASM7IAA05_14052011000000
   これくらいの文章なら読めるけど・・・
   できる事なら、読みたくない
   新聞の記事全部を読めますか?
   ツイッターのつぶやきを全部読めますか?
                ↓
    たくさんのデータから、価値ある情報を発掘する。
            テキストマイニング
発掘結果

           keyphrase score
   1        ユーロ     100
   2        低金利      97
   3        円買い      96
   4        値動き      88
   5      リスク資産       85
   ・・・・
   score が高いほど、重要そうな情報
   3 番目に「円買い」とある。

   円買いというのが重要らしい。

   記事を読むことなく、それが分かった。
   YahooJapan のデベロッパーネットワークの登録が
    必要です。
   http://developer.yahoo.co.jp/sitemap/
   アプリケーション ID の登録
   無料です。
テキストマイニングの可能性の一つ

   刻々と変化する為替や株式
   秒単位で動くツイッター

   ツイッターのつぶやきを分析すれば、
    株価や為替の変動が予測できるのでは?


    変動の直前にそれが分かれば・・・・
    実現すれば、あなたは第一人者になれるはず
終わりに


   テキストマイニングをしてみませんか?
       R 言語で世の中を分析してみよう
           情報を持つものが勝つ時代


        ご清聴ありがとうございました。
参考

   Tokyor13 - YjdnJlp パッケージと Tokyo.R 翻訳プ
    ロジェクトの紹介
   http://www.slideshare.net/yokkuns/tokyor13-
    yjdnjlptokyor

More Related Content

Similar to Uec.R#3 YjdnJlpを使ってみた

大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理Preferred Networks
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニングYudai Shinbo
 
RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~江上 ゼミナール
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)Yuya Unno
 
20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」
20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」
20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」Takashi Uemura
 
SECCON CTFの取り組み
SECCON CTFの取り組みSECCON CTFの取り組み
SECCON CTFの取り組みKensuke_Nezu
 
エンジニアのキャリアを考える
エンジニアのキャリアを考えるエンジニアのキャリアを考える
エンジニアのキャリアを考えるMKT International Inc.
 
gooスマホ部について0707
gooスマホ部について0707gooスマホ部について0707
gooスマホ部について0707Tadayoshi Senda
 
rstanで個人のパラメーターを推定した話
rstanで個人のパラメーターを推定した話rstanで個人のパラメーターを推定した話
rstanで個人のパラメーターを推定した話Yuya Matsumura
 
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―Hisao Soyama
 
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃんYasushi Hara
 
Cloud Impact on Business in Japan
Cloud Impact on Business in JapanCloud Impact on Business in Japan
Cloud Impact on Business in Japanshojiro-tanaka
 
データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要Analytics2014
 
なめるな!plot
なめるな!plotなめるな!plot
なめるな!plotitoyan110
 

Similar to Uec.R#3 YjdnJlpを使ってみた (20)

大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
RでTwitterテキストマイニング
RでTwitterテキストマイニングRでTwitterテキストマイニング
RでTwitterテキストマイニング
 
RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~RでTwitterテキストマイニング~スターバックス~
RでTwitterテキストマイニング~スターバックス~
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
bigdata2012nlp okanohara
bigdata2012nlp okanoharabigdata2012nlp okanohara
bigdata2012nlp okanohara
 
20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」
20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」
20121124 学生セミナー「基礎からわかる! IT業界とプログラミング」
 
SECCON CTFの取り組み
SECCON CTFの取り組みSECCON CTFの取り組み
SECCON CTFの取り組み
 
エンジニアのキャリアを考える
エンジニアのキャリアを考えるエンジニアのキャリアを考える
エンジニアのキャリアを考える
 
[Japan Tech summit 2017] SPL 002
[Japan Tech summit 2017] SPL 002[Japan Tech summit 2017] SPL 002
[Japan Tech summit 2017] SPL 002
 
gooスマホ部について0707
gooスマホ部について0707gooスマホ部について0707
gooスマホ部について0707
 
rstanで個人のパラメーターを推定した話
rstanで個人のパラメーターを推定した話rstanで個人のパラメーターを推定した話
rstanで個人のパラメーターを推定した話
 
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
大学生のTwitter利用に関する定量分析―利用目的とサービス設計の関係―
 
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
 
Dynamic+arms+fx100225
Dynamic+arms+fx100225Dynamic+arms+fx100225
Dynamic+arms+fx100225
 
Cloud Impact on Business in Japan
Cloud Impact on Business in JapanCloud Impact on Business in Japan
Cloud Impact on Business in Japan
 
データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要
 
なめるな!plot
なめるな!plotなめるな!plot
なめるな!plot
 
Dynamic+arms+fx100414
Dynamic+arms+fx100414Dynamic+arms+fx100414
Dynamic+arms+fx100414
 
Dynamic+arms+fx100414
Dynamic+arms+fx100414Dynamic+arms+fx100414
Dynamic+arms+fx100414
 

More from Atsushi Hayakawa

Zepp play soccerで測ってみた
Zepp play soccerで測ってみたZepp play soccerで測ってみた
Zepp play soccerで測ってみたAtsushi Hayakawa
 
dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?Atsushi Hayakawa
 
トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018Atsushi Hayakawa
 
バンクーバー旅行記
バンクーバー旅行記バンクーバー旅行記
バンクーバー旅行記Atsushi Hayakawa
 
Analyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.RAnalyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.RAtsushi Hayakawa
 
Visual Studio CodeでRを使う
Visual Studio CodeでRを使うVisual Studio CodeでRを使う
Visual Studio CodeでRを使うAtsushi Hayakawa
 
トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017Atsushi Hayakawa
 
simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65Atsushi Hayakawa
 
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstallRstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstallAtsushi Hayakawa
 
統計的学習の基礎 4.4~
統計的学習の基礎 4.4~統計的学習の基礎 4.4~
統計的学習の基礎 4.4~Atsushi Hayakawa
 
Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝Atsushi Hayakawa
 
最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情Atsushi Hayakawa
 
nginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積するnginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積するAtsushi Hayakawa
 
implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化Atsushi Hayakawa
 
イケてる分析基盤をつくる
イケてる分析基盤をつくるイケてる分析基盤をつくる
イケてる分析基盤をつくるAtsushi Hayakawa
 

More from Atsushi Hayakawa (20)

tidyverse.orgの翻訳
tidyverse.orgの翻訳tidyverse.orgの翻訳
tidyverse.orgの翻訳
 
Zepp play soccerで測ってみた
Zepp play soccerで測ってみたZepp play soccerで測ってみた
Zepp play soccerで測ってみた
 
dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?dataclassとtypehintを使ってますか?
dataclassとtypehintを使ってますか?
 
トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018トライアスロンとgepuro task views V2.0 Japan.R 2018
トライアスロンとgepuro task views V2.0 Japan.R 2018
 
バンクーバー旅行記
バンクーバー旅行記バンクーバー旅行記
バンクーバー旅行記
 
Analyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.RAnalyze The Community Of Tokyo.R
Analyze The Community Of Tokyo.R
 
Visual Studio CodeでRを使う
Visual Studio CodeでRを使うVisual Studio CodeでRを使う
Visual Studio CodeでRを使う
 
トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017トライアスロンと僕 - Japan.R 2017
トライアスロンと僕 - Japan.R 2017
 
simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65simputatoinで欠損値補完 - Tokyo.R #65
simputatoinで欠損値補完 - Tokyo.R #65
 
useR!2017 in Brussels
useR!2017 in BrusselsuseR!2017 in Brussels
useR!2017 in Brussels
 
Japan.R 2016の運営
Japan.R 2016の運営Japan.R 2016の運営
Japan.R 2016の運営
 
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstallRstudio上でのパッケージインストールを便利にするaddin4githubinstall
Rstudio上でのパッケージインストールを便利にするaddin4githubinstall
 
統計的学習の基礎 4.4~
統計的学習の基礎 4.4~統計的学習の基礎 4.4~
統計的学習の基礎 4.4~
 
Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝Splatoon界での壮絶な戦い&Japan.Rの宣伝
Splatoon界での壮絶な戦い&Japan.Rの宣伝
 
最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情最近のクラウドストレージの事情と私情
最近のクラウドストレージの事情と私情
 
gepuro task views
gepuro task viewsgepuro task views
gepuro task views
 
nginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積するnginxのログを非スケーラブルに省メモリな方法で蓄積する
nginxのログを非スケーラブルに省メモリな方法で蓄積する
 
implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化implyを用いたアクセスログの可視化
implyを用いたアクセスログの可視化
 
イケてる分析基盤をつくる
イケてる分析基盤をつくるイケてる分析基盤をつくる
イケてる分析基盤をつくる
 
らずぱいラジコン
らずぱいラジコンらずぱいラジコン
らずぱいラジコン
 

Uec.R#3 YjdnJlpを使ってみた

  • 1. UEC.R(R 勉強会 in 電通大 ) R でテキストマイニング --YjdnJlp パッケージを使って --
  • 2. 自己紹介  名前:早川 敦士  電気通信大学システム工学科三年  サークルは MMA と ICES に所属  ツイッターは、 @gepuro  ブログは、 http://d.hatena.ne.jp/gepuro/  資料は、 http://www.slideshare.net/gepuro/  学外で社会人の方も参加される勉強会でプレゼン テーションをやらせてもらっています。
  • 3. R って何?  正しくは R 言語と言います  統計解析を得意とするプログラミング言語  プログラミングをするのに難しい知識は不要  プログラムを書くことを専門としていない人も使って います。
  • 4. 誰が使ってるの?  金融業界  マーケティング  経営工学  医療業界  生物学  統計学  Web 業界  などなど・・・
  • 5. なんで R を使うの?  最新の手法を使うため  多くのソフトでは、古典的な手法しか使えない  無料  同じ計算を繰り返すのが楽  早い( Excel と比べて)  たくさんのデータを扱える( Excel と比べて)  Excel から R 言語を使う事もできます。
  • 6. テキストマイニングって何ぞや  マイニングとは、「発掘」を意味する英単語  テキストデータから、価値ある情報を発掘すること
  • 7. 何が嬉しいの?  数値データに比べて、量が多い。  世の中にあるすべての文章が分析対象になる。  新聞、雑誌、 web サイト、ブログ、ツイッターなど つまり、  web からデータをとれば、無限のように情報がある
  • 8. 実際にやってみた  分析するテキストデータを手に入れる。  日経経済新聞の記事を対象にしました。  http://www.nikkei.com/  NY円、続伸 1ドル= 80 円 70 ~ 80 銭で終了  対ユーロは大幅高( 2011/5/14 6:39 )  http://www.nikkei.com/markets/kawase/summar y.aspx? g=DGXNASM7IAA05_14052011000000
  • 9. これくらいの文章なら読めるけど・・・  できる事なら、読みたくない  新聞の記事全部を読めますか?  ツイッターのつぶやきを全部読めますか? ↓ たくさんのデータから、価値ある情報を発掘する。 テキストマイニング
  • 10. 発掘結果 keyphrase score  1 ユーロ 100  2 低金利 97  3 円買い 96  4 値動き 88  5 リスク資産 85  ・・・・
  • 11. score が高いほど、重要そうな情報  3 番目に「円買い」とある。  円買いというのが重要らしい。  記事を読むことなく、それが分かった。
  • 12. YahooJapan のデベロッパーネットワークの登録が 必要です。  http://developer.yahoo.co.jp/sitemap/  アプリケーション ID の登録  無料です。
  • 13. テキストマイニングの可能性の一つ  刻々と変化する為替や株式  秒単位で動くツイッター  ツイッターのつぶやきを分析すれば、 株価や為替の変動が予測できるのでは? 変動の直前にそれが分かれば・・・・ 実現すれば、あなたは第一人者になれるはず
  • 14. 終わりに  テキストマイニングをしてみませんか?  R 言語で世の中を分析してみよう  情報を持つものが勝つ時代 ご清聴ありがとうございました。
  • 15. 参考  Tokyor13 - YjdnJlp パッケージと Tokyo.R 翻訳プ ロジェクトの紹介  http://www.slideshare.net/yokkuns/tokyor13- yjdnjlptokyor