Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

渡る世間は自然言語ばかり #東京スクラッパー

3,303 views

Published on

第1回Webスクレイピング勉強会@東京の発表資料。

Published in: Data & Analytics
  • Dating for everyone is here: ❤❤❤ http://bit.ly/39mQKz3 ❤❤❤
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Follow the link, new dating source: ♥♥♥ http://bit.ly/39mQKz3 ♥♥♥
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

渡る世間は自然言語ばかり #東京スクラッパー

  1. 1. http://pixabay.com/ja/%E3%82%A2%E3%83%AB %E3%83%95%E3%82%A1%E3%83%99%E3%83%83%E3%83%88-%E3%83%AA %E3%83%86%E3%83%A9%E3%82%B7%E3%83%BC-%E6%96%87%E5%AD%97-%E8%AA %AD%E3%81%BF%E5%8F%96%E3%82%8A-%E3%82%A2%E3%83%AB %E3%83%95%E3%82%A1%E3%83%99%E3%83%83%E3%83%88%E9%A0%86-99374/ 第 1 回 Web スクレイピング勉強会 @ 東京 ( # 東京スクラッパー) 渡る世間は自然言語ばかり 〜単語分割 / 品詞特定で獲得データ量倍増!〜 @nezuq
  2. 2. Web ……データは、構造化されていない というか、自然言語( ex. 普通の会話文) ……ばかり Python - 徹底攻略PDFオープンデータ。PDFMinerで始めるPDFテキスト分析。 - Qiitahttp://qiita.com/nezuq/items/75e8366d68c66e56ff53
  3. 3. これ / を / 構造 / 化 / でき / たら / 、 / データ量 / 倍増 / な / のに / なぁ / !
  4. 4. 感情分析とかもできちゃうのになぁ! Good ・嫌い ・暗い ・辛い ・気持ち悪い ・悪魔 ・バカ ……      ・好き ・明るい ・楽しい ・気持ちいい ・天使 ・天才 ……      ミクさんマジ天使! Bad
  5. 5. できます!
  6. 6. ツールはいっぱいある。 代表的なツールとして、3つを紹介! ・ MicrosoftOffice Word ( Word-VBA ) ・ Yahoo API (日本語形態素解析 API ) ・ MeCab
  7. 7. MicrosoftOffice Word WordVBA の Document.words プロパティで、 文書内の単語を配列として取得できる。 ※ ただし、候補が2つ以上の場合は、両方とも取得される。 Sub 分かち書き () Set doc = Documents.Add For Each wrd In ThisDocument.Words doc.Content.InsertAfter wrd & "/" Next End Sub ミク / さん / マジ / 天使 / ! / WordVBA - Qiita参考: で分かち書き
  8. 8. Yahoo API 日本語形態素解析 API で、 文書内の単語を品詞付き XML として取得できる。 ※ ただし、使用回数と文章量に限界がある。 http://jlp.yahooapis.jp/MAService/V1/parse? appid=< あなたのアプリケーション ID>&results=ma,uniq&uniq_filter=9%7C10&senten ce= ミクさんマジ天使! <word> <surface> ミク </surface> <reading> みく </reading> <pos> 名詞 </pos> <baseform> ミク </baseform> </word> …… : API - Yahoo!参考:テキスト解析 日本語形態素解析 デベロッパーネットワーク
  9. 9. MeCab オープンソースの形態素解析エンジンで、 文書内の単語を品詞付き CSV として取得できる。 ※ 使用回数に限界はなく、長文も対応できる。 $ mecab ミクさんマジ天使! ミク 名詞 , 固有名詞 , 人名 , 名 ,*,*, ミク , ミク , ミク さん 名詞 , 接尾 , 人名 ,*,*,*, さん , サン , サン マジ 名詞 , 一般 ,*,*,*,*, マジ , マジ , マジ , ニコニコ大百科 天使 名詞 , 一般 ,*,*,*,*, 天使 , テンシ , テンシ , ニコニコ大 百科 ! 記号 , 一般 ,*,*,*,*, ! , ! , ! MeCab: Yet Another Part-of-Speech and Morphological Analyzer参考:
  10. 10. ただし、 MeCab は新語・俗語に弱い。
  11. 11. 辞書を拡張する。 代表的なデータ元として、3つを紹介! 実際の追加方法は 「 < サイト名 > mecab 辞書」でググる。 ・ Wikipedia ・はてなキーワード ・ニコニコ大百科
  12. 12. 自然言語処理を楽しもう! 自然言語 名詞 , 固有名詞 ,*,*,*,*, 自然言語 ,*,*,wikipedia_word, 処理 名詞 , サ変接続 ,*,*,*,*, 処理 , ショリ , ショリ を 助詞 , 格助詞 , 一般 ,*,*,*, を , ヲ , ヲ 楽しも 動詞 , 自立 ,*,*, 五段・マ行 , 未然ウ接続 , 楽しむ , タノシモ , タノシモ う 助動詞 ,*,*,*, 不変化型 , 基本形 , う , ウ , ウ EOS

×