Wikipediaで位置情報のテキストマインニングっぽいことをやってみた 20121208

  • 1,508 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,508
On Slideshare
0
From Embeds
0
Number of Embeds
5

Actions

Shares
Downloads
0
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Wikipediaで位置情報の テキストマインニング っぽいことをやってみたPrototyping for Experimental Rapid implemented version of Location information application はてな id:babydaemons Twitter @babydaemons
  • 2. Self Introduction:・ブラック系ITベンダの切り込み隊長・つい最近までプロジェクトが4スレッド並行稼働・Nagoya.pmしか活動してない。orz・妻一人、息子一人・はてな id:babydaemons・Twitter @babydaemons・その他 http://www.google.com/?q=babydaemons
  • 3. 今日のお題:https://github.com/babydaemons/ p5-MediaWiki-DumpFile-Parse/
  • 4. Agenda:・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
  • 5. Agenda:・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
  • 6. jawiki-latest-pages-articles .xml.bz2
  • 7. *.xml.bz2 1.6GB*.xml 8.0GB
  • 8. EmacsやVimで 開くのは
  • 9. 神業!Memory 16GB MacBook Pro所有の大先生
  • 10. Agenda:・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
  • 11. Perlでは
  • 12. MediaWiki::DumpFile::Pages On CPAN
  • 13. Rubyでは
  • 14. Faculty of Global Communications, Doshisha Universityhttps://github.com/yohasebe/wp2txt/
  • 15. 貧民業 では?Memory 4GB MacBook Air所有の大貧民
  • 16. https://github.com/babydaemons/ wikipedia-scipts/
  • 17. Agenda:・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
  • 18. その対象: 緯度・経度住所(日本語のみ)
  • 19. Agenda:・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
  • 20. 概要はテレビCMで!!
  • 21. 某社の位置情報DBとWikipedia記事 の紐付け
  • 22. Released on ガラケー!!
  • 23. PC/スマホ?お察し下さい orz
  • 24. ちなみにプロダクトコードは Java
  • 25. Perlはprototyping
  • 26. Javaで プロト タイプ 出来ないん ですか?関数型言語クラスタとテストクラスタの大家
  • 27. Agenda:・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
  • 28. まとめ:・Wikipediaのダンプ超デカっ!・MySQL取り込み鬼門!・生データなら楽チン!・正規表現最強!・詳細は夜の部で聞いてね!・だれかMakefile.PMの書き方 教えてください。m(_ _)m