Wikipediaで位置情報のテキストマインニングっぽいことをやってみた 20121208

3,708 views

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,708
On SlideShare
0
From Embeds
0
Number of Embeds
2,147
Actions
Shares
0
Downloads
4
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Wikipediaで位置情報のテキストマインニングっぽいことをやってみた 20121208

  1. 1. Wikipediaで位置情報の テキストマインニング っぽいことをやってみたPrototyping for Experimental Rapid implemented version of Location information application はてな id:babydaemons Twitter @babydaemons
  2. 2. Self Introduction:・ブラック系ITベンダの切り込み隊長・つい最近までプロジェクトが4スレッド並行稼働・Nagoya.pmしか活動してない。orz・妻一人、息子一人・はてな id:babydaemons・Twitter @babydaemons・その他 http://www.google.com/?q=babydaemons
  3. 3. 今日のお題:https://github.com/babydaemons/ p5-MediaWiki-DumpFile-Parse/
  4. 4. Agenda:・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
  5. 5. Agenda:・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
  6. 6. jawiki-latest-pages-articles .xml.bz2
  7. 7. *.xml.bz2 1.6GB*.xml 8.0GB
  8. 8. EmacsやVimで 開くのは
  9. 9. 神業!Memory 16GB MacBook Pro所有の大先生
  10. 10. Agenda:・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
  11. 11. Perlでは
  12. 12. MediaWiki::DumpFile::Pages On CPAN
  13. 13. Rubyでは
  14. 14. Faculty of Global Communications, Doshisha Universityhttps://github.com/yohasebe/wp2txt/
  15. 15. 貧民業 では?Memory 4GB MacBook Air所有の大貧民
  16. 16. https://github.com/babydaemons/ wikipedia-scipts/
  17. 17. Agenda:・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
  18. 18. その対象: 緯度・経度住所(日本語のみ)
  19. 19. Agenda:・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
  20. 20. 概要はテレビCMで!!
  21. 21. 某社の位置情報DBとWikipedia記事 の紐付け
  22. 22. Released on ガラケー!!
  23. 23. PC/スマホ?お察し下さい orz
  24. 24. ちなみにプロダクトコードは Java
  25. 25. Perlはprototyping
  26. 26. Javaで プロト タイプ 出来ないん ですか?関数型言語クラスタとテストクラスタの大家
  27. 27. Agenda:・WikipediaのDBの提供って?・そのデータってどう使うの?・テキストマインニングって?・その位置情報は何に使うの?・まとめ
  28. 28. まとめ:・Wikipediaのダンプ超デカっ!・MySQL取り込み鬼門!・生データなら楽チン!・正規表現最強!・詳細は夜の部で聞いてね!・だれかMakefile.PMの書き方 教えてください。m(_ _)m

×