HadoopでWikipedia解析
(≒HadoopでXML解析)
Blog :
http://d.hatena.ne.jp/yamiura/

Twitter :
yamiura
Wikipediaのデータ(XML)
圧縮ファイル
 16G!
 XML!
XMLの内容
<page>
 <title>GNU Free Documentation License</title>
 <id>75</id>
 <revision>
  <id>135</id>
  <timestamp>2002-12-...
<page>
 <title>GNU Free Documentation License</title>
 <id>75</id>
 <revision>                                    仕事中?
  <...
あらゆる情報が
つまった夢のXML!!!
参考:XMLの種類の説明ページ
http://www.mwsoft.jp/programming/munou/wikipedia_data_list.html
ここから、本題。
HadoopでXML処理
Mapへのインプットを決めるクラス




  デフォルトは、1行入力
Jobを定義するMain文 イメージ




  取り消し線、黄色線は何?
非推奨(?)な旧クラス、新クラス




 Mapper,Reducerも同様の状態
旧クラス(非推奨?)のほうが
Implが多い・・・
推奨されていない
旧クラスのほうが
 圧倒的に豊富
新しいもの≠いいもの
こんな気分でした
旧クラスには、XML処理用クラス有り




  ただし、hadoop streming
普通のHadoopでもクラスは使えます
新クラスには、XML処理用クラス無し




    orz...
 でも、自作は結構簡単です!!
まとめ
- XML処理もできる
- InputFormat,RecordReaderで制御
- トラップあり
- (厳密な処理は注意)
- (Wik-IEのコードを参考に)
Upcoming SlideShare
Loading in …5
×

Hadoopソースコードリーディング 2回目   hadoopでwikipedia解析(≒hadoopでxml解析)

2,647 views

Published on

Hadoopソースコードリーディング 2回目で行いました
「HadoopでWikipedia解析(≒HadoopでXML解析)」のLTの資料をUPしました。

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,647
On SlideShare
0
From Embeds
0
Number of Embeds
25
Actions
Shares
0
Downloads
19
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Hadoopソースコードリーディング 2回目   hadoopでwikipedia解析(≒hadoopでxml解析)

  1. 1. HadoopでWikipedia解析 (≒HadoopでXML解析)
  2. 2. Blog : http://d.hatena.ne.jp/yamiura/ Twitter : yamiura
  3. 3. Wikipediaのデータ(XML)
  4. 4. 圧縮ファイル 16G! XML!
  5. 5. XMLの内容 <page> <title>GNU Free Documentation License</title> <id>75</id> <revision> <id>135</id> <timestamp>2002-12-17T06:04:47Z</timestamp> <contributor> <username>Tomos</username> <id>10</id> </contributor> <comment>さわり/just started</comment> <text xml:space=“preserve”>[[GNU]] Free Documentation Licenseの略称。                               GNU フリー文書利用許諾契約書として、・・・・・・・・・ <revision> <id>7103</id> <timestamp>2003-02-25T16:40:31Z</timestamp> <contributor> <ip>211.123.199.231</ip> </contributor>
  6. 6. <page> <title>GNU Free Documentation License</title> <id>75</id> <revision> 仕事中? <id>135</id> <timestamp>2002-12-17T06:04:47Z</timestamp> <contributor> <username>Tomos</username> <id>10</id> カテゴリは? </contributor> <comment>さわり/just started</comment> <text xml:space=“preserve”>[[GNU]] Free Documentation Licenseの略称。                               GNU フリー文書利用許諾契約書として、・・・・・・・・・ <revision> <id>7103</id> <timestamp>2003-02-25T16:40:31Z</timestamp> <contributor> <ip>211.123.199.231</ip> </contributor> 会社からですか?
  7. 7. あらゆる情報が つまった夢のXML!!!
  8. 8. 参考:XMLの種類の説明ページ http://www.mwsoft.jp/programming/munou/wikipedia_data_list.html
  9. 9. ここから、本題。 HadoopでXML処理
  10. 10. Mapへのインプットを決めるクラス デフォルトは、1行入力
  11. 11. Jobを定義するMain文 イメージ 取り消し線、黄色線は何?
  12. 12. 非推奨(?)な旧クラス、新クラス Mapper,Reducerも同様の状態
  13. 13. 旧クラス(非推奨?)のほうが Implが多い・・・
  14. 14. 推奨されていない 旧クラスのほうが 圧倒的に豊富 新しいもの≠いいもの
  15. 15. こんな気分でした
  16. 16. 旧クラスには、XML処理用クラス有り ただし、hadoop streming 普通のHadoopでもクラスは使えます
  17. 17. 新クラスには、XML処理用クラス無し orz... でも、自作は結構簡単です!!
  18. 18. まとめ - XML処理もできる - InputFormat,RecordReaderで制御 - トラップあり - (厳密な処理は注意) - (Wik-IEのコードを参考に)

×