Hadoop introduction

13,893 views

Published on

Published in: Technology
0 Comments
17 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
13,893
On SlideShare
0
From Embeds
0
Number of Embeds
11,663
Actions
Shares
0
Downloads
279
Comments
0
Likes
17
Embeds 0
No embeds

No notes for slide
  • C++ ライブラリとして 2003 年初頭から運用が開始され,論文が執筆された 2004 年末の時点で同ライブラリを使用するプログラムは 900 ほど存在すると記されている
  • Yahoo! 最大の導入例 . 4,000ノード以上で検索エンジンのランキング部分の処理にHadoopを使用。 Facebook : ログ解析と機械学習に利用 , 4,800コアの600ノード規模The New York Times : Amazon EC2上でHadoopを利用し4TB分のデータをOCRし、80万枚のPNGに36時間で変換
  • Yahooは128MBにしてるみたい
  • Hadoop introduction

    1. 1. •
    2. 2. #!/usr/bin/ruby ARGF.each do |line| line.chomp! logs = line.split(/,/) unless logs.empty? printf("%s,1n", logs[0]) end end
    3. 3. #!/usr/bin/ruby h = Hash.new ARGF.each do |line| line.chomp! array = line.split(/,/) uid = array[0] c = array[1] count = 1 if h.key? uid count = h[uid].to_i + 1 end h.store uid, count end printf("#{h.length}")

    ×