•
#!/usr/bin/ruby

ARGF.each do |line|
  line.chomp!
  logs = line.split(/,/)
  unless logs.empty?
    printf("%s,1n", logs[0])
  end
end
#!/usr/bin/ruby
h = Hash.new
ARGF.each do |line|
        line.chomp!
        array = line.split(/,/)
        uid = array[0]
        c = array[1]
        count = 1
        if h.key? uid
                count = h[uid].to_i + 1
        end
        h.store uid, count
end
printf("#{h.length}")
Hadoop introduction
Hadoop introduction
Hadoop introduction
Hadoop introduction
Hadoop introduction
Hadoop introduction
Hadoop introduction
Hadoop introduction

Hadoop introduction

Editor's Notes

  • #6 C++ ライブラリとして 2003 年初頭から運用が開始され,論文が執筆された 2004 年末の時点で同ライブラリを使用するプログラムは 900 ほど存在すると記されている
  • #7 Yahoo! 最大の導入例 . 4,000ノード以上で検索エンジンのランキング部分の処理にHadoopを使用。 Facebook : ログ解析と機械学習に利用 , 4,800コアの600ノード規模The New York Times : Amazon EC2上でHadoopを利用し4TB分のデータをOCRし、80万枚のPNGに36時間で変換
  • #30 Yahooは128MBにしてるみたい