三                            ⽉月                            ⼀一                            ⽇日アマゾン  データ  サービス  ジャパン株式会社新製品発表会
私、                        インフ           株式会社           マイニング           ブラウニー           ・2006年設⽴立           ・クローラの開発・運⽤用   ...
インフラでの悩み   様々なサーバの調達
インフラでの悩み   様々なサーバの調達Amazon EC2
インフラでの悩み            様々なサーバの調達Amazon            効率的な EC2         インフラの利⽤用
インフラでの悩み            様々な          Amazonサーバの調達     SQSAmazon            効率的な EC2         インフラの利⽤用
インフラでの悩み               様々な                    ⼤大量のデータを          Amazon      保存できるサーバの調達     SQS       データベースAmazon        ...
インフラでの悩み               様々な                    ⼤大量のデータを          Amazon      保存できるサーバの調達     SQS       データベースAmazon        ...
様々なDBの検討   クロー
様々なDBの検討   クロー
様々なDBの検討   クロー システム停⽌止なしでスケール  できず断念
様々なDBの検討   クロー システム停⽌止なしでスケール  できず断念
様々なDBの検討                  クロー               Sharding システム停⽌止   +ReplicaSetのなしでスケール    インフラコスト  できず断念    の⼤大きさで断念
様々なDBの検討                    クロー               Sharding システム停⽌止   +ReplicaSetのなしでスケール    インフラコスト  できず断念    の⼤大きさで断念       S...
様々なDBの検討                     クロー               Sharding システム停⽌止   +ReplicaSetのなしでスケール    インフラコスト  できず断念    の⼤大きさで断念       ...
クローラだけではない                   検討を      莫⼤大な数の1Kbyte以下の細かいデータ      例)      「吾輩は猫である」  Size:約700Kbyte テキスト      ⽂文の数:9200マイニン...
検討を重ねた   Dyna
検討を重ねた     DynaSimpleDB
検討を重ねた        Dyna 1billion個の レコードでは     ⾜足りず⼀一部での利⽤用に SimpleDB
検討を重ねた             Dyna 1billion個の レコードでは     ⾜足りず⼀一部での利⽤用に     S3 SimpleDB
検討を重ねた                Dyna 1billion個の レコードでは     ⾜足りず⼀一部での利⽤用に        S3              検索機能の SimpleDB     弱さで断念
検討を重ねた                   Dyna 1billion個の レコードでは     ⾜足りず⼀一部での利⽤用に        S3              検索機能の SimpleDB     弱さで断念   Cassan...
検討を重ねた                   Dyna 1billion個の レコードでは                 運⽤用の⼿手間     ⾜足りず             インフラコスト⼀一部での利⽤用に        S3 の⼤...
Dynamoとの出会い   論⽂文
論⽂文                                                                              この論|Dynamo:Amazonʼ’s  Highly  Available  ...
この論⽂文に出会ってから そして
この論⽂文に出会ってから そして 2007年
この論⽂文に出会ってから そして 2007年         2008年
この論⽂文に出会ってから そして 2007年              2009年         2008年   SimpleDB
この論⽂文に出会ってから そして 2007年              2009年                            2010年         2008年   SimpleDB   2011年
そして今⽇日                       クロー|Amazon  DynamoDBが⽇日本でも使えるようになりました。|⽇日本-‑⽶米国間のレイテンシの問題も解決|  |  |最⾼高のパフォーマンスで使えるようになりました|
クローラのデータストア テキス               クローラが             集めたデータの                保存先にmitsubachiクローラの     PaaS
テキストマイニング              ビッグ           テキストマイニ            ングの過程で           発⽣生する⼤大量の           データの処理に  hotaru  テキストマイニングの  ...
ビッグデータと共に|この1年でHadoopは当たり前のようになりました。|  |今年ビッグデータと呼ばれる⼤大規模なデータの処理|が今以上に当たり前になってきます。|  |ビッグデータの保存先として、|Amazon  DynamoDBほど適した...
Upcoming SlideShare
Loading in …5
×

マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

1,994
-1

Published on

アマゾンデータサービスジャパン株式会社 新製品発表会で話したスライド

0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,994
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
12
Comments
0
Likes
5
Embeds 0
No embeds

No notes for slide

マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

  1. 1. 三 ⽉月 ⼀一 ⽇日アマゾン  データ  サービス  ジャパン株式会社新製品発表会
  2. 2. 私、 インフ 株式会社 マイニング ブラウニー ・2006年設⽴立 ・クローラの開発・運⽤用 ・リサーチ代表取締役 ・テキストマイニング得上  ⻯竜⼀一
  3. 3. インフラでの悩み 様々なサーバの調達
  4. 4. インフラでの悩み 様々なサーバの調達Amazon EC2
  5. 5. インフラでの悩み 様々なサーバの調達Amazon 効率的な EC2 インフラの利⽤用
  6. 6. インフラでの悩み 様々な Amazonサーバの調達 SQSAmazon 効率的な EC2 インフラの利⽤用
  7. 7. インフラでの悩み 様々な ⼤大量のデータを Amazon 保存できるサーバの調達 SQS データベースAmazon 効率的な EC2 インフラの利⽤用
  8. 8. インフラでの悩み 様々な ⼤大量のデータを Amazon 保存できるサーバの調達 SQS データベースAmazon 効率的な EC2 インフラの利⽤用
  9. 9. 様々なDBの検討 クロー
  10. 10. 様々なDBの検討 クロー
  11. 11. 様々なDBの検討 クロー システム停⽌止なしでスケール できず断念
  12. 12. 様々なDBの検討 クロー システム停⽌止なしでスケール できず断念
  13. 13. 様々なDBの検討 クロー Sharding システム停⽌止 +ReplicaSetのなしでスケール インフラコスト できず断念 の⼤大きさで断念
  14. 14. 様々なDBの検討 クロー Sharding システム停⽌止 +ReplicaSetのなしでスケール インフラコスト できず断念 の⼤大きさで断念 SimpleDB
  15. 15. 様々なDBの検討 クロー Sharding システム停⽌止 +ReplicaSetのなしでスケール インフラコスト できず断念 の⼤大きさで断念 SimpleDB 10Gの容量では ⾜足りず⼀一部で のみ利⽤用
  16. 16. クローラだけではない 検討を 莫⼤大な数の1Kbyte以下の細かいデータ 例) 「吾輩は猫である」  Size:約700Kbyte テキスト ⽂文の数:9200マイニング 単語:14,000種類、250,000単語
  17. 17. 検討を重ねた Dyna
  18. 18. 検討を重ねた DynaSimpleDB
  19. 19. 検討を重ねた Dyna 1billion個の レコードでは ⾜足りず⼀一部での利⽤用に SimpleDB
  20. 20. 検討を重ねた Dyna 1billion個の レコードでは ⾜足りず⼀一部での利⽤用に S3 SimpleDB
  21. 21. 検討を重ねた Dyna 1billion個の レコードでは ⾜足りず⼀一部での利⽤用に S3 検索機能の SimpleDB 弱さで断念
  22. 22. 検討を重ねた Dyna 1billion個の レコードでは ⾜足りず⼀一部での利⽤用に S3 検索機能の SimpleDB 弱さで断念 Cassandra
  23. 23. 検討を重ねた Dyna 1billion個の レコードでは 運⽤用の⼿手間 ⾜足りず インフラコスト⼀一部での利⽤用に S3 の⼤大きさで断念 検索機能の SimpleDB 弱さで断念 Cassandra
  24. 24. Dynamoとの出会い 論⽂文
  25. 25. 論⽂文 この論|Dynamo:Amazonʼ’s  Highly  Available  Key-‑value  Store Traditionally production systems store their state in relational databases. For many of the more common usage patterns of state persistence, however, a relational database is a solution that is far from ideal. Most of these services only store and retrieve data by primary key and do not require the complex querying and management functionality offered by an RDBMS. This excess functionality requires expensive hardware and highly skilled personnel for its operation, making it a very inefficient solution. In addition, the available replication technologies are limited and typically choose consistency over availability. Although many advances have been made in the recent years, it is still not easy to scale-out databases or use smart partitioning schemes for load balancing.
  26. 26. この論⽂文に出会ってから そして
  27. 27. この論⽂文に出会ってから そして 2007年
  28. 28. この論⽂文に出会ってから そして 2007年 2008年
  29. 29. この論⽂文に出会ってから そして 2007年 2009年 2008年 SimpleDB
  30. 30. この論⽂文に出会ってから そして 2007年 2009年 2010年 2008年 SimpleDB 2011年
  31. 31. そして今⽇日 クロー|Amazon  DynamoDBが⽇日本でも使えるようになりました。|⽇日本-‑⽶米国間のレイテンシの問題も解決|  |  |最⾼高のパフォーマンスで使えるようになりました|
  32. 32. クローラのデータストア テキス クローラが 集めたデータの 保存先にmitsubachiクローラの PaaS
  33. 33. テキストマイニング ビッグ テキストマイニ ングの過程で 発⽣生する⼤大量の データの処理に hotaru テキストマイニングの SaaS
  34. 34. ビッグデータと共に|この1年でHadoopは当たり前のようになりました。|  |今年ビッグデータと呼ばれる⼤大規模なデータの処理|が今以上に当たり前になってきます。|  |ビッグデータの保存先として、|Amazon  DynamoDBほど適したデータストアは|他にはありません。|
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×