• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)
 

マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会)

on

  • 2,027 views

アマゾンデータサービスジャパン株式会社 新製品発表会で話したスライド

アマゾンデータサービスジャパン株式会社 新製品発表会で話したスライド

Statistics

Views

Total Views
2,027
Views on SlideShare
2,023
Embed Views
4

Actions

Likes
5
Downloads
11
Comments
0

1 Embed 4

https://twitter.com 4

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会) マイニングブラウニーの場合 (2012-03-01 アマゾンデータサービスジャパン株式会社 新製品発表会) Presentation Transcript

    • 三 ⽉月 ⼀一 ⽇日アマゾン  データ  サービス  ジャパン株式会社新製品発表会
    • 私、 インフ 株式会社 マイニング ブラウニー ・2006年設⽴立 ・クローラの開発・運⽤用 ・リサーチ代表取締役 ・テキストマイニング得上  ⻯竜⼀一
    • インフラでの悩み 様々なサーバの調達
    • インフラでの悩み 様々なサーバの調達Amazon EC2
    • インフラでの悩み 様々なサーバの調達Amazon 効率的な EC2 インフラの利⽤用
    • インフラでの悩み 様々な Amazonサーバの調達 SQSAmazon 効率的な EC2 インフラの利⽤用
    • インフラでの悩み 様々な ⼤大量のデータを Amazon 保存できるサーバの調達 SQS データベースAmazon 効率的な EC2 インフラの利⽤用
    • インフラでの悩み 様々な ⼤大量のデータを Amazon 保存できるサーバの調達 SQS データベースAmazon 効率的な EC2 インフラの利⽤用
    • 様々なDBの検討 クロー
    • 様々なDBの検討 クロー
    • 様々なDBの検討 クロー システム停⽌止なしでスケール できず断念
    • 様々なDBの検討 クロー システム停⽌止なしでスケール できず断念
    • 様々なDBの検討 クロー Sharding システム停⽌止 +ReplicaSetのなしでスケール インフラコスト できず断念 の⼤大きさで断念
    • 様々なDBの検討 クロー Sharding システム停⽌止 +ReplicaSetのなしでスケール インフラコスト できず断念 の⼤大きさで断念 SimpleDB
    • 様々なDBの検討 クロー Sharding システム停⽌止 +ReplicaSetのなしでスケール インフラコスト できず断念 の⼤大きさで断念 SimpleDB 10Gの容量では ⾜足りず⼀一部で のみ利⽤用
    • クローラだけではない 検討を 莫⼤大な数の1Kbyte以下の細かいデータ 例) 「吾輩は猫である」  Size:約700Kbyte テキスト ⽂文の数:9200マイニング 単語:14,000種類、250,000単語
    • 検討を重ねた Dyna
    • 検討を重ねた DynaSimpleDB
    • 検討を重ねた Dyna 1billion個の レコードでは ⾜足りず⼀一部での利⽤用に SimpleDB
    • 検討を重ねた Dyna 1billion個の レコードでは ⾜足りず⼀一部での利⽤用に S3 SimpleDB
    • 検討を重ねた Dyna 1billion個の レコードでは ⾜足りず⼀一部での利⽤用に S3 検索機能の SimpleDB 弱さで断念
    • 検討を重ねた Dyna 1billion個の レコードでは ⾜足りず⼀一部での利⽤用に S3 検索機能の SimpleDB 弱さで断念 Cassandra
    • 検討を重ねた Dyna 1billion個の レコードでは 運⽤用の⼿手間 ⾜足りず インフラコスト⼀一部での利⽤用に S3 の⼤大きさで断念 検索機能の SimpleDB 弱さで断念 Cassandra
    • Dynamoとの出会い 論⽂文
    • 論⽂文 この論|Dynamo:Amazonʼ’s  Highly  Available  Key-‑value  Store Traditionally production systems store their state in relational databases. For many of the more common usage patterns of state persistence, however, a relational database is a solution that is far from ideal. Most of these services only store and retrieve data by primary key and do not require the complex querying and management functionality offered by an RDBMS. This excess functionality requires expensive hardware and highly skilled personnel for its operation, making it a very inefficient solution. In addition, the available replication technologies are limited and typically choose consistency over availability. Although many advances have been made in the recent years, it is still not easy to scale-out databases or use smart partitioning schemes for load balancing.
    • この論⽂文に出会ってから そして
    • この論⽂文に出会ってから そして 2007年
    • この論⽂文に出会ってから そして 2007年 2008年
    • この論⽂文に出会ってから そして 2007年 2009年 2008年 SimpleDB
    • この論⽂文に出会ってから そして 2007年 2009年 2010年 2008年 SimpleDB 2011年
    • そして今⽇日 クロー|Amazon  DynamoDBが⽇日本でも使えるようになりました。|⽇日本-‑⽶米国間のレイテンシの問題も解決|  |  |最⾼高のパフォーマンスで使えるようになりました|
    • クローラのデータストア テキス クローラが 集めたデータの 保存先にmitsubachiクローラの PaaS
    • テキストマイニング ビッグ テキストマイニ ングの過程で 発⽣生する⼤大量の データの処理に hotaru テキストマイニングの SaaS
    • ビッグデータと共に|この1年でHadoopは当たり前のようになりました。|  |今年ビッグデータと呼ばれる⼤大規模なデータの処理|が今以上に当たり前になってきます。|  |ビッグデータの保存先として、|Amazon  DynamoDBほど適したデータストアは|他にはありません。|