CloudSearch初披露 (2012-05-18 JAWS-UG 札幌 第6回 勉強会)
Upcoming SlideShare
Loading in...5
×
 

CloudSearch初披露 (2012-05-18 JAWS-UG 札幌 第6回 勉強会)

on

  • 1,343 views

CloudSearchって、実は凄いデータベースなんじゃないかな

CloudSearchって、実は凄いデータベースなんじゃないかな

Statistics

Views

Total Views
1,343
Views on SlideShare
1,343
Embed Views
0

Actions

Likes
3
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

CloudSearch初披露 (2012-05-18 JAWS-UG 札幌 第6回 勉強会) CloudSearch初披露 (2012-05-18 JAWS-UG 札幌 第6回 勉強会) Presentation Transcript

  • 1位 DynamoDB2位 SimpleDB3位 CloudSearch4位 Route535位 S3
  • とくがみ りゅういち 東京から来た大阪コアメンバー
  • 札幌に来た理由
  • というわけで今日は CloudSearch
  • まず質問
  • Resultfacet Result こんな使い方facetfacet Result
  • { name = 完訳 ファーブル昆虫記 第1巻 上 , author =[ ジャン=アンリ・ファーブル , 奥本 大三郎 ], format =[ 単行本 ], price = 2940 , } { name = ファーブル昆虫記 <1> ふしぎなスカラベ , Result author =[ 奥本 大三郎 ],facet format =[ 単行本 ], price = 1680 , } Result { こんな使い方 name = 完訳 ファーブル昆虫記 <1> (岩波文庫) ,facet author =[ J.H.ファーブル , J.H.Fabre , 山田 吉彦 , 林 達夫 ], format =[ 単行本 ],facet price = 2940 , } Result
  • 自動でスケール
  • ちょっとデモ
  • こんなCloudSearchですが
  • データもってないと使えない?
  • ここから事例紹介
  • うちはクローラ屋さん
  • だけど万能ではない
  • 商品名:旭食品 旭 ポンズ 360ml価格:697円
  • 機械的に収集するには?
  • セレクタ:span#btAsinTitle 正規表現:<span id= btAsinTitle>(.*?)</span> おそらくこうするセレクタ:td#actualPriceValue>b.priceLarge正規表現:<span id= actualPriceValue .*?¥([D,]+)s</b>
  • これが1サイトなら問題ない
  • 100サイト、10000サイトなら?
  • ....
  • これを解決する技術 特許取りました
  • AWS上に実装しサービス化 ユーザ・課金の管理 サービスの窓口API 独自に作った分散処理の仕組み
  • ユーザ・課金の管理 IAM 課金情報 ユーザ作成 顧客情報http://member.mushikago.org/entry
  • サービスの窓口 API 負荷api. (subdomain) metadata 増減 認証 message 利用量
  • 独自に作った分散処理 metadataデータ statusデータ message 利用量データ EC2増減 message数
  • この仕組みでやっていること HTMLのパース 各ノードに重み付け 最適なノードの抽出と学習 そして、各項目の抜き出し 少しだけ詳しいことは2010/12/16に行われた 第6回JAWS-UG勉強会の資料を見て下さいhttp://www.slideshare.net/tottokug/simpledb
  • 具体例
  • 具体例{ name = 完訳 ファーブル昆虫記 第1巻 上 , author =[ ジャン=アンリ・ファーブル , 奥本 大三郎 ], format =[ 単行本 ], price = 2940 ,}{ name = ファーブル昆虫記 <1> ふしぎなスカラベ , author =[ 奥本 大三郎 ], format =[ 単行本 ], price = 1680 ,}{ name = 完訳 ファーブル昆虫記 <1> (岩波文庫) , author =[ J.H.ファーブル , J.H.Fabre , 山田 吉彦 , 林達夫 ], format =[ 単行本 ], price = 2940 ,}
  • 実装例 { name = 完訳 ファーブル昆虫記 第1巻 上 , CloudFront author =[ ジャン=アンリ・ファーブル , 奥本 大三郎 ], format =[ 単行本 ], 動的コンテンツ price = 2940 , } {html,js name = ファーブル昆虫記 <1> ふしぎなスカラベ , author =[ 奥本 大三郎 ], format =[ 単行本 ], CloudSearch price = 1680 , } { name = 完訳 ファーブル昆虫記 <1> (岩波文庫) , author =[ J.H.ファーブル , J.H.Fabre , 山田 吉彦 , 林 達夫 ], format =[ 単行本 ], price = 2940 , }
  • ちょっと宣伝hanamgri(はなむぐり)近日β版リリース予定 www.mushikago.org