Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Confidential
検索索エンジンPatheeがMSAzureと
Cassandraをどう利利⽤用しているのか
Confidential
...
スマートフォンにおける屋外情報検索索エンジン事業
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
空間情報検索索エンジンの必要性
※Google  Trends参考
2008年年
iPhone⽇日本発売
400%
以上
検索索で欲しい情報...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
課題:多すぎる検索索結果数
検索結果が多すぎてどれを
見れば良いのか分からない
!
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
課題:類似するサイトが上位表⽰示
検索結果のサイトを順に
クリックして探すことに多くの
時間が必要
!
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
課題:場所と関係ないサイトが上位表⽰示
キーワードに場所を⼊入れても
不不要な検索索結果が表⽰示される
!
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
ユーザが要求する情報
7	
  
お店のサービスや商品の検索索
67%
飲⾷食店などの
特定の場所やお店の検索索
63%
お店や商品などの⼝...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
既存検索索サービスとの違い
歩いて⾏行行ける
情報のみを表⽰示
場所に紐紐づく
情報のみを表⽰示
通常の検索索サービス
地図上に情報を
マッ...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
既存地図サービス
地図上の情報(コンテンツ)が貧弱
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
全ての空間情報を整理して、
誰でもアクセス(場所・情報)可能にすること
空間検索索エンジン
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
サービス紹介
既存検索索サービス
地図上で検索索
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
サービス紹介
デモ
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
検索索エンジンシ概要
情報収集	
インデックサー	
検索API	
NoSQL	
検索索エンジン
…
キーワード ⽂文書
ランチ ⽂文書1
ラ...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
NoSQLの選択
データベース データモデル アーキテクチャ その他
Dynamo  (Amazon) KVS P2P型
Hbase カラム...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
(ベンチャー企業における)課題
1.お⾦金金が無い
2.時間がない
3.リソースが無い
→インフラにかけられるコストは⽉月数万
→オンプレ無...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Hbaseの採⽤用
運⽤用フェーズからインフラに異異変が!!
■システム構築
  →マニュアルやコミュニティーが豊富なため、容易易に稼働開始...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Hbaseの運⽤用フェーズにおける問題
■情報収集速度度を向上による問題発⽣生
  →Read/Writeが⼤大量量発⽣生
  →負荷だけで...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Hbaseの運⽤用フェーズにおける問題
■コンポーネントが多いため、切切り分けが困難
  ・障害発⽣生
  ・バージョンアップ
  ・実験環...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Cassandraの検討から採⽤用
MSAzure DataStax
Cassandra
・スタートアップ⽀支援
・スケールアップ/スケール...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
システム構成図
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
モニタリングシステムOpsCenter
デモ
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
システム構成図(Hbase利利⽤用時)
情報収集	
インデックサー	
検索API	
NoSQL	
検索索エンジン
…
・・・
Hbase
M...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
システム構成図(Cassandra利利⽤用時)
情報収集	
インデックサー	
検索API	
NoSQL	
検索索エンジン
…
テーブル毎に細...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Cassandraを利利⽤用してから思ったこと
■スケールアウトが容易易
  ・Azureを利利⽤用することでスケールアップも容易易
  ・...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
実験・ユーザテスト環境構築
データ格納⽤用
分析結果格納⽤用
ユーザアクセス⽤用
ユーザテストアクセス⽤用
実験⽤用
Snapshot
Sn...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
まとめ
■サービス開発から初期稼働時に⼤大量量データを扱いたい
  →クラウド上でCassandra運⽤用
■課題
  →コミュニティが少な...
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Confidential
検索索エンジンPatheeがMSAzureと
Cassandraをどう利利⽤用しているのか
To  Be  The ...
Upcoming SlideShare
Loading in …5
×

検索エンジンPatheeがAzureとCassandraをどう利用しているのか

793 views

Published on

検索エンジンPatheeがAzureとCassandraをどう利用しているのか

Published in: Technology
  • Be the first to comment

検索エンジンPatheeがAzureとCassandraをどう利用しているのか

  1. 1. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Confidential 検索索エンジンPatheeがMSAzureと Cassandraをどう利利⽤用しているのか Confidential To  Be  The  Next  Big  Thing
  2. 2. スマートフォンにおける屋外情報検索索エンジン事業
  3. 3. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 空間情報検索索エンジンの必要性 ※Google  Trends参考 2008年年 iPhone⽇日本発売 400% 以上 検索索で欲しい情報を⾒見見つけられない ユーザが60%以上
  4. 4. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 課題:多すぎる検索索結果数 検索結果が多すぎてどれを 見れば良いのか分からない !
  5. 5. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 課題:類似するサイトが上位表⽰示 検索結果のサイトを順に クリックして探すことに多くの 時間が必要 !
  6. 6. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 課題:場所と関係ないサイトが上位表⽰示 キーワードに場所を⼊入れても 不不要な検索索結果が表⽰示される !
  7. 7. Copyright(C)  tritrue  Inc.  All  rights  Reserved. ユーザが要求する情報 7   お店のサービスや商品の検索索 67% 飲⾷食店などの 特定の場所やお店の検索索 63% お店や商品などの⼝口コミの検索索 57% すべて場所に紐紐付いた情報 Source : http://markezine.jp/article/detail/16675 価格  47% クーポン情報    39%
  8. 8. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 既存検索索サービスとの違い 歩いて⾏行行ける 情報のみを表⽰示 場所に紐紐づく 情報のみを表⽰示 通常の検索索サービス 地図上に情報を マッピング
  9. 9. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 既存地図サービス 地図上の情報(コンテンツ)が貧弱
  10. 10. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 全ての空間情報を整理して、 誰でもアクセス(場所・情報)可能にすること
  11. 11. 空間検索索エンジン
  12. 12. Copyright(C)  tritrue  Inc.  All  rights  Reserved. サービス紹介 既存検索索サービス 地図上で検索索
  13. 13. Copyright(C)  tritrue  Inc.  All  rights  Reserved. サービス紹介 デモ
  14. 14. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 検索索エンジンシ概要 情報収集 インデックサー 検索API NoSQL 検索索エンジン … キーワード ⽂文書 ランチ ⽂文書1 ランチ ⽂文書2 ・ ・ ・ ・ ・ ・ ランチ ⽂文書N 美味しい ⽂文書1 美味しい ⽂文章2 転置索索引テーブル 1 2 N ⼤大量量の read/write発⽣生 ⾼高速なread 検索索エンジン構築において、RDBは⾮非現実的 →NoSQL
  15. 15. Copyright(C)  tritrue  Inc.  All  rights  Reserved. NoSQLの選択 データベース データモデル アーキテクチャ その他 Dynamo  (Amazon) KVS P2P型 Hbase カラム指向型 マスタ型 HadoopDB対応 Cassandra カラム指向型 P2P型 HDFSレプリケーション対応 MongoDB ドキュメント指向型 マスタ型 RDBと同様な感覚でデータを扱いやすい Neo4j グラフ型 マスタ型 様々なプログラム⾔言語対応 キーワード 位置情報 ⽂文書 ランチ 東京 ⽂文書1 ランチ 東京 ⽂文書2 ・ ・ ・ ・ ・ ・ ランチ ⼤大阪 ⽂文書N 美味しい ⽂文書1 転置索索引テーブル キーワード ⽂文書 ランチ ⽂文書1 ランチ ⽂文書2 ・ ・ ・ ・ ・ ・ ランチ ⽂文書N 美味しい ⽂文書1 KVS カラム 指向型
  16. 16. Copyright(C)  tritrue  Inc.  All  rights  Reserved. (ベンチャー企業における)課題 1.お⾦金金が無い 2.時間がない 3.リソースが無い →インフラにかけられるコストは⽉月数万 →オンプレ無料料で貸して頂ける! →検索索精度度やサービスのUI/UXに注⼒力力 →インフラ構築・整備は、後回しに →頑張る! →そもしもインフラエンジニア不不在 →解決不不可能!⾃自分で何とかする! ・最低限のパフォーマンス  →  (優先度度:⾼高)NoSQL ・⼿手間がかからない        →  (優先度度:中)構築や管理理が容易易 ・問題発⽣生時に容易易に対応  →  (優先度度:⾼高)マニュアルが潤沢 オンプレ Hbase  +  Hadoop+
  17. 17. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Hbaseの採⽤用 運⽤用フェーズからインフラに異異変が!! ■システム構築   →マニュアルやコミュニティーが豊富なため、容易易に稼働開始 ■サービス運⽤用   →⾼高速レスポンス(数msec) ■サービスインまでの時間短縮   →ThriftAPIの利利⽤用 開発からデモそしてサービスインまで順調
  18. 18. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Hbaseの運⽤用フェーズにおける問題 ■情報収集速度度を向上による問題発⽣生   →Read/Writeが⼤大量量発⽣生   →負荷だけでなく、コンパクションが終わらないなどの問題 ■レスポンスの低下   →データの偏りや負荷増加のため ■パッケージのアップデート失敗   →パッケージのバージョン不不⼀一致の問題(CDHなどありますが)   →Hadoop、Zookeeper、RegionServerなどなど ■実験不不⾜足による想定外の管理理コスト   →余剰マシンが無く、テストが不不⼗十分に   →マスターノード多重化   →ダウンテスト不不可 データ量量の増加とデータアクセス数の増加
  19. 19. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Hbaseの運⽤用フェーズにおける問題 ■コンポーネントが多いため、切切り分けが困難   ・障害発⽣生   ・バージョンアップ   ・実験環境構築   ・レスポンス低下 ■オンプレ問題   ・実験環境の構築困難 ■オンプレ問題   ・実験・運⽤用コストが⾼高い(ハードの故障も発⽣生) パッケージの多さによるが問題 システム構成の問題 オンプレ管理理の⾼高コストの問題
  20. 20. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Cassandraの検討から採⽤用 MSAzure DataStax Cassandra ・スタートアップ⽀支援 ・スケールアップ/スケールアウトの容易易性 ・スタートアップ⽀支援 ・アクセスの容易易性 ・構築運⽤用管理理の容易易性 ・
  21. 21. Copyright(C)  tritrue  Inc.  All  rights  Reserved. システム構成図
  22. 22. Copyright(C)  tritrue  Inc.  All  rights  Reserved. モニタリングシステムOpsCenter デモ
  23. 23. Copyright(C)  tritrue  Inc.  All  rights  Reserved. システム構成図(Hbase利利⽤用時) 情報収集 インデックサー 検索API NoSQL 検索索エンジン … ・・・ Hbase Master RegionServer HadoopDB
  24. 24. Copyright(C)  tritrue  Inc.  All  rights  Reserved. システム構成図(Cassandra利利⽤用時) 情報収集 インデックサー 検索API NoSQL 検索索エンジン … テーブル毎に細かくクラスタを構築
  25. 25. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Cassandraを利利⽤用してから思ったこと ■スケールアウトが容易易   ・Azureを利利⽤用することでスケールアップも容易易   ・ノードを増やすと安定 →⼿手間が掛からない ■レプリケーション   ・データの反映まで時間が掛かる   ・整合性の調整 →サービス的に問題なし ■P2P型   ・マスタスレイブが無いため、ダウンタイム無し →⼿手間が掛からない ■スキャンが出来ない →現在苦戦中
  26. 26. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 実験・ユーザテスト環境構築 データ格納⽤用 分析結果格納⽤用 ユーザアクセス⽤用 ユーザテストアクセス⽤用 実験⽤用 Snapshot Snapshot Data Data Data 本番環境を容易易に複製可能
  27. 27. Copyright(C)  tritrue  Inc.  All  rights  Reserved. まとめ ■サービス開発から初期稼働時に⼤大量量データを扱いたい   →クラウド上でCassandra運⽤用 ■課題   →コミュニティが少ない   →国内にCassandra運⽤用経験者が少ない ■今後の期待   →海外サービス事業社では利利⽤用拡⼤大中 ■今後の展望   ・ファイル・システムをHDFSからHadoopに変更更   ・Spark導⼊入検討   ・パフォーマンス向上(チューニングやテーブル再設計)
  28. 28. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Confidential 検索索エンジンPatheeがMSAzureと Cassandraをどう利利⽤用しているのか To  Be  The  Next  Big  Thing

×