SlideShare a Scribd company logo
1 of 28
Download to read offline
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Confidential
検索索エンジンPatheeがMSAzureと
Cassandraをどう利利⽤用しているのか
Confidential
To  Be  The  Next  Big  Thing
スマートフォンにおける屋外情報検索索エンジン事業
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
空間情報検索索エンジンの必要性
※Google  Trends参考
2008年年
iPhone⽇日本発売
400%
以上
検索索で欲しい情報を⾒見見つけられない
ユーザが60%以上
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
課題:多すぎる検索索結果数
検索結果が多すぎてどれを
見れば良いのか分からない
!
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
課題:類似するサイトが上位表⽰示
検索結果のサイトを順に
クリックして探すことに多くの
時間が必要
!
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
課題:場所と関係ないサイトが上位表⽰示
キーワードに場所を⼊入れても
不不要な検索索結果が表⽰示される
!
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
ユーザが要求する情報
7	
  
お店のサービスや商品の検索索
67%
飲⾷食店などの
特定の場所やお店の検索索
63%
お店や商品などの⼝口コミの検索索
57%
すべて場所に紐紐付いた情報
Source : http://markezine.jp/article/detail/16675
価格  47%
クーポン情報    39%
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
既存検索索サービスとの違い
歩いて⾏行行ける
情報のみを表⽰示
場所に紐紐づく
情報のみを表⽰示
通常の検索索サービス
地図上に情報を
マッピング
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
既存地図サービス
地図上の情報(コンテンツ)が貧弱
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
全ての空間情報を整理して、
誰でもアクセス(場所・情報)可能にすること
空間検索索エンジン
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
サービス紹介
既存検索索サービス
地図上で検索索
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
サービス紹介
デモ
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
検索索エンジンシ概要
情報収集	
インデックサー	
検索API	
NoSQL	
検索索エンジン
…
キーワード ⽂文書
ランチ ⽂文書1
ランチ ⽂文書2
・
・
・
・
・
・
ランチ ⽂文書N
美味しい ⽂文書1
美味しい ⽂文章2
転置索索引テーブル
1 2 N
⼤大量量の
read/write発⽣生
⾼高速なread
検索索エンジン構築において、RDBは⾮非現実的
→NoSQL
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
NoSQLの選択
データベース データモデル アーキテクチャ その他
Dynamo  (Amazon) KVS P2P型
Hbase カラム指向型 マスタ型 HadoopDB対応
Cassandra カラム指向型 P2P型 HDFSレプリケーション対応
MongoDB ドキュメント指向型 マスタ型 RDBと同様な感覚でデータを扱いやすい
Neo4j グラフ型 マスタ型 様々なプログラム⾔言語対応
キーワード 位置情報 ⽂文書
ランチ 東京 ⽂文書1
ランチ 東京 ⽂文書2
・
・
・
・
・
・
ランチ ⼤大阪 ⽂文書N
美味しい ⽂文書1
転置索索引テーブル
キーワード ⽂文書
ランチ ⽂文書1
ランチ ⽂文書2
・
・
・
・
・
・
ランチ ⽂文書N
美味しい ⽂文書1
KVS カラム
指向型
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
(ベンチャー企業における)課題
1.お⾦金金が無い
2.時間がない
3.リソースが無い
→インフラにかけられるコストは⽉月数万
→オンプレ無料料で貸して頂ける!
→検索索精度度やサービスのUI/UXに注⼒力力
→インフラ構築・整備は、後回しに
→頑張る!
→そもしもインフラエンジニア不不在
→解決不不可能!⾃自分で何とかする!
・最低限のパフォーマンス  →  (優先度度:⾼高)NoSQL
・⼿手間がかからない        →  (優先度度:中)構築や管理理が容易易
・問題発⽣生時に容易易に対応  →  (優先度度:⾼高)マニュアルが潤沢
オンプレ Hbase  +  Hadoop+
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Hbaseの採⽤用
運⽤用フェーズからインフラに異異変が!!
■システム構築
  →マニュアルやコミュニティーが豊富なため、容易易に稼働開始
■サービス運⽤用
  →⾼高速レスポンス(数msec)
■サービスインまでの時間短縮
  →ThriftAPIの利利⽤用
開発からデモそしてサービスインまで順調
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Hbaseの運⽤用フェーズにおける問題
■情報収集速度度を向上による問題発⽣生
  →Read/Writeが⼤大量量発⽣生
  →負荷だけでなく、コンパクションが終わらないなどの問題
■レスポンスの低下
  →データの偏りや負荷増加のため
■パッケージのアップデート失敗
  →パッケージのバージョン不不⼀一致の問題(CDHなどありますが)
  →Hadoop、Zookeeper、RegionServerなどなど
■実験不不⾜足による想定外の管理理コスト
  →余剰マシンが無く、テストが不不⼗十分に
  →マスターノード多重化
  →ダウンテスト不不可
データ量量の増加とデータアクセス数の増加
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Hbaseの運⽤用フェーズにおける問題
■コンポーネントが多いため、切切り分けが困難
  ・障害発⽣生
  ・バージョンアップ
  ・実験環境構築
  ・レスポンス低下
■オンプレ問題
  ・実験環境の構築困難
■オンプレ問題
  ・実験・運⽤用コストが⾼高い(ハードの故障も発⽣生)
パッケージの多さによるが問題
システム構成の問題
オンプレ管理理の⾼高コストの問題
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Cassandraの検討から採⽤用
MSAzure DataStax
Cassandra
・スタートアップ⽀支援
・スケールアップ/スケールアウトの容易易性
・スタートアップ⽀支援
・アクセスの容易易性
・構築運⽤用管理理の容易易性
・
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
システム構成図
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
モニタリングシステムOpsCenter
デモ
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
システム構成図(Hbase利利⽤用時)
情報収集	
インデックサー	
検索API	
NoSQL	
検索索エンジン
…
・・・
Hbase
Master
RegionServer
HadoopDB
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
システム構成図(Cassandra利利⽤用時)
情報収集	
インデックサー	
検索API	
NoSQL	
検索索エンジン
…
テーブル毎に細かくクラスタを構築
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Cassandraを利利⽤用してから思ったこと
■スケールアウトが容易易
  ・Azureを利利⽤用することでスケールアップも容易易
  ・ノードを増やすと安定
→⼿手間が掛からない
■レプリケーション
  ・データの反映まで時間が掛かる
  ・整合性の調整
→サービス的に問題なし
■P2P型
  ・マスタスレイブが無いため、ダウンタイム無し
→⼿手間が掛からない
■スキャンが出来ない
→現在苦戦中
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
実験・ユーザテスト環境構築
データ格納⽤用
分析結果格納⽤用
ユーザアクセス⽤用
ユーザテストアクセス⽤用
実験⽤用
Snapshot
Snapshot
Data
Data
Data
本番環境を容易易に複製可能
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
まとめ
■サービス開発から初期稼働時に⼤大量量データを扱いたい
  →クラウド上でCassandra運⽤用
■課題
  →コミュニティが少ない
  →国内にCassandra運⽤用経験者が少ない
■今後の期待
  →海外サービス事業社では利利⽤用拡⼤大中
■今後の展望
  ・ファイル・システムをHDFSからHadoopに変更更
  ・Spark導⼊入検討
  ・パフォーマンス向上(チューニングやテーブル再設計)
Copyright(C)  tritrue  Inc.  All  rights  Reserved.
Confidential
検索索エンジンPatheeがMSAzureと
Cassandraをどう利利⽤用しているのか
To  Be  The  Next  Big  Thing

More Related Content

Recently uploaded

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 

Recently uploaded (10)

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Cassandra on MS Azureユースケース

  • 1. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Confidential 検索索エンジンPatheeがMSAzureと Cassandraをどう利利⽤用しているのか Confidential To  Be  The  Next  Big  Thing
  • 3. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 空間情報検索索エンジンの必要性 ※Google  Trends参考 2008年年 iPhone⽇日本発売 400% 以上 検索索で欲しい情報を⾒見見つけられない ユーザが60%以上
  • 4. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 課題:多すぎる検索索結果数 検索結果が多すぎてどれを 見れば良いのか分からない !
  • 5. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 課題:類似するサイトが上位表⽰示 検索結果のサイトを順に クリックして探すことに多くの 時間が必要 !
  • 6. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 課題:場所と関係ないサイトが上位表⽰示 キーワードに場所を⼊入れても 不不要な検索索結果が表⽰示される !
  • 7. Copyright(C)  tritrue  Inc.  All  rights  Reserved. ユーザが要求する情報 7   お店のサービスや商品の検索索 67% 飲⾷食店などの 特定の場所やお店の検索索 63% お店や商品などの⼝口コミの検索索 57% すべて場所に紐紐付いた情報 Source : http://markezine.jp/article/detail/16675 価格  47% クーポン情報    39%
  • 8. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 既存検索索サービスとの違い 歩いて⾏行行ける 情報のみを表⽰示 場所に紐紐づく 情報のみを表⽰示 通常の検索索サービス 地図上に情報を マッピング
  • 9. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 既存地図サービス 地図上の情報(コンテンツ)が貧弱
  • 10. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 全ての空間情報を整理して、 誰でもアクセス(場所・情報)可能にすること
  • 12. Copyright(C)  tritrue  Inc.  All  rights  Reserved. サービス紹介 既存検索索サービス 地図上で検索索
  • 13. Copyright(C)  tritrue  Inc.  All  rights  Reserved. サービス紹介 デモ
  • 14. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 検索索エンジンシ概要 情報収集 インデックサー 検索API NoSQL 検索索エンジン … キーワード ⽂文書 ランチ ⽂文書1 ランチ ⽂文書2 ・ ・ ・ ・ ・ ・ ランチ ⽂文書N 美味しい ⽂文書1 美味しい ⽂文章2 転置索索引テーブル 1 2 N ⼤大量量の read/write発⽣生 ⾼高速なread 検索索エンジン構築において、RDBは⾮非現実的 →NoSQL
  • 15. Copyright(C)  tritrue  Inc.  All  rights  Reserved. NoSQLの選択 データベース データモデル アーキテクチャ その他 Dynamo  (Amazon) KVS P2P型 Hbase カラム指向型 マスタ型 HadoopDB対応 Cassandra カラム指向型 P2P型 HDFSレプリケーション対応 MongoDB ドキュメント指向型 マスタ型 RDBと同様な感覚でデータを扱いやすい Neo4j グラフ型 マスタ型 様々なプログラム⾔言語対応 キーワード 位置情報 ⽂文書 ランチ 東京 ⽂文書1 ランチ 東京 ⽂文書2 ・ ・ ・ ・ ・ ・ ランチ ⼤大阪 ⽂文書N 美味しい ⽂文書1 転置索索引テーブル キーワード ⽂文書 ランチ ⽂文書1 ランチ ⽂文書2 ・ ・ ・ ・ ・ ・ ランチ ⽂文書N 美味しい ⽂文書1 KVS カラム 指向型
  • 16. Copyright(C)  tritrue  Inc.  All  rights  Reserved. (ベンチャー企業における)課題 1.お⾦金金が無い 2.時間がない 3.リソースが無い →インフラにかけられるコストは⽉月数万 →オンプレ無料料で貸して頂ける! →検索索精度度やサービスのUI/UXに注⼒力力 →インフラ構築・整備は、後回しに →頑張る! →そもしもインフラエンジニア不不在 →解決不不可能!⾃自分で何とかする! ・最低限のパフォーマンス  →  (優先度度:⾼高)NoSQL ・⼿手間がかからない        →  (優先度度:中)構築や管理理が容易易 ・問題発⽣生時に容易易に対応  →  (優先度度:⾼高)マニュアルが潤沢 オンプレ Hbase  +  Hadoop+
  • 17. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Hbaseの採⽤用 運⽤用フェーズからインフラに異異変が!! ■システム構築   →マニュアルやコミュニティーが豊富なため、容易易に稼働開始 ■サービス運⽤用   →⾼高速レスポンス(数msec) ■サービスインまでの時間短縮   →ThriftAPIの利利⽤用 開発からデモそしてサービスインまで順調
  • 18. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Hbaseの運⽤用フェーズにおける問題 ■情報収集速度度を向上による問題発⽣生   →Read/Writeが⼤大量量発⽣生   →負荷だけでなく、コンパクションが終わらないなどの問題 ■レスポンスの低下   →データの偏りや負荷増加のため ■パッケージのアップデート失敗   →パッケージのバージョン不不⼀一致の問題(CDHなどありますが)   →Hadoop、Zookeeper、RegionServerなどなど ■実験不不⾜足による想定外の管理理コスト   →余剰マシンが無く、テストが不不⼗十分に   →マスターノード多重化   →ダウンテスト不不可 データ量量の増加とデータアクセス数の増加
  • 19. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Hbaseの運⽤用フェーズにおける問題 ■コンポーネントが多いため、切切り分けが困難   ・障害発⽣生   ・バージョンアップ   ・実験環境構築   ・レスポンス低下 ■オンプレ問題   ・実験環境の構築困難 ■オンプレ問題   ・実験・運⽤用コストが⾼高い(ハードの故障も発⽣生) パッケージの多さによるが問題 システム構成の問題 オンプレ管理理の⾼高コストの問題
  • 20. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Cassandraの検討から採⽤用 MSAzure DataStax Cassandra ・スタートアップ⽀支援 ・スケールアップ/スケールアウトの容易易性 ・スタートアップ⽀支援 ・アクセスの容易易性 ・構築運⽤用管理理の容易易性 ・
  • 21. Copyright(C)  tritrue  Inc.  All  rights  Reserved. システム構成図
  • 22. Copyright(C)  tritrue  Inc.  All  rights  Reserved. モニタリングシステムOpsCenter デモ
  • 23. Copyright(C)  tritrue  Inc.  All  rights  Reserved. システム構成図(Hbase利利⽤用時) 情報収集 インデックサー 検索API NoSQL 検索索エンジン … ・・・ Hbase Master RegionServer HadoopDB
  • 24. Copyright(C)  tritrue  Inc.  All  rights  Reserved. システム構成図(Cassandra利利⽤用時) 情報収集 インデックサー 検索API NoSQL 検索索エンジン … テーブル毎に細かくクラスタを構築
  • 25. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Cassandraを利利⽤用してから思ったこと ■スケールアウトが容易易   ・Azureを利利⽤用することでスケールアップも容易易   ・ノードを増やすと安定 →⼿手間が掛からない ■レプリケーション   ・データの反映まで時間が掛かる   ・整合性の調整 →サービス的に問題なし ■P2P型   ・マスタスレイブが無いため、ダウンタイム無し →⼿手間が掛からない ■スキャンが出来ない →現在苦戦中
  • 26. Copyright(C)  tritrue  Inc.  All  rights  Reserved. 実験・ユーザテスト環境構築 データ格納⽤用 分析結果格納⽤用 ユーザアクセス⽤用 ユーザテストアクセス⽤用 実験⽤用 Snapshot Snapshot Data Data Data 本番環境を容易易に複製可能
  • 27. Copyright(C)  tritrue  Inc.  All  rights  Reserved. まとめ ■サービス開発から初期稼働時に⼤大量量データを扱いたい   →クラウド上でCassandra運⽤用 ■課題   →コミュニティが少ない   →国内にCassandra運⽤用経験者が少ない ■今後の期待   →海外サービス事業社では利利⽤用拡⼤大中 ■今後の展望   ・ファイル・システムをHDFSからHadoopに変更更   ・Spark導⼊入検討   ・パフォーマンス向上(チューニングやテーブル再設計)
  • 28. Copyright(C)  tritrue  Inc.  All  rights  Reserved. Confidential 検索索エンジンPatheeがMSAzureと Cassandraをどう利利⽤用しているのか To  Be  The  Next  Big  Thing