Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

A near real time search and alert engine powered by SolR Lucene


Published on

The trade-off between scale and update rate that search engines face on the Web 2.0. How enhanced indexing and smart filtering enable near-real-time engines. SolR Lucene ultra-fast search server and the user-defined "websphere" (feeds and filters).

Published in: Technology, Design
  • Be the first to comment

A near real time search and alert engine powered by SolR Lucene

  1. 1. 1A near‐real‐time search and alert service based on SolR LuceneApril 2013                                                                        
  2. 2. 2The needWhat’s new with NFC technology?What is said on my competitors?What is said by my competitors?What’s said on my brand?What’s said on key executives of my company?What’s said on my last marketing campaign?What’s said on my product launch? What’s said on my last ad campaign?
  3. 3. 3The needWhat’s new with NFC technology?What is said on my competitors?What is said by my competitors?What’s said on my brand?What’s said on key executives of my company?What’s said on my last marketing campaign?What’s said on my product launch? What’s said on my last ad campaign?Industry watchCompetition watchBrand protectionCampaign Impact analysisI need to permanently search the Web 2.0 on certain topics
  4. 4. 4The needWhat’s new with NFC technology?What is said on my competitors?What is said by my competitors?What’s said on my brand?What’s said on key executives of my company?What’s said on my last marketing campaign?What’s said on my product launch? What’s said on my last ad campaign?I need to permanently search the Web 2.0 on certain topicsI know where to lookI know what I’m looking for…… and I want to get an alert whena new matching content is posted.Within minutes, not the day after.
  5. 5. 5The ProblemI need to permanently search the Web 2.0 on certain topicsI want to get an alert whena new matching content is posted…Some websites take days to get indexed by the major search engines (Google, Bing, Yahoo!…)Alert services are as good as their indexing rate is. A day, not a minute, is the norm (except for breaking news and weather alerts). … within minutes, not the day after.Real “real‐time search” engines(OneRiot, Wowd, Crowdeye, Collecta) failed as the technology involved massive R&D costsGoogle closed its real time search service in 2011
  6. 6. 6The State of the Union… within minutes, not the day after.Narrow look, deep digging Broad look, shallow digging
  7. 7. 7The State of the Union… within minutes, not the day after.Narrow look, deep digging Broad look, shallow diggingSocial Web Monitoring & Trending solutions• Look at big chunks of the Web• Detect trends, mood, new topics, influencers, etc.Near‐real‐time search engines• Typically look at the most popular content feeds, and run indexing at frequent intervals (hence the near‐real‐time)• Some offer powerful query tools.
  8. 8. 8The State of the Union… within minutes, not the day after.Narrow look, deep digging Broad look, shallow diggingSocial Web Monitoring & Trending solutions• Look at big chunks of the Web• Detect trends, mood, new topics, influencers, etc.• Typically can’t single out contributions on a match to a user‐defined query.Near‐real‐time search engines• Typically look at the most popular content feeds, and run indexing at frequent intervals (hence the near‐real‐time)• Some offer powerful query tools to users.
  9. 9. 9Let’s dig deepDeep dig is about using powerful query toolswhich require full‐text indexing (among other things).The lesser data the “nearer” real time.So…Full text indexing carriesa trade‐off betweenscale and update rate.
  10. 10. 10Let’s dig deeperDeep dig is about using powerful query toolswhich require full‐text indexing (among other things).Full text indexing carriesa trade‐off betweenscale and update rate.The lesser data the “nearer” real time.So … 2 directions fora nearer real timeEnhanced indexingSmart selection of data to index
  11. 11. 11Enhanced indexingWhat do Apple, Netflix, Wikipedia, LinkedIn eBay and Twitter have in common?
  12. 12. 12Enhanced indexing with SolR LuceneWhat do Apple, Netflix, Wikipedia, LinkedIn eBay and Twitter have in common?
  13. 13. 13Enhanced indexing with SolR LucenePicking up the right tools for the job
  14. 14. 14Limiting the indexed dataContent feeds• Twitter public stream (fire hose)• Twitter private feeds• Facebook updates• Syndicated content (RSS)• Blogs, forums• NewsSEARCH• Watch• QueriesMatchingresultsBasic architecture• Alerts• Dispatch
  15. 15. 15Limiting the indexed dataSelective architectureSEARCHContent feeds• Twitter public stream (fire hose)• Twitter private feeds• Facebook updates• Syndicated content (RSS)• Blogs, forums• NewsFiltered dataindexFILTERS• Geo (e.g. local search engine)• Audience (e.g. most popular)• Buzz (e.g. #tags)• Watch• QueriesMatchingresults• Alerts• Dispatch
  16. 16. 16Smart selection of data to indexUser‐defined filtersSEARCHContent feeds• Twitter public stream (fire hose)• Twitter private feeds• Facebook updates• Syndicated content (RSS)• Blogs, forums• NewsFiltered dataindexFILTERSUser‐defined filters• Watch• Queries• Refined queries (reprocessing)Matchingresults• Alerts• Dispatch
  17. 17. 17Visibium• A near‐real‐time search and alert service• User‐defined feeds and filters• Full‐text indexing• Advanced queries• Refined search reprocessing• Powered by SolR LuceneMonitor the slice of the web you really care about© Visibium, 2011‐