SlideShare a Scribd company logo
1 of 9
P arallellisme in Zoekmachines ,[object Object],1 Frederik Galle & Robin Ramael
Inleiding: Het Semantisch Web ,[object Object],[object Object],[object Object],[object Object],2 Frederik Galle & Robin Ramael
Hoe werkt zo'n zoekmachine? Zoekterm1 Zoekterm2 Zoekterm1 Zoekterm2 1 Query 2 Threads 3 Frederik Galle & Robin Ramael
Architectuur van een zoek-machine Query A B De gehele index C 4 Frederik Galle & Robin Ramael
Doel & Werkwijze ,[object Object],[object Object],[object Object],5 Frederik Galle & Robin Ramael
FGMT, een verbetering? Query A B De gehele index C 6 Frederik Galle & Robin Ramael
FGMT wint bij meer parallellisme Meer parallelle queries  meer tijdswinst Snelste queries(5%)  worden vertraagd 7 Frederik Galle & Robin Ramael
FGMT verbeterd via heuristieken Query 1000 documenten Hits < 10 Hits > 10 Verdere verwerking FGMT Sequentieel 8 Frederik Galle & Robin Ramael
Besluit: FGMT is een verbetering 9 Frederik Galle & Robin Ramael

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Communicatievaardigheden - parallelisme in zoekmachines

  • 1.
  • 2.
  • 3. Hoe werkt zo'n zoekmachine? Zoekterm1 Zoekterm2 Zoekterm1 Zoekterm2 1 Query 2 Threads 3 Frederik Galle & Robin Ramael
  • 4. Architectuur van een zoek-machine Query A B De gehele index C 4 Frederik Galle & Robin Ramael
  • 5.
  • 6. FGMT, een verbetering? Query A B De gehele index C 6 Frederik Galle & Robin Ramael
  • 7. FGMT wint bij meer parallellisme Meer parallelle queries meer tijdswinst Snelste queries(5%) worden vertraagd 7 Frederik Galle & Robin Ramael
  • 8. FGMT verbeterd via heuristieken Query 1000 documenten Hits < 10 Hits > 10 Verdere verwerking FGMT Sequentieel 8 Frederik Galle & Robin Ramael
  • 9. Besluit: FGMT is een verbetering 9 Frederik Galle & Robin Ramael

Editor's Notes

  1. Inleiding: 2-tal minuten (introductie, niet abstract) 2 slides korte uitleg semantisch web Sectie 2: Architectuur en Methodologie 3 slides veel schema&apos;sSectie 5: FGMT 3 slides Slot (met als basis sectie 8) 1 slideALGEMEEN veel schema&apos;s ende foto&apos;s, weinig tekst
  2. Wat is powerset? Powerset bouwt aan een zoekmachine voor natuurlijke taal die specifieke antwoorden kan geven op vragen van gebruikers (in tegenstelling tot keyword-gebaseerde zoekmachines zoals google of bing). Bijvoorbeeld bij de vraag (maar dan in het engels) “Welke staat van de VS heeft de hoogste inkomensbelasting” zou een conventionele zoekmachine de vraag an sich negeren en zoeken op staat, hoogste, en inkomensbelasting. Powerset probeert het verwerken van natuurlijke taal te gebruiken om documenten terug te geven die de vraag antwoorden. Moeilikheden semantic search: zeer zwaar op processoren internet wordt groter =&gt; data die verwerkt moet worden ook
  3. Werking van een doorsnee zoekmachine: wanneer we iets op internet opzoeken, typen we onze zoekterm in en hop, we krijgen bijna meteen een antwoord. De gehele zoekterm is 1 query die naar de servers van de zoekmachineëigenaar verstuurd wordt. Deze wordt opgesplitst in verschillende deelopdrachten. Zo&apos;n deelopdracht noemen we ook een thread. Zoals hier al te zien is, wordt zo&apos;n query opgesplitst in deeltjes die dan afzonderlijk zullen worden behandeld. Hun resultaten worden dan later weer samengevoegd. Dit parallellisme heeft vooral als doel meer resultaten te kunnen teruggeven. Wat dit onderzoek echter wil uitzoeken is of het niet mogelijk is te parallelliseren in functie van de snelheid waarmee de resultaten geretourneerd worden. Dit willen we uitzoeken met in het achterhoofd de toepassing van het semantische web.
  4. Dit is de werking van de zoekmachine zoals we ze nu kennen. Verschillende queries worden aan verschillende query-integration servers toegekend en elke query wordt in threads opgesplitst. De index van de server is ook in een paar delen opgesplitst, zodat threads van verschillende query&apos;s gelijktijdig kunnen werken in de index. (gekleurde pijltjes). Nadat alle threads van een query voltooid zijn, worden de top hits van elk onderdeel van de index teruggegeven aan de query-integration server die dan de top hits samenvoegt en nog opmaak toevoegt om het geheel uiteindelijk aan de gebruiker terug te geven. Op deze slide is de interne structuur van een zoekmachine te zien. Elke query wordt naar één server gestuurd en zal daarna onderverdeeld worden in enkele threads. Rechts staan 3 kopieën van de gehele index. Deze index bevat alle informatie van de webpagina&apos;s die zullen doorzocht worden. Zo&apos;n index bezit een soort van sleutelwoordencatalogus. De verschillende woorden van een query zullen in de index worden opgezocht en voor elke thread worden alle hits (de resultaten) geretourneerd aan de query-integratieserver. Deze maakt dan een selectie van de beste hits naargelang de query, voegt nog wat opmaak toe en zal uiteindelijk via de Front-end server de zoekresultaten teruggeven aan de gebruiker.
  5. Beste granulariteit voor parallellisme? Evaluatie van verschillende modellen We deden alle experimenten met de code van Powerset’s zoekmachine, een index van Wikipedia-artikels en willekeurige queries uit onze logs. Elk experiment bestond uit het verwijderen van de cache van het besturingssysteem, het herstarten van de zoekprocessen en het afvuren van 12000 queries vanop een client-machine. We tellen de eerste 2000 queries van het experiment niet mee om de file-cache te laten opwarmen. Met deze methode verkregen we resultaten met een variabiliteit van minder dan 1%. Wanneer we de resultaten bekeken waren we vooral bezig met de wachttijd en in mindere maten met de efficientie van cpu en geheugengebruik. En we introduceren een subjectievere manier om ons resultaat te meten: het percentage van queries die terugkomen in minder dan een bepaalde tijdsspanne. Die tijdspanne is, misschien wat arbitrair geplaatst, één seconde
  6. De structuur die in dit onderzoek wordt bekeken, is FGMT(Fine Grained Multi Thread). Een query zal niet meteen in threads onderverdeeld worden. Je moet weten dat er een index van de index is, deze slaat op voor elke term in welke documenten deze voorkomt. Eerst worden alle read-operaties dus klaargezet en daarna worden deze over de threads verdeeld. Dit heeft als voordeel dat de threads zich niet meer moeten bezighouden met het opzoeken van de relevante documenten. Een ander verschil, dat niet op de afbeelding te zien is, is dat er slechts 1 query terzelfdertijd behandeld wordt per core, omdat de index niet opgesplitst is. Het proces is dus niet meer zo afhankelijk van de andere queries als bij de voorgaande methode.
  7. Deze grafiek laat zien na hoeveel tijd 5, 25, 50, 75 en 95% van de 10.000 queries uit het experiment hun antwoord gaven. De grafiek toont duidelijk dat FGMT de snelste methode van de 3 gebruikte is wanneer we queries parallelliseren. Een minder positieve bemerking is dat de snelste queries, de 5% die het eerst klaar waren met hun taak, trager zijn in geparallelliseerde werking dan in sequentiële werking, deze tijd gaat van 14 millis naar 24 millis. FGMT zal dus niet altijd de zoektijd verminderen. Nu kunnen we ons de vraag stellen voor welke queries dit wel gebeurt, en voor welke niet. Na verder onderzoek is gebleken dat sommige korte queries beter gebaat zijn met een lineaire aanpak dan met een parallelle. Daarom zullen we proberen een heuristiek te ontwerpen die enkel deze queries sequentieel laat verwerken.
  8. Heuristiek 1: query wordt sequentieel op 1000 documenten losgelaten, dit geeft goed beeld of query al dan niet veel hits zal hebben. Indien aantal hits onder voorafbepaalde grens zit, sequentieel verdergaan met query. Indien boven deze grens, de rest van de index in parallelle threads verwerken. Deze grens, is een interactiegrens van 1% van de documenten, 10 documenten dus. Concreet wil dit zeggen dat wanneer een query gelinkt wordt aan meer dan 10 documenten in die &apos;proefperiode&apos;, het een query is die genoeg resultaten zal teruggeven om parallellisme te rechtvaardigen. Daarom wordt de query voor de rest van de index dus parallel verdergezet. In deze heuristiek wordt geen rekening gehouden met het aantal threads waarin de verdere verwerking van de index moet gebeuren. Te veel onderverdelingen maken, maakt de threads zodanig klein dat de tijdswinst verloren gaat. Daarom 2e heuristiek, die meet hoe lang het duurt om de 1000 documenten te verwerken, en aan de hand daarvan bepaalt hoeveel threads optimaal zou zijn voor de beste prestatie.
  9. Zoals we hier kunnen zien geeft parallellisme hoe dan ook een sterke performantiewinst. In zijn niet-geoptimaliseerde vorm echter worden de snelle queries ietwat benadeeld. Dit wordt opgelost door heuristiek 1 dat bepaalt of een query al dan niet beter parallel verwerkt wordt door een hit-ratio van 1%. Op het eerste gezicht lijkt heuristiek 2 geen verbetering te zijn, integendeel zelfs, het is een fractie trager, maar wat deze figuur niet laat zien is dat het CPU-verbruik met deze heuristiek ruim 20% lager lag. Dit is dus een belangrijk uitgangspunt naar de toekomst toe om &apos;groenere&apos; zoekmachines te bewerkstelligen.