SlideShare a Scribd company logo
1 of 24
Download to read offline
ScrapeGraphAI
You Only Scrape Once
Our Team
Marco Perini Lorenzo Padoan
MSc Mechatronics Engineering
-
Junior Researcher @
Eurac Research
Research Fellow @ UNIPD
-
Data Engineer @
Motion Analytica
Marco Vinciguerra
MSc Computer Engineering
mvincig11@gmail.com
perinim.98@gmail.com lorenzo.padoan977@gmail.com
We live in a world that produces Zettabytes of data
The era of big data
Source: International Data Corporation (IDC)
We live in a data-hungry world
The era of Big Data
Training di LLM
Analytics
Principal source of data
Internet
Scraping is the act of extracting information from a
data source
What is a scraper
Scraping
Web
Data
Common scraping tools
Dev tools
Web services
Is it possible to scrape
websites without any
knowledge of HTML, just by
writing what I want and how
we want it?
Our Question
Our Solution
Scrapegraph-ai
Yes 🎉🎉🎉
with
What is this spider? 🤔
ScrapeGraphAI
Python
Library
Open
Source
Scraping
powered by llm
Highly
modular
Available llm & tools
Main Workflow
Input URL
Ask what you
want to scrape
Scrape right
away
Adapts to website structure changes
Corrects itself until it succeed
Flexibility in scraping different websites
Comparative results
Let’s suppose we want to extract the news titles from
https://www.wired.com
Comparative results
BeaufulSoup ScrapeGraphAI
More concise, less code, reusability.
For scraping another website
you just have to change 2 lines!!!!
Audio Speech
Prompt: Make an audio summary of the news
Answer: {'news': [{'title': 'The LabLabAI hackathon deadline is close!',
'summary': 'Deadlines are coming close so be ready...'}]}
+
Scraping from text
It is possible to insert various type of text,
Classic string, downloaded HTML code, XML etc...
Input
generic text
Ask what you
want to scrape
Generate
answer
Pros of Scrapegraph-ai
Low code and fast implementation
Fault tollerance to dinamic HTML code
Possibility to run local LLM
Portability
No possibles data leaks if you run local LLM
😍
Potential users
Companies
Developers + Researchers
+
Some numbers
After 2 months of development has:
100 + stars on Github
8 forks
4k + downloads on pypi (pip)
🤗
Call for Action
Early Adopters Community Partnerships
+ +
Demo time!
Repositories
Streamlit Website
ScrapeGraphAI +
VinciGit00/Scrapegraph-ai VinciGit00/Scrapegraph-LabLabAI-Hackathon
If you like the project feel free to leave a star ⭐️
A promise is a promise
Lorenzo: if we
reach 1000
stars I will buy
this
Me:
ScrapeGraphAI
You Only Scrape Once
Thank you for the attention

More Related Content

Similar to ScrapeGraphAI: a new way to scrape context with AI

Laboratorio Internet: 1. Introduzione
Laboratorio Internet: 1. IntroduzioneLaboratorio Internet: 1. Introduzione
Laboratorio Internet: 1. IntroduzioneRoberto Polillo
 
Creare un Information Radiator con Delphi
Creare un Information Radiator con DelphiCreare un Information Radiator con Delphi
Creare un Information Radiator con DelphiMarco Breveglieri
 
Da JavaScript a TypeScript
Da JavaScript a TypeScriptDa JavaScript a TypeScript
Da JavaScript a TypeScriptRoberto Messora
 
LinuxDay2013 - Web2py: make the web easier
LinuxDay2013 - Web2py: make the web easierLinuxDay2013 - Web2py: make the web easier
LinuxDay2013 - Web2py: make the web easierDavide Marzioni
 
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologieAndrea Rossetti
 
Perché è così difficile il deploy dei database - DevCast DevOps Serie
Perché è così difficile il deploy dei database  - DevCast DevOps SeriePerché è così difficile il deploy dei database  - DevCast DevOps Serie
Perché è così difficile il deploy dei database - DevCast DevOps SerieGiulio Vian
 
Data Analysis & Machine Learning
Data Analysis & Machine LearningData Analysis & Machine Learning
Data Analysis & Machine LearningCaffeina
 
... thinking about Microformats!
... thinking about Microformats!... thinking about Microformats!
... thinking about Microformats!Stefano Fago
 
Alice in WordPressLand - "We're all mad here"
Alice in WordPressLand - "We're all mad here"Alice in WordPressLand - "We're all mad here"
Alice in WordPressLand - "We're all mad here"Nicola Costantino
 
Introduzione alla localizzazione web
Introduzione alla localizzazione webIntroduzione alla localizzazione web
Introduzione alla localizzazione webQabiria
 
Stefano Chiccarelli - L'ecosistema della scena Hacker
Stefano Chiccarelli - L'ecosistema della scena HackerStefano Chiccarelli - L'ecosistema della scena Hacker
Stefano Chiccarelli - L'ecosistema della scena HackerCodemotion
 
Industrial Iot - IotSaturday
Industrial Iot - IotSaturday Industrial Iot - IotSaturday
Industrial Iot - IotSaturday Riccardo Zamana
 
Nicola Della Marina: Magento Frontend next level
Nicola Della Marina: Magento Frontend next levelNicola Della Marina: Magento Frontend next level
Nicola Della Marina: Magento Frontend next levelMeet Magento Italy
 
Google Dev Fest 2016 - Roma
Google Dev Fest 2016 - RomaGoogle Dev Fest 2016 - Roma
Google Dev Fest 2016 - Romagabriele nocco
 
Siti web, portali e Rich Internet Applications: tendenze e controtendenze
Siti web, portali e Rich Internet Applications: tendenze e controtendenzeSiti web, portali e Rich Internet Applications: tendenze e controtendenze
Siti web, portali e Rich Internet Applications: tendenze e controtendenzeDiego La Monica
 

Similar to ScrapeGraphAI: a new way to scrape context with AI (20)

Laboratorio Internet: 1. Introduzione
Laboratorio Internet: 1. IntroduzioneLaboratorio Internet: 1. Introduzione
Laboratorio Internet: 1. Introduzione
 
Creare un Information Radiator con Delphi
Creare un Information Radiator con DelphiCreare un Information Radiator con Delphi
Creare un Information Radiator con Delphi
 
RomaJS June 2022
RomaJS June 2022RomaJS June 2022
RomaJS June 2022
 
Da JavaScript a TypeScript
Da JavaScript a TypeScriptDa JavaScript a TypeScript
Da JavaScript a TypeScript
 
Microsoft Fast - Overview
Microsoft Fast - OverviewMicrosoft Fast - Overview
Microsoft Fast - Overview
 
LinuxDay2013 - Web2py: make the web easier
LinuxDay2013 - Web2py: make the web easierLinuxDay2013 - Web2py: make the web easier
LinuxDay2013 - Web2py: make the web easier
 
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie
 
App Engine + Python
App Engine + PythonApp Engine + Python
App Engine + Python
 
Perché è così difficile il deploy dei database - DevCast DevOps Serie
Perché è così difficile il deploy dei database  - DevCast DevOps SeriePerché è così difficile il deploy dei database  - DevCast DevOps Serie
Perché è così difficile il deploy dei database - DevCast DevOps Serie
 
Data Analysis & Machine Learning
Data Analysis & Machine LearningData Analysis & Machine Learning
Data Analysis & Machine Learning
 
... thinking about Microformats!
... thinking about Microformats!... thinking about Microformats!
... thinking about Microformats!
 
Alice in WordPressLand - "We're all mad here"
Alice in WordPressLand - "We're all mad here"Alice in WordPressLand - "We're all mad here"
Alice in WordPressLand - "We're all mad here"
 
Introduzione alla localizzazione web
Introduzione alla localizzazione webIntroduzione alla localizzazione web
Introduzione alla localizzazione web
 
Kotlin hexagonal-architecture
Kotlin hexagonal-architectureKotlin hexagonal-architecture
Kotlin hexagonal-architecture
 
Stefano Chiccarelli - L'ecosistema della scena Hacker
Stefano Chiccarelli - L'ecosistema della scena HackerStefano Chiccarelli - L'ecosistema della scena Hacker
Stefano Chiccarelli - L'ecosistema della scena Hacker
 
Industrial Iot - IotSaturday
Industrial Iot - IotSaturday Industrial Iot - IotSaturday
Industrial Iot - IotSaturday
 
Nicola Della Marina: Magento Frontend next level
Nicola Della Marina: Magento Frontend next levelNicola Della Marina: Magento Frontend next level
Nicola Della Marina: Magento Frontend next level
 
Java&Solidarieta
Java&SolidarietaJava&Solidarieta
Java&Solidarieta
 
Google Dev Fest 2016 - Roma
Google Dev Fest 2016 - RomaGoogle Dev Fest 2016 - Roma
Google Dev Fest 2016 - Roma
 
Siti web, portali e Rich Internet Applications: tendenze e controtendenze
Siti web, portali e Rich Internet Applications: tendenze e controtendenzeSiti web, portali e Rich Internet Applications: tendenze e controtendenze
Siti web, portali e Rich Internet Applications: tendenze e controtendenze
 

ScrapeGraphAI: a new way to scrape context with AI