WebExpo Prague 2012 - Introduction to Neo4j (Czech)

Neo4j
grafová databáze

Michal Bachman
@bachmanm
#webexpo #neo4j

Not Only SQL

@bachmanm

Objem dat

@bachmanm

Propojenost dat
GGG
Ontologie

RDFa
Propojenost informací

Folksonomie
Tagování

Wiki

UGC
Blogy

Feedy

Hypertext
Textové
dokumenty

@bachmanm

Ztráta struktury

@bachmanm

Architektura aplikací (80’s)

Aplikace

DB

@bachmanm

Architektura aplikací (90’s)

Aplikace Aplikace Aplikace

DB

@bachmanm

Aplikace Aplikace Aplikace

DB DB DB

@bachmanm

Výkonnost RDBMS
Seznam zaměstnanců Relační databáze

Náročnost aplikace

Spousta webových aplikací
Výkonnost

Sociální síť

Lokační služby

Komplexita dat

@bachmanm

Čtyři kategorie NOSQL

@bachmanm

Grafové databáze

@bachmanm

http://en.wikipedia.org/wiki/File:Leonhard_Euler_2.jpg @bachmanm

http://en.wikipedia.org/wiki/Seven_Bridges_of_Königsberg @bachmanm

name: Michal Bachman

• vrcholy, uzly (nodes, vertices)
• hrany (relationships, edges)
title: Intro to Neo4j
• vlastnosti (properties) duration: 45

name: Neo4j name: NOSQL

@bachmanm

• Výkonný datový model • Shardování
• Rychlost – Ale jsou poměrně dobře
– Několikanásobně škálovatelné
rychlejší pro propojená – Některé grafy se
data ve srovnání s shardovat dají
RDBMS

@bachmanm

Výkonnost na příkladu sociální sítě
(existuje cesta?)
• Experiment:
• cca 1000 lidí # lidí čas dotazu

• Každý průměrně 50 Relační 1000 2000ms
databáze
kamarádů
• pathExists(a,b)
do hloubky 4
• Cached (nečteme z
disku)

@bachmanm

(existuje cesta?)
• Experiment:

databáze
kamarádů
Neo4j 1000 2ms
• pathExists(a,b)
do hloubky 4
disku)

@bachmanm

(existuje cesta?)
• Experiment:

databáze
kamarádů
Neo4j 1000 2ms
• pathExists(a,b)
Neo4j 1000000 2ms
do hloubky 4
disku)

@bachmanm

Použití grafů
• Sociální sítě
• Doporučovací systémy
• Telekomunikační sítě
• Business intelligence
• Geoprostorové problémy
• MDM
• ACL (access control lists)
• Rodokmeny
• Časové řady dat
• Web analytics
• Vědecká informatika (zejména bioinformatika)
• Indexování pomalých RDBMS
• Spousta dalších…!

@bachmanm

Graf nakreslíte na tabuli

@bachmanm

32 miliard vrcholů
32 miliard hran
64 miliard vlastností
@bachmanm

http://opfm.jpl.nasa.gov/

@bachmanm

http://news.xinhuanet.com

@bachmanm

Community

Advanced

Enterprise

@bachmanm

Server mode
– cd <install directory>
– bin/neo4j start
– bin/neo4j stop

• REST API
• JMX, prohlížeč dat, vizualizace

@bachmanm

Embedded mode
• Ve stejném procesu, jako aplikace
– Stáhnout .jar knihovny
– Nasměrovat na místo na disku

• Embedded mode má naprostou většinu funkcí

@bachmanm

name: Jan Šrůtek

title: Kognitivní psychologie
duration: 30 name: Michal Bachman

name: UX

title: Intro to Neo4j
duration: 45

name: Martin Macke

name: Aleš Havlík INTERESTED name: Neo4j name: NOSQL

@bachmanm

GraphDatabaseService neo = new EmbeddedGraphDatabase("/data/webexpo");

Transaction tx = neo.beginTx();
try {
Node speaker = neo.createNode();
speaker.setProperty("name", "Michal Bachman");

Node talk = neo.createNode();
talk.setProperty("title", "Intro to Neo4j");

Relationship delivers
= speaker.createRelationshipTo(talk,
DynamicRelationshipType.withName("DELIVERS"));
delivers.setProperty("day", ”Saturday");

neo.index().forNodes("people")
.add(speaker, "name", "Michal Bachman");
} finally {
tx.finish();
}

name: Michal Bachman DELIVERS title: Intro to Neo4j
day: Saturday

@bachmanm

Core API
• Vrcholy
– Vlastnosti (volitelné KV páry)
• Hrany
– Počáteční vrchol (start, povinný)
– Konečný vrchol (konec, povinný)
– Vlastnosti (volitelné KV páry)

@bachmanm

Jaká jsou na WebExpu témata?
(Give me all WebExpo topics)

@bachmanm

Jaká jsou na WebExpu témata?
Node webExpo = neo.getReferenceNode();
for (Relationship talksAt : webExpo.getRelationships(INCOMING, TALKS_AT)) {
Node speaker = talksAt.getStartNode();
for (Relationship delivers : speaker.getRelationships(OUTGOING, DELIVERS)) {
Node talk = delivers.getEndNode();
for (Relationship about : talk.getRelationships(OUTGOING, ABOUT)) {
String topicName = (String) about.getEndNode().getProperty(NAME);
//add to result...
}
}
}

-------------------
Printing all topics
All topics: development, data, advertising, education, usa, business, microsoft, webdesign, software,
responsiveness, ux, e-commerce, php, psychology, crm, api, chef, javascript, patterns, product design,
marketing, metro, social media, web, startup, analytics, lean, cqrs, node.js, branding, cloud, testing, neo4j,
rest, css, design, publishing, nosql. Took: 2 ms

Na jaké přednášky mám jít?
(Which talks should I attend?)

@bachmanm

Na jaké přednášky mám jít?
TraversalDescription talksTraversal = Traversal.description()
.uniqueness(Uniqueness.NONE)
.breadthFirst()
.relationships(INTERESTED, OUTGOING)
.relationships(ABOUT, INCOMING)
.evaluator(Evaluators.atDepth(2));

Node attendee =
neo.index().forNodes("people").get("name", ”Aleš Havlík").getSingle();

Iterable<Node> talks = talksTraversal.traverse(attendee).nodes();

//iterate over talks and print

------------------------------------------
Suggesting talks for 100 random attendees.
...
Aneta Lebedová: Co nezměříš, nezměníš!, Do ameriky, The real me. Took: 1 ms
Bohumír Kubát: Beyond the polar bear, Jak (ne)dělat api, Critical interface design. Took: 1 ms
Vladimír Valeš: Vývoj aplikací pro windows 8 metro. Took: 1 ms
Suggested talks for 100 random attendees in 449 ms

Co máme společného?
(What do we have in common?)

@bachmanm

Co máme společného?
//retrieve attendeeOne and attendeeTwo from index

int maxDepth = 2;
Iterable<Path> paths = GraphAlgoFactory
.allPaths(Traversal.expanderForAllTypes(), maxDepth)
.findAllPaths(attendeeOne, attendeeTwo);

for (Path path : paths) {
//print it
}

------------------------------------------------------------
Finding things in common for 100 random couples of attendees
...
Karel Kunc and Aleš Matějka:

(Karel Kunc)--[INTERESTED]-->(ux)<--[INTERESTED]--(Aleš Matějka),
(Karel Kunc)--[DISLIKED]-->(Buď punkový konzument!)<--[DISLIKED]--(Aleš Matějka),
(Karel Kunc)--[DISLIKED]-->(Beyond the polar bear)<--[LIKED]--(Aleš Matějka),
(Karel Kunc)--[LIKED]-->(Shipito.com - podnikání v usa)<--[LIKED]--(Aleš Matějka).
Took: 0 ms.
...

Found things in common for 100 random couples of attendees in 142 ms.

Y U No Like Java?

@bachmanm

S kým na pivo?
(Who is my beer mate?)

myself beerMate:?

talk:?

@bachmanm

S kým na pivo?

(myself) (beerMate)

(talk)

@bachmanm

S kým na pivo?
start myself=node:people(name = "Emil Votruba")

match (myself)-[:LIKED]->(talk)<-[:LIKED]-(beerMate)

return distinct beerMate.name, count(beerMate)

order by count(beerMate) desc

limit 5;

@bachmanm

Cypher Query
start myself=node:people(name = ”Aleš Havlík")

match (myself)-[:LIKED]->(talk)<-[:LIKED]-(beerMate)



limit 5;

@bachmanm

Cypher Query
start myself=node:people(name = ”Aleš Havlík")

match (myself)-[:LIKED]->()<-[:LIKED]-(beerMate)



limit 5;

@bachmanm

S kým na pivo?

@bachmanm

Novinky a budoucnost
• Verze 1.8.RC1 vydána tento měsíc
• Cypher dotazy mohou zapisovat do grafu
– CREATE, SET, DELETE, …
• “Labels” pro vrcholy (1.9?)
• Zaměření na škálovatelnost a shardování

@bachmanm

Tipy a triky
• Design!
• Nepoužívejte interní ID mimo Neo4j
• Vyvarujte se operací přes celý graf
• “Tales from the Trenches” pro další tipy
• Experimetujte:
git@github.com:bachmanm/neo4j-
webexpo.git

@bachmanm

Závěr
• Neo4j 1.8 community edition je zdarma
• Grafy mají expresivní datový model
• Neo4j rychle prochází grafy
– Žádné joiny
– Žádné šílené indexy
– Žádný map reduce
• Podpora nejen Javy

@bachmanm

http://www.561studios.com/blog/wp-content/uploads/2010/07/commonsense.jpg

Otázky?
Neo4j: http://neo4j.org
Neo Technology: http://neotechnology.com
OpenCredo: http://opencredo.com
Já: @bachmanm
Kód: git://github.com/bachmanm/neo4j-webexpo.git

WebExpo Prague 2012 - Introduction to Neo4j (Czech)

Recommended

Recommended

More Related Content

Featured

Featured (20)

WebExpo Prague 2012 - Introduction to Neo4j (Czech)

Editor's Notes