Mining Billion-node Graphs: Patterns, Generators and Tools__HadoopSummit2010

Mining Billion-node Graphs: Patterns, Generators and Tools Christos Faloutsos CMU

Thanks! ,[object Object],Hadoop Summit '10 C. Faloutsos (CMU)

Our goal: ,[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Outline ,[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Graphs - why should we care? C. Faloutsos (CMU) Internet Map [lumeta.com] Food Web [Martinez ’91] Protein Interactions [genomebiology.com] Friendship Network [Moody ’01] Hadoop Summit '10

Graphs - why should we care? ,[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10 D 1 D N T 1 T M ... ...

Graphs - why should we care? ,[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Outline ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Problem #1 - network and graph mining ,[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Problem #1 - network and graph mining ,[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Problem #1 - network and graph mining ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Graph mining ,[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Laws and patterns ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Solution# S.1 ,[object Object],C. Faloutsos (CMU) log(rank) log(degree) internet domains att.com ibm.com Hadoop Summit '10 -0.82

Solution# S.2: Eigen Exponent E ,[object Object],C. Faloutsos (CMU) E = -0.48 Exponent = slope Eigenvalue Rank of decreasing eigenvalue May 2001 Hadoop Summit '10

But: ,[object Object],C. Faloutsos (CMU) Hadoop Summit '10

More power laws: ,[object Object],C. Faloutsos (CMU) Web Site Traffic in-degree (log scale) Count (log scale) Zipf ``ebay’’ Hadoop Summit '10 users sites

epinions.com ,[object Object],C. Faloutsos (CMU) (out) degree count trusts-2000-people user Hadoop Summit '10

And numerous more ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Hadoop Summit '10 C. Faloutsos (CMU)

Outline ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Solution# S.3: Triangle ‘Laws’ ,[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Solution# S.3: Triangle ‘Laws’ ,[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Triangle Law: #S.3 [Tsourakakis ICDM 2008] C. Faloutsos (CMU) ASN HEP-TH Epinions X-axis: # of Triangles a node participates in Y-axis: count of such nodes Hadoop Summit '10

Triangle Law: #S.4 [Tsourakakis ICDM 2008] C. Faloutsos (CMU) SN Reuters Epinions X-axis: degree Y-axis: mean # triangles n friends -> ~ n 1.6 triangles Hadoop Summit '10

Triangle Law: Computations [Tsourakakis ICDM 2008] C. Faloutsos (CMU) But: triangles are expensive to compute (3-way join; several approx. algos) Q: Can we do that quickly? details Hadoop Summit '10

Triangle Law: Computations [Tsourakakis ICDM 2008] C. Faloutsos (CMU) But: triangles are expensive to compute (3-way join; several approx. algos) Q: Can we do that quickly? A: Yes! #triangles = 1/6 Sum (  i 3 ) (and, because of skewness, we only need the top few eigenvalues! details Hadoop Summit '10

Triangle Law: Computations [Tsourakakis ICDM 2008] C. Faloutsos (CMU) 1000x+ speed-up, >90% accuracy details Hadoop Summit '10

EigenSpokes ,[object Object],C. Faloutsos (CMU) Hadoop Summit '10

EigenSpokes ,[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

EigenSpokes ,[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10 N N details

EigenSpokes ,[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) u1 u2 Hadoop Summit '10 1 st Principal component 2 nd Principal component

EigenSpokes ,[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10 u1 u2 90 o

EigenSpokes - pervasiveness ,[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

EigenSpokes - explanation ,[object Object],C. Faloutsos (CMU) Hadoop Summit '10

EigenSpokes - explanation ,[object Object],[object Object],[object Object],[object Object],[object Object],spy plot of top 20 nodes C. Faloutsos (CMU) Hadoop Summit '10

Bipartite Communities! magnified bipartite community patents from same inventor(s) cut-and-paste bibliography! C. Faloutsos (CMU) Hadoop Summit '10

Observations on weighted graphs? ,[object Object],C. Faloutsos (CMU) M. McGlohon, L. Akoglu, and C. Faloutsos Weighted Graphs and Disconnected Components: Patterns and a Generator. SIG-KDD 2008 Hadoop Summit '10

Observation W.1: Fortification ,[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Observation W.1: Fortification C. Faloutsos (CMU) More donors, more $ ? $10 $5 Hadoop Summit '10 ‘ Reagan’ ‘ Clinton’ $7

Observation W.1: fortification: Snapshot Power Law ,[object Object],[object Object],Edges (# donors) In-weights ($) C. Faloutsos (CMU) Orgs-Candidates e.g. John Kerry, $10M received, from 1K donors More donors, even more $ $10 $5 Hadoop Summit '10

Outline ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Problem: Time evolution ,[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

T.1 Evolution of the Diameter ,[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

T.1 Evolution of the Diameter ,[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

T.1 Diameter – “Patents” ,[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) time [years] diameter Hadoop Summit '10

T.2 Temporal Evolution of the Graphs ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

T.2 Temporal Evolution of the Graphs ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

T.2 Densification – Patent Citations ,[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) N(t) E(t) 1.66 Hadoop Summit '10

More on Time-evolving graphs C. Faloutsos (CMU) M. McGlohon, L. Akoglu, and C. Faloutsos Weighted Graphs and Disconnected Components: Patterns and a Generator. SIG-KDD 2008 Hadoop Summit '10

Observation T.3: NLCC behavior ,[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Observation T.3: NLCC behavior ,[object Object],C. Faloutsos (CMU) IMDB CC size Time-stamp Hadoop Summit '10

Timing for Blogs ,[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

T.4 : popularity over time C. Faloutsos (CMU) Post popularity drops-off – exponentially? lag: days after post # in links 1 2 3 @t @t + lag Hadoop Summit '10

T.4 : popularity over time C. Faloutsos (CMU) Post popularity drops-off – exponentially? POWER LAW! Exponent? # in links ( log ) 1 2 3 days after post ( log ) Hadoop Summit '10

T.4 : popularity over time C. Faloutsos (CMU) ,[object Object],[object Object],[object Object],[object Object],[object Object],# in links ( log ) 1 2 3 -1.6 days after post ( log ) Hadoop Summit '10

CenterPiece Subgraphs ,[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Ce nter- P iece S ubgraph Discovery [Tong+ KDD 06] Original Graph Q: Who is the most central node wrt the black nodes? (e.g., master-mind criminal, common advisor/collaborator, etc) Input C. Faloutsos (CMU) Hadoop Summit '10 B A C

Ce nter- P iece S ubgraph Discovery [Tong+ KDD 06] Q: How to find hub for the query nodes? Input: original graph Output: CePS CePS Node C. Faloutsos (CMU) A: Combine proximity scores (RWR) Hadoop Summit '10 B A C B A C

CePS : Example (AND Query) ? C. Faloutsos (CMU) Hadoop Summit '10 ,[object Object],[object Object],[object Object]

CePS : Example (AND Query) C. Faloutsos (CMU) ,[object Object],[object Object],[object Object],Hadoop Summit '10

G raph X -Ray: Fast Best-Effort Pattern Matching in Large Attributed Graphs Hanghang Tong, Brian Gallagher, Christos Faloutsos, Tina Eliassi-Rad KDD’07

Output Input Attributed Data Graph Query Graph Matching Subgraph Hadoop Summit '10 C. Faloutsos (CMU)

Effectiveness: star-query Query Result Hadoop Summit '10 C. Faloutsos (CMU)

OddBall: Spotting A n o m a l i e s in Weighted Graphs Leman Akoglu, Mary McGlohon, Christos Faloutsos Carnegie Mellon University School of Computer Science To appear in PAKDD 2010, Hyderabad, India

Main idea ,[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

What is an egonet? ego egonet C. Faloutsos (CMU) Hadoop Summit '10

Selected Features ,[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Near-Clique/Star Hadoop Summit '10 C. Faloutsos (CMU)

Near-Clique/Star C. Faloutsos (CMU) Hadoop Summit '10

Outline – Algorithms & results C. Faloutsos (CMU) Hadoop Summit '10 Centralized Hadoop/PEGASUS Degree Distr. old old Pagerank old old Diameter/ANF old DONE Conn. Comp old DONE Triangles DONE Visualization STARTED

HADI for diameter estimation ,[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

[object Object],[object Object],???? ?? 19+? [Barabasi+] (‘99, O(10 6 ) nodes) C. Faloutsos (CMU) Radius Count Hadoop Summit '10

[object Object],[object Object],???? C. Faloutsos (CMU) Radius Count Hadoop Summit '10 14 (dir.) ~7 (undir.) 19+? [Barabasi+] (‘99, O(10 6 ) nodes)

[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10 Shape?

[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

C. Faloutsos (CMU) ,[object Object],[object Object],[object Object],Hadoop Summit '10

Radius Plot of GCC of YahooWeb. C. Faloutsos (CMU) Hadoop Summit '10

Running time - Kronecker and Erdos-Renyi Graphs with billions edges. details

Generalized Iterated Matrix Vector Multiplication (GIMV) C. Faloutsos (CMU) PEGASUS: A Peta-Scale Graph Mining System - Implementation and Observations . U Kang, Charalampos E. Tsourakakis, and Christos Faloutsos. ( ICDM ) 2009, Miami, Florida, USA. Best Application Paper (runner-up) . Hadoop Summit '10

Generalized Iterated Matrix Vector Multiplication (GIMV) C. Faloutsos (CMU) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Matrix – vector Multiplication (iterated) Hadoop Summit '10 details

Example: GIM-V At Work ,[object Object],Size Count C. Faloutsos (CMU) Hadoop Summit '10

Example: GIM-V At Work ,[object Object],Size Count C. Faloutsos (CMU) Hadoop Summit '10 ~0.7B singleton nodes

Example: GIM-V At Work ,[object Object],Size Count 300-size cmpt X 500. Why? 1100-size cmpt X 65. Why? C. Faloutsos (CMU) Hadoop Summit '10

Example: GIM-V At Work ,[object Object],Size Count suspicious financial-advice sites (not existing now) C. Faloutsos (CMU) Hadoop Summit '10

GIM-V At Work ,[object Object],[object Object],Stable tail slope after the gelling point C. Faloutsos (CMU) Hadoop Summit '10

Triangles : Computations [Tsourakakis ICDM 2008] C. Faloutsos (CMU) But: triangles are expensive to compute (3-way join; several approx. algos) Q: Can we do that quickly? A: Yes! #triangles = 1/6 Sum (  i 3 ) (and, because of skewness, we only need the top few eigenvalues! Mentioned already Hadoop Summit '10

Triangle Law: #1 [Tsourakakis ICDM 2008] C. Faloutsos (CMU) ASN HEP-TH Epinions X-axis: # of Triangles a node participates in Y-axis: count of such nodes Mentioned already Hadoop Summit '10

Visualization: ShiftR ,[object Object],C. Faloutsos (CMU) Hadoop Summit '10

C. Faloutsos (CMU) Hadoop Summit '10

Outline ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Other topics - part#1 - tools ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Tensors ,[object Object],Hadoop Summit '10 C. Faloutsos (CMU) keyword 1990 Author

Tensors ,[object Object],Hadoop Summit '10 C. Faloutsos (CMU) keyword 1991 1992 1990 Author

Tensors ,[object Object],~ + PARAFAC tensor decomposition (generalization of SVD) Hadoop Summit '10 C. Faloutsos (CMU) keyword 1991 1992 1990 Author

Other topics – part#2 - generators ,[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

Kronecker Product – a Graph ,[object Object],Hadoop Summit '10 C. Faloutsos (CMU)

Other topics - part#3 – virus propagation ,[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

More info ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Hadoop Summit '10 C. Faloutsos (CMU)

OVERALL CONCLUSIONS – low level: ,[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

OVERALL CONCLUSIONS – high level ,[object Object],[object Object],[object Object],[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

References ,[object Object],[object Object],C. Faloutsos (CMU) Hadoop Summit '10

References ,[object Object],C. Faloutsos (CMU) Hadoop Summit '10

References ,[object Object],Hadoop Summit '10 C. Faloutsos (CMU)

Joint papers with LLNL ,[object Object],[object Object],[object Object],Hadoop Summit '10 C. Faloutsos (CMU)

Joint papers with LLNL ,[object Object],[object Object],Hadoop Summit '10 C. Faloutsos (CMU)

Project info ,[object Object],C. Faloutsos (CMU) Akoglu, Leman Chau, Polo Kang, U McGlohon, Mary Tsourakakis, Babis Tong, Hanghang Prakash, Aditya Hadoop Summit '10 Thanks to: Yahoo (M45 + gifts + data) NSF, LLNL, CTA-INARC, IBM, SPRINT, INTEL, HP

Mining Billion-node Graphs: Patterns, Generators and Tools__HadoopSummit2010

Recommended

Recommended

More Related Content

Similar to Mining Billion-node Graphs: Patterns, Generators and Tools__HadoopSummit2010

Similar to Mining Billion-node Graphs: Patterns, Generators and Tools__HadoopSummit2010 (20)

More from Yahoo Developer Network

More from Yahoo Developer Network (20)

Recently uploaded

Recently uploaded (20)

Mining Billion-node Graphs: Patterns, Generators and Tools__HadoopSummit2010

Editor's Notes