* Community Detection with Edge Content in Social Media Networks
* Community Detection in Social Media by Leveraging Interactions and Intensities
Presented By: Mojtaba Rezaei & Reza Habibi Kerahroudi
University Of Tehran
Networked Systems Engineering
Community Detection in Social Media
Graph Algorithms Course Wikipedia
T w i t t e r
YouTube
Facebook
Community Detection with
Edge Content in Social Media Networks
Presented By: Mojtaba Rezaei
University Of Tehran
Networked Systems Engineering
Introduction
 Most community detection algorithms use the links between
the nodes in order to determine the dense regions in the
graph.
in many recent applications, edge content is available in order to provide better supervision to the community detection process
Introduction (cont.)
 An important problem in the area of social media is that of
community detection.
In the problem of community detection, the goal is to partition the network into dense regions of the graph.
Introduction (cont.)
a lot of rich information is encoded in the content of
the interactions among the actors in the network.
 E-mail networks
we will see that edge content provides a number of unique distinguishing characteristics of the communities which cannot be
modeled by node content.
Illustration of a social media network
The nodes represent users while the edges represent the favored images shared by the users
Introduction (cont.)
 Edge-based content is much more challenging, because
the different interests of the same actor node may be
reflected in different edges.
We will show that such an approach provides unique insights which are not possible with the use
of pure link-based or content-based methods.
Community Detection With Edge Content
 most community detection methods are focused on
partitioning the nodes based on linkage, and we are
interested in partitioning the edges based on both
linkage and content.
Community Detection With Edge Content (cont.)
 when there are no links, the problem defaults to the
pure content-based clustering problem.
Data Sets
 Enron Email Data Set
 200, 399 messages belonging to 158 members of senior management
 Flickr Social Network Data Set
 15 popular Flickr user groups, including “family”, “auto”, “concerts”, “pet portraits”, “kids and nature”, “street”,
“art”,“wide party,” “folk music“ , "magic city”, “party favors”, "British politics”, “youth basketball”, “fast food",
"fancy dress party” and “great sky.”
 This social media network has 4, 703 users in 15 groups
Community Detection in Social Media
by Leveraging Interactions and Intensities
Presented By: Reza Habibi Kerahroudi
University Of Tehran
Networked Systems Engineering
Introduction
 User interaction networks capture users’ associations derived from their
activities in social media such as: commenting on others’ posts, replying
to comments, referencing other users, etc.
 Communities can be generally defined as groups of users that are
"closely-knit”, in the sense that a group’s interconnections are more
dense compared to connections with the rest of the network.
Introduction (cont.)
 Our focus is on revealing the types of communities
generated with respect to certain events by
analyzing them in the dimensions of size, topic
diversity and time span.
 VERTEX STRUCTURE
 STRUCTURAL SIMILARITY
 ε – NEIGHBORHOOD
 CORE VERTEX
 DIRECT STRUCTURE REACHABILITY
 STRUCTURE REACHABILITY
 STRUCTURE CONNECTIVITY
 STRUCTURE-CONNECTED CLUSTER
 CLUSTERING
 HUB
 OUTLIER
SCAN algorithm
Getting from SCAN to WSCAN
 SCAN discovers cohesive network subclusters based on
parameters μ and , which control the minimum
community’s size and the minimum structural similarity
between two community’s nodes, respectively.
 To adapt SCAN for weighted interaction networks we
propose weighted structure reachability for (μ,
)-cores’ detection.
Real-World Networks
 For experimentation we have generated a network
based on Twitter user interactions, (i.e. mentions,
replies, retweets), extracted from data collected via
the Twitter Streaming API with topic-related
keywords.
Our selected topic refers to the official Euro group meetings (of Euro zone's finance ministers)
Real-World Networks
 Our EUROGROUP dataset
 (covering 8 meetings from 13/06/12 to 30/11/12) acts
as an exemplary case study of a series of events held
at different time instances, having the same
participants with a common generic context (i.e. the
Euro zone's monetary issues), but different focus
(depending on the agenda). The dataset spans 227
days and comprises: 29529 tweets, 10305 interactions
and 3015 different users.
EUROGROUP meetings, tweets, and communities
Classification of the most significant topics
based on interest intensity and diffusion

Community Detection in Social Media

  • 1.
    * Community Detectionwith Edge Content in Social Media Networks * Community Detection in Social Media by Leveraging Interactions and Intensities Presented By: Mojtaba Rezaei & Reza Habibi Kerahroudi University Of Tehran Networked Systems Engineering Community Detection in Social Media Graph Algorithms Course Wikipedia T w i t t e r YouTube Facebook
  • 2.
    Community Detection with EdgeContent in Social Media Networks Presented By: Mojtaba Rezaei University Of Tehran Networked Systems Engineering
  • 3.
    Introduction  Most communitydetection algorithms use the links between the nodes in order to determine the dense regions in the graph. in many recent applications, edge content is available in order to provide better supervision to the community detection process
  • 4.
    Introduction (cont.)  Animportant problem in the area of social media is that of community detection. In the problem of community detection, the goal is to partition the network into dense regions of the graph.
  • 5.
    Introduction (cont.) a lotof rich information is encoded in the content of the interactions among the actors in the network.  E-mail networks we will see that edge content provides a number of unique distinguishing characteristics of the communities which cannot be modeled by node content.
  • 6.
    Illustration of asocial media network The nodes represent users while the edges represent the favored images shared by the users
  • 7.
    Introduction (cont.)  Edge-basedcontent is much more challenging, because the different interests of the same actor node may be reflected in different edges. We will show that such an approach provides unique insights which are not possible with the use of pure link-based or content-based methods.
  • 8.
    Community Detection WithEdge Content  most community detection methods are focused on partitioning the nodes based on linkage, and we are interested in partitioning the edges based on both linkage and content.
  • 9.
    Community Detection WithEdge Content (cont.)  when there are no links, the problem defaults to the pure content-based clustering problem.
  • 10.
    Data Sets  EnronEmail Data Set  200, 399 messages belonging to 158 members of senior management  Flickr Social Network Data Set  15 popular Flickr user groups, including “family”, “auto”, “concerts”, “pet portraits”, “kids and nature”, “street”, “art”,“wide party,” “folk music“ , "magic city”, “party favors”, "British politics”, “youth basketball”, “fast food", "fancy dress party” and “great sky.”  This social media network has 4, 703 users in 15 groups
  • 11.
    Community Detection inSocial Media by Leveraging Interactions and Intensities Presented By: Reza Habibi Kerahroudi University Of Tehran Networked Systems Engineering
  • 12.
    Introduction  User interactionnetworks capture users’ associations derived from their activities in social media such as: commenting on others’ posts, replying to comments, referencing other users, etc.  Communities can be generally defined as groups of users that are "closely-knit”, in the sense that a group’s interconnections are more dense compared to connections with the rest of the network.
  • 13.
    Introduction (cont.)  Ourfocus is on revealing the types of communities generated with respect to certain events by analyzing them in the dimensions of size, topic diversity and time span.
  • 14.
     VERTEX STRUCTURE STRUCTURAL SIMILARITY  ε – NEIGHBORHOOD  CORE VERTEX  DIRECT STRUCTURE REACHABILITY  STRUCTURE REACHABILITY  STRUCTURE CONNECTIVITY  STRUCTURE-CONNECTED CLUSTER  CLUSTERING  HUB  OUTLIER SCAN algorithm
  • 15.
    Getting from SCANto WSCAN  SCAN discovers cohesive network subclusters based on parameters μ and , which control the minimum community’s size and the minimum structural similarity between two community’s nodes, respectively.  To adapt SCAN for weighted interaction networks we propose weighted structure reachability for (μ, )-cores’ detection.
  • 16.
    Real-World Networks  Forexperimentation we have generated a network based on Twitter user interactions, (i.e. mentions, replies, retweets), extracted from data collected via the Twitter Streaming API with topic-related keywords. Our selected topic refers to the official Euro group meetings (of Euro zone's finance ministers)
  • 17.
    Real-World Networks  OurEUROGROUP dataset  (covering 8 meetings from 13/06/12 to 30/11/12) acts as an exemplary case study of a series of events held at different time instances, having the same participants with a common generic context (i.e. the Euro zone's monetary issues), but different focus (depending on the agenda). The dataset spans 227 days and comprises: 29529 tweets, 10305 interactions and 3015 different users.
  • 18.
  • 19.
    Classification of themost significant topics based on interest intensity and diffusion

Editor's Notes

  • #4 بیشتر الگوریتم های کامیونیتی دتکشن از لینک های بین نود ها برای مشخص کردن انجمن ها استفاده میکنن. اما اخیرا در اپلیکیشن ها محتوا و کانتن یال ها در دسترسن برای کامیونیتی دتکشن بهتر هر چند تا حالا کارهای زیادی برای استفاده بهتر و موثر تر از محتوای نودها جهت یافتن انجمن ها انجام شده با این حال وجود مکانیزمی برای استفاده از محتوای یال ها نتیجه بهتری میده در پیدا کردن انجمن ها
  • #5 یکی از مسایلی که در سوشیال مدیا وجود داره همین پیدا کردن انجمن هاست . هدف ما اینه که شبکه رو به ناحیه هایی تقسیم کنیم بطوریکه اعضای هر ناحیه به هم ارتباط داشته باشن به عبارت دیگه تشکیل یه کامیونیتی رو بدن
  • #6 از آنجایی که اطلاعات غنی زیادی در ارتباط بین کاربران شبکه کد شده می توان از این اطلاعات به خوبی برای پیدا کردن انجمن ها در شبکه استفاده کرد. یکسری از کارهایی که تا کنون انجام شده است نشان می دهد که محتوای رئوس می توانند به پیدا کردن انجمن ها در شبکه کمک کنند اما خواهیم دید که اطلاعاتی که در محتوای یال ها است ویژگی های به خصوصی را دارا است که در رئوس، آن ویژگی ها را نمی توان پیدا کرد. به عنوان مثال در شبکه ایمیل یک ارتباط بین دو کاربر وجود دارد با این حال واضح است که بهتر است کاربرانی که محتوای مشابه هم برای هم ارسال می کنند در یک انجمن قرار بگیرند نسبت به آنهایی که محتوای مشابه هم ارسال نمی کنند.
  • #7 این شکل یک شبکه رسانه اجتماعی را نشان می دهد که گره ها نشان دهنده کاربران هستند و یال ها نشان دهنده تصویری است که بین کاربران به اشتراک گذاشته شده است. با توجه به نوع اشتراکی که گذاشتند می توان در دو گروه : فامیلی و موزیک فولک تقسیم بندی کرد. ما اگر بخواهیم کاربر X را صرفا از روی محتوای گره تقسیم بندی کنیم ابهام وجود دارد که در کدام گروه قرار بگیرد اما با استفاده از محتوای یال ها که همان عکس های به اشتراک گذاشته می باشند به وضوح مشخص است که کاربر x باید در دو انجمن جدا با کاربران متفاوت قرار بگیرند.
  • #8 بیشتر کارهایی که تا الان در این زمینه انجام شده تمرکز خودشان را بیشتر بر روی نودها گذاشتن تا تا یال ها محتوای یال ها چالش بر انگیز تره نسبت به محتوای نود ها چون که علایق و نوع ارتباط یک کاربر یکسان ممکنه روی یال هاش از یالی به یال دیگه متفاوت باشه این مقاله یک راه حل منحصر بفرد برای پیدا کردن انجمن ها بوسیله یکپارچه کردن ساختار ( یعنی کی به کی لینک یا ارتباط داره) و محتوی، با استفاده از روش فاکتورگیری ماتریس ها خروجی این روش بوسیله روش هایی که صرفا لینک بیس هستن یا صرفا کانتنت بیس هستن ممکن نیست
  • #9  بیشتر متد های یافتن انجمن تمرکزشون بر روی تقسیم بندی نودها بر اساس لینکشون هست در حالیکه ما علاقمندیم به تقسیم بندی یال ها بر اساس هم لینک هاشون و هم ارتباطشون ایده اصلی که پشت این مدله اینه که یک فرد در یک شبکه اجتماعی ممکنه علایق متفاوتی داشته باشه که باعث داشتن محتوی متفاوت بر روی یالهاش در ارتباط با افراد دیگه بشه به عنوان مثال کاربر ایکس در شکل قبل علایق متفاوتی داشت و محتوای یالهاش با افراد دیگه متفاوت بود که مشخص میکرد این فرد باید در دو انجمن جداگانه قرار بگیره
  • #10 حالا زمانیکه ارتباطی در شبکه وجود نداشته باشه مسئله رو تبدیل میکنیم به یه مسئله صرفا بر اساس محتوی و بعد حلش میکنیم. گاهی هم ممکنه در یک شبکه ای یک سری از نودها لینک خیلی کمی به هم داشته باشن اما در یک انجمن یکسان قرار بگیرن اونم به این دلیل که شباهت به شدت بالایی در محتوی ارتباطیشون دارن. بنابراین ممکنه انجمن هایی داشته باشیم که ارتباط لینکیشون و شباهت محتواییشون با هم رابظه مستقیم نداشته باشن و یه رابطه معکوس داشته باشن یعنی ممکنه در یک شبکه، انجمنی داشته باشیم که اعضای این انجمن با هم لینک کمی داشته باشن ولی شباهت محتوی ارتباطی بینشون بالا باشه و یا لینک زیادی بین هم داشته باشن ولی شباهت محتوائیشون کم باشه و یه جور تریدآف بینشون وجود داره.
  • #11 از دو تا دیتا ست در این مقاله استفاده شده یکیش مربوط میشه به کمپانی اینرون که در زمینه انرژی در شهر تگزاس آمریکا فعالیت داره این دیتا ست شامل تعداد زیادی پیام های ایمیل بین کاربران این کمپانی میشه که در برای تحقیق و تفحص در مشکلات مالی این کمپانی در سال 2000 جمع آوری و مورد استفاده قرار گرفت. این ایمیل ها شامل دویست هزار و سیصد و نود و نه تا پیام بود که متعلق به صد و پنجاهو هشت نفر از مدیران ارشد کمپانی اینرون بود. برای مدلسازی این شبکه کاربران را نودهای شبکه و ایمیل های بین کاربران را یال های شبکه در نظر گرفتیم و یالها رو با محتوای ایمیل ها پیوند زدیم خوبی این دیتاست این بود که دانشجویان دانشگاه کالیفرنیا کار بررسی و استخراج تعداد دفعات استفاده از کلمات کلیدی را شرح داده بودند که کمک زیادی میکرد. دیتا ست دیگر شبکه اجتماعی فلیکر بود که ... کاربران میتونستن بر اساس علاقشون عکسی رو از سایت برای پروفایلشون انتخاب کنن برای مدل کردن این رسانه اجتماعی : دو تا کاربر بوسیله یک یال به هم وصل میشن اگه عکس یکسانی رو انتخاب کرده باش همچنین برای هر عکس کاربران میتونستن از چندتا کلمه کلیدی برای توصیف عکسشون استفاده کنن که برچسب گفته میشد محتوی هر یال اجتماع این برچسب ها و عکس هاشون میشد.
  • #17 برای آزمایشات ما شبکه‌ای مبتنی بر تعاملات کاربران توئیتر ( یعنی منشن‌ها، ریپلای‌ها، و ری‌توئیت‌ها ) استخراج شده از داده‌های جمع‌آوری‌شده توسط ای‌پی‌آی جریان توئیتر با کلمه‌های کلیدی مرتبط با موضوع تولید کرده‌ایم