Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

ООббззоорр ннееккооттооррыыхх ррааббоотт
ККааррллаа ММееййеерраа
УУссттррааннееннииее шшууммаа вв ааннааллииззее ттввииттоовв,,
ссввяяззьь ссммеежжннооссттии ии ммооддуулляяррннооссттии ппррии
ррааззббииееннииии ггррааффаа
ДДььяяккоонноовв АА..ГГ..
ММооссккооввссккиийй ггооссууддааррссттввеенннныыйй ууннииввееррссииттеетт
ииммееннии ММ..ВВ.. ЛЛооммооннооссоовваа ((ММоосскквваа,, РРооссссиияя))
Выступление на семинаре
Алгебра над алгоритмами и эвристический поиск закономерностей

Карл Мейер: анализ твитов и разбиение графа 2 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ККааррлл ММееййеерр – профессор в университете Северной Каролины

ООббллаассттьь ииннттеерреессоовв
 Линейная алгебра
 PageRank, марковские цепи
 Кластеризация, неотрицательные матричные разложения

AA CCaassee SSttuuddyy iinn TTeexxtt MMiinniinngg::
IInntteerrpprreettiinngg TTwwiitttteerr DDaattaa FFrroomm WWoorrlldd CCuupp TTwweeeettss
Daniel Godfrey, Caley Johns, Carol Sadek, Carl Meyer, Shaina Race

AA CCaassee SSttuuddyy iinn TTeexxtt MMiinniinngg::
IInntteerrpprreettiinngg TTwwiitttteerr DDaattaa FFrroomm WWoorrlldd CCuupp TTwweeeettss
30 000 твитов перед началом чемпионата мира
(содержат слово world cup), английские и испанские
Из них отобрано 17023 с важной информацией
(удаляем ретвиты)

ГГллааввннааяя ппррооббллееммаа –– шум
ККооннееччннааяя ццеелльь –– кластеризация, интерпретация
ИИззббааввллееннииее оотт шшууммаа::
DBSCAN algorithm + consensus matrix
см. дальше

ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв
1) Tf-idf + cos + kmeans
2) Consensus clustering
consensus matrix –
ij элемент = сколько раз i и j объект попали в один кластер
(например, несколько раз k-means)

3) неотрицательные матричные разложения
WHA 
0, HW
Можно интерпретировать как топики
и степени принадлежности к ним
ММееттооддыы ппооссттррооеенниияя ННММРР
o Multiplicative Update Rule
(в теории сходится к локальному минимуму)
o Alternating Least Squares (ALS)
o Alternating Constrained Least Squares (ACLS)

4) Density-Based Spatial Clustering of Applications with Noise (DBSCAN)
Алгоритм с маркировкой точек как шум и т.п.
 для каждой точки строим круг радиуса 
 если в круге есть как минимум k точек – она плотная
 если нет, но есть плотные точки – она граничная
 иначе – шум

ГГллааввннааяя ппррооббллееммаа –– ууссттррааннееннииее шшууммоовв

44 ааллггооррииттммаа ууддааллеенниияя шшууммоовв
N*k-means (разные k) 
consensus matrix 
если ij-элемент <10% - зануляем 
строки «с большим числом нулей» шумовые
N*DBSCAN (после первого?) 
если граничная или шум в > 50% случаях 
удаляем
На consensus matrix, а не матрице расстояний!
Комбинация (голосованием)

ВВыыббоорр ччииссллаа ттооппииккоовв
СDL 
С – матрица консенсуса
Смотрим на 50 наименьших с.з. –
по принципу наибольшего зазора определяем число топиков

ИИттооггооввааяя ккллаассттееррииззаацциияя
1) k-means
2) NNMF – интерпретируем как степень вхождения в топик

ВВыыввоодд:: NMF быстрее и адекватнее k-means

ЛЛииттееррааттуурраа
[1] Martin Ester, Hans peter Kriegel, Jrg S, and Xiaowei Xu. A density-based algorithm for discovering
clusters in large spatial databases with noise. pages 226–231. AAAI Press, 1996.
[2] A. G. K. Janecek and W. N. Gansterer. Utilizing Nonnegative Matrix Factorization for Email Classifi-
cation Problems in Text Mining: Applications and Theory. John Wiley and Sons, 2010.
[3] Amy N. Langville, Carl D. Meyer, Russell Albright, James Cox, and David Duling. Algorithms,
initializations, and convergence for the nonnegative matrix factorization. 2014.
[4] Daniel D. Lee and H. Sebastian Seung. Algorithms for non-negative matrix factorization. 2000.
[5] Tao Li and Chris Ding. Nonnegative matrix factorizations for clustering: A survey. pages 149–179,
2013.
[6] Carl D. Meyer. Matrix Analysis and Applied Linear Algebra. SIAM, 2001.
[7] Mark EJ Newman. Modularity and community structure in networks. Proceedings of the National
Academy of Sciences, 103(23):8577–8582, 2006.
[8] Gang Qian, Shamik Sural, Yuelong Gu, and Sakti Pramanik. Similarity between euclidean and cosine
angle distance for nearest neighbor queries. 2004.
[9] Shaina L. Race. Iterative Consensus Clustering. PhD thesis, North Carolina State University, 2014.
[10] Andrey A. Shabalin. k-means animation. Web.
[11] Farial Shahnaz. Document clustering using nonnegative matrix factorization. Information
Processing and Management, 42(2):373–386, 2006.
[12] Ankita Vimal, Satyanarayana R Valluri, and Kamalakar Karlapalem. An experiment with distance
meaures for clustering. International Conference on Management of Data COMAD, 2008.

RREELLAATTIIOONNSS BBEETTWWEEEENN AADDJJAACCEENNCCYY AANNDD
MMOODDUULLAARRIITTYY GGRRAAPPHH PPAARRTTIITTIIOONNIINNGG
HANSI JIANG, CARL MEYER

ССууттьь
главный с.в. матрицы модулярности – линейная комбинация с.в.
матрицы смежности, коэффициенты определены
Предложен метод для аппроксимации ГСВММ
Получена ошибка аппроксимации

ННааппооммииннааннииее
Матрица Лапласа
ADL 
Матрица модулярности
m
dd
AB
2
т

нормированные версии:
2/12/1
LDDL  ,
2/12/1
BDDB 
решение задачи на с.з.:
),0( e , ),0( 2/1
eD

ТТееооррееммаа
Пусть
т
UUA  , iu – столбцы U , n 1 – на диагонали .
Пусть n 1 – с.в. матрицы B.
Если 211   , || 21   , тогда с.в. 1b ~ max с.з. B:
i
n
i i
i
u
du
dU
 1 2
т
2
т
)(||||
1


Пусть при старых предположениях
2
т
1
т
||||)( dU
du
i
i
i



 ,
и есть такое переупорядочивание
|||| 1iin
  , тогда можно 1b аппроксимировать с помощью
jj i
p
j
i u1

с ошибкой
 pj
ij
b
2
21 ||||
1


Пусть 0 – простое с.з. B,
1 – простое с.з. A, 10  
тогда
BuAu  ~),(~),(  .
Если ещё 0 не наибольшее с.з. B, тогда с.в. соответствующий max
с.з. B и с.в. соответствующий max второму по величине с.з. A
совпадают.
ППооээттооммуу ии ссооооттввееттссттввууюющщииее ккллаассттееррииззааццииии ссооввппааддааюютт!!

ЭЭккссппееррииммееннттыы ннаа 33 ннааббоорраахх ддаанннныыхх
1. Wine Recognition Data Set (UCI)
178 объектов, 13 признаков, гауссова схожесть
2. Breast Cancer Wisconsin (Original) Data Set (UCI)
699 объектов, 9 признаков
3. PenDigit Data Sets from MNIST database
ДДлляя ссррааввннеенниияя ссххооддссттвваа ррааббооттыы 22хх ммееттооддоовв ккллаассттееррииззааццииии

ЛЛииттееррааттуурраа
[1] R. W. Abbey Stochastic clustering: Visualization and application. , PhD Thesis, North Carolina State
University, (2013).
[2] M. Bolla Penalized versions of the newman-girvan modularity and their relation to normalized cuts
and k-means clustering , Physical Review E, 84 (2011), p. 016108.
[3] J. R. Bunch, C. P. Nielsen, and D. C. Sorensen, Rank-one modification of the symmetric eigenproblem,
Numerische Mathematik, 31 (1978), pp. 31–48.
[4] R. Chitta, R. Jin, and A. K. Jain, Efficient kernel clustering using random fourier features, in Data
Mining (ICDM), 2012 IEEE 12th International Conference on, IEEE, 2012, pp. 161–170.
[5] F. R. Chung, Spectral graph theory, vol. 92, American Mathematical Soc., 1997.
[6] M. Fiedler, Algebraic connectivity of graphs, Czechoslovak Mathematical Journal, 23 (1973), pp. 298–
305.
[7] A property of eigenvectors of nonnegative symmetric matric
es and its application to graph theory, Czechoslovak Mathematical Journal, 25 (1975), pp. 619–633.
[8] J. Goldberger, G. E. Hinton, S. T. Roweis, and R. R. Salakhutdinov, Neighbourhood components
analysis, in Advances in Neural Information Processing Systems 17, L. Saul, Y. Weiss, and L. Bottou,
eds., MIT Press, 2005, pp. 513–520.
[9] T. Hertz, A. Bar-Hillel, and D. Weinshall, Boosting margin based distance functions for clustering, in
Proceedings of the twenty-first international conference on Machine learning,
ACM, 2004, p. 50.
[10] H. Ishibuchi and T. Yamamoto, Rule weight specification in fuzzy rule-based classification systems,
Fuzzy Systems, IEEE Transactions on, 13 (2005), pp. 428–435.
[11] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document
recognition, Proceedings of the IEEE, 86 (1998), pp. 2278–2324.
[12] M. Lichman, UCI machine learning repository, 2013.

[13] O. L. Mangasarian, W. N. Street, and W. H. Wolberg, Breast cancer diagnosis and prognosis via
linear programming, Operations Research, 43 (1995), pp. 570–577.
[14] C. D. Meyer, Matrix analysis and applied linear algebra, Siam, 2000.
[15] M. E. Newman, Modularity and community structure in networks, Proceedings of the National
Academy of Sciences, 103 (2006), pp. 8577–8582.
[16] M. E. Newman and M. Girvan, Finding and evaluating community structure in networks, Physical
review E, 69 (2004), p. 026113.
[17] A. Y. Ng, M. I. Jordan, Y. Weiss, et al., On spectral clustering: Analysis and an algorithm, Advances
in neural information processing systems, 2 (2002), pp. 849–856.
[18] S. L. Race, Iterative consensus clustering, PhD Thesis, North Carolina State University, (2014).
[19] S. L. Race, C. Meyer, and K. Valakuzhy, Determining the number of clusters via iterative consensus
clustering , in Proceedings of the SIAM Conference on Data Mining (SDM), SIAM, 2013, pp. 94–102.
[20] J. Shi and J. Malik, Normalized cuts and image segmentation, Pattern Analysis and Machine
Intelligence, IEEE Transactions on, 22 (2000), pp. 888–905
[21] P.-N. Tan, M. Steinbach, V. Kumar, et al., Introduction to data mining
, vol. 1, Pearson Addison Wesley Boston, 2006.
[22] U. Von Luxburg, A tutorial on spectral clustering, Statistics and computing, 17 (2007), pp. 395–416.
[23] J. H. Wilkinson, J. H. Wilkinson, and J. H. Wilkinson, The algebraic eigenvalue problem, vol. 87,
Clarendon Press Oxford, 1965.
[24] L. Yu and C. Ding, Network community discovery: solving modularity clustering via normalized cut,
in Proceedings of the Eighth Workshop on Mining and Learning with Graphs,
ACM, 2010, pp. 34–36.
[25] R. Zhang and A. I. Rudnicky, A large scale clustering scheme for kernel k-means, in Pattern
Recognition, 2002. Proceedings. 16th International Conference on, vol. 4, IEEE, 2002, pp. 289–292.

Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Recommended

Recommended

More Related Content

What's hot

What's hot (10)

Viewers also liked

Viewers also liked (16)

Similar to Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

Similar to Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа (8)

Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа