SlideShare a Scribd company logo
ООббззоорр ннееккооттооррыыхх ррааббоотт
ККааррллаа ММееййеерраа
УУссттррааннееннииее шшууммаа вв ааннааллииззее ттввииттоовв,,
ссввяяззьь ссммеежжннооссттии ии ммооддуулляяррннооссттии ппррии
ррааззббииееннииии ггррааффаа
ДДььяяккоонноовв АА..ГГ..
ММооссккооввссккиийй ггооссууддааррссттввеенннныыйй ууннииввееррссииттеетт
ииммееннии ММ..ВВ.. ЛЛооммооннооссоовваа ((ММоосскквваа,, РРооссссиияя))
Выступление на семинаре
Алгебра над алгоритмами и эвристический поиск закономерностей
Карл Мейер: анализ твитов и разбиение графа 2 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ККааррлл ММееййеерр – профессор в университете Северной Каролины
Карл Мейер: анализ твитов и разбиение графа 3 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ООббллаассттьь ииннттеерреессоовв
 Линейная алгебра
 PageRank, марковские цепи
 Кластеризация, неотрицательные матричные разложения
Карл Мейер: анализ твитов и разбиение графа 4 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
AA CCaassee SSttuuddyy iinn TTeexxtt MMiinniinngg::
IInntteerrpprreettiinngg TTwwiitttteerr DDaattaa FFrroomm WWoorrlldd CCuupp TTwweeeettss
Daniel Godfrey, Caley Johns, Carol Sadek, Carl Meyer, Shaina Race
Карл Мейер: анализ твитов и разбиение графа 5 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
AA CCaassee SSttuuddyy iinn TTeexxtt MMiinniinngg::
IInntteerrpprreettiinngg TTwwiitttteerr DDaattaa FFrroomm WWoorrlldd CCuupp TTwweeeettss
30 000 твитов перед началом чемпионата мира
(содержат слово world cup), английские и испанские
Из них отобрано 17023 с важной информацией
(удаляем ретвиты)
Карл Мейер: анализ твитов и разбиение графа 6 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ГГллааввннааяя ппррооббллееммаа –– шум
ККооннееччннааяя ццеелльь –– кластеризация, интерпретация
ИИззббааввллееннииее оотт шшууммаа::
DBSCAN algorithm + consensus matrix
см. дальше
Карл Мейер: анализ твитов и разбиение графа 7 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв
1) Tf-idf + cos + kmeans
2) Consensus clustering
consensus matrix –
ij элемент = сколько раз i и j объект попали в один кластер
(например, несколько раз k-means)
Карл Мейер: анализ твитов и разбиение графа 8 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв
3) неотрицательные матричные разложения
WHA 
0, HW
Можно интерпретировать как топики
и степени принадлежности к ним
ММееттооддыы ппооссттррооеенниияя ННММРР
o Multiplicative Update Rule
(в теории сходится к локальному минимуму)
o Alternating Least Squares (ALS)
o Alternating Constrained Least Squares (ACLS)
Карл Мейер: анализ твитов и разбиение графа 9 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ММееттооддыы ппооссттррооеенниияя ННММРР
Карл Мейер: анализ твитов и разбиение графа 10 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ММееттооддыы ппооссттррооеенниияя ННММРР
Карл Мейер: анализ твитов и разбиение графа 11 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв
4) Density-Based Spatial Clustering of Applications with Noise (DBSCAN)
Алгоритм с маркировкой точек как шум и т.п.
 для каждой точки строим круг радиуса 
 если в круге есть как минимум k точек – она плотная
 если нет, но есть плотные точки – она граничная
 иначе – шум
Карл Мейер: анализ твитов и разбиение графа 12 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ГГллааввннааяя ппррооббллееммаа –– ууссттррааннееннииее шшууммоовв
Карл Мейер: анализ твитов и разбиение графа 13 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
44 ааллггооррииттммаа ууддааллеенниияя шшууммоовв
N*k-means (разные k) 
consensus matrix 
если ij-элемент <10% - зануляем 
строки «с большим числом нулей» шумовые
N*DBSCAN (после первого?) 
если граничная или шум в > 50% случаях 
удаляем
На consensus matrix, а не матрице расстояний!
Комбинация (голосованием)
Карл Мейер: анализ твитов и разбиение графа 14 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ВВыыббоорр ччииссллаа ттооппииккоовв
СDL 
С – матрица консенсуса
Смотрим на 50 наименьших с.з. –
по принципу наибольшего зазора определяем число топиков
Карл Мейер: анализ твитов и разбиение графа 15 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ИИттооггооввааяя ккллаассттееррииззаацциияя
1) k-means
2) NNMF – интерпретируем как степень вхождения в топик
Карл Мейер: анализ твитов и разбиение графа 16 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
Карл Мейер: анализ твитов и разбиение графа 17 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
Карл Мейер: анализ твитов и разбиение графа 18 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ВВыыввоодд:: NMF быстрее и адекватнее k-means
Карл Мейер: анализ твитов и разбиение графа 19 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ЛЛииттееррааттуурраа
[1] Martin Ester, Hans peter Kriegel, Jrg S, and Xiaowei Xu. A density-based algorithm for discovering
clusters in large spatial databases with noise. pages 226–231. AAAI Press, 1996.
[2] A. G. K. Janecek and W. N. Gansterer. Utilizing Nonnegative Matrix Factorization for Email Classifi-
cation Problems in Text Mining: Applications and Theory. John Wiley and Sons, 2010.
[3] Amy N. Langville, Carl D. Meyer, Russell Albright, James Cox, and David Duling. Algorithms,
initializations, and convergence for the nonnegative matrix factorization. 2014.
[4] Daniel D. Lee and H. Sebastian Seung. Algorithms for non-negative matrix factorization. 2000.
[5] Tao Li and Chris Ding. Nonnegative matrix factorizations for clustering: A survey. pages 149–179,
2013.
[6] Carl D. Meyer. Matrix Analysis and Applied Linear Algebra. SIAM, 2001.
[7] Mark EJ Newman. Modularity and community structure in networks. Proceedings of the National
Academy of Sciences, 103(23):8577–8582, 2006.
[8] Gang Qian, Shamik Sural, Yuelong Gu, and Sakti Pramanik. Similarity between euclidean and cosine
angle distance for nearest neighbor queries. 2004.
[9] Shaina L. Race. Iterative Consensus Clustering. PhD thesis, North Carolina State University, 2014.
[10] Andrey A. Shabalin. k-means animation. Web.
[11] Farial Shahnaz. Document clustering using nonnegative matrix factorization. Information
Processing and Management, 42(2):373–386, 2006.
[12] Ankita Vimal, Satyanarayana R Valluri, and Kamalakar Karlapalem. An experiment with distance
meaures for clustering. International Conference on Management of Data COMAD, 2008.
Карл Мейер: анализ твитов и разбиение графа 20 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
RREELLAATTIIOONNSS BBEETTWWEEEENN AADDJJAACCEENNCCYY AANNDD
MMOODDUULLAARRIITTYY GGRRAAPPHH PPAARRTTIITTIIOONNIINNGG
HANSI JIANG, CARL MEYER
Карл Мейер: анализ твитов и разбиение графа 21 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ССууттьь
главный с.в. матрицы модулярности – линейная комбинация с.в.
матрицы смежности, коэффициенты определены
Предложен метод для аппроксимации ГСВММ
Получена ошибка аппроксимации
Карл Мейер: анализ твитов и разбиение графа 22 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ННааппооммииннааннииее
Матрица Лапласа
ADL 
Матрица модулярности
m
dd
AB
2
т

нормированные версии:
2/12/1
LDDL  ,
2/12/1
BDDB 
решение задачи на с.з.:
),0( e , ),0( 2/1
eD
Карл Мейер: анализ твитов и разбиение графа 23 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ТТееооррееммаа
Пусть
т
UUA  , iu – столбцы U , n 1 – на диагонали .
Пусть n 1 – с.в. матрицы B.
Если 211   , || 21   , тогда с.в. 1b ~ max с.з. B:
i
n
i i
i
u
du
dU
 1 2
т
2
т
)(||||
1

Карл Мейер: анализ твитов и разбиение графа 24 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ТТееооррееммаа
Пусть при старых предположениях
2
т
1
т
||||)( dU
du
i
i
i



 ,
и есть такое переупорядочивание
|||| 1iin
  , тогда можно 1b аппроксимировать с помощью
jj i
p
j
i u1

с ошибкой
 pj
ij
b
2
21 ||||
1

Карл Мейер: анализ твитов и разбиение графа 25 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ТТееооррееммаа
Пусть 0 – простое с.з. B,
1 – простое с.з. A, 10  
тогда
BuAu  ~),(~),(  .
Если ещё 0 не наибольшее с.з. B, тогда с.в. соответствующий max
с.з. B и с.в. соответствующий max второму по величине с.з. A
совпадают.
ППооээттооммуу ии ссооооттввееттссттввууюющщииее ккллаассттееррииззааццииии ссооввппааддааюютт!!
Карл Мейер: анализ твитов и разбиение графа 26 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ЭЭккссппееррииммееннттыы ннаа 33 ннааббоорраахх ддаанннныыхх
1. Wine Recognition Data Set (UCI)
178 объектов, 13 признаков, гауссова схожесть
2. Breast Cancer Wisconsin (Original) Data Set (UCI)
699 объектов, 9 признаков
3. PenDigit Data Sets from MNIST database
ДДлляя ссррааввннеенниияя ссххооддссттвваа ррааббооттыы 22хх ммееттооддоовв ккллаассттееррииззааццииии
Карл Мейер: анализ твитов и разбиение графа 27 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ЛЛииттееррааттуурраа
[1] R. W. Abbey Stochastic clustering: Visualization and application. , PhD Thesis, North Carolina State
University, (2013).
[2] M. Bolla Penalized versions of the newman-girvan modularity and their relation to normalized cuts
and k-means clustering , Physical Review E, 84 (2011), p. 016108.
[3] J. R. Bunch, C. P. Nielsen, and D. C. Sorensen, Rank-one modification of the symmetric eigenproblem,
Numerische Mathematik, 31 (1978), pp. 31–48.
[4] R. Chitta, R. Jin, and A. K. Jain, Efficient kernel clustering using random fourier features, in Data
Mining (ICDM), 2012 IEEE 12th International Conference on, IEEE, 2012, pp. 161–170.
[5] F. R. Chung, Spectral graph theory, vol. 92, American Mathematical Soc., 1997.
[6] M. Fiedler, Algebraic connectivity of graphs, Czechoslovak Mathematical Journal, 23 (1973), pp. 298–
305.
[7] A property of eigenvectors of nonnegative symmetric matric
es and its application to graph theory, Czechoslovak Mathematical Journal, 25 (1975), pp. 619–633.
[8] J. Goldberger, G. E. Hinton, S. T. Roweis, and R. R. Salakhutdinov, Neighbourhood components
analysis, in Advances in Neural Information Processing Systems 17, L. Saul, Y. Weiss, and L. Bottou,
eds., MIT Press, 2005, pp. 513–520.
[9] T. Hertz, A. Bar-Hillel, and D. Weinshall, Boosting margin based distance functions for clustering, in
Proceedings of the twenty-first international conference on Machine learning,
ACM, 2004, p. 50.
[10] H. Ishibuchi and T. Yamamoto, Rule weight specification in fuzzy rule-based classification systems,
Fuzzy Systems, IEEE Transactions on, 13 (2005), pp. 428–435.
[11] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document
recognition, Proceedings of the IEEE, 86 (1998), pp. 2278–2324.
[12] M. Lichman, UCI machine learning repository, 2013.
Карл Мейер: анализ твитов и разбиение графа 28 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
[13] O. L. Mangasarian, W. N. Street, and W. H. Wolberg, Breast cancer diagnosis and prognosis via
linear programming, Operations Research, 43 (1995), pp. 570–577.
[14] C. D. Meyer, Matrix analysis and applied linear algebra, Siam, 2000.
[15] M. E. Newman, Modularity and community structure in networks, Proceedings of the National
Academy of Sciences, 103 (2006), pp. 8577–8582.
[16] M. E. Newman and M. Girvan, Finding and evaluating community structure in networks, Physical
review E, 69 (2004), p. 026113.
[17] A. Y. Ng, M. I. Jordan, Y. Weiss, et al., On spectral clustering: Analysis and an algorithm, Advances
in neural information processing systems, 2 (2002), pp. 849–856.
[18] S. L. Race, Iterative consensus clustering, PhD Thesis, North Carolina State University, (2014).
[19] S. L. Race, C. Meyer, and K. Valakuzhy, Determining the number of clusters via iterative consensus
clustering , in Proceedings of the SIAM Conference on Data Mining (SDM), SIAM, 2013, pp. 94–102.
[20] J. Shi and J. Malik, Normalized cuts and image segmentation, Pattern Analysis and Machine
Intelligence, IEEE Transactions on, 22 (2000), pp. 888–905
[21] P.-N. Tan, M. Steinbach, V. Kumar, et al., Introduction to data mining
, vol. 1, Pearson Addison Wesley Boston, 2006.
[22] U. Von Luxburg, A tutorial on spectral clustering, Statistics and computing, 17 (2007), pp. 395–416.
[23] J. H. Wilkinson, J. H. Wilkinson, and J. H. Wilkinson, The algebraic eigenvalue problem, vol. 87,
Clarendon Press Oxford, 1965.
[24] L. Yu and C. Ding, Network community discovery: solving modularity clustering via normalized cut,
in Proceedings of the Eighth Workshop on Mining and Learning with Graphs,
ACM, 2010, pp. 34–36.
[25] R. Zhang and A. I. Rudnicky, A large scale clustering scheme for kernel k-means, in Pattern
Recognition, 2002. Proceedings. 16th International Conference on, vol. 4, IEEE, 2002, pp. 289–292.

More Related Content

What's hot

Алгебраический подход к анализу данных и его приложения
Алгебраический подход к анализу данных и его приложенияАлгебраический подход к анализу данных и его приложения
Алгебраический подход к анализу данных и его приложения
Александр Дьяконов
 
Решение задачи Search Results Relevance
Решение задачи Search Results RelevanceРешение задачи Search Results Relevance
Решение задачи Search Results Relevance
Александр Дьяконов
 
Pandas: обзор основных функций
Pandas: обзор основных функцийPandas: обзор основных функций
Pandas: обзор основных функций
Александр Дьяконов
 
Моделирование ТПиПП
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиПП
Andrey Urusov
 
2004 Дипломный проект студентки Балашовой В.Д. на тему: «Обработка изображени...
2004 Дипломный проект студентки Балашовой В.Д. на тему: «Обработка изображени...2004 Дипломный проект студентки Балашовой В.Д. на тему: «Обработка изображени...
2004 Дипломный проект студентки Балашовой В.Д. на тему: «Обработка изображени...RF-Lab
 
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиСергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиYandex
 
методика и дистанционные технологии в курсе общей физики в нияу мифи
методика и дистанционные технологии в курсе общей физики в нияу мифиметодика и дистанционные технологии в курсе общей физики в нияу мифи
методика и дистанционные технологии в курсе общей физики в нияу мифи
Иван Иванов
 
20130301 np algorithms_kulikov_lecture01_np
20130301 np algorithms_kulikov_lecture01_np20130301 np algorithms_kulikov_lecture01_np
20130301 np algorithms_kulikov_lecture01_npComputer Science Club
 
Maksimenkova edu infosystems-2018-05-25
Maksimenkova edu infosystems-2018-05-25Maksimenkova edu infosystems-2018-05-25
Maksimenkova edu infosystems-2018-05-25
Olga Maksimenkova
 

What's hot (10)

Алгебраический подход к анализу данных и его приложения
Алгебраический подход к анализу данных и его приложенияАлгебраический подход к анализу данных и его приложения
Алгебраический подход к анализу данных и его приложения
 
29766ip
29766ip29766ip
29766ip
 
Решение задачи Search Results Relevance
Решение задачи Search Results RelevanceРешение задачи Search Results Relevance
Решение задачи Search Results Relevance
 
Pandas: обзор основных функций
Pandas: обзор основных функцийPandas: обзор основных функций
Pandas: обзор основных функций
 
Моделирование ТПиПП
Моделирование ТПиППМоделирование ТПиПП
Моделирование ТПиПП
 
2004 Дипломный проект студентки Балашовой В.Д. на тему: «Обработка изображени...
2004 Дипломный проект студентки Балашовой В.Д. на тему: «Обработка изображени...2004 Дипломный проект студентки Балашовой В.Д. на тему: «Обработка изображени...
2004 Дипломный проект студентки Балашовой В.Д. на тему: «Обработка изображени...
 
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответамиСергей Терехов — Активное обучение при малой доле примеров с известными ответами
Сергей Терехов — Активное обучение при малой доле примеров с известными ответами
 
методика и дистанционные технологии в курсе общей физики в нияу мифи
методика и дистанционные технологии в курсе общей физики в нияу мифиметодика и дистанционные технологии в курсе общей физики в нияу мифи
методика и дистанционные технологии в курсе общей физики в нияу мифи
 
20130301 np algorithms_kulikov_lecture01_np
20130301 np algorithms_kulikov_lecture01_np20130301 np algorithms_kulikov_lecture01_np
20130301 np algorithms_kulikov_lecture01_np
 
Maksimenkova edu infosystems-2018-05-25
Maksimenkova edu infosystems-2018-05-25Maksimenkova edu infosystems-2018-05-25
Maksimenkova edu infosystems-2018-05-25
 

Viewers also liked

Введение в язык программирования Питон (Python)
Введение в язык программирования Питон (Python)Введение в язык программирования Питон (Python)
Введение в язык программирования Питон (Python)
Александр Дьяконов
 
Birthday Effect
Birthday EffectBirthday Effect
Birthday Effect
Sergey Ivanov
 
Introduction to Machine Learning (case studies)
Introduction to Machine Learning (case studies)Introduction to Machine Learning (case studies)
Introduction to Machine Learning (case studies)
Dmitry Efimov
 
Bayes in competition
Bayes in competitionBayes in competition
Bayes in competitiondatasciencenl
 
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введениеeibolshakova
 
NLTK и Python для работы с текстами
NLTK и Python для работы с текстами  NLTK и Python для работы с текстами
NLTK и Python для работы с текстами
NLProc.by
 
A product-focused introduction to Machine Learning
A product-focused introduction to Machine LearningA product-focused introduction to Machine Learning
A product-focused introduction to Machine LearningSatpreet Singh
 
Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...
Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...
Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...
Mail.ru Group
 
Jenkins в docker in mesos in ...
Jenkins в docker in mesos in ...Jenkins в docker in mesos in ...
Jenkins в docker in mesos in ...
Кирилл Толкачёв
 
Корпусная лингвистика:
компиляция корпуса устной речи
Корпусная лингвистика:
компиляция корпуса устной речиКорпусная лингвистика:
компиляция корпуса устной речи
Корпусная лингвистика:
компиляция корпуса устной речи
NLProc.by
 
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...
Mail.ru Group
 
Павел Филонов, «Лаборатория Касперского», Глубокое обучение и извлечение приз...
Павел Филонов, «Лаборатория Касперского», Глубокое обучение и извлечение приз...Павел Филонов, «Лаборатория Касперского», Глубокое обучение и извлечение приз...
Павел Филонов, «Лаборатория Касперского», Глубокое обучение и извлечение приз...
Mail.ru Group
 
Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...
Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...
Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...
Mail.ru Group
 
How to Win Machine Learning Competitions ?
How to Win Machine Learning Competitions ? How to Win Machine Learning Competitions ?
How to Win Machine Learning Competitions ?
HackerEarth
 
All About Factors & Smart Beta
All About Factors & Smart BetaAll About Factors & Smart Beta
All About Factors & Smart Beta
Corey Hoffstein
 
Feature Engineering
Feature EngineeringFeature Engineering
Feature Engineering
HJ van Veen
 

Viewers also liked (16)

Введение в язык программирования Питон (Python)
Введение в язык программирования Питон (Python)Введение в язык программирования Питон (Python)
Введение в язык программирования Питон (Python)
 
Birthday Effect
Birthday EffectBirthday Effect
Birthday Effect
 
Introduction to Machine Learning (case studies)
Introduction to Machine Learning (case studies)Introduction to Machine Learning (case studies)
Introduction to Machine Learning (case studies)
 
Bayes in competition
Bayes in competitionBayes in competition
Bayes in competition
 
АОТ - Введение
АОТ - ВведениеАОТ - Введение
АОТ - Введение
 
NLTK и Python для работы с текстами
NLTK и Python для работы с текстами  NLTK и Python для работы с текстами
NLTK и Python для работы с текстами
 
A product-focused introduction to Machine Learning
A product-focused introduction to Machine LearningA product-focused introduction to Machine Learning
A product-focused introduction to Machine Learning
 
Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...
Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...
Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kagg...
 
Jenkins в docker in mesos in ...
Jenkins в docker in mesos in ...Jenkins в docker in mesos in ...
Jenkins в docker in mesos in ...
 
Корпусная лингвистика:
компиляция корпуса устной речи
Корпусная лингвистика:
компиляция корпуса устной речиКорпусная лингвистика:
компиляция корпуса устной речи
Корпусная лингвистика:
компиляция корпуса устной речи
 
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...
 
Павел Филонов, «Лаборатория Касперского», Глубокое обучение и извлечение приз...
Павел Филонов, «Лаборатория Касперского», Глубокое обучение и извлечение приз...Павел Филонов, «Лаборатория Касперского», Глубокое обучение и извлечение приз...
Павел Филонов, «Лаборатория Касперского», Глубокое обучение и извлечение приз...
 
Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...
Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...
Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...
 
How to Win Machine Learning Competitions ?
How to Win Machine Learning Competitions ? How to Win Machine Learning Competitions ?
How to Win Machine Learning Competitions ?
 
All About Factors & Smart Beta
All About Factors & Smart BetaAll About Factors & Smart Beta
All About Factors & Smart Beta
 
Feature Engineering
Feature EngineeringFeature Engineering
Feature Engineering
 

Similar to Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

симметрия двуциклических матриц адамара и периодические пары голея
симметрия двуциклических матриц адамара и периодические пары голеясимметрия двуциклических матриц адамара и периодические пары голея
симметрия двуциклических матриц адамара и периодические пары голея
Иван Иванов
 
Автореферат "Методы и алгоритмы распознавания образов с использованием древов...
Автореферат "Методы и алгоритмы распознавания образов с использованием древов...Автореферат "Методы и алгоритмы распознавания образов с использованием древов...
Автореферат "Методы и алгоритмы распознавания образов с использованием древов...
ph.d. Dmitry Stepanov
 
Презентация "Методы и алгоритмы распознавания образов с использованием древо...
Презентация "Методы и алгоритмы распознавания образов  с использованием древо...Презентация "Методы и алгоритмы распознавания образов  с использованием древо...
Презентация "Методы и алгоритмы распознавания образов с использованием древо...
ph.d. Dmitry Stepanov
 
Gauss vs. Pareto (Rastyannikov Pavel)
Gauss vs. Pareto (Rastyannikov Pavel)Gauss vs. Pareto (Rastyannikov Pavel)
Gauss vs. Pareto (Rastyannikov Pavel)
Pavel Rastyannikov
 
Проекционные операторы и гиперкомплексные числа
Проекционные операторы и гиперкомплексные числа Проекционные операторы и гиперкомплексные числа
Проекционные операторы и гиперкомплексные числа All Smirnova
 
дискретная математика учебное пособие для студентов заочного факультета
дискретная математика учебное пособие для студентов заочного факультетадискретная математика учебное пособие для студентов заочного факультета
дискретная математика учебное пособие для студентов заочного факультета
Иван Иванов
 

Similar to Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа (8)

симметрия двуциклических матриц адамара и периодические пары голея
симметрия двуциклических матриц адамара и периодические пары голеясимметрия двуциклических матриц адамара и периодические пары голея
симметрия двуциклических матриц адамара и периодические пары голея
 
Prezent lab
Prezent labPrezent lab
Prezent lab
 
Автореферат "Методы и алгоритмы распознавания образов с использованием древов...
Автореферат "Методы и алгоритмы распознавания образов с использованием древов...Автореферат "Методы и алгоритмы распознавания образов с использованием древов...
Автореферат "Методы и алгоритмы распознавания образов с использованием древов...
 
Презентация "Методы и алгоритмы распознавания образов с использованием древо...
Презентация "Методы и алгоритмы распознавания образов  с использованием древо...Презентация "Методы и алгоритмы распознавания образов  с использованием древо...
Презентация "Методы и алгоритмы распознавания образов с использованием древо...
 
Gauss vs. Pareto (Rastyannikov Pavel)
Gauss vs. Pareto (Rastyannikov Pavel)Gauss vs. Pareto (Rastyannikov Pavel)
Gauss vs. Pareto (Rastyannikov Pavel)
 
Методы вычислений. Лекция 1, 2
Методы вычислений. Лекция 1, 2Методы вычислений. Лекция 1, 2
Методы вычислений. Лекция 1, 2
 
Проекционные операторы и гиперкомплексные числа
Проекционные операторы и гиперкомплексные числа Проекционные операторы и гиперкомплексные числа
Проекционные операторы и гиперкомплексные числа
 
дискретная математика учебное пособие для студентов заочного факультета
дискретная математика учебное пособие для студентов заочного факультетадискретная математика учебное пособие для студентов заочного факультета
дискретная математика учебное пособие для студентов заочного факультета
 

Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа

  • 1. ООббззоорр ннееккооттооррыыхх ррааббоотт ККааррллаа ММееййеерраа УУссттррааннееннииее шшууммаа вв ааннааллииззее ттввииттоовв,, ссввяяззьь ссммеежжннооссттии ии ммооддуулляяррннооссттии ппррии ррааззббииееннииии ггррааффаа ДДььяяккоонноовв АА..ГГ.. ММооссккооввссккиийй ггооссууддааррссттввеенннныыйй ууннииввееррссииттеетт ииммееннии ММ..ВВ.. ЛЛооммооннооссоовваа ((ММоосскквваа,, РРооссссиияя)) Выступление на семинаре Алгебра над алгоритмами и эвристический поиск закономерностей
  • 2. Карл Мейер: анализ твитов и разбиение графа 2 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ККааррлл ММееййеерр – профессор в университете Северной Каролины
  • 3. Карл Мейер: анализ твитов и разбиение графа 3 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ООббллаассттьь ииннттеерреессоовв  Линейная алгебра  PageRank, марковские цепи  Кластеризация, неотрицательные матричные разложения
  • 4. Карл Мейер: анализ твитов и разбиение графа 4 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года AA CCaassee SSttuuddyy iinn TTeexxtt MMiinniinngg:: IInntteerrpprreettiinngg TTwwiitttteerr DDaattaa FFrroomm WWoorrlldd CCuupp TTwweeeettss Daniel Godfrey, Caley Johns, Carol Sadek, Carl Meyer, Shaina Race
  • 5. Карл Мейер: анализ твитов и разбиение графа 5 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года AA CCaassee SSttuuddyy iinn TTeexxtt MMiinniinngg:: IInntteerrpprreettiinngg TTwwiitttteerr DDaattaa FFrroomm WWoorrlldd CCuupp TTwweeeettss 30 000 твитов перед началом чемпионата мира (содержат слово world cup), английские и испанские Из них отобрано 17023 с важной информацией (удаляем ретвиты)
  • 6. Карл Мейер: анализ твитов и разбиение графа 6 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ГГллааввннааяя ппррооббллееммаа –– шум ККооннееччннааяя ццеелльь –– кластеризация, интерпретация ИИззббааввллееннииее оотт шшууммаа:: DBSCAN algorithm + consensus matrix см. дальше
  • 7. Карл Мейер: анализ твитов и разбиение графа 7 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв 1) Tf-idf + cos + kmeans 2) Consensus clustering consensus matrix – ij элемент = сколько раз i и j объект попали в один кластер (например, несколько раз k-means)
  • 8. Карл Мейер: анализ твитов и разбиение графа 8 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв 3) неотрицательные матричные разложения WHA  0, HW Можно интерпретировать как топики и степени принадлежности к ним ММееттооддыы ппооссттррооеенниияя ННММРР o Multiplicative Update Rule (в теории сходится к локальному минимуму) o Alternating Least Squares (ALS) o Alternating Constrained Least Squares (ACLS)
  • 9. Карл Мейер: анализ твитов и разбиение графа 9 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ММееттооддыы ппооссттррооеенниияя ННММРР
  • 10. Карл Мейер: анализ твитов и разбиение графа 10 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ММееттооддыы ппооссттррооеенниияя ННММРР
  • 11. Карл Мейер: анализ твитов и разбиение графа 11 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв 4) Density-Based Spatial Clustering of Applications with Noise (DBSCAN) Алгоритм с маркировкой точек как шум и т.п.  для каждой точки строим круг радиуса   если в круге есть как минимум k точек – она плотная  если нет, но есть плотные точки – она граничная  иначе – шум
  • 12. Карл Мейер: анализ твитов и разбиение графа 12 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ГГллааввннааяя ппррооббллееммаа –– ууссттррааннееннииее шшууммоовв
  • 13. Карл Мейер: анализ твитов и разбиение графа 13 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года 44 ааллггооррииттммаа ууддааллеенниияя шшууммоовв N*k-means (разные k)  consensus matrix  если ij-элемент <10% - зануляем  строки «с большим числом нулей» шумовые N*DBSCAN (после первого?)  если граничная или шум в > 50% случаях  удаляем На consensus matrix, а не матрице расстояний! Комбинация (голосованием)
  • 14. Карл Мейер: анализ твитов и разбиение графа 14 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ВВыыббоорр ччииссллаа ттооппииккоовв СDL  С – матрица консенсуса Смотрим на 50 наименьших с.з. – по принципу наибольшего зазора определяем число топиков
  • 15. Карл Мейер: анализ твитов и разбиение графа 15 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ИИттооггооввааяя ккллаассттееррииззаацциияя 1) k-means 2) NNMF – интерпретируем как степень вхождения в топик
  • 16. Карл Мейер: анализ твитов и разбиение графа 16 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
  • 17. Карл Мейер: анализ твитов и разбиение графа 17 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
  • 18. Карл Мейер: анализ твитов и разбиение графа 18 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ВВыыввоодд:: NMF быстрее и адекватнее k-means
  • 19. Карл Мейер: анализ твитов и разбиение графа 19 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ЛЛииттееррааттуурраа [1] Martin Ester, Hans peter Kriegel, Jrg S, and Xiaowei Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. pages 226–231. AAAI Press, 1996. [2] A. G. K. Janecek and W. N. Gansterer. Utilizing Nonnegative Matrix Factorization for Email Classifi- cation Problems in Text Mining: Applications and Theory. John Wiley and Sons, 2010. [3] Amy N. Langville, Carl D. Meyer, Russell Albright, James Cox, and David Duling. Algorithms, initializations, and convergence for the nonnegative matrix factorization. 2014. [4] Daniel D. Lee and H. Sebastian Seung. Algorithms for non-negative matrix factorization. 2000. [5] Tao Li and Chris Ding. Nonnegative matrix factorizations for clustering: A survey. pages 149–179, 2013. [6] Carl D. Meyer. Matrix Analysis and Applied Linear Algebra. SIAM, 2001. [7] Mark EJ Newman. Modularity and community structure in networks. Proceedings of the National Academy of Sciences, 103(23):8577–8582, 2006. [8] Gang Qian, Shamik Sural, Yuelong Gu, and Sakti Pramanik. Similarity between euclidean and cosine angle distance for nearest neighbor queries. 2004. [9] Shaina L. Race. Iterative Consensus Clustering. PhD thesis, North Carolina State University, 2014. [10] Andrey A. Shabalin. k-means animation. Web. [11] Farial Shahnaz. Document clustering using nonnegative matrix factorization. Information Processing and Management, 42(2):373–386, 2006. [12] Ankita Vimal, Satyanarayana R Valluri, and Kamalakar Karlapalem. An experiment with distance meaures for clustering. International Conference on Management of Data COMAD, 2008.
  • 20. Карл Мейер: анализ твитов и разбиение графа 20 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года RREELLAATTIIOONNSS BBEETTWWEEEENN AADDJJAACCEENNCCYY AANNDD MMOODDUULLAARRIITTYY GGRRAAPPHH PPAARRTTIITTIIOONNIINNGG HANSI JIANG, CARL MEYER
  • 21. Карл Мейер: анализ твитов и разбиение графа 21 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ССууттьь главный с.в. матрицы модулярности – линейная комбинация с.в. матрицы смежности, коэффициенты определены Предложен метод для аппроксимации ГСВММ Получена ошибка аппроксимации
  • 22. Карл Мейер: анализ твитов и разбиение графа 22 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ННааппооммииннааннииее Матрица Лапласа ADL  Матрица модулярности m dd AB 2 т  нормированные версии: 2/12/1 LDDL  , 2/12/1 BDDB  решение задачи на с.з.: ),0( e , ),0( 2/1 eD
  • 23. Карл Мейер: анализ твитов и разбиение графа 23 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ТТееооррееммаа Пусть т UUA  , iu – столбцы U , n 1 – на диагонали . Пусть n 1 – с.в. матрицы B. Если 211   , || 21   , тогда с.в. 1b ~ max с.з. B: i n i i i u du dU  1 2 т 2 т )(|||| 1 
  • 24. Карл Мейер: анализ твитов и разбиение графа 24 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ТТееооррееммаа Пусть при старых предположениях 2 т 1 т ||||)( dU du i i i     , и есть такое переупорядочивание |||| 1iin   , тогда можно 1b аппроксимировать с помощью jj i p j i u1  с ошибкой  pj ij b 2 21 |||| 1 
  • 25. Карл Мейер: анализ твитов и разбиение графа 25 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ТТееооррееммаа Пусть 0 – простое с.з. B, 1 – простое с.з. A, 10   тогда BuAu  ~),(~),(  . Если ещё 0 не наибольшее с.з. B, тогда с.в. соответствующий max с.з. B и с.в. соответствующий max второму по величине с.з. A совпадают. ППооээттооммуу ии ссооооттввееттссттввууюющщииее ккллаассттееррииззааццииии ссооввппааддааюютт!!
  • 26. Карл Мейер: анализ твитов и разбиение графа 26 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ЭЭккссппееррииммееннттыы ннаа 33 ннааббоорраахх ддаанннныыхх 1. Wine Recognition Data Set (UCI) 178 объектов, 13 признаков, гауссова схожесть 2. Breast Cancer Wisconsin (Original) Data Set (UCI) 699 объектов, 9 признаков 3. PenDigit Data Sets from MNIST database ДДлляя ссррааввннеенниияя ссххооддссттвваа ррааббооттыы 22хх ммееттооддоовв ккллаассттееррииззааццииии
  • 27. Карл Мейер: анализ твитов и разбиение графа 27 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года ЛЛииттееррааттуурраа [1] R. W. Abbey Stochastic clustering: Visualization and application. , PhD Thesis, North Carolina State University, (2013). [2] M. Bolla Penalized versions of the newman-girvan modularity and their relation to normalized cuts and k-means clustering , Physical Review E, 84 (2011), p. 016108. [3] J. R. Bunch, C. P. Nielsen, and D. C. Sorensen, Rank-one modification of the symmetric eigenproblem, Numerische Mathematik, 31 (1978), pp. 31–48. [4] R. Chitta, R. Jin, and A. K. Jain, Efficient kernel clustering using random fourier features, in Data Mining (ICDM), 2012 IEEE 12th International Conference on, IEEE, 2012, pp. 161–170. [5] F. R. Chung, Spectral graph theory, vol. 92, American Mathematical Soc., 1997. [6] M. Fiedler, Algebraic connectivity of graphs, Czechoslovak Mathematical Journal, 23 (1973), pp. 298– 305. [7] A property of eigenvectors of nonnegative symmetric matric es and its application to graph theory, Czechoslovak Mathematical Journal, 25 (1975), pp. 619–633. [8] J. Goldberger, G. E. Hinton, S. T. Roweis, and R. R. Salakhutdinov, Neighbourhood components analysis, in Advances in Neural Information Processing Systems 17, L. Saul, Y. Weiss, and L. Bottou, eds., MIT Press, 2005, pp. 513–520. [9] T. Hertz, A. Bar-Hillel, and D. Weinshall, Boosting margin based distance functions for clustering, in Proceedings of the twenty-first international conference on Machine learning, ACM, 2004, p. 50. [10] H. Ishibuchi and T. Yamamoto, Rule weight specification in fuzzy rule-based classification systems, Fuzzy Systems, IEEE Transactions on, 13 (2005), pp. 428–435. [11] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document recognition, Proceedings of the IEEE, 86 (1998), pp. 2278–2324. [12] M. Lichman, UCI machine learning repository, 2013.
  • 28. Карл Мейер: анализ твитов и разбиение графа 28 слайд из 28 Дьяконов А.Г. (Москва, МГУ) Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года [13] O. L. Mangasarian, W. N. Street, and W. H. Wolberg, Breast cancer diagnosis and prognosis via linear programming, Operations Research, 43 (1995), pp. 570–577. [14] C. D. Meyer, Matrix analysis and applied linear algebra, Siam, 2000. [15] M. E. Newman, Modularity and community structure in networks, Proceedings of the National Academy of Sciences, 103 (2006), pp. 8577–8582. [16] M. E. Newman and M. Girvan, Finding and evaluating community structure in networks, Physical review E, 69 (2004), p. 026113. [17] A. Y. Ng, M. I. Jordan, Y. Weiss, et al., On spectral clustering: Analysis and an algorithm, Advances in neural information processing systems, 2 (2002), pp. 849–856. [18] S. L. Race, Iterative consensus clustering, PhD Thesis, North Carolina State University, (2014). [19] S. L. Race, C. Meyer, and K. Valakuzhy, Determining the number of clusters via iterative consensus clustering , in Proceedings of the SIAM Conference on Data Mining (SDM), SIAM, 2013, pp. 94–102. [20] J. Shi and J. Malik, Normalized cuts and image segmentation, Pattern Analysis and Machine Intelligence, IEEE Transactions on, 22 (2000), pp. 888–905 [21] P.-N. Tan, M. Steinbach, V. Kumar, et al., Introduction to data mining , vol. 1, Pearson Addison Wesley Boston, 2006. [22] U. Von Luxburg, A tutorial on spectral clustering, Statistics and computing, 17 (2007), pp. 395–416. [23] J. H. Wilkinson, J. H. Wilkinson, and J. H. Wilkinson, The algebraic eigenvalue problem, vol. 87, Clarendon Press Oxford, 1965. [24] L. Yu and C. Ding, Network community discovery: solving modularity clustering via normalized cut, in Proceedings of the Eighth Workshop on Mining and Learning with Graphs, ACM, 2010, pp. 34–36. [25] R. Zhang and A. I. Rudnicky, A large scale clustering scheme for kernel k-means, in Pattern Recognition, 2002. Proceedings. 16th International Conference on, vol. 4, IEEE, 2002, pp. 289–292.