Описан алгоритм, занявший второе место на соревновании
CardioQvark. Подробное описание - см. в отчёте https://alexanderdyakonov.wordpress.com/2016/04/03/%D0%B4%D0%B5%D1%82%D0%B5%D0%BA%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5-%D0%BA%D1%83%D1%80%D0%B8%D0%BB%D1%8C%D1%89%D0%B8%D0%BA%D0%B0/
код - https://github.com/Dyakonov/cardioqvark
Описан алгоритм, занявший второе место на соревновании
CardioQvark. Подробное описание - см. в отчёте https://alexanderdyakonov.wordpress.com/2016/04/03/%D0%B4%D0%B5%D1%82%D0%B5%D0%BA%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5-%D0%BA%D1%83%D1%80%D0%B8%D0%BB%D1%8C%D1%89%D0%B8%D0%BA%D0%B0/
код - https://github.com/Dyakonov/cardioqvark
Алгебраический подход к анализу данных и его приложенияАлександр Дьяконов
Доклад на конференции профессоров РАН по Отделению математических наук РАН.
15 июня 2016 г. 15:25, г. Москва, ул. Губкина, д. 8, Математический институт имени В. А. Стеклова Российской Академии наук
http://www.mathnet.ru/conf908
Презентация с семинара ИТМО "Формализация знаний и искусственный интеллект в образовании" (http://iam.ifmo.ru/ru/viewnews/17227/formalizaciya_znaniy_i_iskusstvennyy_intellekt_v_obrazovanii.htm). Доклад "Информационные системы поддержки активного обучения: облачные технологии, управление знаниями и коллаборативные платформы".
Пока вы кушаете тортики и принимаете подарки в ваш любимый день в году, вы даже на замечаете, как повышается вероятность того, что вы... умрёте! Вот так.
Методы для вычисления базовой статистики текста
Работа с корпусами и лексикографическими ресурсами
Обработка естественного языка (токенизация, лемматизация, стемминг, pos-tagging, parsing)
Классификация
Машинный перевод
Работа с XML-документами
Представление знаний
This is a war-story about deploying and managing Jenkins instances in the cloud in our company. For this purpose, we use Mesos and Docker plugins. In the talk I focus on our requirements to Jenkins in the Cloud, prerequisites and the preparation process. The presentation also covers the current state of the deployment and the lessons learnt.
We are hiring! Msk and Spb: https://goo.gl/HjfOz5
Корпусная лингвистика: компиляция корпуса устной речиNLProc.by
Что такое корпус? Корпус устной речи?
Виды
Корпусы устной речи (фокус: слявянские языки)
Компиляция корпуса устной речи: основные этапы, принципы, инструменты
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...Mail.ru Group
H2O — интересная и многообещающая платформа машинного обучения. Она может порадовать аналитика скоростью работы с большими объемами данных, набором алгоритмов, наличием API для нескольких языков программирования, и, конечно же, красивыми и подробными отчетами по построенным моделям. H2O написана на Java, поэтому работает везде (tm), в том числе на кластере Spark. В докладе спикер поделился своим опытом использования H2O на Spark и YARN, а также причинами отказа от использования H2O в production-окружении, не смотря на все ее положительные качества.
Павел Филонов, «Лаборатория Касперского», Глубокое обучение и извлечение приз...Mail.ru Group
Автоматическое выделение признаков, которые имеет место при построении глубоких сетей, видится перспективным инструментом, способным значительно сократить объём работ по подготовке данных. В докладе рассмотрены задача прогнозирования значений временного ряда и сравнены подходы к ее решениям как с использованием ручного выделения признаков, так и построенные на полностью автоматической обработке сырых данных.
Алгебраический подход к анализу данных и его приложенияАлександр Дьяконов
Доклад на конференции профессоров РАН по Отделению математических наук РАН.
15 июня 2016 г. 15:25, г. Москва, ул. Губкина, д. 8, Математический институт имени В. А. Стеклова Российской Академии наук
http://www.mathnet.ru/conf908
Презентация с семинара ИТМО "Формализация знаний и искусственный интеллект в образовании" (http://iam.ifmo.ru/ru/viewnews/17227/formalizaciya_znaniy_i_iskusstvennyy_intellekt_v_obrazovanii.htm). Доклад "Информационные системы поддержки активного обучения: облачные технологии, управление знаниями и коллаборативные платформы".
Пока вы кушаете тортики и принимаете подарки в ваш любимый день в году, вы даже на замечаете, как повышается вероятность того, что вы... умрёте! Вот так.
Методы для вычисления базовой статистики текста
Работа с корпусами и лексикографическими ресурсами
Обработка естественного языка (токенизация, лемматизация, стемминг, pos-tagging, parsing)
Классификация
Машинный перевод
Работа с XML-документами
Представление знаний
This is a war-story about deploying and managing Jenkins instances in the cloud in our company. For this purpose, we use Mesos and Docker plugins. In the talk I focus on our requirements to Jenkins in the Cloud, prerequisites and the preparation process. The presentation also covers the current state of the deployment and the lessons learnt.
We are hiring! Msk and Spb: https://goo.gl/HjfOz5
Корпусная лингвистика: компиляция корпуса устной речиNLProc.by
Что такое корпус? Корпус устной речи?
Виды
Корпусы устной речи (фокус: слявянские языки)
Компиляция корпуса устной речи: основные этапы, принципы, инструменты
Дмитрий Носов, Rambler&Co, H2O на Spark: как мы пили газировку и чуть не захл...Mail.ru Group
H2O — интересная и многообещающая платформа машинного обучения. Она может порадовать аналитика скоростью работы с большими объемами данных, набором алгоритмов, наличием API для нескольких языков программирования, и, конечно же, красивыми и подробными отчетами по построенным моделям. H2O написана на Java, поэтому работает везде (tm), в том числе на кластере Spark. В докладе спикер поделился своим опытом использования H2O на Spark и YARN, а также причинами отказа от использования H2O в production-окружении, не смотря на все ее положительные качества.
Павел Филонов, «Лаборатория Касперского», Глубокое обучение и извлечение приз...Mail.ru Group
Автоматическое выделение признаков, которые имеет место при построении глубоких сетей, видится перспективным инструментом, способным значительно сократить объём работ по подготовке данных. В докладе рассмотрены задача прогнозирования значений временного ряда и сравнены подходы к ее решениям как с использованием ручного выделения признаков, так и построенные на полностью автоматической обработке сырых данных.
Александр Дьяконов, ВМК МГУ, Решение задачи Search Results Relevance (на плат...Mail.ru Group
Разобрана задача по определению релевантности поисковой выдачи, которая решалась на прошлогоднем «Практическом семинаре по АД kaggle». Был описан очень простой алгоритм, который не использует сложных методов анализа текстов, словарей и ансамблей алгоритмов, и который, тем не менее, смог попасть в десятку сильнейших среди более чем 1300 участников.
How to Win Machine Learning Competitions ? HackerEarth
This presentation was given by Marios Michailidis (a.k.a Kazanova), Current Kaggle Rank #3 to help community learn machine learning better. It comprises of useful ML tips and techniques to perform better in machine learning competitions. Read the full blog: http://blog.hackerearth.com/winning-tips-machine-learning-competitions-kazanova-current-kaggle-3
In All About Factors, we cover the basics of what factors are, where we expect them to derive their excess returns from, their advantages and disadvantages and if there is indeed any merit to this approach or if it just another Wall Street marketing gimmick.
After covering the commonly accepted factors basics, we discuss expectations for factor investing, the theory as to why short-term pain must be present for long-term return, and some key considerations in moving from the academic research to creating investible portfolios.
Also explored is the current on-going debate between industry titans Rob Arnott (Research Affiliates) and Cliff Asness (AQR) as to the efficacy of using valuation-based spreads to time factor exposures.
Lastly, we look at some different methods that a retail investor can utilize smart-beta investing, by highlighting some of the current industry techniques for diversifying factor exposures and building a multi-factor portfolio.
From Gaussian world to Pareto-Mandelbrot world: How nonlinearity, fractals, objects look like when they are social.
Observations, data, ideas, hypotheses.
дискретная математика учебное пособие для студентов заочного факультета
Устранение шума в анализе твитов, связь смежности и модулярности при разбиении графа
1. ООббззоорр ннееккооттооррыыхх ррааббоотт
ККааррллаа ММееййеерраа
УУссттррааннееннииее шшууммаа вв ааннааллииззее ттввииттоовв,,
ссввяяззьь ссммеежжннооссттии ии ммооддуулляяррннооссттии ппррии
ррааззббииееннииии ггррааффаа
ДДььяяккоонноовв АА..ГГ..
ММооссккооввссккиийй ггооссууддааррссттввеенннныыйй ууннииввееррссииттеетт
ииммееннии ММ..ВВ.. ЛЛооммооннооссоовваа ((ММоосскквваа,, РРооссссиияя))
Выступление на семинаре
Алгебра над алгоритмами и эвристический поиск закономерностей
2. Карл Мейер: анализ твитов и разбиение графа 2 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ККааррлл ММееййеерр – профессор в университете Северной Каролины
3. Карл Мейер: анализ твитов и разбиение графа 3 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ООббллаассттьь ииннттеерреессоовв
Линейная алгебра
PageRank, марковские цепи
Кластеризация, неотрицательные матричные разложения
4. Карл Мейер: анализ твитов и разбиение графа 4 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
AA CCaassee SSttuuddyy iinn TTeexxtt MMiinniinngg::
IInntteerrpprreettiinngg TTwwiitttteerr DDaattaa FFrroomm WWoorrlldd CCuupp TTwweeeettss
Daniel Godfrey, Caley Johns, Carol Sadek, Carl Meyer, Shaina Race
5. Карл Мейер: анализ твитов и разбиение графа 5 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
AA CCaassee SSttuuddyy iinn TTeexxtt MMiinniinngg::
IInntteerrpprreettiinngg TTwwiitttteerr DDaattaa FFrroomm WWoorrlldd CCuupp TTwweeeettss
30 000 твитов перед началом чемпионата мира
(содержат слово world cup), английские и испанские
Из них отобрано 17023 с важной информацией
(удаляем ретвиты)
6. Карл Мейер: анализ твитов и разбиение графа 6 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ГГллааввннааяя ппррооббллееммаа –– шум
ККооннееччннааяя ццеелльь –– кластеризация, интерпретация
ИИззббааввллееннииее оотт шшууммаа::
DBSCAN algorithm + consensus matrix
см. дальше
7. Карл Мейер: анализ твитов и разбиение графа 7 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв
1) Tf-idf + cos + kmeans
2) Consensus clustering
consensus matrix –
ij элемент = сколько раз i и j объект попали в один кластер
(например, несколько раз k-means)
8. Карл Мейер: анализ твитов и разбиение графа 8 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв
3) неотрицательные матричные разложения
WHA
0, HW
Можно интерпретировать как топики
и степени принадлежности к ним
ММееттооддыы ппооссттррооеенниияя ННММРР
o Multiplicative Update Rule
(в теории сходится к локальному минимуму)
o Alternating Least Squares (ALS)
o Alternating Constrained Least Squares (ACLS)
9. Карл Мейер: анализ твитов и разбиение графа 9 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ММееттооддыы ппооссттррооеенниияя ННММРР
10. Карл Мейер: анализ твитов и разбиение графа 10 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ММееттооддыы ппооссттррооеенниияя ННММРР
11. Карл Мейер: анализ твитов и разбиение графа 11 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв
4) Density-Based Spatial Clustering of Applications with Noise (DBSCAN)
Алгоритм с маркировкой точек как шум и т.п.
для каждой точки строим круг радиуса
если в круге есть как минимум k точек – она плотная
если нет, но есть плотные точки – она граничная
иначе – шум
12. Карл Мейер: анализ твитов и разбиение графа 12 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ГГллааввннааяя ппррооббллееммаа –– ууссттррааннееннииее шшууммоовв
13. Карл Мейер: анализ твитов и разбиение графа 13 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
44 ааллггооррииттммаа ууддааллеенниияя шшууммоовв
N*k-means (разные k)
consensus matrix
если ij-элемент <10% - зануляем
строки «с большим числом нулей» шумовые
N*DBSCAN (после первого?)
если граничная или шум в > 50% случаях
удаляем
На consensus matrix, а не матрице расстояний!
Комбинация (голосованием)
14. Карл Мейер: анализ твитов и разбиение графа 14 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ВВыыббоорр ччииссллаа ттооппииккоовв
СDL
С – матрица консенсуса
Смотрим на 50 наименьших с.з. –
по принципу наибольшего зазора определяем число топиков
15. Карл Мейер: анализ твитов и разбиение графа 15 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ИИттооггооввааяя ккллаассттееррииззаацциияя
1) k-means
2) NNMF – интерпретируем как степень вхождения в топик
16. Карл Мейер: анализ твитов и разбиение графа 16 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
17. Карл Мейер: анализ твитов и разбиение графа 17 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
18. Карл Мейер: анализ твитов и разбиение графа 18 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ВВыыввоодд:: NMF быстрее и адекватнее k-means
19. Карл Мейер: анализ твитов и разбиение графа 19 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ЛЛииттееррааттуурраа
[1] Martin Ester, Hans peter Kriegel, Jrg S, and Xiaowei Xu. A density-based algorithm for discovering
clusters in large spatial databases with noise. pages 226–231. AAAI Press, 1996.
[2] A. G. K. Janecek and W. N. Gansterer. Utilizing Nonnegative Matrix Factorization for Email Classifi-
cation Problems in Text Mining: Applications and Theory. John Wiley and Sons, 2010.
[3] Amy N. Langville, Carl D. Meyer, Russell Albright, James Cox, and David Duling. Algorithms,
initializations, and convergence for the nonnegative matrix factorization. 2014.
[4] Daniel D. Lee and H. Sebastian Seung. Algorithms for non-negative matrix factorization. 2000.
[5] Tao Li and Chris Ding. Nonnegative matrix factorizations for clustering: A survey. pages 149–179,
2013.
[6] Carl D. Meyer. Matrix Analysis and Applied Linear Algebra. SIAM, 2001.
[7] Mark EJ Newman. Modularity and community structure in networks. Proceedings of the National
Academy of Sciences, 103(23):8577–8582, 2006.
[8] Gang Qian, Shamik Sural, Yuelong Gu, and Sakti Pramanik. Similarity between euclidean and cosine
angle distance for nearest neighbor queries. 2004.
[9] Shaina L. Race. Iterative Consensus Clustering. PhD thesis, North Carolina State University, 2014.
[10] Andrey A. Shabalin. k-means animation. Web.
[11] Farial Shahnaz. Document clustering using nonnegative matrix factorization. Information
Processing and Management, 42(2):373–386, 2006.
[12] Ankita Vimal, Satyanarayana R Valluri, and Kamalakar Karlapalem. An experiment with distance
meaures for clustering. International Conference on Management of Data COMAD, 2008.
20. Карл Мейер: анализ твитов и разбиение графа 20 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
RREELLAATTIIOONNSS BBEETTWWEEEENN AADDJJAACCEENNCCYY AANNDD
MMOODDUULLAARRIITTYY GGRRAAPPHH PPAARRTTIITTIIOONNIINNGG
HANSI JIANG, CARL MEYER
21. Карл Мейер: анализ твитов и разбиение графа 21 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ССууттьь
главный с.в. матрицы модулярности – линейная комбинация с.в.
матрицы смежности, коэффициенты определены
Предложен метод для аппроксимации ГСВММ
Получена ошибка аппроксимации
22. Карл Мейер: анализ твитов и разбиение графа 22 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ННааппооммииннааннииее
Матрица Лапласа
ADL
Матрица модулярности
m
dd
AB
2
т
нормированные версии:
2/12/1
LDDL ,
2/12/1
BDDB
решение задачи на с.з.:
),0( e , ),0( 2/1
eD
23. Карл Мейер: анализ твитов и разбиение графа 23 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ТТееооррееммаа
Пусть
т
UUA , iu – столбцы U , n 1 – на диагонали .
Пусть n 1 – с.в. матрицы B.
Если 211 , || 21 , тогда с.в. 1b ~ max с.з. B:
i
n
i i
i
u
du
dU
1 2
т
2
т
)(||||
1
24. Карл Мейер: анализ твитов и разбиение графа 24 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ТТееооррееммаа
Пусть при старых предположениях
2
т
1
т
||||)( dU
du
i
i
i
,
и есть такое переупорядочивание
|||| 1iin
, тогда можно 1b аппроксимировать с помощью
jj i
p
j
i u1
с ошибкой
pj
ij
b
2
21 ||||
1
25. Карл Мейер: анализ твитов и разбиение графа 25 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ТТееооррееммаа
Пусть 0 – простое с.з. B,
1 – простое с.з. A, 10
тогда
BuAu ~),(~),( .
Если ещё 0 не наибольшее с.з. B, тогда с.в. соответствующий max
с.з. B и с.в. соответствующий max второму по величине с.з. A
совпадают.
ППооээттооммуу ии ссооооттввееттссттввууюющщииее ккллаассттееррииззааццииии ссооввппааддааюютт!!
26. Карл Мейер: анализ твитов и разбиение графа 26 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ЭЭккссппееррииммееннттыы ннаа 33 ннааббоорраахх ддаанннныыхх
1. Wine Recognition Data Set (UCI)
178 объектов, 13 признаков, гауссова схожесть
2. Breast Cancer Wisconsin (Original) Data Set (UCI)
699 объектов, 9 признаков
3. PenDigit Data Sets from MNIST database
ДДлляя ссррааввннеенниияя ссххооддссттвваа ррааббооттыы 22хх ммееттооддоовв ккллаассттееррииззааццииии
27. Карл Мейер: анализ твитов и разбиение графа 27 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ЛЛииттееррааттуурраа
[1] R. W. Abbey Stochastic clustering: Visualization and application. , PhD Thesis, North Carolina State
University, (2013).
[2] M. Bolla Penalized versions of the newman-girvan modularity and their relation to normalized cuts
and k-means clustering , Physical Review E, 84 (2011), p. 016108.
[3] J. R. Bunch, C. P. Nielsen, and D. C. Sorensen, Rank-one modification of the symmetric eigenproblem,
Numerische Mathematik, 31 (1978), pp. 31–48.
[4] R. Chitta, R. Jin, and A. K. Jain, Efficient kernel clustering using random fourier features, in Data
Mining (ICDM), 2012 IEEE 12th International Conference on, IEEE, 2012, pp. 161–170.
[5] F. R. Chung, Spectral graph theory, vol. 92, American Mathematical Soc., 1997.
[6] M. Fiedler, Algebraic connectivity of graphs, Czechoslovak Mathematical Journal, 23 (1973), pp. 298–
305.
[7] A property of eigenvectors of nonnegative symmetric matric
es and its application to graph theory, Czechoslovak Mathematical Journal, 25 (1975), pp. 619–633.
[8] J. Goldberger, G. E. Hinton, S. T. Roweis, and R. R. Salakhutdinov, Neighbourhood components
analysis, in Advances in Neural Information Processing Systems 17, L. Saul, Y. Weiss, and L. Bottou,
eds., MIT Press, 2005, pp. 513–520.
[9] T. Hertz, A. Bar-Hillel, and D. Weinshall, Boosting margin based distance functions for clustering, in
Proceedings of the twenty-first international conference on Machine learning,
ACM, 2004, p. 50.
[10] H. Ishibuchi and T. Yamamoto, Rule weight specification in fuzzy rule-based classification systems,
Fuzzy Systems, IEEE Transactions on, 13 (2005), pp. 428–435.
[11] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document
recognition, Proceedings of the IEEE, 86 (1998), pp. 2278–2324.
[12] M. Lichman, UCI machine learning repository, 2013.
28. Карл Мейер: анализ твитов и разбиение графа 28 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
[13] O. L. Mangasarian, W. N. Street, and W. H. Wolberg, Breast cancer diagnosis and prognosis via
linear programming, Operations Research, 43 (1995), pp. 570–577.
[14] C. D. Meyer, Matrix analysis and applied linear algebra, Siam, 2000.
[15] M. E. Newman, Modularity and community structure in networks, Proceedings of the National
Academy of Sciences, 103 (2006), pp. 8577–8582.
[16] M. E. Newman and M. Girvan, Finding and evaluating community structure in networks, Physical
review E, 69 (2004), p. 026113.
[17] A. Y. Ng, M. I. Jordan, Y. Weiss, et al., On spectral clustering: Analysis and an algorithm, Advances
in neural information processing systems, 2 (2002), pp. 849–856.
[18] S. L. Race, Iterative consensus clustering, PhD Thesis, North Carolina State University, (2014).
[19] S. L. Race, C. Meyer, and K. Valakuzhy, Determining the number of clusters via iterative consensus
clustering , in Proceedings of the SIAM Conference on Data Mining (SDM), SIAM, 2013, pp. 94–102.
[20] J. Shi and J. Malik, Normalized cuts and image segmentation, Pattern Analysis and Machine
Intelligence, IEEE Transactions on, 22 (2000), pp. 888–905
[21] P.-N. Tan, M. Steinbach, V. Kumar, et al., Introduction to data mining
, vol. 1, Pearson Addison Wesley Boston, 2006.
[22] U. Von Luxburg, A tutorial on spectral clustering, Statistics and computing, 17 (2007), pp. 395–416.
[23] J. H. Wilkinson, J. H. Wilkinson, and J. H. Wilkinson, The algebraic eigenvalue problem, vol. 87,
Clarendon Press Oxford, 1965.
[24] L. Yu and C. Ding, Network community discovery: solving modularity clustering via normalized cut,
in Proceedings of the Eighth Workshop on Mining and Learning with Graphs,
ACM, 2010, pp. 34–36.
[25] R. Zhang and A. I. Rudnicky, A large scale clustering scheme for kernel k-means, in Pattern
Recognition, 2002. Proceedings. 16th International Conference on, vol. 4, IEEE, 2002, pp. 289–292.