В докладе рассмотрены наиболее популярные алгоритмы классификации в машинном обучении, их преимущества и недостатки, а также приведены результаты использования алгоритмов на реальных данных, в частности, в задаче классификации текстов по классам эмоций.
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...Newprolab
Юрий Макаров, Data Scientist, E-Contenta. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
List of top Machine Learning algorithms are making headway in the world of data science. Explained here are the top 10 of these machine learning algorithms - https://www.dezyre.com/article/top-10-machine-learning-algorithms/202
Data Science Weekend 2017. E-Contenta. Классификация текстов: в поисках сереб...Newprolab
Юрий Макаров, Data Scientist, E-Contenta. Если вы хотите получить доступ к видео выступления, заполните форму здесь: http://dswknd2017.datascienceweek.com/
List of top Machine Learning algorithms are making headway in the world of data science. Explained here are the top 10 of these machine learning algorithms - https://www.dezyre.com/article/top-10-machine-learning-algorithms/202
РЕАЛИЗАЦИЯ РАДИАЛЬНО-БАЗИСНОЙ НЕЙРОННОЙ СЕТИ НА МАССИВНО-ПАРАЛЛЕЛЬНОЙ АРХИТЕК...ITMO University
Предлагается распараллеливание в технологии программно-аппаратной архитектуры (CUDA) алгоритма обучения радиально-базисной нейронной сети (RBFNN), основанного на идее последовательной настройки центров, ширины и весов сети, а также идее коррекции весов по алгоритму минимизации квадратичного функционала методом сопряженных градиентов. Приводятся результаты сравнения времени обучения RBFNN на различных центральных и графических процессорах, доказывающие эффективность распараллеливания.
РЕАЛИЗАЦИЯ РАДИАЛЬНО-БАЗИСНОЙ НЕЙРОННОЙ СЕТИ НА МАССИВНО-ПАРАЛЛЕЛЬНОЙ АРХИТЕК...ITMO University
Предлагается распараллеливание в технологии программно-аппаратной архитектуры (CUDA) алгоритма обучения радиально-базисной нейронной сети (RBFNN), основанного на идее последовательной настройки центров, ширины и весов сети, а также идее коррекции весов по алгоритму минимизации квадратичного функционала методом сопряженных градиентов. Приводятся результаты сравнения времени обучения RBFNN на различных центральных и графических процессорах, доказывающие эффективность распараллеливания.
"Социально-сетевой анализ форумов при помощи пакета UCINet"Witology
Докладчик: Алексей Друца,
аспирант Мех-Мата МГУ, м.н.с. Лаборатории Компьютерного Моделирования Мех-мата МГУ.
Доклад посвящен демонстрации функциональных возможностей программного пакета UCINet с точки зрения проведения социально-сетевого анализа обсуждений интернет-форума.
Программный пакет UCINet представляет собой интегрированную среду по форматированию и обработке входных и выходных данных о графе, которым является ветка обсуждения интернет-форума.
В рамках семинара будут представлены краткое описание основных характеристик графов, полученных результатов, а также подробно рассмотрены отдельные функциональные блоки пакета.
Видео: http://vimeo.com/user7862600
Алгоритмы анализа графов социальных связей Witology
Докладчики: Анастасия Беззубцева (стажер Witology)
Алексей Милованов (стажер Witology)
В рамках доклада ведется речь о существующих алгоритмах, применяемых для анализа социальных сетей, сообществ на примере данных ряда групп ВКонтакте.
Интересные результаты RUSSIR'11: WEB of DATAWitology
В рамках семинара докладчик рассказывает об основных темах и идеях, которыми жила летняя школа по информационному поиску на протяжении 5 дней. В их числе параметры, оценка, улучшение поисковых систем; графы в соцмедиа; коллективный информационный поиск.
Модели когнитивной психологии и задачи искусственного интеллектаWitology
Докладчик: Сергей Каунов
В рамках семинара рассматриваются следующие темы:
- Что такое искусственный интеллект и для чего традиционно используются модели ИИ?
- Что в психологии, как гуманитарной дисциплине, может найти полезного инженер, и что приведёт его в тупик.
- Взаимосвязь ИИ и психологии.
- Роль ИИ в когнитологии
Анализ формальных понятий: Применение в WitologyWitology
Докладчик: Александра Каминская
В докладе рассказывается о том, что такое анализ формальных понятий
(АФП) как один из методов анализы данных. Даны необходимые
определения и приведены простейшие примеры. Затронуты темы
решеток понятий, импликации и ассоциативных правил (выявление
признаковых зависимостей). Вторая часть доклада посвящена
применению АФП в Witology - а именно, анализу данных внутреннего
проекта с помощью построения решеток понятий.
3. О чем будем говорить? Какие алгоритмы? k-means, EM, kNN, Naive Bayes, SVM, ST Хотим рассмотреть некоторые алгоритмы машинного обучения, позволяющие классифицировать или кластеризовать данные. Рассмотреть их применения в задачах классификации текстов по классам эмоций.
4. k-means Инициализация: выбор k векторов-представителей кластеров, центроидов Возможные способы: случайный выбор вектора k раз, решение задачи кластеризации для маленького подмножества и выбор представителей из центроидов кластеров, возмущение центра X k раз Шаг 1. Data Assignment. Связывание векторов из X c ближайшим центроидом из . Неоднозначности разрешаются произвольным образом.
5. k-means Шаг 2. Relocation of "means". Каждый представитель кластера заменяется центром множества привязанных к нему векторов. Условие остановки: не меняется. Сложность:
6. Expectation maximization Композиция распределений конечного числа случайных величин дает гибкий и математически обоснованный метод моделирования и кластеризации данных, наблюдаемых как реализация случайных величин.
7. Expectation maximization Aпостериорная вероятность, что случайная величина y_j принадлежит i-ой компоненте смешанного распределения Параметр можно оценить как нуль уравнения , где
8. Expectation maximization Одна замечательная особенность использования симметричных распределений (нормальное, t-распределение Стьюдента) - это инвариантность относительно афинного преобразования (поворота, гомотетии, параллельного переноса), что означает независимость кластеризации от единиц измерения и ориентации в пространстве.
9. kNN Один из простых классификаторов - классификатор Рота, "запоминает" всю обучающую выборку и умеет делать классификацию нового объекта, если он точно совпадает с каким-нибудь из обучающей выборки. Недостатки очевидны. Можно обобщить этот алгоритм, введя понятие метрики и определив способ выбора класса нового объекта на основе k ближайших объектов из обучающей выборки.
10. kNN Алгоритм. Входные данные. Множество объектов обучающей выборки и новый объект Шаг 1. Находим ближайших к объектов из по метрике Шаг 2.
11. kNN Какие могут быть проблемы? При небольших значениях параметра, алгоритм становится чувствительным к шуму во входных данных, при больших - вычисление соседей занимает много времени. Как хорошо определять класс нового объекта? Очевидно, что если метрика адекватная, то более близкие соседи должны больше влиять на класс нового объекта. Можно определить веса для соседей
12. kNN Тогда выбор класса определяется результатом взвешенного голосования - индикатор Если у объекта много признаков, то обычно их нужно нормировать.
13. Naive Bayes Особенностью метода является простота модели и вычислений. Также на фоне остальных методов он показывает неплохие результаты. Часто используется в спам-фильтрах. - вероятность того, что вектор признаков принадлежит классу . означает, что принадлежит классу 0. http://demonstrations.wolfram.com/KNearestNeighborKNNClassifier/
14. Naive Bayes - формула условной вероятности Байеса - вероятность того, что новый объект будет принадлежать i-му классу Делаем предположение о независимости компонент вектора
15. Naive Bayes Что делаем, если переменные вектора коррелируют между собой?
16. Naive Bayes Как строить эмпирические вероятности , строим гистограмму по значениям , берем вероятности пропорционально размеру группы значений можно приблизить долей данных из класса - число категорий - число значений - число значений в категории
18. Support vector machines Компоненты векторов нормируем, чтобы большие отклонения от средних значений не повлияли на классификатор - уравнение плоскости - знаковое расстояние до начала координат
20. Support vector machines Выборка линейно разделима? - расстояние между разделяющими гиперплоскостями - условие того, что точки лежат вне полосы
21. Support vector machines Получаем задачу квадратичной оптимизации Можно применить теорему Куна-Таккера и получить эквивалентную задачу поиска седловой точки функции Лагранжа