«Готовимся к ОГЭ»
Учебный курс русского языка.
Выполнил учащийся 9 кл.
Фокин Александр.Цель работы - создание интерактивных заданий в CMS Moodle и Hot Potatoes
4. Упражнения могут использоваться как дополнительное средство обучения и для самостоятельной работы.
Применение интерактивных тестов способствует повышению уровня грамотности учащихся.
Достоинство компьютерного тестирования - минимум затраченного времени и получение результатов по завершении теста. Интерактивные тесты помогут при подготовке к Основному государственному экзамену в 9 классе и к Единому государственному экзамену в 11 классе.
Ученики могут использовать курс следующим образом:
- осуществлять доступ ко всем учебным программам и заданиям из дома или компьютерного класса;
- использовать в качестве учебных пособий разнообразные материалы: презентации PowerPoint, анимации Flash, видео и аудио записи и многое другое.Весь теоретический материал, контрольные и самостоятельные работы, интерактивные тесты и задания выложены на сайте http://edu2.cdo-penza.ru/
Курс доступен любому пользователю сети Интернет.
«Готовимся к ОГЭ»
Учебный курс русского языка.
Выполнил учащийся 9 кл.
Фокин Александр.Цель работы - создание интерактивных заданий в CMS Moodle и Hot Potatoes
4. Упражнения могут использоваться как дополнительное средство обучения и для самостоятельной работы.
Применение интерактивных тестов способствует повышению уровня грамотности учащихся.
Достоинство компьютерного тестирования - минимум затраченного времени и получение результатов по завершении теста. Интерактивные тесты помогут при подготовке к Основному государственному экзамену в 9 классе и к Единому государственному экзамену в 11 классе.
Ученики могут использовать курс следующим образом:
- осуществлять доступ ко всем учебным программам и заданиям из дома или компьютерного класса;
- использовать в качестве учебных пособий разнообразные материалы: презентации PowerPoint, анимации Flash, видео и аудио записи и многое другое.Весь теоретический материал, контрольные и самостоятельные работы, интерактивные тесты и задания выложены на сайте http://edu2.cdo-penza.ru/
Курс доступен любому пользователю сети Интернет.
"Анализ неявных предпочтений пользователей" Михаил Агеев, Яндекс, МГУYandex
Анализ неявных предпочтений пользователей, выраженных в переходах по ссылкам и длительности просмотра страниц, является важнейшим фактором ранжирования документов в результатах поиска или, например, показа рекламы и рекомендации новостей. Алгоритмы анализа кликов хорошо изучены. Но можно ли узнать что-то ещё об индивидуальных предпочтениях человека, используя больше информации о его поведении на сайте? Оказывается, траектория движения мыши позволяет узнать, какие фрагменты просматриваемого документа заинтересовали пользователя.
В докладе речь пойдёт о методах сбора данных и алгоритмах анализа поведения пользователя по движениям мыши, а также о применении этих методов на практике. Они позволяют существенно улучшить формирование сниппетов (аннотаций) документов в результатах поиска.
Будут представлены свободно доступный программный код, а также коллекция данных о поведении пользователей с привязкой к поисковому запросу. Мы надеемся, они вдохновят исследователей на создание новых методов анализа неявных поведенческих сигналов. Работа с описанием этих алгоритмов была отмечена дипломом «Best Paper Shortlisted Nominee» на международной конференции ACM SIGIR в 2013 году.
"Анализ неявных предпочтений пользователей" — Михаил Агеев, Яндекс, МГУYandex
Анализ неявных предпочтений пользователей, выраженных в переходах по ссылкам и длительности просмотра страниц, является важнейшим фактором ранжирования документов в результатах поиска или, например, показа рекламы и рекомендации новостей. Алгоритмы анализа кликов хорошо изучены. Но можно ли узнать что-то ещё об индивидуальных предпочтениях человека, используя больше информации о его поведении на сайте? Оказывается, траектория движения мыши позволяет узнать, какие фрагменты просматриваемого документа заинтересовали пользователя.
В докладе речь пойдёт о методах сбора данных и алгоритмах анализа поведения пользователя по движениям мыши, а также о применении этих методов на практике. Они позволяют существенно улучшить формирование сниппетов (аннотаций) документов в результатах поиска.
Будут представлены свободно доступный программный код, а также коллекция данных о поведении пользователей с привязкой к поисковому запросу. Мы надеемся, они вдохновят исследователей на создание новых методов анализа неявных поведенческих сигналов. Работа с описанием этих алгоритмов была отмечена дипломом «Best Paper Shortlisted Nominee» на международной конференции ACM SIGIR в 2013 году.
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...GeeksLab Odessa
23.05.15 Одесса. Impact Hub Odessa. Конференция AI&BigData Lab
Варвара Красавина (Computational Linguist, YouScan) "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения ключевых слов и словосочетаний"
Мы расскажем об алгоритме извлечения ключевых слов и словосочетаний из текста с помощью матрицы совместной встречаемости. Программа, реализующая этот алгоритм, используется для оптимизации поиска в LeadScanner – платформе, которая ищет сообщения с заданным содержанием в социальных сетях. Также рассмотрим и друге методы извлечения ключевых слов и словосочетаний – статистические и лингвистические.
2. Задача анализа мнений
• Огромное количество отзывов о товарах и услугах
в интернете
• Неожиданная развязка и новые герои делают
этот фильм непохожим на предшественника.
• Для решения задачи анализа мнений необходимы
дополнительные знания
– Объекты обзоров
– Атрибуты объекта
– Оценочные слова и выражения
• Совокупность оценочных слов и выражений –
важнейшая компонента базы знаний
3. Постановка задачи
• Выявить набор характеристик, позволяющих
выделять оценочные слова из текстов мнений
заданной предметной области
• Провести эксперименты по применению
методов машинного обучения, на основании
полученных характеристик, для
классификации слов предметной области на
оценочные и неоценочные слова
• Создать программную систему извлечения
оценочных слов, по заданной коллекции
мнений
4. Данные
• Для решения задачи выделения оценочных
слов было подготовлено 4 корпуса
– Корпус мнений (30 тысяч отзывов с
пользовательскими оценками от 1 до 10)
– Корпус описаний (20 тысяч описаний объектов)
– Новостной корпус (1 млн. документов)
– Малый корпус (составлен из частей корпуса
мнений)
• Предварительная морфологическая обработка
всех данных
• Слова разделяются на прилагательные и
неприлагательные
5. Малый корпус
• Составные части
– Предложения, заканчивающиеся на «!»
– Предложения, заканчивающиеся на «…»
– Короткие предложения не более, чем из 7 слов
– Предложения, содержащие слово «фильм», без
других существительных
– Короткие отзывы, состоящие из одного
предложения
• Размер малого корпуса примерно в 2.5 раза
меньше, чем у корпуса мнений
6. Характеристики
• Для каждого слова вычисляется 18
характеристик
– Частотные (6 характеристик)
• Частота слова во всем корпусе
• Количество документов (отзывов), в которых встречается слово
• Частота слов с большой буквы
– По парам корпусов (10 характеристик)
• TFIDF
• «Странность»
– Отклонение от средней оценки по корпусу
– Существительные, связанные с «оценочными»
прилагательными – потенциальные сущности и
атрибуты
7. Оценка характеристик
• Лучшие показатели по количеству оценочных
слов в первой тысяче по группам
– Прилагательные
• Частотные: 58.7%
• По двум корпусам: 64%
• Отклонение от средней оценки: 56.3%
– Неприлагательные
• Частотные: 21.4%
• По двум корпусам: 41.7%
• Отклонение от средней оценки: 30.6%
8. Машинное обучение
• Алгоритмы машинного обучения
– Метод k ближайших соседей
– «Наивный» Байесовский алгоритм
– Нейронные сети (1,2,3 слоя)
– Логистическая регрессия
– Метод опорных векторов (скалярное и радиальное
ядра)
• Оценка работы алгоритмов
– F-мера
– Количество оценочных слов, попавших в первую
1000 слов, упорядоченных по байесовской
«вероятности»
9. Сравнение методов
Алгоритм Прилагательные Неприлагательные
F P1000 F P1000
kNN 67.17 66.3 34.59 36.6
Наивный Байес 32.29 63.3 46.77 37.6
Неиронная сеть 71.08 67.9 50.83 50.9
Логистическая 68.09 69.1 49.58 49.6
SVM 67.54 67.6 43.04 37.5
• Рост качества для прилагательных – на 8.28%,
для неприлагательных – на 20.6%,по точности
на первой тысяче слов (по сравнению со
списками по характеристикам)
12. Основные результаты
• Предложен набор из 18 характеристик,
позволяющий выделять оценочные слова из текстов
мнений заданной предметной области
• Проведены эксперименты по применению методов
машинного обучения и выбраны алгоритмы
логистической регрессии и нейронные сети для
классификации слов
• Реализована программная система извлечения
оценочных слов, по заданной коллекции мнений,
на языке Питон
• Публикации:
• Статья в Трудах Международной конференции по компьютерной
лингвистике
и интеллектуальным технологиям «Диалог-2010»
• Тезисы в Трудах Международной конференции «Ломоносов-2010»