Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа данных в астрофизике»

Задачи анализа данных в
астрофизике
Докладчики:
Александр Мещеряков (Институт космических исследований РАН)
Сергей Герасимов (ВМК МГУ)

“Наш доклад посвящен описанию особенностей данных астрофизических
наблюдений, важнейшим задачам современной астрофизики и тому, как
машинное обучение и большие данные помогают решать эти задачи.”

Наблюдательная космология: ключевые задачи

Наблюдательная космология: ключевые задачи
Природа темной (невидимой) материи?
Природа темной энергии (ускоренного расширения Вселенной)?

❏ звезды
❏ сверхновые
❏ галактики
❏ скопления галактик
❏ квазары
Нужно построить 3D карту небесных объектов на небе
Классы объектов:

Многоволновая астрономия

Многоволновая астрономия
Основной объем данных - в оптическом диапазоне (наземные
телескопы)

снимок всего неба = 6×1012
pix2
×32bit ×4 = 100Тб
0.3”
0.3” α,δ - координаты
F - яркость
t - время
пиксель
изображения:
Большие данные в оптической астрономии

Крупнейшие будущие проекты: LSST
http://www.lsst.org/
- “все небо за 3 дня”
- камера 3200Mpix
- 8.4m зеркало
телескопа
- 37 ×109
объектов
- 5.5 ×106
фотографий
- 15 Pb данных (10лет)
- 15 Тб/ночь
- запуск в 2022 году

Dark Energy Camera Legacy Survey:
http://legacysurvey.org/viewer

Как отделить звезду от галактики на картинке с телескопа?
Как классифицировать объекты и измерять расстояния до них?
Пример: https://www.kaggle.com/c/galaxy-zoo-the-galaxy-challenge

Спектры небесных объектов
∼0.5% (5млн.) всех известных небесных объектов -
тренировочная выборка для machine learning!
● точная классификация небесных объектов
● точное измерение расстояний (по “красному
смещению”)

Закон Хаббла. Расширяющаяся Вселенная.
с(Δλ/λ)= H * d
d - расстояние до галактики
Δλ/λ - красное смещение
c - скорость света
H - постоянная Хаббла

Красное смещение
Δλ/λ = z
λ - длина волны

Квазар Галактика
Звезда
По спектральным линиям
астрономы точно классифицируют
объекты и измеряют расстояния
до галактик.

Изображения неба в
разных фильтрах: ∼109
объектов в небесных
обзорах - целевая
выборка для задач
машинного обучения.
Спектр - детальная
информация, доступна для
∼0.5% (5млн.) всех
объектов. Спектральные
каталоги - основная
тренировочная выборка.
Изображения и спектры небесных объектов

Продолжение
следует ..

Особенности анализа данных небесных обзоров
● Число атрибутов - порядка 500
● Необходимость в оценке достоверности прогноза каждого
индивидуального прогноза
● Отличающиеся распределения входных атрибутов в обучающей и
целевой выборках
● Наличие значений ошибок измерений в качестве атрибутов

Оценка качества модели прогнозирования красного смещения

Алгоритм прогнозирования красного смещения
● Random Forest
● Gradient Boosting
● XGBoost (в работе)
● Deep Learning (планируется)

Результаты: Δz_norm_err

Оценка достоверности прогноза
z1
=0.1 z2
=0.1 z3
=0.3 z4
=0.3 z5
=0.4 z6
=0.8
● Восстановление плотности вероятности по значениям прогнозов
деревьев, входящих в ансамбль (например, гистограмма из 200 бинов).
● Прогноз: zph
=∑pi
zi
● Достоверность прогноза: zConf - доля прогнозов деревьев ансамбля,
попавших в доверительный интервал zph
(выбирается), например, ±3% -
интервал (zph
-0.03,zph
+0.03)

Близкие (яркие) объекты

Среднеудаленные объекты Далекие объекты

Распределения выборок
psp
(X)≠pph
(X)
Спектральная
выборка
Фотометрическая
выборка
обучающая тестовая
целевая
контрольная
с разметкой целевой переменной
без разметки целевой переменной
Как узнать pph
(x)/psp
(x)
для каждой точки x
обучающей выборки?

Метод трансформации тренировочной выборки
http://image.diku.dk/jank/papers/ASCOM2015.pdf
тренировочная целевая
вес объекта = 2/4 = 0.5
k=4

Метод трансформации тренировочной выборки
● Выбор атрибутов для transfer learning - наиболее информативные
атрибуты для прогноза
● Необходимость подбора числа соседей k
● Метод может быть использован как для улучшения точности за счет
трансформации (взвешивания) тренировочной выборки, так и для
создания контрольной выборки.
● На данный момент достигли лишь небольшого улучшения точности.

Система обработки и анализа данных небесных обзоров
Цель:
повышение точности прогнозирования и классификации на данных небесных
обзоров за счет:
● унифицированной обработки сырых многоволновых данных небесных
обзоров (в т.ч. самых “свежих”, по которым отсутствуют каталоги)
● построения моделей прогнозирования и классификации на
многоволновых данных

Система обработки и анализа данных небесных обзоров

Предстоящие подзадачи
● Конвейер для обработки сырых изображений
○ Распараллеливание целевой области на сфере в MapReduce
● Хранение многоволновых каталогов и “виджетов”
○ Кросс-коррелирование данных нескольких каталогов
● Распределенное машинное обучение
○ Не полностью пересекающиеся каталоги (пропущенные значения)
○ Учет ошибок измерений в моделях
○ Deep learning
HEALPix

Спасибо за внимание!
Александр Мещеряков,к.ф.-м.н.
н.с.
Институт Космических Исследований
Валентина Глазкова,к.ф.-м.н.,
ассистент ВМК МГУ
лектор Технопарка Mail.Ru
Сергей Герасимов
м.н.с. Лаборатории технологий программирования
ВМК МГУ,
лектор курса “Большие данные” (ВМК МГУ)
Chief Data Scientist, Bank HCF
Иван Колосов, магистрант 1-го года
по программе “Интеллектуальный анализ
данных”, ВМК МГУ
Евгений Глотов, магистрант 1-го года по
программе “Интеллектуальный анализ
данных”, ВМК МГУ
Галия Юлчурина, студент 3-го курса
ВМК МГУ
www.astromining.org
Big Data & Machine Learning for Astrophysics
we@astromining.org

Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа данных в астрофизике»

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа данных в астрофизике»

Similar to Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа данных в астрофизике» (20)

More from Mail.ru Group

More from Mail.ru Group (20)

Сергей Герасимов (ВМК МГУ), Александр Мещеряков (Институт космических исследований РАН), «Задачи анализа данных в астрофизике»