JetPoint Meeting  JetBrains BioLabs    Шпынов Олег      #jetmeet       6.03.2013
JetBrainsAt JetBrains, we have a passion for makingpeople more productive through smartsoftware solutions that help them f...
ЭпигенетикаЭпигенетика (греч. επί — над, выше,внешний) — в биологии, в частности, вгенетике представляет собой изучениезак...
История●   Термин «эпигенетика» был предложен Конрадом Уоддингтоном в 1942 году,    как производное от слов генетика и эпи...
Информация●   Генетическая – ДНК, одинакова во всех клетках    организма●   Эпигенетическая – специфична для конкретной   ...
ИзмененияГенетические                 Эпигенетические●   Необратимы (мутации)     ●   Обратимы                            ...
ЭпигеномЭпигеном - это совокупность всех эпигенетическихмаркеров, обусловливающих экспрессию генов в даннойклетке.
Виды эпигенетических            модификаций●   Метилирование ДНК●   Модификации гистонов●   Гидроксиметилирование ДНК●   ?
Связь●   Метилирование ДНК ->    деацетилирование гистонов ->    образование гетерохроматина●   Деметилирование ДНК ->    ...
Эмбриогенез
Эпигенетика – ВАЖНО!●   Эмбриогенез●   Дифференциация●   Регуляция●   Защита●   Старение?●   Рак?●   ???
Методы исследования●   Метилирование ДНК    BS-seq    ChIP-seq    Illumina27/450K●   Модификации гистонов    ChIP-seq●   Д...
Open Data- Локальность исследований- Часто очень шумные- Часто не верифицируемы+ Много данных в открытом доступе
Wet Labs problems- Загрязнения проб- Несоблюдение протоколов- Использование просроченных реагентовили их заменителей
Academic software●   Много низкокачественного софта, нужного    только для публикации.●   Есть реальные примеры софта, в к...
JetBrains BioLabsМы пытаемся применять методыстатистики и машинного обучения длявыявления фундаментальныхэпигенетических м...
ГипотезаМеханизм эпигенетических модификацийуправляется последовательностью ДНК
Мотивация?●   RNA-directed DNA methylation in Arabidopsis
Механизм
Задачи●   Исследование закономерностей в геноме●   Анализ данных метилирования●   Анализ данных гистонных модификаций●   А...
Подходы к изучению●   Построение адекватных математических    моделей по имеющимся данным●   Применение техник машинного о...
Исследование промоутеров●   Вычислительная задача, не имеющая    точного решения●   SVM + Ada Boost ML. Простейшие    клас...
Экзон-интрон●   Proof of concept для AdaBoost●   Точность ~ 99%●   ML подход – работает!
ML для регионов smRNAЗначимость различных простейшихклассификаторов
Исследование метилирования●   Исследование BS-Seq данных – выявление    паттернов метилирования●   Исследование паттернов ...
Illumina450K●   Infinium Methylation 450K is a hybrid of two different    assays, Infinium I and II.●   Due to its design,...
Illumina450K●   Beta = methylated / (methylated + unmethylated)
Illumina450K●   Фильтрация + subset quantile normalization
Illumina450K●   Загрузка●   Фильтрация●   SNP-процессинг●   Subset Quantile Normalization●   Batch effects●   Сравнение ло...
Исследование гистонов●   Построение математических моделей    модификаций гистонов●   Сравнение разных клеточных линий●   ...
Математические модели       модификаций гистонов●   Данные – покрытие генома после ChIP-seq●   Большинство генома не покры...
Poisson Mixture●   Бимодальное распределение●   Рассматриваем как смесь двух    Пуассоновских распределений●   Методом оце...
Poisson Mixture + HMM●   А вдруг соседние корзины не независимы?    Введем скрытую Марковскую цепь с    вероятностями пере...
Сравнение моделей●   Критерий Акайке    AIC = 2*freedom_degrees – log(likelihood)●
Больше моделей!●   Модели, где 2 трека рассматриваются, как    зависимые. Макровская модель с 4    состояниями. (мало-мало...
Chromasig●   Нахождение схожих паттернов    метилирования и модификации гистонов●   Инструмент для поиска мотивов для ChIP...
Реализация алгоритма из статьи
Анализ результатов Chromasig●   Онтологии генов участков генома       –   Функции       –   Компартменты клетки       –   ...
Разработка системы           экспериментов●   Данные: описывать входные данные, с    удобной системой хранения и доступа, ...
Tools●   Java●   R●   Big server computations (Linux)●   Confluence, Bamboo, Crucible●   Continuous integration, tests
Проекты JetBrains в            биоинформатике●   JetBrains BioLabs●   LabBook - электронный лабораторный    журнал. Пробле...
JetBrains BioLabs●   Алексей Диевский●   Сергей Дмитриев●   Евгений Курбацкий●   Сергей Лебедев●   Роман Чернятчик●   Олег...
Вопросы?
Спасибо за внимание!Oleg.Shpynov@jetbrains.comTwitter: oleg_s
Upcoming SlideShare
Loading in...5
×

JetPoint meeting @JetBrains on bioinformatics

403

Published on

http://jetpoint.timepad.ru/event/58594/

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
403
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Я работаю в компании Jetbrains и наша цель – сделать процесс разработки продуктивнее, позволить сфокусироваться на реальных задачах бизнес логики, и позволить компьютеру сделать все остальное. Упс, не та презентация :)
  • Итак, эпигенетика. Определение из Википедии вы можете видеть на экране, эпигенетика – наука, изучающая некоторую метаразметку генома, которая влияет на работу тех или иных генов.
  • Немного об истории, впервые термин был предложен Конрадом Уодинтоном в 1942, но на тот момент было ничего не известно про структуру ДНК, центральную догму молекулярной биологии, итд. Второе рождение эпигенетика получила только в начале 2000х.
  • Жизнь – способность к самостоятельному воспроизводству, и клетка – носитель информации. Соответсвенно всю информацию можно разделить на 2 класса.
  • Эпигеном на самом деле определяет внешний вид хромосом, инактивацию X-хромосомы, итд.
  • Рассмотрим основные виды эпигенетических модификаций. Гидроксиметелирование – было открыто совсем недавно, не воспроизводится при репликации, однако подавляет транскрипцию. Последний пункт – возможно есть и неизвестные до сих пор.
  • В современных учебниках по молекулярной биологии учат, что метилирование и деметилирование ДНК управляет ацетилированием гистонами, однако уже есть статьи, демонстрирующие и обратную зависимость. Вообще в биологии не четкой аксиоматики и правил вывода, можно лишь строить модели, оценивать ошибки первого и второго рода, p-Value итд.
  • В качестве примера значимости эпигенетики, рассмотрим процесс эмбриогенеза – т.е. Развитие эмбриона. На графике....
  • Однако, роль эпигенетики этим не ограничивается. Известны функции в ....
  • Какже измеряют и исследуют? Бисульфатное секвенирование - .. ChIP-Seq - иммунопреципитация с последующим секвенированием. Можно мерить одновременно и то, и другое, чтобы избежать шума от жизненного цикла клетки, итд.
  • Используемые данные. Экспоненциальный рост в последнее время, проекты типа Encode, Atlas, итд – попытка верифицировать и каталогизировать. Нуменклатура GEO экспериментов.
  • Проблемы обусловлены не только неверным толкованием, но и такими факторами в реальной лаборатории (wet lab), как .... Таким образом к ожидаемым шумам по технологии эксперимента присоединяются шумы неизвестной природы и распределения.
  • Еще одна существенная проблема, что большинство софта для биоинформатики – чисто академического характера, т.е. Резюмируя, проблемы есть, и они отлично описаны в послании под названием A Farewell to Bioinformatcs, ниже приведена цитата.
  • Конечно есть проекты посвященные анализу тех или иных эпигенетических модификаций, но как правило они сфокусированы на конкретной узкой области, и очень плохо обобщаются.
  • Сначала, считатось, что более 95% процентов генома (вне кодирующих белки генов) – является мусором, однако в последнее время общественность склоняется к мнению, что это не так. И возможно именно там записана некоторая программа управления клекти.
  • Мотивацией к данной гипотезе была открытая у растений связь между малыми некодирующими РНК и уровнем метилирования в областях, где происходит взаимодействие. На картинке показано, что в месте взаимодействия метилирование одной нити ДНК больше, чем другой.
  • Задачи, которые мы пытаемся решать в рамках нашей лаборатории:
  • Например Большая часть кодирующих генов – предсказана, а их порядка 40тысяч штук для человека.
  • Известно, что граница между интронами и экзонами в генах с альтернативным сплайсингом обычно маркирована некоторым неслучайным мотивом. Мы решили проверить алгоритм AdaBoost на этом примере, и получили неплохие результаты. Кстати известны любопытные паттерны метилирования на границе – резкие скачки!
  • Еще один из экспериментов, который хотелось бы упомянуть – исследование регионов взаимодействия с малыми некодирующими РНК. Выравнивание с ошибками. Построение кластеров. Выравнивание кластеров. Анализ по фракциям последовательностей кластеров. На графике же – показана значимость разных 3меров.
  • Остановимся поподробнее на анализе Microarray Illumina450k.
  • Данные Beta значений до коррекции.
  • Так выглядят  Beta значения после фильтрации, и Peak-Based correction методом Subset Quantile Normalization
  • Наш пайплайн анализа данных. Мы сотрудничаем с лабораторией Laboratory of Stem Cell Biology Института Вавилова РАН.
  • Обратимся к гистонам.
  • 1974 год. Попытка выбрать из нескольких моделей наиболее подходящую. В общем виде формула приведена на слайде. Значение критерия для разных хромосом в зависимости от размера корзины.
  • Еще одна задача – это нахождение схожих паттернов среди данных как метилирования, так и модификации гистонов.
  • Слайд с Моралью. Непонятно как реализовывать, непонятно, как оценивать, только моделирование.
  • Как только у нас появилось с десяток вычислительных экспериментов, появилась проблема систематизации данных, экспериментов и всей инфраструктуры.
  • Поговорим, про остальные проекты JetBrains в области биоинформатики.
  • JetPoint meeting @JetBrains on bioinformatics

    1. 1. JetPoint Meeting JetBrains BioLabs Шпынов Олег #jetmeet 6.03.2013
    2. 2. JetBrainsAt JetBrains, we have a passion for makingpeople more productive through smartsoftware solutions that help them focus moreon what they really want to accomplish, andless on mundane, repetitive "computer busywork".
    3. 3. ЭпигенетикаЭпигенетика (греч. επί — над, выше,внешний) — в биологии, в частности, вгенетике представляет собой изучениезакономерностей эпигенетическогонаследования — изменения экспрессиигенов или фенотипа клетки, вызванныхмеханизмами, не затрагивающимиизменение последовательности ДНК.
    4. 4. История● Термин «эпигенетика» был предложен Конрадом Уоддингтоном в 1942 году, как производное от слов генетика и эпигенез. Когда Уоддингтон ввел этот термин, физическая природа генов не была до конца известна, поэтому он использовал его в качестве концептуальной модели того, как гены могут взаимодействовать со своим окружением при формировании фенотипа.●
    5. 5. Информация● Генетическая – ДНК, одинакова во всех клетках организма● Эпигенетическая – специфична для конкретной клетки Каждый вид информации обеспечен своими системами: – Кодирования – Хранения – Передачи
    6. 6. ИзмененияГенетические Эпигенетические● Необратимы (мутации) ● Обратимы ● Не затрагивают● Изменения изменений последовательности ДНК последовательности ДНК● Стабильно наследуемые ● Долговременные или кратковременные
    7. 7. ЭпигеномЭпигеном - это совокупность всех эпигенетическихмаркеров, обусловливающих экспрессию генов в даннойклетке.
    8. 8. Виды эпигенетических модификаций● Метилирование ДНК● Модификации гистонов● Гидроксиметилирование ДНК● ?
    9. 9. Связь● Метилирование ДНК -> деацетилирование гистонов -> образование гетерохроматина● Деметилирование ДНК -> ацетилирование гистонов -> образование эухроматина
    10. 10. Эмбриогенез
    11. 11. Эпигенетика – ВАЖНО!● Эмбриогенез● Дифференциация● Регуляция● Защита● Старение?● Рак?● ???
    12. 12. Методы исследования● Метилирование ДНК BS-seq ChIP-seq Illumina27/450K● Модификации гистонов ChIP-seq● ДНК + гистоны ChIP-BS-Seq
    13. 13. Open Data- Локальность исследований- Часто очень шумные- Часто не верифицируемы+ Много данных в открытом доступе
    14. 14. Wet Labs problems- Загрязнения проб- Несоблюдение протоколов- Использование просроченных реагентовили их заменителей
    15. 15. Academic software● Много низкокачественного софта, нужного только для публикации.● Есть реальные примеры софта, в котором отсутствует заявленная функциональность, но на который есть ссылки в статьях.● A Farewell to Bioinformatics http://madhadron.com/a-farewell-to-bioinformatics “Fuck you, bioinformatics. Eat shit and die.”
    16. 16. JetBrains BioLabsМы пытаемся применять методыстатистики и машинного обучения длявыявления фундаментальныхэпигенетических механизмов
    17. 17. ГипотезаМеханизм эпигенетических модификацийуправляется последовательностью ДНК
    18. 18. Мотивация?● RNA-directed DNA methylation in Arabidopsis
    19. 19. Механизм
    20. 20. Задачи● Исследование закономерностей в геноме● Анализ данных метилирования● Анализ данных гистонных модификаций● Анализ причинно-следственных связей● Разработка системы экспериментов
    21. 21. Подходы к изучению● Построение адекватных математических моделей по имеющимся данным● Применение техник машинного обучения для описания регионов генома, где происходят важные с биологической точки зрения события.● Верификация данных с помощью коллег -биологов
    22. 22. Исследование промоутеров● Вычислительная задача, не имеющая точного решения● SVM + Ada Boost ML. Простейшие классификаторы – n-мер и его позиция на участке. Обучение и верификация на реальных данных.● Tradeoff: полнота и точность● Точность ~ 80%
    23. 23. Экзон-интрон● Proof of concept для AdaBoost● Точность ~ 99%● ML подход – работает!
    24. 24. ML для регионов smRNAЗначимость различных простейшихклассификаторов
    25. 25. Исследование метилирования● Исследование BS-Seq данных – выявление паттернов метилирования● Исследование паттернов в метилировании в различных регионах генома, smRNA, PiRNA, lncRNA, etc● Корреляция метилирования и других эпигенетических модификаций● Исследование различий метилирования в гомологичных участках разных животных● Построение математических моделей, которые описывают метилирование в клетке● Сравнение разных клеточных линий
    26. 26. Illumina450K● Infinium Methylation 450K is a hybrid of two different assays, Infinium I and II.● Due to its design, Infinium Methylation 450K technology generates a dataset that should be viewed as two distinct datasets. Infinium II data are less accurate and reproducible than Infinium I data.● Peak-based correction makes it possible to treat Infinium I and Infinium II data as a single dataset.● Infinium Methylation 450K is one of the most attractive powerful and cost-effective tool currently available for generating quantitative DNA methylomes for health and disease, notably in the framework of large biomarker discovery studies.
    27. 27. Illumina450K● Beta = methylated / (methylated + unmethylated)
    28. 28. Illumina450K● Фильтрация + subset quantile normalization
    29. 29. Illumina450K● Загрузка● Фильтрация● SNP-процессинг● Subset Quantile Normalization● Batch effects● Сравнение локусов (genes, gene regions, etc) с использованием Mann-Whitney U-test● Результат: NDA
    30. 30. Исследование гистонов● Построение математических моделей модификаций гистонов● Сравнение разных клеточных линий● Связь модификаций гистонов с другими организмами● Поиск схожих паттернов модификаций гистонов
    31. 31. Математические модели модификаций гистонов● Данные – покрытие генома после ChIP-seq● Большинство генома не покрыто● Рассматриваем покрытие по корзинам● Можно предполагать, что покрытие разных корзин порождено независимыми случайными величинами● Плотность распределения
    32. 32. Poisson Mixture● Бимодальное распределение● Рассматриваем как смесь двух Пуассоновских распределений● Методом оценки максимального правдоподобия получаем скрытые состояния корзин● Скрытые состояния – есть гистонная модификация или нет?
    33. 33. Poisson Mixture + HMM● А вдруг соседние корзины не независимы? Введем скрытую Марковскую цепь с вероятностями переходов.● Оценка методом максимального правдоподобия + алгоритм Виттерби для оценки всех параметров системы● Есть и более сложные модели, например для сравнения двух измерений
    34. 34. Сравнение моделей● Критерий Акайке AIC = 2*freedom_degrees – log(likelihood)●
    35. 35. Больше моделей!● Модели, где 2 трека рассматриваются, как зависимые. Макровская модель с 4 состояниями. (мало-мало, мало-много, много-мало, много-много).● Ограниченные модели, вероятность для каждого трека “мало” или “много” должны совпадать для 4 комбинаций выше.● Ограниченная модель лучше по критерию Акайке!● И т.д.
    36. 36. Chromasig● Нахождение схожих паттернов метилирования и модификации гистонов● Инструмент для поиска мотивов для ChIP- Seq данных - Chromasig
    37. 37. Реализация алгоритма из статьи
    38. 38. Анализ результатов Chromasig● Онтологии генов участков генома – Функции – Компартменты клетки – Наличие у разных организмов
    39. 39. Разработка системы экспериментов● Данные: описывать входные данные, с удобной системой хранения и доступа, разделять данные полученные нами и из сторонних источников, переиспользование данных● Эксперименты: описание входные данных, описание экспериментов, формат для переиспользования● Имеющиеся системы громоздки● Не удовлетворяют запросам
    40. 40. Tools● Java● R● Big server computations (Linux)● Confluence, Bamboo, Crucible● Continuous integration, tests
    41. 41. Проекты JetBrains в биоинформатике● JetBrains BioLabs● LabBook - электронный лабораторный журнал. Проблема разрозненности данных. Большинство отчетов в Excel. Несоответствие модели данных и инструментов.● Genome query – студенческий проект.● Genestack Platform - universal collaborative ecosystem for bioinformatics research and development. http://genestack.com
    42. 42. JetBrains BioLabs● Алексей Диевский● Сергей Дмитриев● Евгений Курбацкий● Сергей Лебедев● Роман Чернятчик● Олег Шпынов
    43. 43. Вопросы?
    44. 44. Спасибо за внимание!Oleg.Shpynov@jetbrains.comTwitter: oleg_s
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×