Зачем биологам суперкомпьютеры:
Современная биоинформатика как альфа-версия
науки будущего
АлександрПредеус
ИнститутБиоинформатики
Институт Биоинформатики
• Задачи
• Дополнительное образование
• Около 20+20 биологов и
информатиков ежегодно
• Семинары и выездные школы
(SBW, летняя школа,
интенсив)
• Исследовательское
подразделение
• http://bioinformaticsinstitute.ru
/research/
Фундаментальная наука
• «наука – это удовлетворение собственного любопытства за
государственный счет» (с) Л.Д.Ландау
Бесполезные открытия
• Преобразование Фурье
• Теория чисел («извинения математика», Г. Харди)
• Мазер?!
Бесполезные открытия
• Преобразование Фурье
• Теория чисел («извинения математика», Г. Харди)
• Мазер?!
Шнобелевская премия?
• “Golden fleece award” – 1975: “sex life of screwworms”
Кто вы такие?
Я вас не знаю!
Паразиты – не шутка
• Откладывание яиц самками – немедленно после спаривания
• Выпустив много стерильных самцов, можно сильно снизить
популяцию червя
• Исследования сэкономили сельскому хозяйству более 20
миллиардов долларов!
IgNobel Prize 2000
• “за левитацию лягушки с использованием магнитов”
Nobel Prize 2010
• “за левитацию лягушки с использованием магнитов”
Nobel Prize 2010
• “за левитацию лягушки с использованием магнитов”
• “for groundbreaking experiments regarding the two-dimensional
material graphene"
Мемекс
Ванневар Буш
1945: «Мемекс»
Сверх-библиотека
Двое неизвестных из Стэнфорда
2003: грант NSF в 3.6 миллиона $
«Интегрированная виртуальная библиотека»
Мемекс
Ванневар Буш
1945: «Мемекс»
Сверх-библиотека
Двое неизвестных из Стэнфорда
2003: грант в 3.6 миллиона $
«Интегрированная виртуальная библоитека»
Мемекс
• Грант в 3.6 миллиона
• Google сейчас: 360 миллиардов
• 100000:1 ROI
“The Miracle Machine”
• Огромный возврат инвестиций (“fat tail distribution”)
• Необходимость взаимодействия с частным капиталом
• Невозможность владения результатами
Манхэттенский проект
• Стоимость – 76 миллионов $
• Бомбы, мины, гранаты – 31.5 миллиарда $
• Артиллерия – 37.5 миллиардов $
• Всего война – 3.3 триллиона $
Проект «Геном Человека»
• Геном человека – длиной 3 миллиарда оснований
• Проект стоил 3 миллиарда $
• Официальное объявление – 25-го апреля 2003-го года
Двойная спираль ДНК
• Публикация – 25-го апреля 1953-го года (Crick & Watson)
Основная догма мол-биологии
• ДНК – чертеж, РНК- копирка, протеин – механизм
• Приближение: протеин объясняет фенотип
(болезни, признаки)
Гены и мусор
• Около 24000 генов, кодирующих протеины
• Еще 10-50,000 некодирующих РНК
• Все это – всего 2% генома!
• Остальное – мусор? Не совсем ...
Упаковка генома и фракталы
• Хромосомы – плотно упакованный геном!
Развитие биологии
• Описательное
• Эволюционная теория
Биохимия: редактирование генома
• В 60-80е годы основой прогресса
были биохимические методы
• Asilomar Conference 1975:
помогите, мы можем
редактировать ДНК!
90-е : кристаллография
• Кристаллография позволяет «увидеть атомы, как они есть»
– в очень высоком разрешении (несколько ангстрем)
1995-2005: ДНК-чип
• 20-40 тысяч типов олигонуклеотидов – 25-50 пар оснований
• Можно измерить концентрацию всех мРНК!
Секвенирование: революция 2000-х
• Секвенирование генома человека упало в цене от 100
миллионов до 1000 $
Математика: уже неизбежность
• Статистика:
• Десятки миллионов вариантов на 3·109 оснований
• десятки тысяч измерений
• 100-1000,000+ «пациентов»
• Неправильные модели = неправильные терапевтические
рекомендации (многие человеческие жизни)
Математика и алгоритмы в биологии
• Огромное разнообразие нужд и применений
• Математика:
• Статистика
• Дискретная математика
• Теория графов и сетевые модели
• Линейная алгебра
• (многие другие)
Математика и алгоритмы в биологии
• Огромное разнообразие нужд и применений
• Алгоритмы и программирование:
• Выравнивание и сортировка
• Архивирование
• Динамические алгоритмы
• Алгоритмы обхода графов
• Машинное обучение
Метод дробовика
Метод дробовика
Метод дробовика
• Дробление генома на небольшие куски с последущей сборкой
Возможно ли?
• Сомнение в возможности сборки коротких ридов в геном
• Трудности – повторы, паралоги
«Геном человека» vs. Celera genomics
Francis Collins Eric Lander Craig Venter
Графы ДеБройна в сборке геномов
• Задача о сборке генома
из коротких фрагментов
• Требует десятки
процессоров и 100-
1000Gb RAM
Сетевые подходы
• E.g сети протеин-протеиновых взаимодействий
• Действие приложенное к узлу – больший результат
Безмасштабные сети
• Бесмасштабные (scale-free) сети часто более устойчивы
Аннотация генома и цепи Маркова
• Цепь Маркова – система без памяти, с зависимостью только
от нынешнего состояния
Длинные некодирующие РНК
• Аннотация генома позволила открыть десятки тысяч новых
транскрибируемых РНК!
Сомкнуть две науки?
легко - на нижнем уровне
Сомкнуть две науки
...совсем нелегко - наверху
Спасибо за внимание!

"Зачем биологам суперкомпьютеры", Александр Предеус