СОДЕРЖАНИЕ 
02 ВВЕДЕНИЕ 
Ю.Никольский 
НАУКА 
ФУНДАМЕНТАЛЬНЫЕ НАУЧНЫЕ ИССЛЕДОВАНИЯ 
С ИСПОЛЬЗОВАНИЕМ ОМИКСНЫХ ТЕХНОЛОГИЙ 
Н.Янковский 
БИОИНФОРМАТИКА 
РОЛЬ БИОИНФОРМАТИКИ И АНАЛИЗА 
«БОЛЬШИХ ДАННЫХ», ПРОИЗВОДИМЫХ 
В ОМИКСНЫХ ЭКСПЕРИМЕНТАХ 
М.Гельфанд 
ГЕНОМИКА 
РАЗВИТИЕ ГЕНОМИКИ И ОМИКСНЫХ 
ТЕХНОЛОГИЙ В РОССИИ 
В.Милейко 
МЕЖДУНАРОДНОЕ СОТРУДНИЧЕСТВО 
В КОЛЛАБОРАТИВНЫХ ОМИКСНЫХ ПРОЕКТАХ 
Й.Хаяшизаки, О.Гусев 
04 
08 
10 
12 
ФАРМАКОЛОГИЯ 
ОМИКСНЫЕ ТЕХНОЛОГИИ В 
ФАРМАЦЕВТИЧЕСКОЙ ИНДУСТРИИ 
В.Пруцкий 
14 
КЛИНИКА 
ОМИКСНЫЕ ТЕХНОЛОГИИ В ПРАКТИКЕ 
КРУПНОГО ГОСПИТАЛЯ 
И «ТРАНСЛЯЦИОННАЯ МЕДИЦИНА» 
Т.Татаринова 
ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ 
ДЛЯ НАСЕЛЕНИЯ: ПОТРЕБИТЕЛЬСКАЯ 
ГЕНОМИКА И ГЕНЕТИЧЕСКОЕ 
ТЕСТИРОВАНИЕ В КЛИНИКАХ 
А.Афанасьев 
16 
18
ОМИКСНЫЕ ТЕХНОЛОГИИ В ПРАКТИКЕ 
ПРЕНАТАЛЬНОЙ ДИАГНОСТИКИ: 
МНЕНИЕ СЕРВИСНОЙ КОМПАНИИ 
Е.Померанцева 
ПЕРСОНАЛИЗИРОВАННАЯ МЕДИЦИНА 
В ОНКОЛОГИИ: ГЕНЕТИЧЕСКОЕ 
ТЕСТИРОВАНИЕ РАКОВЫХ ОПУОЛЕЙ 
И РОЛЬ ОМИКСНЫХ ТЕХНОЛОГИЙ 
Т.Серебрийская 
МИКРОБИОМ ЧЕЛОВЕКА: ПРАКТИКА 
И ОМИКСНЫЕ МЕТОДЫ ИЗУЧЕНИЯ 
Д.Алексеев 
20 
22 
24 
МНЕНИЯ 
26 КАКОВЫ ПЕРСПЕКТИВЫ ОМИКСНЫХ 
ТЕХНОЛОГИЙ В РОССИИ? 
КАК ГОСУДАРСТВО МОЖЕТ 
СОДЕЙСТВОВАТЬ ИХ РАЗВИТИЮ? 
НАСКОЛЬКО УБЕДИТЕЛЬНЫМ НА 
МИРОВОМ ФОНЕ ВЫГЛЯДИТ ОТЕЧЕСТВЕННЫЙ 
НАУЧНЫЙ ЗАДЕЛ В ЭТОЙ ОБЛАСТИ? 
СООБЩЕСТВО 
ГЕНОМИКА В РОССИИ: 
ОБРАЗОВАНИЕ, НАУКА, БИЗНЕС 
А.Афанасьев, Е.Власова, Ю.Пеков, 
Е.Цымбалов, Р.Яворский 
34 
МИРОВОЙ ОПЫТ 
INDIVIDUALIZED MEDICINE 
FROM PREWOMB TO TOMB 
E.J.Topol 
42 
PERSONAL OMICS PROFILING REVEALS DYNAMIC 
MOLECULAR AND MEDICAL PHENOTYPES 
R.Chen, G.I.Mias, J.Li-Pook-Than, L.Jiang, 
H.Y.K.Lam, R.Chen, E.Miriami, K.J.Karczewski, 
M.Hariharan, F.E.Dewey, Y.Cheng, M.J.Clark, H.Im, 
L.Habegger, S.Balasubramanian, M.O’Huallachain, 
J.T.Dudley, S.Hillenmeyer, R.Haraksingh, D.Sharon, 
G.Euskirchen, P.Lacroute, K.Bettinger, A.P.Boyle, 
M.Kasowski, F.Grubert, S.Seki, M.Garcia, M.Whirl- 
Carrillo, M.Gallardo, M.A.Blasco, P.L.Greenberg, 
P.Snyder, T.E.Klein, R.B.Altman, A.J.Butte, E.A.Ashley, 
M.Gerstein, K.C.Nadeau, H.Tang, and M.Snyder 
52 
Фонд «Сколково» Партнер Фонда «Сколково» 
НАД АЛЬМАНАХОМ РАБОТАЛИ: 
Кирилл Каем, Юрий Никольский, 
Евгения Маейр, Юлия Мучник, 
Дэвид Новак, Александр Чернов, 
Роман Щербаков, Ольга Устинкова, 
Денис Ковардаков. 
Выражаем искреннюю признатель- 
ность авторам статей. 
НА ОБЛОЖКЕ: Сhromosomes 3D rendered 
on black background, www.dreamstime.com 
Подписано в печать 03.10.2014. 
Отпечатано в ООО «Август Борг». 
121009, г. Москва, Шубинский пер., д. 2/3. 
© Составление и оформление. 
Фонд Сколково, 2014
BiOMED ВВЕДЕНИЕ 
2 
В течение нескольких десятилетий после от- 
крытия структуры ДНК экспериментальная 
биология развивалась по «редукционному» 
пути, все более (и, заметим, очень эффек- 
тивно) углубляясь в детали биологических 
систем — от физиологии, цитологии и био- 
химических реакций до структуры белков и 
комплексов. Такое развитие изменилось ко- 
ренным образом в конце 1980-х, когда были 
разработаны технологии, позволившие мно- 
гократно увеличить пропускную способность 
двух стандартных лабораторных методов — 
секвенирования ДНК и гибридизации нук- 
леиновых кислот. В 1986 г. Лерой Худ (Leroy 
Hood, Калифорнийский технологический ин- 
ститут, Caltech) изобрел первый автоматиче- 
ский секвенатор ДНК. В 1989 г. Стив Фодор 
(Stephen P.A.Fodor, компания Affymax) создал 
первый ДНК-чип (microarray), использующий 
технологию полупроводников для одновре- 
менного анализа экспрессии тысяч генов с 
помощью гибридизации нуклеиновых кис- 
лот. Эти две технологии положили начало 
эре так называемой омиксной биологии и 
беспрецедентной аккумуляции «больших 
данных», производимых в биомедицинских 
экспериментах. В течение последующих 25 
лет омиксный инструментарий обогатился 
многопараллельными методами для опреде- 
ления концентрации и активности белков 
(протеомика), метаболитов (метаболомика), 
регуляции экспрессии генов (эпигеномика) и 
др. Особенно феноменален был прогресс в 
секвенировании ДНК, где скорость «прочи- 
тывания» на одном инструменте выросла в 5 
тысяч раз при удешевлении операции в мил- 
лионы раз. Сегодня полный геном человека 
может быть «прочитан» за одни сутки при 
цене в $1,000. 
Омиксные методы революционизировали 
методологию экспериментальной биологии, 
анализа данных и технологию развития ле- 
карств; они все больше внедряются в прак- 
тику медицины и повседневную жизнь. 
В науке более 70% заявок на исследова- 
тельские гранты в США и Европе предпола- 
гают использование, по крайней мере, 
одной омиксной технологии. Фармацевтиче- 
ские компании применяют новые методы в 
разных целях: от токсикогеномики и репози- 
ционирования лекарств до мониторинга па- 
циентов в клинических испытаниях 
(ведущие компании проводят до 10 различ- 
ных омиксных тестов для каждого пациента 
в фазе II). В онкологической клинической 
практике секвенирование и генотипирова- 
ние на чипах широко используются для 
определения мутаций и патологического пе- 
репрофилирования экспрессии генов в ра- 
ковых опухолях. 
Омиксное генотипирование также повсе- 
местно проводится для обследования роди- 
телей и новорожденных в пренатальной 
диагностике. Наконец, взрослое население 
развитых стран уже осведомлено о тестах 
23andMe и других компаний «потребитель- 
ВВЕДЕНИЕ 
Автор: Юрий Никольский, кандидат биологических наук, директор по науке 
кластера биомедицинских технологий Фонда «Сколково»
BiOMED 
Партнер Фонда «Сколково» 
3 
ской геномики», проводящих недорогое ге- 
нотипирование для всех желающих, показы- 
вающее генетическое родство, 
объясняющее фенотипические черты и 
предсказывающее предрасположенность к 
определенным болезням. 
Новые технологии дали мощный толчок раз- 
витию нескольких областей индустрии. 
Омиксная биология привела к появлению 
новых инструментов, роботизированных 
станций, программного обеспечения для об- 
работки и анализа данных и развития спе- 
циализированных сервисов. Быстрое 
развитие омиксной экосистемы способство- 
вало рыночному буму биомедицинских тех- 
нологий в конце 1990-х, достигшему пика в 
2000-е гг., после первой публикации генома 
человека в 1998 г. Спекулятивный всплеск 
рынка, совпавший с интернет-бумом, создал 
небывалую рыночную стоимость таких ком- 
паний — пионеров в области омиксных тех- 
нологий, как Affymetrix (геномика), Incyte 
(секвенирование ДНК), Informax (биоинфор- 
матика), Milennium Science (геномика, про- 
теомика) и многих других. В настоящее 
время омиксный сектор представляет собой 
многомиллиардную индустрию с такими ли- 
дерами, как Illumina (инструменты и сервисы 
для секвенирования нового поколения), 
ThermoFisher Scientific Inc. (секвенирование, 
протеомика), Agilent (тесты, биоинформа- 
тика), Accelrys (био- и химиоинформатика) и 
других. 
Омиксные технологии развиваются и в Рос- 
сии, хотя и неравномерно. В отличие от не- 
которых «опоздавших» стран (Япония, 
Китай, Корея), в нашей стране не ведутся 
работы по созданию «национального секве- 
натора», а производятся «тематические» 
микрочипы на существующих платформах. 
В то же время сервисный омиксный бизнес 
представлен в России достаточно широко, а 
в области анализа данных и биоинформа- 
тики российские компании и лаборатории 
оперируют на мировом уровне. 
В этом альманахе мы решили собрать мне- 
ния широкого круга специалистов, активно 
вовлеченных в развитие и практическое ис- 
пользование омиксных технологий. Наши 
авторы представляют академическую 
науку: экспериментальную биологию, био- 
информатику, экономику, практическую ге- 
номику, а также ведущие клиники, 
сервисные компании и фармацевтическую 
индустрию. В основном мы фокусировались 
на состоянии дел на российском рынке с не- 
которым сравнением с западными анало- 
гами. 
Альманах предназначен для широкого круга 
читателей и не отражает мнения Фонда 
«Сколково» или государственных 
организаций. 
Author: Yuri Nikolsky, Cand. Biol. Sci., Science 
Director of Biomedical Technologies Cluster, 
The Skolkovo Foundation 
Genomics and other methods of multiparallel 
molecular assays, dubbed as «omics techno-logy 
», have revolutionized experimental bio-logy 
since 1980s. New technology had deep 
implementations in drug discovery, diagno-stics, 
data analysis and, increasingly, practice 
of medicine. Omics-focused innovation ecosy-stem 
evolved into a multi-billion dollar industry, 
which is now enjoying a major breakthrough 
from research to clinical market. 
Russia was late with omics hardware develop-ment 
and is not visible on international omics 
services markets. However, Russian omics 
data analysts and bioinformaticians are regar-ded 
as some of the best in the world, and the 
country is fast progressing in development of 
clinical applications based on omics techni-ques. 
In this review, we collected opinions of a 
diverse group of Russian professionals dealing 
with new technology: academic and industrial 
scientists, bioinformaticians; omics service 
providers; vendors of omics products and ser-vices 
for oncology, prenatal diagnostics and 
microbiome analysis. 
We are glad to summarize that our experts are 
overall optimistic about perspectives of omics 
evolution in Russia, citing our advantage in en-gineering 
and math-centered education and 
high level of market development, especially in 
consumer genomics and clinical applications.
НАУКА 
4 
ФУНДАМЕНТАЛЬНЫЕ 
НАУЧНЫЕ ИССЛЕДОВАНИЯ 
С ИСПОЛЬЗОВАНИЕМ 
ОМИКСНЫХ ТЕХНОЛОГИЙ 
Самой первой из омиксных технологий стала 
известна геномика. Она изучает не отдель- 
ные гены, а всю совокупность генетической 
информации, которая называется геномом. 
Термин «геном» был предложен почти сто 
лет назад, а выделение геномики как от- 
дельного направления науки произошло в 
1980-х, при обсуждении проекта «Геном че- 
ловека». Суффикс «ом» во всех «омиксных» 
терминах указывает, что рассматривается 
вся совокупность данных в целом. 
Конечно, геномика изучает не только геном 
человека, но и геномы всех других организ- 
мов. Ее достижения находят применение во 
многих сферах: в медицине, криминали- 
стике, животноводстве и растениеводстве, 
экологии, в решении фундаментальных во- 
просов происхождения и эволюции жизни. 
Когда исследовательские методы позво- 
ляли изучать только отдельные гены, при 
поиске генетических основ заболеваний 
приходилось перебирать по одному те гены, 
которые могут быть связаны с болезнью. 
Для этого надо было предположить, какие 
звенья метаболизма нарушены, и какие из- 
ученные к тому времени гены могут быть во- 
влечены в эти нарушения. Достижение 
успеха в значительной мере зависело от ин- 
туиции и везения исследователя. 
При анализе всего генома генетический де- 
фект может быть найден даже в том случае, 
когда природа нарушения неизвестна. Вы- 
явив этот дефект, можно определить, какой 
ген поврежден, на какие функции он 
влияет, и, исходя из этого, разрабатывать 
уже не общие стратегии лечения, а при- 
цельно направленные на коррекцию кон- 
кретного звена метаболизма. 
Впервые полная последовательность нук- 
леотидов генома человека была определена 
в 2003 году. Секвенирование (определение 
последовательности, от английского слова 
sequence) проводилось общими усилиями 
лучших лабораторий мира, заняло более 10 
лет и обошлось в 3 млрд долларов. Сейчас 
развитие технологий привело к тому, что 
весь геном человека может быть «прочтен» 
за несколько дней, а стоимость его секвени- 
рования снизилась до нескольких тысяч 
долларов и продолжает снижаться. 
Автор: Николай Янковский, доктор биологиче- 
ских наук, член-корреспондент РАН, директор 
Института общей генетики им. Н.И.Вавилова 
РАН, Москва, Россия 
Суффикс «ом» во всех «омиксных» 
терминах указывает, что рассматрива- 
ется вся совокупность данных в целом.
Партнер Фонда «Сколково» 
5 
Секвенирование полного генома человека 
дает информацию предельного разрешения 
о последовательности нуклеотидов. Однако 
многие участки генома неинформативны. 
Ведь на уровне последовательностей нук- 
леотидов люди отличаются друг от друга 
лишь одним нуклеотидом из тысячи. Имеет 
смысл сэкономить и анализировать лишь те 
нуклеотиды, по которым есть различия. Для 
такого анализа применяют микрочипы — 
короткие фрагменты ДНК, закрепленные на 
твердом носителе и нацеленные на распо- 
знавание того, какой нуклеотид стоит в за- 
ранее выбранных позициях в геноме. 
Генотип индивида определяют по тому, 
какие фрагменты ДНК прореагировали при 
добавлении к ним геномной ДНК. 
Стоимость такого анализа исчисляется уже 
не тысячами, а сотнями долларов на обра- 
зец, а проанализировать одновременно 
можно до миллиона участков генома. Мик- 
рочипы для определения генотипа могут 
быть нацелены не на изучение полного ге- 
нома (когда распознаваемые участки равно- 
мерно рассеяны вдоль всей геномной ДНК), 
а на анализ десятков или сотен генов, свя- 
занных с интересующим исследователя за- 
болеванием (например, если мы говорим о 
кардиочипе). 
Еще один способ сэкономить — читать не 
весь геном, а только его наиболее важные 
части. Эти участки, кодирующие белки, на- 
зывают экзонами, а всю их совокупность — 
экзомом. 
Секвенирование экзома позволяет выявить 
мутации, нарушающие структуру белков, но 
для нормального функционирования клетки 
важна не только структура белка, но и его 
количество. Это количество зависит от 
уровня активности гена — насколько интен- 
сивно синтезируются на нем молекулы 
мРНК, и от процессов, следующих за синте- 
зом РНК и приводящих к появлению функ- 
ционального белка. Эти этапы реализации 
генетической информации изучают такие 
Секвенирование полного 
генома человека дает информацию 
предельного разрешения о последова- 
тельности нуклеотидов. 
разделы наук, как транскриптомика и про- 
теомика. Сейчас известно, что транскриби- 
руются не только белок-кодирующие 
участки генома, но и другие участки, связан- 
ные с регуляцией активности генов, продол- 
жительностью жизни и активностью мРНК и 
многими другими клеточными процессами. 
Важные функции выполняют некодирующие 
РНК, которые не служат матрицей для син- 
теза белка, а сами активно вмешиваются в 
жизнь клетки. Они связываются с мРНК и 
подавляют экспрессию закодированной в 
ней информации, модулируют — в зависи- 
мости от условий — всплески активности 
генов, участвуют в формировании струк- 
dreamstime.com
НАУКА 
6 
туры, распознающих участков и функцио- 
нальных центров молекулярных машин. 
Для того чтобы определить спектр и количе- 
ство синтезируемых в клетке мРНК, исполь- 
зуют различные подходы. Например, 
микрочипы, аналогичные тем, которые при- 
меняют при генотипировании, позволяют 
выявить, какие мРНК присутствуют в анали- 
зируемом образце, и тем самым узнать, 
какие из генов «работают», а какие «мол- 
чат». Другим методом анализа спектра и ко- 
ткани и изменений их спектра, количества и 
активности; метаболомика, изучающая со- 
став и концентрации метаболитов. В послед- 
ние годы возникла коннектомика, 
направленная на изучение совокупности 
нервных связей (коннектома) головного 
мозга высших животных, включая человека. 
Важное направление — изучение микро- 
биома, то есть совокупности всех микроорга- 
низмов в каком-либо месте их обитания 
(кишечнике человека, определенном 
участке и т.п.). Для этого проводится тоталь- 
ное секвенирование «диагностических» для 
разных групп микроорганизмов участков 
ДНК, выделенной из соответствующего био- 
логического материала. При ряде заболева- 
ний состав и количественное соотношение 
компонентов микробиома нарушаются, а 
восстановление или приближение к нор- 
мальному соотношению за счет приема про- 
биотиков способствует излечению. 
Понятно, что всем этим «омикам» прихо- 
дится иметь дело с динамичными показате- 
лями, меняющимися на протяжении жизни, в 
том числе в случае болезни. Поэтому омикс- 
ные методы используют для поиска прогно- 
стических и диагностических маркеров, 
указывающих на развитие заболевания или 
на успех (либо неуспех) его лечения. Омикс- 
ные технологии незаменимы при поиске эф- 
фективных маркеров. Лучших из всех 
возможных — потому что они как раз все 
возможные охватывают. А после того, как 
маркер (или маркеры) найден, может быть 
разработана дешевая и применимая в широ- 
ких масштабах технология его анализа. Сей- 
час уже используются методы анализа 
транскриптома для оценки эффективности 
химиотерапии при некоторых видах рака. 
Если лечение успешно, должна измениться 
экспрессия определенных генов. Если пре- 
парат на пациента не действует (что видно 
по отсутствию ожидаемых изменений в ра- 
боте генов), то можно быстро изменить 
схему терапии, не ожидая недели или ме- 
сяцы, чтобы обнаружить неэффективность 
лечения по ухудшению состояния пациента. 
На современном уровне развития омиксных 
технологий становится ясно, что нужен ком- 
плексный подход. На геномном уровне 
последовательность нуклеотидов ДНК опре- 
деляет безусловное развитие болезни для 
моногенных заболеваний или таких, в разви- 
При ряде заболеваний состав 
и количественное соотношение 
компонентов микробиома нарушается, 
а восстановление или приближение 
к нормальному соотношению 
за счет приема пробиотиков 
способствует излечению. 
личества РНК является тотальное секвени- 
рование всех РНК образца. Поскольку моле- 
кулы РНК намного менее стабильны, чем 
ДНК, то для анализа часто используют 
такой прием, как синтез кДНК, то есть ДНК, 
комплементарной РНК и синтезированной 
на РНК-матрице с помощью фермента об- 
ратной транскриптазы. 
Еще одним уровнем сложности в реализа- 
ции генетической информации является 
прижизненное модулирование активности 
генов за счет химической модификации (ме- 
тилирования) регуляторных участков генов 
(сама последовательность нуклеотидов 
остается при этом неизменной) или модифи- 
кации гистонов — белков, поддерживающих 
структуру ДНК. Такая модификация зависит 
от жизненных событий: от изменений кон- 
центрации гормонов или метаболитов до из- 
менений внешней среды, особенностей 
жизненного стиля или пережитых стрессов, 
и, что представляет особый интерес, нали- 
чия или отсутствия изменений, ведущих к 
болезни. Эти изменения изучает эпигено- 
мика. Еще несколько «омиков» изучают дру- 
гие уровни функционирования клетки и 
организма: протеомика, направленная на 
описание совокупности белков клетки или
Партнер Фонда «Сколково» 
7 
тие которых вовлечены немногие гены. 
Таких заболеваний около 5-7 тысяч, и встре- 
чаются они с низкой частотой — один слу- 
чай на несколько тысяч или реже. Суммарно 
носителями таких заболеваний являются не- 
сколько процентов новорожденных. 
Гораздо шире распространены мультиген- 
ные заболевания, в которые вовлечены мно- 
гие гены, обычно со слабыми эффектами, 
взаимодействующие со средовыми факто- 
рами риска. К этой группе относятся сер- 
дечно-сосудистые, онкологические, 
аутоиммунные, психические и ряд других со- 
циально значимых заболеваний. Среди 
таких заболеваний небольшую долю состав- 
ляют моногенные формы. 
Например, повреждение гена BRCA1 обна- 
ружено в семейных формах рака груди, а 
мутации в генах калиевых каналов — в син- 
дромах нарушения ритма сердца с высоким 
риском внезапной смерти. То есть один и 
тот же результат — болезнь получается при 
«сильной» мутации в очень важном гене или 
при сочетании средовых факторов риска с 
набором «слабых» мутаций во множестве 
генов. Как и мутации, средовые факторы 
риска (впрямую или через эпигенетические 
изменения активности генов) меняют мета- 
болические процессы организма. Выявле- 
ние мутаций в генах, ведущих к развитию 
мультифакторных заболеваний, не дает аб- 
солютного диагностического инструмента в 
руки исследователя, но позволяет «заце- 
пить» тот метаболический путь, который за- 
действован в развитии болезни. А это уже 
путь к определению фармакологической ми- 
шени, которая будет работать вне зависи- 
мости от того, вызвано заболевание 
генетическими или средовыми причинами. 
От генетических особенностей зависит и ин- 
дивидуальная реакция на лекарства. 
Омиксные технологии имеют огромное 
значение для развития медицины и фарма- 
цевтики. Знание структуры геномов разных 
видов и популяций растений и животных не- 
обходимо для современной селекционной 
работы, для понимания механизмов устой- 
чивости к патогенам, плодовитости или уро- 
жайности, районирования сортов и многих 
других направлений агробиотехнологий. 
Author: Nikolay Yankovsky, Professor, Dr. Biol. Sci., Cor-responding 
Member of the Russian Academy of Sci-ences, 
The Vavilov Institute of General Genetics of the 
Russian Academy of Sciences 
Genomics, which studies the wholeness of ge-netic 
information, was developed as the first 
“omics” technology. It became widely known in 
mid-1980s due to human genome project. Ge-nomics 
methods, especially DNA sequencing, 
are directly applicable in medicine, criminalistics, 
agriculture. Genomics was followed by methods 
measuring next steps of genome expression, 
RNA transcription and epigenetics; proteomics 
and metabolomics. It is clear now that multiple 
levels of omics data should be used together in 
integrative studies resulting in biomarkers, drug 
targets and other applications. 
dreamstime.com
БИОИНФОРМАТИКА 
8 
РОЛЬ БИОИНФОРМАТИКИ 
И АНАЛИЗА «БОЛЬШИХ 
ДАННЫХ», ПРОИЗВОДИМЫХ В 
ОМИКСНЫХ ЭКСПЕРИМЕНТАХ 
Омиксные технологии — основной источник 
«больших данных» в биомедицине, они по- 
рождают огромный объем сложных много- 
уровневых данных геномики, транскрипто- 
мики, эпигеномики, протеомики и т.д. Как ис- 
следуют такие данные, какую информацию 
можно извлечь из их совместного анализа? 
Какова роль биоинформатики в обеспечении 
такого качества анализа, которое позволяет 
использовать его в клинической практике? 
Для начала стоит рассмотреть возможности 
и ограничения этих технологий. Геномика — 
это в каком-то смысле расширение тради- 
ционной медицинской генетики. Разница в 
том, что тут рассматриваются не мутации в 
отдельных генах, а полный набор генетиче- 
ских особенностей организма. Проблема же 
в том, что лишь в немногих случаях эти осо- 
бенности позволяют делать существенные 
выводы. В случае классических, так назы- 
ваемых менделевских, мутаций все понятно: 
наличие такой мутации вызывает болезнь. 
Однако именно в силу этой определенности 
такие мутации относительно редки. Основ- 
ной же массив генетических вариантов вы- 
зывает лишь предрасположенности, 
проявление которых зависит от других генов 
и от внешней среды. Некоторые предраспо- 
ложенности достаточно сильны, чтобы при- 
вести к реальным медицинским решениям 
(скажем, при некоторых мутациях, вызываю- 
щих предрасположенность к раку молочной 
железы, назначают более частые и глубокие 
обследования: в этом случае риск несвоевре- 
менного обнаружения опухоли перевешивает 
расходы и возможные осложнения от диагно- 
стических процедур). Большинство же из- 
вестных предрасположенностей значимы 
лишь статистически, на больших выборках, и 
мало что дают в конкретных случаях. 
Автор: Михаил Гельфанд, доктор биологических 
наук, профессор, факультет биоинформатики и 
биоинженерии МГУ им. М.В.Ломоносова, 
Москва, Россия 
dreamstime.com
Партнер Фонда «Сколково» 
В правильно организованных проектах 
постановка эксперимента с самого 
начала учитывает то, как будут анали- 
зироваться его результаты. 
9 
Другое, недавно появившееся и стреми- 
тельно развивающееся ответвление гено- 
мики — геномика рака. Она тесно связана с 
транскриптомикой, т.е. изучением того, с 
какой интенсивностью работают гены. Рак — 
это в первую очередь молекулярная болезнь, 
следствие разладки сигнальных и регулятор- 
ных систем клетки (кстати, ничего не напо- 
минает?). Нормальная клетка не делится 
бесконтрольно, имеет фиксированное время 
жизни, обменивается информацией с сосед- 
ними клетками. Более того, в каждую клетку 
заложен механизм, который уничтожает ее, 
если какие-то системы нарушены — подобно 
тому, как ракета осуществляет самоподрыв, 
если при старте произошла нештатная ситуа- 
ция и ракета отклонилась от курса. В рако- 
вых клетках за счет мутаций в геноме и, как 
следствие, изменений в работе генов этот 
механизм нарушен, клетка становится бес- 
смертной, часто делится, приобретает спо- 
собность жить в несвойственном окружении 
(так возникают метастазы). Так вот, оказы- 
вается, что раки, которые традиционно счи- 
тали однородными, на самом деле могут 
вызываться разными молекулярными полом- 
ками и, наоборот, в раках разного тканевого 
происхождения могут быть нарушены одни и 
те же молекулярные системы. Исследование 
ракового генома и транскриптома дает воз- 
можность более точной диагностики и более 
тонкого назначения лекарств. 
Протеомика — это следующий шаг в этом на- 
правлении, когда изучается не интенсив- 
ность, с которой с гена считывается 
информация в виде мРНК, а количество ко- 
нечного продукта, белка. Но пока что, на- 
сколько мне известно, массовых 
исследований и тем более применения ана- 
лиза ракового протеома не проводилось. 
Можно представить себе и другие примене- 
ния транскриптомики, скажем, раннюю диаг- 
ностику потенциальных отторжений при 
пересадке органов. Но пока что я таких 
работ не видел. Эпигеномика, т.е. изучение 
функционального состояния генома, пока не 
имеет самостоятельных применений, потому 
что это в каком-то смысле промежуточные 
данные. В то же время исследование эпиге- 
номики важно для понимания биологических 
механизмов работы генома, клеточной диф- 
ференциации, развития организма. 
Наконец, метаболомика — это исследование 
концентраций небольших молекул; это клас- 
сические биохимические анализы, только в 
принципиально большем масштабе. Такие ис- 
следования активно проводятся во многих 
медицинских центрах, в том числе в некото- 
рых российских лабораториях. Цель их — 
точная постановка диагноза. 
Без обширного и глубокого статистического 
анализа, т.е. без биоинформатики, исследо- 
вания в области омиксных технологий невоз- 
можны в принципе. Одной из особенностей 
современной биологии является то, что ис- 
чезла грань между генерацией эксперимен- 
тальных данных и их обработкой: соответ- 
ственно, биоинформатики являются интег- 
ральной частью команды исследователей. 
Впрочем, рассуждая об этих интересных во- 
просах, полезно иметь в виду, что доля бюд- 
жета России, направляемого на науку и 
здравоохранение, сокращается. При этом 
уровень коррупции в медицине и в медицин- 
ском образовании, по всей видимости, 
весьма велик; соответственно, падает квали- 
фикация врачей (тривиальным подтвержде- 
нием этому являются медицинские 
коллекции Диссернета). Полезно также по- 
нимать, что самый простой способ резко по- 
высить эффективность лечения рака — это 
своевременная диагностика и адекватная те- 
рапия на ранних стадиях. 
Author: Mikhail Gelfand, Dr. Biol. Sci., Professor of Bio-engineering 
and Bioinformatics, Lomonosov Moscow 
State University, Russia 
Every omics technology features has its own ad-vantages 
and limitations. However, all omics stu-dies 
are united in the requirement for 
bioinformatics they would be impossible without. 
In well-designed projects, analysis is embodied in 
experimental planning from the very beginning. 
Fading the line between experimental data gene-ration 
and analysis is a characteristic feature of 
modern biology.
ГЕНОМИКА 
10 
РАЗВИТИЕ ГЕНОМИКИ 
И ОМИКСНЫХ ТЕХНОЛОГИЙ 
В РОССИИ 
Автор: Владислав Милейко, кандидат биологи- 
ческих наук, директор Геномного центра Нано- 
технологического центра «Техноспарк», Москва, 
Троицк, Россия 
– Каков современный ландшафт омиксных 
технологий в России? Кто игроки в области 
секвенирования, генотипирования, протео- 
мики, метаболомики и т.д.? Как развивается 
сервисный бизнес? 
– На волне мирового бума омиксных техно- 
логий Россия активно вливается в эту пер- 
спективную, но непростую историю. 
Несмотря на то что в России стоит уже не 
одна сотня секвенаторов NGS (next genera-tion 
sequencing), большая их часть пылится в 
ожидании запуска или работает на считан- 
ные проценты от своей мощности. Причин на 
то несколько: и перекосы в статьях финан- 
сирования исследований (есть деньги на до- 
рогую технику, но нет на расходники), и 
глобальный дефицит «качественных» про- 
ектов. А самое главное — это нехватка спе- 
циалистов, способных не только работать с 
этими технологиями и биоинформатикой 
данных, но и инициировать наполненные 
смыслом и востребованные исследования. 
Следует, конечно, отметить и другую важ- 
ную особенность омиксной науки: чтобы де- 
лать классные проекты в секвенировании, 
не нужен секвенатор. Более того, необходи- 
мость обслуживать секвенатор, обучать 
своих специалистов работе на нем и т.д. — 
зачастую непозволительная роскошь для не- 
больших групп исследователей. Вся пре- 
лесть высокопроизводительных методов 
заключается в возможности уместить целый 
проект в один (а то и меньше) запуск при- 
бора, поэтому он запросто может стоять хоть 
на другом континенте. По большому счету, 
«домашний» секвенатор нужен только двум 
категориям исследователей. Тем, кто зани- 
мается разработкой новых методологий и им 
нужно регулярно запускать прибор, глубоко 
понимая особенности его работы в разных 
режимах (НоМоТех). И тем, кто внедряет 
прикладные технологии в практику и дол- 
жен следовать строгим стандартным опера- 
ционным процедурам, обеспечивая 
бескомпромиссную надежность и воспроиз- 
водимость результатов (например, таким 
компаниям, как «Парсек-Лаб»). 
Наверное, в масштабах страны наиболее 
правильная стратегия — не наращивание 
парка приборов, а развитие квалифициро- 
ванных сервисных компаний и центров кол- 
лективного пользования, реализующих 
комплексные решения: от участия в дизайне 
эксперимента (с учетом имеющегося практи- 
ческого опыта) до полноценного биоинфор- 
матического сопровождения и анализа 
данных. Такой подход позволит не только 
Чтобы делать классные проекты 
в секвенировании, не нужен 
секвенатор.
Партнер Фонда «Сколково» 
11 
увеличить доступность технологии широ- 
кому кругу коллективов, но и повысить само 
качество реализуемых проектов. 
– Нужен ли нам собственный секвенатор и 
другое оборудование? 
– Несмотря на успешный опыт использова- 
ния NGS в России и неутихающую «гонку во- 
оружений» в разработке новых технологий 
секвенирования, перспектива создания оте- 
чественного секвенатора выглядит туман- 
ной. Такой проект может быть реализован 
только большим консорциумом, включаю- 
щим высококлассных физиков, инженеров, 
химиков и молекулярных биологов. Главное 
требование к такой команде — не только и 
даже не столько квалификация (с этим у нас 
проблем нет), сколько реальный опыт успеш- 
ного сотрудничества в аналогичных разра- 
ботках. На текущий момент такого опыта, к 
сожалению, накоплено мало. 
На мой взгляд, более оправданы усилия по 
созданию собственной версии расходных ма- 
териалов для секвенирования (например, 
под платформу Ion Torrent), рынок для кото- 
рых намного больше, чем для «машин», а по- 
требность в дешевых расходниках не 
вызывает сомнения, и не только в России. 
Может быть, таким путем мы первыми в 
мире сможем сделать «геном за $100». 
Отдельно следует отметить перспективы 
создания новых подходов к секвенированию 
на базе существующих платформ. Наиболее 
ярким примером стал успех стартапа Mole-culo. 
Команда из Стэнфорда с русскими кор- 
нями (Chief Technology Officer Дмитрий 
Пушкарев — выпускник МФТИ) создала на 
настольном секвенаторе комплексное реше- 
ние для «чтения» необычайно длинных 
последовательностей — более 10Kb. Разра- 
ботка открыла новые возможности для 
сборки геномов de novo, анализа наслед- 
ственных заболеваний и др. Уже через год 
после первых запусков секвенатора Moleculo 
купил лидер индустрии компания Illumina. 
В России есть все предпосылки для работы 
над такого рода задачами. В биологии и био- 
информатике, как нигде, пригодятся и рус- 
ская смекалка, и инженерный уклон нашего 
образования. Одним таким проектом яв- 
ляется компания НоМоТех, разработки кото- 
рой позволяют с высокой точностью секве- 
нировать высокогетерогенные образцы. 
– Какие у нас особенности и перспективы 
развития и на чем стоит сфокусироваться 
России, по Вашему мнению? 
– С подачи лидеров индустрии NGS стало 
«модно» использовать чуть ли не для любых 
задач в биологии и не только. Иной раз ка- 
жется, что каждый исследователь готов при- 
думать приложение для NGS в своей 
области, зачастую без оглядки на целесооб- 
разность. Тем временем в нашей стране ряд 
важных задач остается без должного внима- 
ния. Это в первую очередь касается сель- 
ского хозяйства, пищевой промышленности 
и промышленной биотехнологии. 
Кроме того, следует бросить всю мощь 
омиксных технологий в ресурсодобывающую 
отрасль. России, крупнейшему экспортеру 
нефти и газа, непозволительно уделять так 
мало внимания новым возможностям иссле- 
дования как фундаментальных процессов 
образования углеводородов, так и приклад- 
ных технологий поиска и обследования ме- 
сторождений. Удельная концентрация 
проектов в области медицинских омиксных 
решений в России очень высока, хотя абсо- 
лютное количество нам еще предстоит нара- 
щивать, пока NGS и другие современные 
подходы не станут реальной медицинской 
практикой. 
В биологии и биоинформатике, 
как нигде, пригодится русская 
смекалка. 
Author: Vladislav Milejko, Cand. Biol. Sci., CEO of 
the Genome Center of the Technospark Nanotech-nology 
Center, Moscow, Russia 
In Russia, it makes sense to develop high quality 
omics service companies and shared use cen-ters. 
These entities should be able to run integra-ted 
projects with a scope of services from 
experiment design to data analysis. We can also 
participate in development of novel sequencing 
technologies, and international collaboration is 
very important to bring the know-how to the in-dustry. 
We have an advantage of our engene-ering- 
focused education to be succesful in such 
enterprises.
CAГЕНОМИКА 
12 
МЕЖДУНАРОДНОЕ 
СОТРУДНИЧЕСТВО 
В КОЛЛАБОРАТИВНЫХ 
ОМИКСНЫХ ПРОЕКТАХ 
– Омиксные проекты сложные и дорогие. Как 
нигде в биомедицине, в геномных исследова- 
ниях важно сотрудничество между на- 
учными коллективами. Вы представляете 
коллектив, объединивший организатора кон- 
сорциума функционального анализа геномов 
млекопитающих FANTOM и новых участни- 
ков проекта. Расскажите, пожалуйста, про 
этот проект и ваш опыт ведения и участия в 
широкомасштабных международных иссле- 
дованиях. 
– Скорость и объем получаемых в наши дни 
геномных данных диктуют свои условия, не- 
обходимые для достойного осмысления по- 
лучаемой информации. Мы уверены, что 
проведение широких полногеномных иссле- 
дований должно осуществляться в рамках 
международной кооперации. Проект 
FANTOM, ставящий целью получение де- 
тальных знаний о функционировании гено- 
мов модельных млекопитающих и человека, 
на наш взгляд, является успешным приме- 
ром такого подхода. FANTOM — это между- 
народный консорциум, организованный 
доктором Хаяшизаки (РИКЕН) и его колле- 
гами в 2000 году для функциональной анно- 
тации полноразмерных кДНК, полученных в 
рамках проекта Mouse Encyclopedia. C тех 
пор FANTOM развился и теперь включает в 
себя весь спектр анализа активности генома 
— от активности отдельных генов до полно- 
геномной реконструкции регуляторных 
транскрипционных сетей. 
Эти ресурсы задействованы во многих про- 
ектах. Так, например, группа нобелевского 
лауреата Синъи Яманаки (Shinya Yamanaka) 
использовала данные FANTOM для выбора 
предварительного набора из 24 факторов 
транскрипции для создания плюрипотент- 
ных стволовых клеток. Проект развивается 
Автор: Йошихиде Хаяшизаки, директор 
программы персонифицированной медицины 
РИКЕН и руководитель международного кон- 
сорциума Functional Annotation of the 
Mammalian Genome (FANTOM), Япония 
Автор: Олег Гусев, со-руководитель совместной 
лаборатории КФУ—РИКЕН Functional Genomics, 
Россия
CA 
Партнер Фонда «Сколково» 
13 
этапами, эволюционируя от анализа не- 
скольких тысяч кДНК в 2000 году до рекон- 
струкции активности транскрипционных 
сетей основных типов клеток человека, ра- 
ковых клеток и различных этапов эмбрио- 
нального развития млекопитающих, 
законченного в 2014 году. В настоящее 
время консорциум включает более 500 
человек из 20 стран. 
На следующем этапе планируется анализ 
транскрипционной активности в более чем 
1000 патологических случаях в клетках. 
Кроме того, одним из актуальных направле- 
ний является получение данных об этноспе- 
цифических особенностях активности 
генома. Это прекрасная возможность, в том 
числе для потенциальных российских 
участников проекта: полученные данные 
будут представлять огромный интерес как в 
фундаментальном плане, так и в практиче- 
ской области персонифицированной меди- 
цины. Мы уверены, что ряд геномных 
центров в России способны стать полноцен- 
ными партнерами проекта и самостоя- 
тельно осуществлять полный цикл сбора и 
анализа данных. 
– Каковы ваши общие научные интересы и как 
омиксные технологии помогают их решать? 
– Одним из главных стимулов в создании со- 
вместной лаборатории и старта совместных 
исследований стала разработка специали- 
стами РИКЕН метода полногеномного ана- 
лиза активности промоторов (CAGE). Группа 
в Казанском федеральном университете 
ведет несколько проектов с привлечением 
геномных методов, направленных на понима- 
ние основ уникальных способностей ряда жи- 
вотных выживать в поистине экстремальных 
условиях. Три основных проекта включают 
анализ генома насекомого, африканской хи- 
рономиды, способной выживать при полном 
обезвоживании; изучение генетических 
основ устойчивости уникального вида пиявок 
к глубокой заморозке без потери жизнеспо- 
собности и исследования в области генети- 
ческого контроля спячки млекопитающих. 
Во всех этих проектах ключевыми вопро- 
сами являются особенности регуляции 
транскрипции в геноме. Метод CAGE яв- 
ляется одним из универсальных и позволяет 
идентифицировать различные типы РНК 
(включая некодирующие), напрямую вовле- 
ченные в контроль работы генов в экстре- 
мальных условиях. А уникальные 
адаптивные особенности исследуемых орга- 
низмов вызывают глубокий интерес япон- 
ских коллег. 
– Известно, что планируется организация со- 
вместной компании для реализации одной из 
разработок РИКЕН в России. Расскажите, 
пожалуйста, об этом подробнее. 
– Да, такие планы есть. Дело в том, что в 
Японии существует ряд компаний, активно 
внедряющих разработки научных институтов 
(в том числе РИКЕН) в конкретные приклад- 
ные проекты, например, в области генной 
диагностики. Не так давно группа россий- 
ских специалистов выразила интерес к 
трансферу ряда технологий и в Россию, и 
мы планируем осуществлять консультацион- 
ную поддержку этой инициативы. Кроме 
того, несколько наших совместных проектов 
по изучению сценариев развития при ряде 
форм рака на основе полногеномного ана- 
лиза CAGE уже в ближайшем будущем могут 
стать основой для разработки новых диагно- 
стических подходов в онкологии. 
Authors: Dr. Yoshihide Hayashizaki, Preventive Medi-cine 
and Diagnosis Innovation Program, RIKEN, 
Program Director and General organizer of Functio-nal 
Annotation of the Mammalian Genome (FAN-TOM) 
International Research Consortium, and Oleg 
Gusev, co-head of the joint Kazan Federal Univer-sity— 
RIKEN Functional Genomics laboratory 
Nowadays, large scale genomic projects would 
be carried out as international collaborations. For 
instance, one of the largest projects, FANTOM, 
attracted scientists from over 20 countries. A gro-wing 
number of researchers use the FANTOM 
results, including Nobel Prize winner Shinya Ya-manaka. 
Russian scientific centers should join 
such projects. Moreover, Russian biologists are 
interested in transferring some of omics techno-logies 
to Russia. 
Ряд геномных центров в России 
способны стать полноценными партне- 
рами проекта и осуществлять полный 
цикл сбора и анализа данных.
ФАРМАКОЛОГИЯ 
14 
ОМИКСНЫЕ ТЕХНОЛОГИИ 
В ФАРМАЦЕВТИЧЕСКОЙ 
ИНДУСТРИИ 
– Какие задачи помогают решать омиксные 
технологии в процессе открытия лекарств? 
– Омиксные и, в первую очередь, геномные 
технологии появились в качестве стандарт- 
ных инструментов в фармацевтических ком- 
паниях во второй половине 1990-х годов. 
Поначалу их применяли для поиска и вали- 
дации мишеней в научных исследованиях и 
разработках. Однако одним из первых прак- 
тических применений геномики (точнее, вы- 
сокопроизводительного мультиплексного 
(high throughput) экспрессионного профили- 
рования) стал анализ токсичности и без- 
опасности новых лекарственных веществ, 
так называемая «токсикогеномика». Токси- 
когеномика использует экспрессионный 
анализ для предсказания потенциальной 
токсичности лекарственных веществ и 
уровня безопасности новых лекарственных 
препаратов, находящихся на стадии разра- 
ботки. Параллельно омиксные технологии 
нашли применение в оценке фармакодина- 
мических параметров новых соединений, 
т.е. их способности индуцировать биологи- 
ческие изменения в модельных системах, 
таких как клеточные линии и лабораторные 
животные. Относительно недавно геномные 
технологии стали применяться и в клиниче- 
ских исследованиях: от определения био- 
маркеров (в первую очередь, ответа на 
лекарства) до персонализированной тера- 
пии. Пожалуй, сегодня можно сказать, что 
именно поздние стадии разработки новых 
лекарственных препаратов выиграют от 
омиксных технологий больше всех. 
– Омиксные технологии – сложные, и они бы- 
стро эволюционируют. В какой степени фар- 
мацевтические компании развивают их 
внутри и насколько используют сервисные 
компании? Каковы тенденции и перспективы 
развития омиксных компаний в контрактно- 
исследовательских организациях (КИО)? 
– В целом фармацевтические компании не 
развивают омиксные технологии сами: это 
просто не их работа. Обычно фармацевти- 
ческие компании приобретают технологии 
или вступают в партнерство с компаниями, 
которые специализируются на данных тех- 
нологиях. В большинстве случаев фарма- 
цевтические компании начинают с 
тестирования технологий внутри компаний 
самостоятельно. Позже, когда технологии 
«созревают» до состояния «ценного мате- 
риала», компании предпочитают отдавать 
Автор: Виталий Пруцкий, кандидат биологических наук, глава по информа- 
ционному обеспечению R&D, «АстраЗенека», Санкт-Петербург, Россия
Партнер Фонда «Сколково» 
15 
проекты на аутсорсинг в специализирован- 
ные сервисные организации. В некоторых 
случаях, после оценки вариантов сотрудни- 
чества, мы выбираем то, что реально не- 
обходимо, и приносим технологии обратно в 
наши лаборатории. Но в целом большинство 
проектов сегодня осуществляется специа- 
лизированными сервисными поставщиками. 
Стандартной практикой является покупка 
«классическими» КИО омиксных технологий 
или КИО сервисных компаний. Такие транс- 
акции совершили, например, одни из круп- 
нейших мировых КИО — Covance и Quintiles. 
– В какой степени российские фармацевти- 
ческие компании «в тренде»? Есть ли отста- 
вание от глобальных фармацевтических 
компаний в отношении внедрения и исполь- 
зования омиксных технологий? В частности, 
известно, что глобальные компании широко 
ведут секвенирование биопсий и крови в 
клинических испытаниях с целью определе- 
ния групп пациентов, хорошо отвечающих на 
лекарство. Как обстоит дело в клинических 
испытаниях, ведущихся в России? 
– С моей точки зрения, существует огром- 
ная пропасть в степени понимания и исполь- 
зования омиксных технологий между 
глобальными и российскими фармацевтиче- 
скими компаниями. Возможно, такая боль- 
шая разница отражает тип развития 
лекарственных препаратов в российской 
фармацевтической индустрии: очень редко 
Существует огромная пропасть в сте- 
пени использования омиксных техно- 
логий между глобальными и 
российскими компаниями. 
это оригинальные исследования, с вовлече- 
нием всех стадий научно-исследователь- 
ского процесса. Однако с недавнего 
времени мы наблюдаем примеры использо- 
вания омиксных технологий для демонстра- 
ции фармакодинамической эквивалент- 
ности биосимиляров, производимых россий- 
скими компаниями, и оригинальных препа- 
ратов. К сожалению, я не слышал о 
каком-либо широкомасштабном и система- 
тическом использовании омиксных техноло- 
гий в клинических испытаниях, проводимых 
российскими компаниями. 
Author: Vitali Proutski, Cand. Biol. Sci., Head of the 
AstraZeneca Russia R&D Information Management 
Omics (first of all, genomics) technologies be-came 
standard tools in pharmaceutical compa-nies 
in the second half of 1990s. First, they were 
applied for target validation in preclinical rese-arch; 
later they expanded to clinical trials. I be-lieve 
that the latter stages of drug development 
will actually win the most from omics assays. 
From my perspective, there is a wide gap in un-derstanding 
of omics technologies between glo-bal 
and local pharmaceutical companies. 
dreamstime.com
КЛИНИКА 
16 
dreamstime.com 
ОМИКСНЫЕ ТЕХНОЛОГИИ 
В ПРАКТИКЕ КРУПНОГО 
ГОСПИТАЛЯ И «ТРАНСЛЯ- 
ЦИОННАЯ МЕДИЦИНА» 
– Какие омиксные технологии и как исполь- 
зуются в практике современного детского 
госпиталя? Что они добавляют к стандарт- 
ным методам клинической диагностики и 
лечения? 
– Детский госпиталь Лос-Анджелеса 
(CHLA) – это один из лучших и самых боль- 
ших детских госпиталей в США, который на- 
ходится в центре города. CHLA — частный 
госпиталь, работающий совместно со Шко- 
лой медицины KEKA Университета Южной 
Калифорнии (USC). Более 60 тысяч детей 
ежегодно получают помощь в CHLA. Иссле- 
довательский Институт Сабан (TSRI) — это 
отделение CHLA, отвечающее за научную 
деятельность госпиталя. Ученые из TSRI в 
сотрудничестве с генетиками и лечащими 
врачами проводят анализ геномных и транс- 
криптомных последовательностей, генной 
экспрессии, метилирования ДНК и другие 
исследования. В зависимости от типа забо- 
левания проводятся полногеномное иссле- 
дование, панельное исследование группы 
генов или анализ одного гена. Новые техно- 
логии постоянно разрабатываются, оцени- 
ваются, внедряются и становятся частью 
ежедневной работы госпиталя. Например, 
около полугода назад ученые из Группы 
молекулярной патологии и генетики приду- 
мали быстрый и эффективный тест для об- 
наружения мутаций в гене RB1, который
Партнер Фонда «Сколково» 
Автор: Татьяна Татаринова, кандидат биологических наук, профессор, Школа 
медицины Кека Университета Южной Калифорнии; директор лаборатории 
вычислительной биологии, Детский госпиталь Лос-Анджелеса, США 
17 
позволил улучшить диагностику и лечение 
пациентов, страдающих ретинобластомой. 
Практически все случаи двусторонней рети- 
нобластомы вызваны наследуемой мута- 
цией в гене RB1. Наши ученые 
использовали подход NGS — высокопроиз- 
водительное секвенирование второго поко- 
ления, которое способно обнаруживать 
точечные мутации, вставки и делеции раз- 
ного размера и дупликации гена RB1. Метод 
позволяет детектировать даже небольшой 
уровень мозаичных мутаций напрямую из 
образцов крови. Сэнгеровское секвенирова- 
ние, широко использовавшееся до середины 
2000-х годов, обычно пропускает такие му- 
тации. Весь анализ занимает менее трех 
дней с момента выделения ДНК. Такая ско- 
рость позволяет провести раннюю молеку- 
лярную диагностику ретинобластомы и 
своевременно подобрать индивидуальный 
метод лечения. Каждую неделю в CHLA 
приезжают докладчики из разных универси- 
тетов и исследовательских лабораторий; 
проводятся семинары, школы и тренинги по 
ознакомлению врачей и исследователей с 
новыми технологиями. 
– Каким образом вы анализируете данные? 
Ведь даже в случае одного пациента могут 
накапливаться гигантские массивы сиквенс- 
ных и других данных. Каким образом они 
коррелируют с клиникой? 
– CHLA имеет несколько мощных серверов 
исключительно для анализа и хранения кли- 
нических геномных данных. У нас также 
есть доступ к HPCС (High Performance Com-puter 
Cluster) Университета Южной Кали- 
форнии, где мы обсчитываем особенно 
большие массивы данных. 
Мы постоянно тестируем новые биоинфор- 
матические программы (например, для вы- 
равнивания последовательностей) и базы 
данных мутаций и встраиваем подходящие 
элементы в наш набор программ для разных 
случаев. Биоинформатическая компьютер- 
ная процедура создает отчет по каждому 
пациенту. Этот отчет посылается медику-ге- 
нетику и лечащему врачу для выбора персо- 
нального терапевтического подхода. Все 
найденные мутации и клиническая картина 
каждого пациента хранятся во внутренней 
базе данных CHLA. Это позволяет анализи- 
ровать старые случаи и лучше подбирать те- 
рапевтические методы для пациентов. 
– Что такое «трансляционная медицина» и 
как она внедрена в практику госпиталя? 
– Ученые и доктора из Детского госпиталя 
Лос-Анджелеса вовлечены в работу Южно- 
Калифорнийского Института клинической и 
трансляционной медицины (Southern Califor-nia 
Clinical and Translational Science Institute, 
SC CTSI). Задача SC CTSI — обеспечение 
лучшего здравоохранения для жителей Лос- 
Новые технологии постоянно разраба- 
тываются, оцениваются, внедряются и 
становятся частью ежедневной 
работы госпиталя.
КЛИНИКА 
18 
Анджелеса, происходящих из разных иму- 
щественных, социальных и этнических 
групп. SC CTSI — это своего рода мост, со- 
единяющий ученых с лечащими врачами и 
населением. Работа ведется по нескольким 
направлениям: 
1) создание эффективного сотрудничества 
между учеными, докторами и пациентами; 
2) ознакомление и вовлечение широкого 
круга людей в научные исследования; 
3) идентификация наиболее срочных задач 
здравоохранения и областей научных иссле- 
дований в Лос-Анджелесе. 
Примером работы института является ис- 
следование сердечно-сосудистых заболева- 
ний латиноамериканцев, проведенное с 
участием широкого круга пациентов, где ис- 
пытуемые сами становятся исследовате- 
– Насколько методы получения и обсчета 
омиксных клинических данных применимы в 
наше время в России? 
– Проведение омиксных исследований и 
разработка индивидуального подхода к 
лечению — чрезвычайно важный, но очень 
дорогостоящий элемент медицины. К тому 
же это динамично развивающаяся область. 
Новые технологии устаревают в течение 
буквально нескольких лет, и для приобрете- 
ния нового оборудования нужны дополни- 
тельные вложения. Мне кажется, что 
передовые российские медицинские центры 
будут использовать омиксные технологии в 
том же объёме, что и западные госпитали, 
но в массы эти технологии придут уже после 
окончания экспериментальной фазы. 
Author: Tatiana Tatarinova, Cand. Biol. Sci., Professor of 
The Keck School of Medicine of the University of 
Southern California; director of the Computational 
Biology Laboratory of the Children’s Hospital 
Los Angeles, USA 
At our hospital, new (omics) technologies are 
part of everyday life. Thus, our scientists applied 
next generation sequencing (NGS) to develop a 
quick and efficient test monitoring mutations in 
RB1 gene. This test is needed for early diagno-stics 
of retinoblastoma and selection of indivi-dualized 
treatment strategy. We have several 
powerful servers for storage and analysis of cli-nical 
genomic data and have access to HPCС 
(High Performance Computer Cluster) of the 
University of Southern California (USC) for high 
volume projects. In time, omics technologies will 
become standard practice in advanced Russian 
research clinics. 
Проведение омиксных исследований и 
разработка индивидуального подхода 
к лечению — чрезвычайно важный, но 
дорогостоящий элемент медицины. 
лями. SC CTSI также проводил исследова- 
ния эффективности различных методов те- 
стирования на вирус СПИД; тестирование 
использования текстовых сообщений для 
контроля диабетиков. Во всех случаях 
трансляционная природа исследований вы- 
ражается в скорейшем доступе новых меди- 
цинских технологий, участии пациентов и их 
лечащих врачей в проведении исследова- 
ний и ознакомлении широкой публики с 
важными научными результатами. 
dreamstime.com
Партнер Фонда «Сколково» 
19 
ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ 
ДЛЯ НАСЕЛЕНИЯ: 
ПОТРЕБИТЕЛЬСКАЯ ГЕНОМИКА 
И ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ 
В КЛИНИКАХ 
– Поясните, пожалуйста, что означает тер- 
мин consumer genomics? Каков спектр 
ваших услуг, и зачем люди вообще анализи- 
руют свои геномы? 
– Мы работаем с врачами, делаем для них 
систему анализа экзомных данных, помогаю- 
щую диагностировать редкие наследствен- 
ные заболевания. Consumer genomics — это 
то, чем занимаются компании 23andMe, «Ге- 
нотек», «Мой Ген» и др., — работа непос- 
редственно с частными лицами, анализ их 
ДНК из слюны на микрочипах и предостав- 
ление информации о родословной, о пред- 
расположенностях к тем или иным 
мультифакторным заболеваниям, статусе 
носителя по нескольким десяткам генетиче- 
ских заболеваний. 
– Против пионера в области анализа гено- 
мов, американской компании 23andMe, в 
прошлом году FDA было вынесено указание 
о частичной приостановке деятельности из- 
за их интерпретации генетической предис- 
позиции к болезням и сборе коммерческой 
базы данных пациентов. Прокомментируйте, 
пожалуйста, этот случай. Как обстоят дела в 
России в этом контексте? 
– 23andMe обвинили в том, что они предо- 
ставляют пациентам медицински значимую 
информацию в обход врачей, а пациенты ее 
могут неправильно интерпретировать и на- 
нести себе вред. Собирать коммерческую 
базу данных никто никому не запрещал, за- 
претили выдавать именно медицински 
значимую информацию. Вокруг этого до сих 
пор ведутся бурные дебаты, позиция FDA не 
всеми принята однозначно. Что касается 
России, то у нас фактически никаких мер ре- 
гуляции к компаниям не применяется. 
Автор: Андрей Афанасьев, кандидат биологических 
наук, генеральный директор компании iBinom, 
Москва, Россия 
– Каковы перспективы рынка интерпретации 
геномов в России и мире? Быть может, это 
выглядит несколько наивно, но может пока- 
заться, что это «одноразовый» продукт: у нас 
ведь всего один геном, достаточно сделать 
генетический анализ лишь раз в жизни? 
– Да, геном у человека действительно один, 
и если сделать полногеномное секвенирова- 
ние, то другие генетические тесты можно не 
делать. Но пока полногеномное секвениро- 
вание стоит несколько тысяч долларов. По- 
этому в «развлекательных» целях делают 
микрочиповое исследование (отдельные то- 
чечные мутации), а в медицинских — таргет- 
ное секвенирование (отдельные гены) или 
секвенирование экзома (все гены). Надеюсь, 
что рано или поздно мы дойдем до поголов- 
ного секвенирования всех новорожденных. 
Author: Andrew Afanasiev, Cand. Biol. Sci., CEO of 
iBinom 
Consumer genomics tests empowers doctors 
with tools for analysis of exome sequence data. 
Patients get information about their pedigree, 
their mutation bearer status in regards to several 
dozen monogenic diseases and predisposition to 
polygenic diseases. Consumer genomics market 
will become more and more attractive.
КЛИНИКА 
20 
ОМИКСНЫЕ ТЕХНОЛОГИИ 
В ПРАКТИКЕ ПРЕНАТАЛЬНОЙ 
ДИАГНОСТИКИ: 
МНЕНИЕ СЕРВИСНОЙ КОМПАНИИ 
– Вы занимаетесь пренатальной ДНК-диагно- 
стикой и другими клиническими исследова- 
ниями. Какие омиксные технологии Вы 
используете в продуктах и сервисах? 
– Мы используем микрочипы как для геноти- 
пирования точечных мутаций, так и для мо- 
лекулярного кариотипирования. 
Генотипирование на микрочипах в нашем 
случае — это реакции минисеквенирования 
на большую панель точек. Эта технология 
позволяет нам проводить скрининг носитель- 
ства моногенных заболеваний. Молекуляр- 
ное кариотипирование мы используем для 
скрининга на хромосомные аномалии эм- 
брионов, полученных при экстракорпораль- 
ном оплодотворении. При этом первым 
этапом является полногеномная амплифика- 
ция, что позволяет получать большое коли- 
чество данных, используя в качестве 
стартового материала одну лишь клетку. 
Кроме того, мы используем и разрабатываем 
киты для ПЦР. А наиболее «чистая» гено- 
мика в нашем случае — это биоинформати- 
ческий анализ результатов полноэкзомного 
секвенирования. 
– Кто ваши клиенты: врачи, пациенты? 
В какой степени они принимают новые тех- 
нологии? Откуда получают информацию? 
– Мы работаем и с пациентами, и с врачами. 
В целом и те, и другие иногда разбираются в 
новых технологиях по-разному. Конечно, 
если эти две группы сравнить напрямую, 
врачи ориентируются в современных мето- 
дах лучше. С другой стороны, если сравнить, 
насколько уровень знаний отличается от 
ожидаемого, то пациенты чаще отличаются в 
лучшую сторону, а врачи — в худшую. 
Примеры высказываний пациентов по мето- 
дам преимплантационной генетической диаг- 
ностики для семей с транслокациями: 
«–Ты немного не права. ПЦР видит только не- 
сбалансированных эмбрионов. Эмбрион без 
транслокации или эмбрион со сбалансиро- 
ванной транслокацией считаются хорошими. 
FISH отличает сбалансированных от несба- 
лансированных. Скорее всего, методики FISH 
отличаются в разных клиниках. 
– В первом проте у нас был именно FISH, мы 
для него перед протом сдавали кровь, по 
этой крови делали определённые маркеры 
для определения транслокации, и в ответе по 
ПГД было указано, имеет ли эмбрион транс- 
локацию, и если да, то какую: сбалансирован- 
ную или несбалансированную.» 
А так воспринимают пациенты рекламную ак- 
тивность в форме научных публикаций: 
«…хоть бы не позорились, публикуют на- 
учные данные по разовому успеху ("впервые 
в России") проведения диагностики…» 
Автор: Екатерина Померанцева, кандидат биоло- 
гических наук, заведующая лабораторией меди- 
цинской генетики Института стволовых клеток 
человека, Москва, Россия
Партнер Фонда «Сколково» 
Медицина вообще может быть охарак- 
теризована как искусство принимать 
решения в условиях неполноты 
информации. 
21 
Уровень владения вопросом, мне кажется, 
замечательный. Понятно, что не все паци- 
енты старательно вникают в технологии. Но 
в целом очевидна тенденция — увеличение 
информированности, чувства ответственно- 
сти за свое здоровье (в том числе за диагно- 
стику), уход от желания переложить 
ответственность на врача. Специалисты де- 
монстрируют более негативный тренд, кото- 
рый я бы условно назвала «огораживание». 
Полагаю, это связано с нежеланием расши- 
рять компетенции и желанием застрахо- 
ваться от ответственности за ошибки. 
Медицина вообще может быть охарактеризо- 
вана как искусство принимать решения в 
условиях неполноты информации. Почему-то 
в последние годы об этом стали забывать. То 
ли зарегулированность и схематичность про- 
токолов лечения тому виной, то ли избыточ- 
ный пресс личной ответственности. 
Отдельный вопрос, откуда эта неполнота бе- 
рется? Казалось бы, геномные данные соз- 
дают, скорее, избыток информации. Но это 
обманчивое впечатление. Большая часть ин- 
формации, получаемой из таких данных, – это 
сведения о малоизученных мутациях, клини- 
ческий эффект которых исследован недоста- 
точно, и его надо предполагать на основе 
собственного анализа ситуации, опыта и зна- 
ний. И в других областях — протеомике, ме- 
таболомике наблюдаемые закономерности 
часто являются новыми, ранее не исследо- 
ванными, клинически не изученными. Тем не 
менее они могут быть инкорпорированы в 
клиническую практику, если есть аналитиче- 
ские, научные аргументы в их пользу. 
Так что образование, безусловно, в этой 
области необходимо. И прежде всего — 
именно врачам. 
– Насколько в вашем бизнесе важна регуля- 
ция в отношении продуктов, созданных на 
основе омиксных технологий? Известно, что 
секвенирование ДНК регулируется во мно- 
гих странах, поскольку позволяет однозначно 
идентифицировать пациентов. Как обстоит с 
этим вопросом дело в России? 
– В России пока таких ограничений нет, и не 
хотелось бы, чтобы ограничения появились 
раньше, чем продуманные системы оценки 
качества, подготовленные квалифицирован- 
ными специалистами. 
Author: Ekaterina Pomerantseva, Cand. Biol. Sci., 
Head of laboratory, the Human Stem Cells Institute 
In prenatal diagnostics, omics technologies are 
used in many ways, including screening for mo-nogenic 
disorders and chromosomal aberrations 
in embrios taken during in vitro fertilization. In our 
case, «pure» genomics consists of bioinformatics 
analysis of exome sequencing. We work with pa-tients 
and doctors, and, surprizingly, patients un-derstand 
new technologies better. Probably, it is 
due to some doctors' resistance to develop new 
competencies and unwillingness to take an addi-tional 
risk of mistakes. 
dreamstime.com
КЛИНИКА 
22 
ПЕРСОНАЛИЗИРОВАННАЯ 
МЕДИЦИНА В ОНКОЛОГИИ: 
ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ 
РАКОВЫХ ОПУОЛЕЙ И РОЛЬ 
ОМИКСНЫХ ТЕХНОЛОГИЙ 
между мутациями и нарушениями на транс- 
криптомном и белковом уровнях, а также 
оценить функциональную значимость этих 
аберраций для процесса канцерогенеза, 
определить сигнальные пути, играющие 
ключевую роль в развитии заболевания. 
– Раковые заболевания могут развиваться 
очень быстро, и опухоли быстро мутируют. 
В этом контексте насколько релевантны 
ваши анализы и часто ли надо их повторять 
для одного и того же пациента? 
– Внутриопухолевая гетерогенность яв- 
ляется одной из проблем диагностики рака 
– В чем состоит ваш бизнес и насколько он 
основан на использовании секвенирования 
и других омиксных технологий? Насколько 
индивидуальны пациенты с точки зрения му- 
таций, и в какой степени индивидуально 
лечение? 
– Компания «РосГенДиагностика» работает 
в области персонализированной онкологии. 
Мы разрабатываем технологию подбора 
наиболее эффективной терапии рака для 
конкретного пациента на основе его молеку- 
лярно-генетических особенностей. Раковая 
опухоль каждого пациента уникальна и об- 
условлена индивидуальным сочетанием 
эпигенетических, генетических (наследст- 
венных и приобретенных) и экспрессионных 
Автор: Татьяна Серебрийская, кандидат биологи- 
ческих наук, старший научный сотрудник лабо- 
ратории трансляционных исследований и 
персонализированной медицины Московского 
физико-технического института, директор ООО 
«РосГенДиагностика», Долгопрудный, Россия 
Раковая опухоль каждого пациента 
уникальна и обусловлена сочетанием 
эпигенетических, генетических 
и экспрессионных изменений. 
изменений (уровень РНК, белка). Уже сей- 
час очевидно, что тесты на основе единич- 
ных биомаркеров (single-gene tests) или 
анализ одного типа данных, таких как экс- 
прессионные или генетические, не дают 
полноты картины происходящих в опухоли 
изменений. 
В своей разработке мы используем интегри- 
рованный анализ изменений, происходящих 
на уровне мутаций генов (NGS секвенирова- 
ние) и на уровне их экспрессии (экспрес- 
сионный анализ, масс-спектральный анализ) 
в опухолевой ткани. Это дает возможность 
установить причинно-следственную связь
Партнер Фонда «Сколково» 
23 
и правильного подбора терапии. Еще боль- 
шей проблемой является гетерогенность, 
индуцированная селективным давлением 
таргетной терапии. Назначаемые препараты 
могут убить часть раковых клеток, чувстви- 
тельных к действиям препаратов. При этом 
клетки, устойчивые к действию препарата и 
существующие в небольшом количестве в 
популяции раковых клеток, получают селек- 
тивное преимущество в росте и вызывают 
рецидив заболевания. В этой связи исполь- 
зование мультигенных панелей или экзом- 
ного сиквенса в совокупности с транскрип- 
ционным анализом может помочь отследить 
изменение молекулярно-генетического про- 
филя опухоли и скорректировать терапию. 
– Каковы перспективы развития персонали- 
зированной медицины в России и в мире? 
Какие болезни, кроме рака, находятся в фо- 
кусе внимания ваших методов? 
– Мы наблюдаем активный рост мирового 
рынка персонализированной медицины, ос- 
нову которой составляют молекулярная ди- 
агностика и таргетная терапия, — как 
продажа сопутствующих диагностических те- 
стов (companion diagnostics), так и оказание 
услуг по тестированию, так называемые 
«4P» (predictive, preventive, personalized, parti-cipatory 
care). По данным агентства 
MarketsandMarkets, рынок сопутствующих ди- 
агностических тестов составляет 3,136.9 млн 
долларов США в 2014 г. и достигнет 
8,730.7 млн долларов США к 2019 г. 
Совершенствование технологии секвениро- 
вания, разработка современного оборудова- 
ния и реактивов, а также снижение 
стоимости секвенирования генома и его от- 
дельных биомаркерных участков дает на- 
дежду говорить о возможном широком 
внедрении молекулярно-генетических те- 
стов в клиническую практику. 
Методы с использованием секвенирования 
применяются также для диагностики сер- 
дечно-сосудистых, иммунных, нейрологиче- 
ских, орфанных заболеваний, заболеваний 
органов слуха и зрения. В 2012 г. в США 
было применено около 50 разных болезнь- 
ориентированных тестов, в основе которых 
лежит секвенирование. 
Author: Tatiana Serebryjskaya, Cand. Biol. Sci., se-nior 
research fellow of the Translational Research 
and Personalized Medicine laboratory, Moscow 
Institute of Physics and Technology, RosGenDia 
We work in the area of personalized oncology. 
Tests based on single biomarkers (single gene) 
or even the only data type (genetic or expres-sion) 
are not sufficient to describe the whole pic-ture 
of molecular changes in the tumor. In order 
to establish causality relations between muta-tions, 
gene expression and protein level in can-cer, 
one needs to combine DNA and RNA 
sequencing, and MS proteomics analysis. 
dreamstime.com
КЛИНИКА 
24 
МИКРОБИОМ ЧЕЛОВЕКА: 
ПРАКТИКА И ОМИКСНЫЕ 
МЕТОДЫ ИЗУЧЕНИЯ 
ром варятся тысячи бактериальных видов 
(у каждого человека в своих пропорциях), 
и каждый из этих видов содержит в ге- 
номе тысячу ферментов. 
Мы получаем гигантское химическое раз- 
нообразие, которое еще и зависит от полу- 
чения субстрата (нашего питания). Вся эта 
система миллионами лет эволюциониро- 
вала и отбиралась — и, более того, эта 
коэволюция происходит и сейчас. 
С учетом того, что бактерии делятся и му- 
тируют гораздо быстрее, чем организм хо- 
зяина, можно сказать, что это 
адаптогенный орган — и мы считаем, что 
ему комплементарна система иммунитета, 
в тесном взаимодействии с которой он и 
находится с самого рождения человека. 
Мы пока только предполагаем механизмы, 
но уже на приличных когортах были пока- 
заны корреляции микробиома и, скажем, 
топ-10 заболеваний. 
– Какие омиксные методы используются для 
изучения микробиома и насколько они при- 
менимы в клинике? 
– Основной подход – секвенирование. Ко- 
нечно, это метод в первую очередь иссле- 
довательский. Но, с другой стороны, 
сейчас цена самого простого анализа ДНК 
дошла до вполне потребительского 
уровня. Так что клиницисты скоро получат 
новые панели тестов, которые будут вы- 
являть особенности микробиоты — не уве- 
рен, что сам состав микробов будет нужен 
клиницистам — скорее, важнее выбор на- 
правления в лечении с использованием 
данных по микробам. Для клиники биота 
станет очень важной и тоже персонализи- 
рованной. Она одновременно обладает и 
диагностическим (т.е. показывает, что 
сейчас с человеком происходит), и тера- 
певтическим (ее изменение может приве- 
сти к улучшению) потенциалами. 
Автор: Дмитрий Алексеев, кандидат 
биологических наук, заведующий лабораторией 
биоинформатики НИИ физико-химической 
медицины, Москва, Россия 
– Анализ врожденных мутаций и генетиче- 
ских изменений при раке и других человече- 
ских болезнях интуитивно понятны. А при 
чем здесь микробы? Что такое микробиом и 
зачем его изучать? 
– На самом деле, микробиом за последние 
годы набирает значимость; есть исследо- 
ватели, которые называют микробиоту ки- 
шечника человека новым органом, ранее 
недооцененным. Не стану говорить ба- 
нальности про то, что клеток бактерий в 
кишечнике больше, чем клеток человека, 
и так далее — сразу расскажу понятную 
мне аналогию. Мы думаем, что кишечник — 
это огромный химический реактор, в кото- 
С учетом того, что бактерии делятся и 
мутируют гораздо быстрее, чем орга- 
низм хозяина, можно сказать, что 
кишечник – это адаптогенный орган.
Партнер Фонда «Сколково» 
Мы находимся в огромном научном 
поле исследователей микробиоты, и 
конкуренция очень высока. Поэтому 
мы стараемся выбирать клинические 
темы очень узко и очень зависим от 
партнеров в клинике. 
25 
– Насколько специфичны для России за- 
дачи, над которыми Вы работаете? 
– Мы находимся в огромном научном поле 
исследователей микробиоты — и, ко- 
нечно, конкуренция очень высока. По- 
этому мы стараемся выбирать 
клинические темы очень узко и очень за- 
висим от партнеров в клинике. Насколько 
интересный случай заболевания они най- 
дут, насколько качественно смогут рабо- 
тать с протоколами, настолько 
качественный сиквенс и анализ мы смо- 
жем произвести. Пока у нас есть прове- 
ренные партнеры в гастроэнтерологии; 
мы с ними сделали очень хороший пилот- 
ный проект российского консорциума 
metagenome.ru. Отсюда и спектр заболе- 
ваний: различные кишечные и желудоч- 
ные заболевания и последствия 
антибиотикотерапии. 
Author: Dmitry Alexeev, head of Bioinformatics labo-ratory, 
SRI of Physical-Chemical Medicine 
Preliminary research shows relationships bet-ween 
the status of human microbiome and ten 
most widely spread diseases. With rapid se-quencing 
cost reduction, microbiome tests will 
soon be included in standard practice of the-rapy 
selection. We mostly work with gastroen-terological 
diseases and side effects of 
antibiotic use. 
dreamstime.com
МНЕНИЯ 
26 
ОМИКСНЫЕ ТЕХНОЛОГИИ 
В РОССИИ 
Каковы перспективы омиксных технологий в России, 
как государство может содействовать их развитию и на- 
сколько убедительным на мировом фоне выглядит оте- 
чественный научный задел в этой области? 
SkАльманах задал эти одинаковые вопросы своим респон- 
дентам и получил крайне любопытную палитру мнений. 
Николай Янковский 
(Институт общей генетики 
им. Н.И.Вавилова, Россия): 
Развитие омиксных технологий включает ла- 
бораторную работу и биоинформатику – ком- 
пьютерный анализ полученных в 
лаборатории данных. Отечественная школа 
биоинформатики очень сильна и достойно 
выглядит на мировом уровне. А вот исследо- 
вания, для которых необходимы разнообраз- 
ные реактивы и оборудование, довольно 
проблематично найти в России, и обходятся 
биологам, потому что они меньше зависят от 
инфраструктуры. Подробнее об этом — чуть 
ниже. 
Специалистов готовят на факультете био- 
инженерии и биоинформатики МГУ и на ка- 
федре информационной биологии 
факультета естественных наук Новосибир- 
ского государственного университета. Кроме 
того, имеются программы дополнительного 
образования. Есть программы подготовки 
биоинформатиков и в других университетах 
(например, в Казанском государственном 
университете и Московском физико-техни- 
ческом университете), но пока не очень 
сильные. Специалисты востребованы — био- 
информатика является очень дефицитной 
профессией, а уровень подготовки хороших 
выпускников позволяет им поступать в аспи- 
рантуру на Западе; аналогично, аспиранты, 
защитившиеся в сильных российских лабо- 
раториях, могут найти хорошее место 
постдока. В России многие эксперименталь- 
ные лаборатории пришли к мысли о том, что 
им необходимо либо тесное сотрудничество 
с биоинформатиками, либо биоинформатики 
в штате. 
Вторая часть вопроса, про роль государства 
в регуляции технологий, — это оксюморон. 
Если же речь идет о применении техноло- 
гий, то это зависит от того, где и как эти тех- 
нологии применяются. Скажем, диагностику, 
основанную на омиксных данных, регулиро- 
вать надо так же, как другие диагностиче- 
ские процедуры, анализы и т.п. Сохранение 
медицинской тайны — так же, как при гене- 
тических и прочих исследованиях. 
Для выбора наиболее актуальных и 
эффективных проектов необходимо 
развитие института рецензирования. 
они от 2,5 до 20 раз дороже, чем на Западе. 
Необходимо изменение таможенных пошлин 
на реагенты и оборудование для научных ис- 
следований, снижение забюрократизирован- 
ности их закупок. Для выбора актуальных и 
эффективных проектов необходимо разви- 
тие института рецензирования с привлече- 
нием квалифицированных экспертов 
российского и международного сообщества. 
Михаил Гельфанд (факультет 
биоинформатики и биоинженерии 
МГУ им. М.В.Ломоносова, Россия): 
Перспективы любой науки в России не очень 
радужны. Биоинформатикам в этом смысле 
немного проще, чем экспериментальным
Партнер Фонда «Сколково» 
dreamstime.com 
27 
Что до роли государства в развитии, то, 
опять же, тут нет никакой специфики. Госу- 
дарство должно развивать фундаменталь- 
ные аспекты науки, основанной на омиксных 
данных, путем открытых, прозрачных конкур- 
сов с адекватным уровнем финансирования 
и компетентной, добросовестной эксперти- 
зой, желательно международной. Без этого, 
как показывает опыт всех последних конкур- 
сов, включая гранты Российского научного 
фонда, невозможно обеспечить выполнение 
указанных условий и даже просто избежать 
банального конфликта интересов. Если же 
речь идет именно о создании и практическом 
использовании конкретных технологий, то 
тут имеют место стандартные проблемы: 
слабая заинтересованность экономики в 
новых технологиях; отсутствие реального ин- 
тереса у медицинских администраторов 
(проще зарабатывать на откатах при закуп- 
ках дорогого оборудования, при проведении 
клинических испытаний, на одобрении ле- 
карств). Сюда также следует добавить ко- 
роткие горизонты планирования и общую 
неуверенность бизнеса, в том числе старта- 
пов; бюрократические барьеры и попытки из- 
влечения административной ренты и т.п. 
В случае биологических разработок сложно- 
сти создают накрутки на стоимость оборудо- 
вания (приборы стоят минимум на 50% до- 
роже, чем в Европе или США) и таможенные 
барьеры (запрет на вывоз образцов; долгое 
оформление поступающих реактивов при не- 
адекватном их хранении). 
Владислав Милейко (Геномный 
центр Нанотехнологического центра 
«Техноспарк», Россия): 
Я искренне верю, что современный уровень 
открытости международного научного со- 
общества и потенциал российских команд 
позволит нам сократить существующее от- 
ставание в области биомедицинских иссле- 
дований, а в некоторых областях и добиться 
прорыва. Следует понимать, что на сего- 
дняшний день современные инструменты ис- 
следования по своим возможностям 
опережают задачи, которые мы готовы им 
ставить. Это означает, что во многом уро- 
Государство должно развивать фунда- 
ментальные аспекты науки, основанной 
на омиксных данных, путем открытых, 
прозрачных конкурсов.
МНЕНИЯ 
28 
вень достижений определяется качеством 
идеи, а не оснащенностью лаборатории. 
Таким образом, появляется шанс делать вы- 
дающиеся работы, обладая ограниченными 
ресурсами. 
Важным конъюнктурным фактором, который 
мог бы в позитивном смысле переломить си- 
туацию, является заинтересованное участие 
большого бизнеса в больших же проектах по 
омиксным исследованиям. Это относится и к 
фарминдустрии, и не только. 
Государство — важный участник развития в 
дорогостоящих областях, к которым отно- 
сятся и омиксные технологии. На мой 
взгляд, главная задача государства в этом 
контексте – обеспечить востребованность 
разработок. Это относится и к актуализации 
регуляторной сферы в соответствии с совре- 
менным состоянием технологий, и даже к 
пиару передовых технологий в индустриаль- 
ных кругах. На начальном этапе (на котором 
мы как раз находимся) важно, чтобы госу- 
дарство поддержало широкое внедрение 
прикладных технологий. Когда готовые ре- 
шения, на практике покажут «товар лицом», 
сам собой начнет расти интерес со стороны 
всех участников процесса: от исследовате- 
лей до инвесторов и бизнеса как потреби- 
теля новых технологий. 
Йошихиде Хаяшизаки (RIKEN, Япо- 
ния) и Олег Гусев (лаборатория 
“Functional Genomics”, Россия): 
Перспективы развития омиксных технологий 
в России в той области, которой мы занима- 
емся, представляются очень позитивными. 
В стране активно появляются омиксные 
центры. Да, по количеству и техническим по- 
казателям оборудования многим таким груп- 
пам еще далеко до ведущих мировых 
лидеров в области, например, геномики. В то 
же время технический потенциал позволяет 
решать большинство вопросов, связанных с 
омиксными технологиями. Пример: россий- 
ско-японская статья о расшифровке генома 
криптобиотической хирономиды, которая в 
сентябре 2014 года вышла в журнале Nature 
Communications1. Несмотря на то что коллек- 
тив авторов включает представителей ряда 
ведущих университетов Японии, основная 
часть секвенирования генома и анализа дан- 
ных проводилась в России, на базе МГУ им. 
М.В.Ломоносова. И это далеко не единичный 
пример! Многие группы в стране уже имеют 
1Gusev O., Suetsugu Y., Cornette R. et al. Comparative genome 
sequencing reveals genomic signature of extreme desiccation 
tolerance in the anhydrobiotic midge. Nature Communications 
5, Article number: 4784. doi:10.1038/ncomms5784. 
dreamstime.com
Партнер Фонда «Сколково» 
Оборудование очень плохо загружено 
из-за нехватки квалифицированного 
персонала, высокой стоимости расход- 
ных материалов, недостатка опыта. 
29 
заслуженную высокую репутацию и обла- 
дают всеми возможностями для работы в 
международных консорциумах и осуществ- 
ления собственных амбициозных проектов. 
Что до роли государства в регуляции и раз- 
витии омиксных технологий и биоинформа- 
тики, то хотелось бы видеть поменьше 
ограничений в международной кооперации 
для российских групп и побольше грантов, 
направленных на развитие этого направле- 
ния. И обязательно с привлечением ведущих 
иностранных экспертов. 
Одна из сложностей, с которой мы столкну- 
лись, — это высокий (часто запредельный) 
консерватизм врачей. Развитие омиксных 
технологий невозможно без активной обрат- 
ной связи со стороны медиков. Именно они 
должны являться «заказчиками» исследова- 
ний. Кроме того, одной из интересных ини- 
циатив может стать инициация 
федеральных программ по анализу этноспе- 
цифических особенностей активности ге- 
нома в норме и при разных патологиях 
параллельно в ряде регионов России. С на- 
учной и практической точек зрения, такие 
данные будут представлять высокую цен- 
ность и смогут стать основой новых подхо- 
дов в генетической диагностике. 
Виталий Пруцкий («АстраЗенека», 
Россия): 
Перспективы развития омиксных технологий 
в той области, которой я занимаюсь, — это 
проблема спроса и предложения. До тех пор, 
пока российская фармацевтическая про- 
мышленность остается в основном сфокуси- 
рована на дженериках, не стоит ожидать 
широкого применения этих технологий в 
России. Интересно, что возможность приме- 
нения таких технологий в России значи- 
тельно выше, чем спрос на них. Хотя и не 
настолько широко, как на Западе, но совре- 
менные высокопроизводительные омиксные 
методы и оборудование используются во 
многих академических институтах и некото- 
рых компаниях. Проблема в том, что обору- 
дование очень плохо загружено из-за 
нехватки квалифицированного персонала, 
высокой стоимости расходных материалов, 
недостатка опыта и, хуже всего, научных 
идей для применения этих технологий. 
Парадоксально, но клиническое примене- 
ние, возможно, будет развиваться в России 
быстрее, чем во многих других странах. У 
нас есть несколько стартапов в области «по- 
требительской геномики», которые предла- 
гают омиксные сервисы по предсказанию 
ответов на лекарственную терапию или 
даже составлению рекомендаций по пита- 
нию и здоровью. В целом я поддерживаю 
такое быстрое развитие. Но мы должны 
быть осторожны с интерпретацией предска- 
заний, поскольку поставщики таких серви- 
сов имеют мало опыта и часто не 
осведомлены о нуждах и требованиях для 
аналитической и клинической валидации 
тестов, которые они предлагают. 
Государственные структуры могут и, воз- 
можно, должны играть важную роль в не- 
скольких ипостасях. Во-первых, 
государство может помочь создать реаль- 
dreamstime.com
МНЕНИЯ 
30 
ный спрос на омиксные сервисы путем под- 
держки инноваций биофармацевтических 
компаний и развития оригинальных терапев- 
тических и диагностических продуктов. Это, 
конечно, непросто, поскольку разработка ин- 
новаций в биомедицине занимает длитель- 
ное время. 
Будет также необходимо существенное раз- 
витие научной и технологической экспер- 
тизы, которую Россия частично утратила, а 
частично никогда не имела. Экспертиза не 
приходит в виде книг и руководств. Необхо- 
димы люди с реальным опытом работы в на- 
учных исследованиях и разработках в 
глобальных фармацевтических компаниях, 
которые знают, «как это делается», и могут 
научить коллег. Государственные программы 
уже помогли привлечь некоторых россий- 
ских ученых, успешно работающих за рубе- 
жом. Но эти программы явно недостаточны 
по сравнению с масштабом задач. 
Если правительство заинтересовано в раз- 
витии фармацевтической индустрии, осно- 
ванной на инновациях (и омиксных техноло- 
гий как одного из инструментов), оно 
должно привлекать на лидерские позиции в 
российских институтах и компаниях россий- 
ских и зарубежных специалистов, реально 
участвовавших в развитии терапевтических 
препаратов и диагностических продуктов. 
Важно, что, несмотря на трудности, есть 
причины верить в то, что Россия быстро ра- 
зовьет омиксные технологии в применении к 
персонализированной медицине. 
Татьяна Татаринова (Школа меди- 
цины Кека Университета Южной 
Калифорнии, США): 
Россия могла бы выйти в лидеры омиксных 
технологий, приняв государственную про- 
грамму глобального генотипирования насе- 
ления, детального анализа заболеваемости 
и реакции на препараты у разных этниче- 
ских групп. Насколько мне известно, ни одна 
из крупных стран мира не имеет подобной 
масштабной планомерной программы. 
Результаты глобального генотипирования с 
помощью микрочипов и полногеномного сек- 
венирования также будут иметь огромное 
фундаментальное значение для изучения 
истории расселения и смешения народов 
России. Десятки малочисленных народов 
Необходимы эксперты с реальным 
опытом работы в научных исследованиях 
и разработках в глобальных 
фармацевтических компаниях. 
dreamstime.com 
dreamstime.com
Партнер Фонда «Сколково» 
31 
находятся на грани исчезновения, и в тече- 
ние ближайших 10 лет у нас есть последняя 
возможность изучить их историю методами 
генетики. Такие работы уже ведутся: группы 
Е.В. и О.П.Балановских из Медико-генетиче- 
ского научного центра РАМН, С.А.Лимбор- 
ской из Института молекулярной генетики 
РАН и А.С.Кондрашова из МГУ им. М.В.Ло- 
моносова описывают генотипы разных наро- 
дов, населяющих Россию. Моя лаборатория 
в CHLA сотрудничает с группой профессора 
А.С.Кондрашова в области исследования на- 
родов Таймыра и Енисея. Мы только что 
вернулись из Сибири, где собрали около 130 
образцов ДНК малых народов. 
Россия – одна из самых этнически неодно- 
родных стран в мире. Уже достоверно уста- 
новлено, что реакция на многие 
медицинские препараты и частота заболева- 
ний различаются между этническими груп- 
пами. Приведу несколько примеров. 
Эндометриоз чаще встречается у азиатских 
женщин и менее распространен у африканок 
по сравнению с европейками2. А, например, 
пациентам с африканскими корнями необхо- 
димо принимать более высокие дозы варфа- 
рина по сравнению с пациентами европей- 
ского и азиатского происхождения для до- 
стижения одинакового антикоагуляционного 
эффекта3. Пациенты с азиатскими корнями 
более чувствительны к токсичности препа- 
ратов антираковой химиотерапии, содержа- 
щим платину, чем европейцы4. Многие 
производители лекарств уже тестируют пре- 
параты независимо для разных рас. К сожа- 
лению, этого уровня детальности 
недостаточно для многих препаратов, и не- 
обходимо отойти от грубого деления на 
расы. Например, обнаружено, что концентра- 
ция препарата такролимус через 12 часов 
после приема различается в 3-5 раз у паци- 
ентов из различных областей Африки. А 
если принять во внимание, что представи- 
тели разных этнических групп смешиваются 
и забывают свои корни, задача вырисовыва- 
ется очень сложная. 
Если говорить о роли государства, то оно 
должно поддерживать фундаментальные и 
прикладные исследования в России и по- 
ощрять внедрение успешных западных раз- 
работок и технологий. Наверное, не стоит 
пытаться изобрести в России то, что уже 
изобретено и проверено на Западе, это 
2Gerlinger C., Faustmann T., Hassall J.J., Seitz C. Treatment of 
endometriosis in different ethnic populations: a meta-analysis 
of two clinical trials. BMC Womens Health. 2012 Apr 19;12:9. 
doi: 10.1186/1472-6874-12-9. Review. 
3Yasuda S.U., Zhang L., Huang S.M. The role of ethnicity in vari-ability 
in response to drugs: focus on clinical pharmacology 
studies. Clin. Pharmacol. Ther. 2008 Sep;84(3):417-23. doi: 
10.1038/clpt.2008.141. Epub 2008 Jul 9. 
4O'Donnell P.H., Gamazon E., Zhang W. et al. Population differ-ences 
in platinum toxicity as a means to identify novel genetic 
susceptibility variants. Pharmacogenet. Genomics. 2010 
May;20(5):327-37. doi: 10.1097/FPC.0b013e3283396c4e. 
dreamstime.com
МНЕНИЯ 
32 
dreamstime.com 
только усилит технологическое отставание. 
Сотрудничество с западными компаниями, 
госпиталями и университетами гораздо пер- 
спективнее поиска собственного пути. В Рос- 
сии много замечательных ученых в области 
фундаментальной биологии и биоинформа- 
тики. Они выжили и сохранили международ- 
ное лидерство в годы перестройки 
(например, биоинформатическая лаборато- 
рия профессоров М.С.Гельфанда и А.А.Ми- 
ронова в МГУ им. М.В.Ломоносова). Многие 
из них работают на одном энтузиазме. Их не- 
обходимо поддерживать. Тогда Россия 
будет выступать равным партнером в меж- 
дународном сотрудничестве. 
Екатерина Померанцева (Институт 
стволовых клеток человека, Россия) 
Перспективы развития омиксных технологий 
в России кажутся мне хорошими. С точки 
зрения научных кадров в России уже сейчас 
есть хорошие команды, квалифицированные 
специалисты, готовые создавать продукты и 
услуги на основе таких технологий. 
Но ограничения в этой области тоже есть. 
Некоторые из них — общемировые, другие – 
скорее, локальные. Например, проблема па- 
тентной защиты едина для специалистов по 
геномике из всех стран. С другой стороны, 
наше ограничение — это недостаток знаний 
у клиницистов о возможностях геномных 
технологий. Проблемы с оценкой качества 
таких услуг также очень актуальны. Сейчас 
практически нет возможности отличить хо- 
роший, информативный и научно обоснован- 
ный тест от плохо продуманного, клинически 
бессмысленного. Приоритеты государства в 
регуляции и развитии омиксных технологий 
и биоинформатики вполне очевидны. Во- 
первых, это снижение зависимости от им- 
порта. Во-вторых, государственная 
поддержка больных, которые прибегают к 
геномным исследованиям при наследствен- 
ных заболеваниях: требуется рассмотреть 
возможность хотя бы частичной компенса- 
ции расходов на диагностику. В числе прио- 
ритетов – обучение специалистов, 
правильному пониманию геномных данных. 
Татьяна Серебрийская («РосГенДиаг- 
ностика», Россия) 
Необходимо отметить сложности внедрения 
клинико-диагностических тестов на основе 
омиксных данных в клиническую практику. К 
ним можно отнести стоимость оборудования 
и отсутствие достаточного количества высо- 
коквалифицированных специалистов-гене- 
тиков. Другой большой проблемой является 
отсутствие четких стандартов проведения 
исследований, которые относятся к области 
как гистопатологической практики, так и 
биоинформационной обработки результатов. 
Роль государства — поддерживать внедре- 
ние инновационных методов в клиническую 
практику, но при этом жестко контролиро- 
вать качество молекулярно-диагностических 
тестов. Государство может помочь в преодо- 
лении трудностей, стоящих перед исследо- 
вателями и разработчиками, посредством 
различных программ и грантов, спонсируя 
закупку дорогостоящего оборудования и 
способствуя повышению квалификации вра- 
чей-генетиков. 
Более глобальной для России проблемой яв- 
ляется зависимость от поставки импортных 
реактивов для секвенирования. В отличие 
от оборудования, которое покупается одно- 
кратно, реактивы нужны постоянно. 
Отсутствие своего производства 
реактивов для молекулярной генетики 
ставит страну в полную зависимость от 
поставщиков-монополистов.
Партнер Фонда «Сколково» 
33 
Андрей Афанасьев (iBinom, Россия): 
Омиксные технологии в России будут разви- 
ваться и со временем должны войти в кли- 
ническую практику. Пока что большинство 
применений находится на стадии научных и 
медицинских исследований. В этой связи 
было здорово увидеть государственную под- 
держку этих направлений. Наиболее важ- 
ными представляются индивидуальная 
диагностика наследственных заболеваний 
на основе геномного секвенирования, а 
также персонализированная диагностика 
онкологических заболеваний на основе сек- 
венирования экзомов и транскриптомов опу- 
холевой и здоровой тканей. 
О государственной регуляции, по моему мне- 
нию, говорить пока рано, тем более что из- 
быточная регуляция в данной области 
может только навредить, как навредил об- 
суждавшийся закон о клеточных техноло- 
гиях, по сути сделавший невозможными 
клинические исследования в этой области. 
Дмитрий Алексеев (НИИ физико- 
химической медицины, Россия): 
Опыт общения с европейскими и американ- 
скими коллегами показывает: если раньше 
владение омиксными технологиями было 
определенным козырем, то сейчас оно ста- 
новится сервисной услугой. Исследователи 
включаются в процесс либо на стадии пла- 
нирования и подготовки эксперимента, либо 
занимаются анализом данных. Много омикс- 
ных решений приходит в клинику. 
Мне кажется, что в России будет то же 
самое: ученые просто будут заказывать ис- 
следования и получать результаты, клиници- 
сты, вероятно, получат какие-то in vitro 
диагностические (IVD) устройства, где не- 
возможно менять параметры, но и выход 
будет прогнозируемым. 
Вопрос о роли государства в регуляции и 
развитии омиксных технологий и биоинфор- 
матики, а также о приоритетах в этой обла- 
сти довольно сложен. Хотелось бы, чтобы 
государство ставило задачи другого уровня. 
Например, запуск ракеты на Юпитер, сниже- 
ние заболеваемости раком вдвое, улучше- 
ние производительности труда на 30%. Вот 
где хорошо бы выбирать приоритеты. 
Если раньше владение омиксными 
технологиями было определенным 
козырем для группы, то сейчас оно 
становится сервисной услугой. 
Дальше профессиональная команда могла 
бы отбирать решения, направленные на до- 
стижение результата. И тут точно никак без 
омиксных технологий и биоинформатики не 
обойтись. Фундаментальные исследования 
сейчас уже проводятся на основе конкурсов. 
Те конкурсы, что я видел, прозрачны, пра- 
вила их более-менее ясны. Так что тут регу- 
ляция не нужна — самые активные и 
умеющие доносить свои идеи люди добьются 
реализации своих идей. 
Что касается биоинформатики, то мы имеем 
огромный и мощный сектор IT. Здесь мы пре- 
одолеем все барьеры легко и не только заме- 
стим импорт, но и создадим товары на 
экспорт. Это уже происходит. Что касается 
омиксных технологий, то в этой области про- 
цессы займут чуть больше времени. Думаю, 
конструкцию больших приборов нам уже не 
стоит догонять, а вот в гонке за миниатюр- 
ные, носимые, вживляемые устройства мы 
вполне можем соревноваться. 
В этих вопросах роль государства состоит в 
том, чтобы создать цели, разумные и про- 
зрачные правила и исполнять их. Вот и все. А 
остальное мы сами в состоянии освоить, об- 
думать и понять, как наши идеи из фунда- 
ментального поля могут сообразно задаче 
перейти в практическую плоскость. 
dreamstime.com
СООБЩЕСТВО 
34 
ГЕНОМИКА В РОССИИ: 
ОБРАЗОВАНИЕ, НАУКА, БИЗНЕС 
Авторы: Андрей Афанасьев, iBinom; Евгения Власова, Высшая школа экономики; Юрий Пеков, МГУ им. М.В.Ломо- 
носова; Евгений Цымбалов, Высшая школа экономики; Ростислав Яворский, Высшая школа экономики 
Профессиональное сообщест- 
во — это сложный организм, ко- 
торый состоит из людей разных 
специальностей, разных компе- 
тенций, с разными целями и ин- 
тересами, из компаний (больших 
и маленьких), университетов, на- 
учных центров, технопарков, биз- 
нес-инкубаторов, инвестицион- 
ных фондов и проводимых ими 
мероприятий. В данном обзоре 
собрана информация о ключевых 
составляющих «профессиональ- 
ного сообщества геномики» в 
России: образовательных учреж- 
дениях, научных центрах, ком- 
мерческих организациях, чья 
деятельность в той или иной сте- 
пени связана с геномными иссле- 
дованиями. 
ОБРАЗОВАНИЕ 
Разделим образовательные услуги по направ- 
лению генетики и биоинформатики на 2 
блока: основного и дополнительного образо- 
вания. Основным образованием мы назовем 
программы специалитета, балакалавриата и 
магистратуры государственных высших учеб- 
ных заведений. Дополнительным — отдель- 
ные очные и заочные курсы разной дли- 
тельности и сложности и циклы семинаров. 
Основное образование 
Основное образование в области геномики и 
биоинформатики в той или иной степени 
представлено в 17 государственных высших 
учебных заведениях (табл. 1), 6 из этих вузов 
находятся в Москве, Московской области или 
Санкт-Петербурге. Остальные расположены в 
Новосибирске, Нижнем Новгороде, Тюмени, 
Волгограде, Воронеже, Саратове, Калинин- 
граде, Саранске, Калуге и Уфе. 
В связи с междисциплинарностью этого на- 
правления образовательные программы 
представлены не только на биоинформатиче- 
ских, биотехнологических, биологических фа- 
культетах (МГУ им. М.В.Ломоносова, СПбГУ, 
НГУ им. Н.И.Лобачевского, МГМУ им. 
И.М.Сеченова, МФТИ, ТюмГУ, НИ МГУ имени 
Н.П.Огарева, БФУ им. И.Канта, КГПУ им. 
К.Э.Циолковского, СГУ им. Н.Г.Чернышев- 
ского) и естественно-научных факультетах 
(НГУ им. Н.И.Лобачевского, БГПУ им. М.Ак- 
муллы), но и на физико-механическом фа- 
культете (СПбГУ), факультетах свободных 
искусств и наук (СПбГУ), приоритетных тех- 
нологий (ВолГУ), вычислительной матема- 
тики и кибернетики (НГУ им. 
Н.И.Лобачевского), биологической и меди- 
цинской физики (МФТИ). 
Пока полный цикл высшего образования (от 
бакалавра или специалиста до аспиранта) по 
данному направлению можно пройти только в 
МГУ им. М.В.Ломоносова, СПбГУ, МФТИ и 
ВолГУ. 
Дополнительное образование 
В Москве и Санкт-Петербурге за последние 5 
лет широкое распространение получили 
очные курсы по биоинформатике и циклы се- 
минаров продолжительностью от семестра до 
2 лет (табл. 2) 
При условии прохождения конкурса все из 
них можно посещать бесплатно. 
Также познакомиться с основами биоинфор- 
матики можно дистанционно, решая задачи 
на уникальной платформе для самообразова- 
ния в области биоинформатики Rosalind, раз- 
работанной командой из Санкт-Петербурга, 
или пройдя подготовленный в СПбГУ шести- 
недельный курс на платформе Coursera.
Партнер Фонда «Сколково» 
35 
Таблица 1. Основное образование по направлению генетики и биоинформатики 
специалитет 
бакалавриат 
магистратура 
Количество 
мест 
бюджетные 
платные 
Учебное заведение 
Факультет 
или образовательная программа, 
страница в Интернете 
Стоимость 
1 года обучения 
(руб.) 
Проходной балл 
в 2013/2014 г. 
Уровни 
подготовки 
Московский 
государственный 
университет имени 
М.В.Ломоносова 
Биологический факультет (с кафедрами ге- 
нетики, биоинженерии и биотехнологий) 
www.bio.msu.ru/doc/index.php?ID=33 * * 181 38 325 000 421/500 
Факультет биоинженерии и биоинформатики 
www.fbb.msu.ru/doc/index.php?ID=98 * 30 25 325 000 447/500 
Санкт-Петербургский 
государственный 
университет 
Биологический факультет 
(с кафедрой генетики и биотехнологий) 
www.bio.spbu.ru * * 75 15 201 500 229/300 
Факультет свободных искусств и наук 
(с биоинформатическим направлением 
Науки о жизни) 
www.artesliberales.spbu.ru/adm/bachelors/major/ls * * 60 — 239 500 273/300 
Новосибирский 
государственный 
университет 
Факультет естественных наук 
(с кафедрой информационной биологии) 
www.kib.nsu.ru * * 150 65 100 000 213/300 
Первый Московский 
государственный меди- 
цинский университет 
им. И.М.Сеченова 
Биоинженерия и биоинформатика 
www.mma.ru/education/pocty * нет 10 90 000 — 
Биотехнология 
www.mma.ru/education/pocty * 10 15 96 000 — 
Московский физико- 
технический университет, 
Долгопрудный, 
Московская область 
Факультет биологической и медицинской 
физики (с кафедрой биоинформатики) 
www.mipt.ru/education/chairs/bioinformatics * * — — — — 
Санкт-Петербургский 
академический 
университет РАН 
Кафедра математических 
и информационных технологий 
www.mit.spbau.ru * * 0 25 20 000 — 
Тюменский государствен- 
ный университет 
Биоинженерия и биоинформатика 
www.go.utmn.ru/?pageid=8898 * 11 10 74 850 — 
Национальный исследо- 
вательский Мордовский 
государственный 
университет им. 
Н.П.Огарева, Саранск 
Факультет биотехнологии и биологии 
(специальность Биотехнология) 
www.mrsu.ru/ru/i_faculty/detail.php?ID=3485 * * 30 10 112 000 193/300 
Факультет биотехнологии и биологии (специ- 
альность Биоинженерия и биоинформатика) 
www.mrsu.ru/ru/i_faculty/detail.php?ID=3486 * 18 15 67 060 221/300 
Балтийский федеральный 
университет им. И.Канта, 
Калининград 
Химико-биологический институт 
(специальность Биоинженерия 
и биоинформатика) 
www.kantiana.ru/education/high * 25 — 86 000 194/300 
Саратовский государст- 
венный университет им. 
Н.Г.Чернышевского 
Биоинженерия и биоинформатика 
www.sgu.ru/structure/biological/courses/bachelor-bio-inzheneriya- 
i-bioinformatika-specialitet * 10 10 68 400 183/300 
Воронежский государст- 
венный университет 
инженерных технологий 
Биоинженерия и биоинформатика 
www.vsuet.ru/obuch/spec.asp * 25 — 53 650 129/300 
Волгоградский 
государственный 
университет 
Институт приоритетных технологий (направ- 
ление Биоинженерия и биоинформатика) 
www.volsu.ru/struct/institutes/ipt * 21 — 78 400 194/300 
Башкирский государствен- 
ный педагогический уни- 
верситет им. М.Акмуллы 
Естественно-географический факультет 
(с кафедрой генетики) 
www.bspu.ru/node/5651 * 66 10 67 060 167/300 
Калужский государствен- 
ный университет им. 
К.Э.Циолковского 
Генетика 
www.tksu.ru/ie/default.aspx * 16 14 87 460 205/300 
Санкт-Петербургский 
государственный поли- 
технический университет 
Физико-механический факультет 
www.amd.stu.neva.ru/education/bioinformatics * 162 35 42 500 172/300 
Нижегородский государст- 
венный университет им. 
Н.И.Лобачевского 
Факультет вычислительной математики и 
кибернетики (направление Биоинформатика) 
www.vmk.unn.ru/bioinformatics * * 213 110 85 000 196/300 
«–»: нет информации.
СООБЩЕСТВО 
36 
Таблица 2. Дополнительное образование по направлению 
генетики и биоинформатики 
НАУКА 
Научные центры 
Подробный анализ научных исследований 
по геномике в России предоставляет сер- 
вис eLibrary http://www.elibrary.ru. По за- 
просу «геном» и с ограничением поиска на 
статьи, выпущенные за последние 3 года, 
на сентябрь 2014 года выборка включает 
5928 публикаций, большинство из 
которых — журнальные статьи. 
Ориентировочно полсотни организаций 
выпустили за этот период не менее 30 пуб- 
ликаций (в среднем не менее 10 статей в 
год). По этому критерию можно судить, 
что геномика относится к сфере их на- 
учной деятельности и в их составе есть 
активно работающая группа ученых. Спи- 
сок этих организаций приведен в табл. 3. 
Не является неожиданным, что основные 
научные центры расположены в Москве, 
Санкт-Петербурге и Новосибирске. На пе- 
речисленные в табл. 3 организации прихо- 
дится 46% всех публикаций (2748 из 5928). 
Рисунок 1.Типы публикаций в выборке, 
сформированной по запросу «геном» 
по данным сервиса eLibrary 
5426 
181 
148 
114 
59 
статья в журнале 
патент 
диссертация 
статья в сборнике конференции 
другие публикации (книги, отчеты, главы) 
Учебное заведение, официальный сайт 
Вид 
занятий 
Форма 
обучения 
Стоимость Длительность 
обучения 
Moscow Bioinformatic School 
http://www.bioinformaticseminar.com/ru/wiki Семинары Вечерняя Бесплатно 2 года 
Школа анализа данных («Yandex») 
Полный 
wwwbioinformaticseminar.com/ru/ 
курс Вечерняя Бесплатно 2 года 
NgsCourse (факультет биоинженерии и 
биоинформатики МГУ им. М.В.Ломоносова) 
www.bioinf.fbb.msu.ru/wiki/index.php/NgsCourse 
Полный 
курс Заочная Бесплатно Семестр 
Центр геномной биоинформатики 
им. Ф.Г.Добржанского Санкт-Петербургского 
государственного университета 
www.dobzhanskycenter.bio.spbu.ru/ru/obrazovanie 
Семинары Заочная Бесплатно Индивиду- 
ально 
Введение в биоинформатику: биоинформатика 
в биологии и медицине (Санкт-Петербургский 
государственный университет, Coursera) 
www.coursera.org/course/bioinfo 
Дистанци- 
онный курс Заочная Бесплатно Индивиду- 
ально 
Московский семинар по биоинформатике 
(факультет биоинженерии и биоинформатики 
МГУ им. М.В.Ломоносова) 
www.rtcb.iitp.ru/msb/index.htm 
Семинары Очная Бесплатно Индивиду- 
ально 
Институт биоинформатики Санкт-Петербург- 
ского академического университета 
www.bioinformaticsinstitute.ru 
Полный 
курс 
20 часов 
в неделю 
Бесплатно/ 
10 000 руб. 2 года 
Rosalind 
www.rosalind.info/problems/locations 
Дистанци- 
онный курс Заочная Бесплатно Индивиду- 
ально
Партнер Фонда «Сколково» 
37 
Таблица 3. Организации, работающие по направлению генетики и биоинформатики 
Организация 
Москва 
Московский государственный университет 
им. М.В.Ломоносова 127 
Первый Московский государственный ме- 
дицинский университет им. И.М.Сеченова 124 
Медико-генетический научный центр РАМН 106 
Российский онкологический научный центр 
им. Н.Н.Блохина РАМН 102 
Институт генетики им. Н.И.Вавилова РАН 77 
Научный центр акушерства, гинекологии и 
перинатологии им. академика В.И.Кулакова 58 
Институт молекулярной биологии 
им. В.А.Энгельгардта РАН 57 
Российский университет дружбы народов 57 
Российский национальный исследователь- 
ский медуниверситет им. Н.И.Пирогова 55 
Государственный научно-исследователь- 
ский институт генетики и селекции 
48 
промышленных микроорганизмов 
Институт биоорганической химии им. акад. 
М.М.Шемякина и Ю.А.Овчинникова РАН 48 
Институт биологии гена РАН 44 
Российский государственный аграрный 
университет — Московская сельскохозяй- 
44 
ственная академия им. К.А Тимирязева 
Гематологический научный центр 42 
Институт молекулярной генетики РАН 41 
Научно-исследовательский институт общей 
патологии и патофизиологии РАМН 41 
Институт иммунологии ФМБА 38 
Центр "Биоинженерия" РАН 37 
Институт биологии развития 
им. Н.К.Кольцова РАН 36 
Институт микробиологии 
им. С.Н.Виноградского РАН 35 
Эндокринологический научный центр 
Минздрава РФ 34 
Институт физиологии растений 
им. К.А.Тимирязева РАН 33 
Московский медико-стоматологический 
университет им. А.И.Евдокимова 29 
Центральный научно-исследовательский 
институт эпидемиологии Роспотребнадзора 29 
Санкт-Петербург 
Санкт-Петербургский государственный 
университет 81 
Северо-Западный государственный меди- 
цинский университет им. И.И.Мечникова 49 
Первый Санкт-Петербургский государст- 
венный медицинский университет 
46 
им. акад. И.П.Павлова 
Санкт-Петербургский государственный 
педиатрический медицинский университет 34 
Федеральный центр сердца, крови и 
эндокринологии им. В.А.Алмазова 32 
Научно-исследовательский институт 
экспериментальной медицины СЗО РАМН 31 
Организация 
Новосибирск 
Институт цитологии и генетики СО РАН 152 
Институт химической биологии и фунда- 
ментальной медицины СО РАН 78 
Новосибирский национальный исследова- 
тельский государственный университет 64 
Новосибирский государственный медицин- 
ский университет 50 
Научно-исследовательский институт тера- 
пии и профилактической медицины 
43 
СО РАМН 
Научно-исследовательский институт моле- 
кулярной биологии и биофизики СО РАМН 32 
Другие города 
Белгородский государственный националь- 
ный исследовательский университет 41 
Научный центр проблем здоровья семьи и 
репродукции человека СО РАМН, Иркутск 37 
Казанский (Приволжский) федеральный 
университет 67 
Казанский государственный медицинский 
университет 65 
Красноярский государственный медицин- 
ский университет им. В.Ф.Войно-Ясенецкого 42 
Курский государственный медицинский 
университет 35 
Омская государственная медицинская ака- 
демия 34 
Донской государственный аграрный 
университет, Ростов-на-Дону 33 
Саратовский государственный медицин- 
ский университет им. В.И.Разумовского 33 
Сибирский государственный медицинский 
университет, Томск 63 
Научно-исследовательский институт меди- 
цинской генетики Томского научного 
47 
центра СО РАМН 
Институт биохимии и генетики Уфимского 
НЦ РАН 84 
Башкирский государственный медицинский 
университет, Уфа 48 
Башкирский государственный 
университет, Уфа 36 
Читинская государственная медицинская 
академия 49 
число 
публикации 
число 
публикации
СООБЩЕСТВО 
38 
Журналы 
Для формирования списка основных журналов мы воспользовались тем же критерием: 
не менее 30 публикаций с начала 2012 года. На эти журналы приходится четверть (1502 
из 5928) всех публикаций из рассматриваемой коллекции (табл. 4). 
Таблица 4. Журнальные публикации в выборке, сформированной по запросу 
«геном, с начала 2012 года» по данным сервиса eLibrary 
Издатель Название журнала Количество 
публикаций 
МАИК Наука/Интерпериодика Генетика 226 
МАИК Наука/Интерпериодика Молекулярная биология 145 
ФГБНУ «Центральная научная 
сельскохозяйственная библиотека» Ветеринария. Реферативный журнал 132 
МАИК Наука/Интерпериодика Биохимия 85 
Издательство РАМН Бюллетень экспериментальной биологии 
и медицины 77 
Российская академия 
естествознания Фундаментальные исследования 77 
Институт цитологии и генетики 
СО РАН, Новосибирск Вавиловский журнал генетики и селекции 72 
МАИК Наука/Интерпериодика Микробиология 71 
Издательство «Медицина» Гематология и трансфузиология 56 
Российская академия 
естествознания Современные проблемы науки и образования 52 
ФГБУ «Медико-генетический 
научный центр» Медицинская генетика 51 
Отделение биологических наук РАН Цитология 49 
ООО «Бионика Медиа» Акушерство и гинекология 46 
Восточно-Сибирский научный 
Бюллетень Восточно-Сибирского научного 
центр СО РАМН 
центра СО РАМН 41 
МАИК Наука/Интерпериодика Физиология растений 41 
Санкт-Петербургский научный 
центр РАН Экологическая генетика 41 
Российская академия 
сельскохозяйственных наук Сельскохозяйственная биология 40 
Издательский дом «Русский врач» Молекулярная медицина 38 
МАИК Наука/Интерпериодика Доклады Академии наук 37 
Издательство Park Media Ltd, 
Moscow Acta Naturae (русскоязычная версия) 33 
Издательство Союза педиатров 
Вестник Российской академии медицинских 
России «ПедиатрЪ» 
наук 32 
Издательство «Медиа Сфера» Журнал неврологии и психиатрии 
им. C.C.Корсакова 30 
Московский институт педиатрии 
и детской хирургии 
Российский вестник перинатологии 
и педиатрии 30
Партнер Фонда «Сколково» 
39 
Направления исследований 
Как уже видно из названий журналов, основной фокус исследований генома лежит 
в области биологии и химии, математические науки и биоинформатика практически 
не представлены (рис. 2). 
Рисунок 2. Распределение по тематическим рубрикам в коллекции 
«геном, с начала 2012 года» по данным сервиса eLibrary 
(5 наиболее представленных тематик) 
Медицина и здравоохранение 
Биология 
Сельское и лесное хозяйство 
Химия 
Экономика. Экономические науки 
5637 
3856 
1319 
501 
390 
Использованный подход к поиску публика- 
ций обладает множеством недостатков, не 
может охватить многочисленные нюансы и 
специфику научной деятельности и даже 
не учитывает различный уровень значимо- 
сти статей, для измерения которого 
обычно используют индексы цитирования 
и импакт-факторы. Количество статей для 
разных организаций и изданий ни в коем 
случае не может быть главной характери- 
стикой научной деятельности. Тем не 
менее данный вид анализа позволяет в 
первом приближении оценить численность 
научных центров и тематику исследований 
по темам, связанным с геномикой. 
БИЗНЕС 
Объем российского рынка геномики и био- 
информатики пока не превышает 500 млн 
руб. и находится в стадии активного фор- 
мирования. Темпы роста рынка доста- 
точно высоки и превышают 30%. Основ- 
ные драйверы роста: фантастическое па- 
дение стоимости геномного 
секвенирования и накопление доказа- 
тельств медицинской эффективности дан- 
ных диагностических технологий, а также 
рост осведомленности врачей и граждан о 
возможностях современной геномики. 
Список компаний 
В табл. 5 включены компании, занимаю- 
щиеся геномикой и биоинформатикой, 
большинство сотрудников которых рабо- 
тают в России, независимо от их организа- 
ционно-правовой формы и страны 
регистрации юридического лица. Большин- 
ство игроков существует менее 3 лет. Почти 
все они сосредоточены в Москве, Санкт-Пе- 
тербурге и Новосибирске — регионах с до- 
статочными компетенциями в области 
биоинформатики. Коллектив и руководство 
большинства компаний моложе 35 лет.
СООБЩЕСТВО 
Ugene 
www.ugene.unipro.ru Константин Оконечников Новосибирск 2008 Продажи 
Свободное программное обеспечение для молекулярных биологов. Компания разрабатывает программный про- 
дукт, в который интегрированы наиболее используемые алгоритмы анализа генетических данных в единой ви- 
зуальной рабочей среде, удобной для прикладного специалиста. 
40 
Таблица 5. Компании, занимающиеся геномикой и биоинформатикой 
Компания, 
официальный сайт Ключевые лица Город 
Год 
осно- 
вания 
Стадия 
готовности 
продукта 
РосГенДиагностика 
www.community.sk.ru/ 
net/1120425 
Татьяна Никольская, 
Татьяна Серебрийская Москва 2012 Разработка 
Технологии ранней диагностики рака на основе персонализированной медицины. Компания также анализирует 
геномные и экспрессионные данные, полученные из образца опухоли или биопсии онкологического больного и ре- 
комендует лечащему врачу набор наиболее важных генов-мишеней и комбинаций доступных на рынке лекарств, 
которые будут максимально эффективны для лечения данного пациента. 
Personal Biomedicine 
www.personalbiomed.ru Михаил Пятницкий Москва 2013 Разработка 
Подбор персонализированной противораковой терапии на основе анализа данных секвенирования экзома и транс- 
криптома больной и здоровой тканей пациента. Компания выявляет изменения генетического материала в образцах 
опухолевой ткани, создает базы данных генов, вовлечённых в онкогенез различных типов опухолей, и предлагает 
врачам варианты лекарственной терапии в зависимости от обнаруженных генетических нарушений. 
GeneStack 
www.genestack.com Михаил Капущевский Кембридж, 
Санкт-Петербург 2012 Разработка 
Компания разрабатывает программную платформу (веб-сервис) для разработки и запуска сложных биоинформа- 
тических приложений, безопасного хранения и распространения внутри организации или публично большого 
объема биологических данных. Для сторонних разработчиков выпущены спецификации, которые позволяют 
встроить в платформу собственное приложение. 
iBinom 
www.ibinom.com 
Андрей Афанасьев, 
Игнат Колесниченко, 
Валерий Ильинский 
Москва 2012 Продажи 
Облачный сервис по анализу геномных данных для врачей. Компания создает программный продукт для под- 
держки принятия решений при диагностике наследственных заболеваний, позволяющий врачам-генетикам быстро 
получать из данных секвенирования список мутаций, являющихся потенциальными кандидатами на причину на- 
следственного заболевания. 
MirOB 
www.mirob.interactome.ru Александр Фокин Москва 2012 Разработка 
Программная платформа анализа генных сетей для решения задач персонализированной медицины. Компания 
создает базу данных валидированных молекулярно-генетических взаимодействий, сфокусировавшись на 
микроРНК и транскрипционных факторах. Разработан визуализатор генных сетей по различным критериям. Реа- 
лизован поиск кратчайших путей между группами указанных генов. 
Oftalmic 
www.oftalmic.ru Марианна Иванова Москва 2008 Продажи 
Генетическая диагностика и поиск путей эффективного патогенетически направленного лечения глазных забо- 
леваний. Клиент прислает по почте пробирку с образцами своего биологического материала, после анализа кото- 
рого сотрудники компании проводят поиск изменений в геноме, приводящих к заболеваниям глаз, разъясняют 
результаты генетических тестов и определяют, к каким заболеваниям глаз клиент имеет предрасположенность. 
Компания также проводит консультации о возможностях генетической диагностики и эффективных способах лече- 
ния глазных заболеваний. 
Первый онкологический 
научно-консультационный 
Антон Буздин, 
центр 
Андрей Гаража, 
Москва 2012 Разработка 
www.ponkc.com/index.html 
Алекс Жаворонков 
Услуги по персонализированному подбору терапии для пациентов с онкологическими заболеваниями на основе 
методов транскриптомного профилирования и анализа интерактома клетки. Компания проводит детальный мо- 
лекулярно-генетический анализ тканей пациента, индивидуализированный крупномасштабный скрининг экспрес- 
сии генов, генетическую паспортизацию и разрабатывает индивидуальную карту лечения. 
Knomics 
Дмитрий Алексеев, 
www.knomics.ru 
Эдуард Ашрафьян Москва 2011 Продажи 
Поддержка биомедицинских исследований, проводимых с использованием омиксных технологий: протеомика, ге- 
номика, транскриптомика, метаболомика. Компания также оказывает услуги по комплексному биоинформатиче- 
скому анализу бактериальных геномов на основе данных, полученных с помощью NGS, услуги по обучению основам 
биоинформатического анализа данных высокопроизводительного секвенирования и услуги по организации и про- 
ведению биоинформатических школ для обучения основам биоинформатического анализа данных высокопроиз- 
водительного секвенирования NGS. 
ParSeq 
Александр Павлов, 
www.parseq.pro 
Антон Брагин Санкт-Петербург 2012 Продажи 
Комплексные решения для молекулярно-генетических исследований на основе технологии NGS. Компания разра- 
батывает диагностические панели для выявления тяжелых наследственных заболеваний, комплексные базы дан- 
ных с информацией о наиболее значимых генетических мутациях и полиморфизмах, а также программную среду 
и биоинформатические ресурсы для интерпретации генетической информации пациента, полученной в ходе сек- 
венирования, для использования ее в медицинских целях.
Партнер Фонда «Сколково» 
41 
Компания, 
Продолжение таблицы 5. 
официальный сайт Ключевые лица Город 
Biosoft 
www.biosoft.ru 
Год 
осно- 
вания 
Стадия 
готовности 
продукта 
Александр Кель, 
Федор Колпаков Новосибирск 2002 Продажи 
Создание унифицированной платформы для анализа биомедицинских данных. Компания также проводит интег- 
рированный анализ данных по геномике, транскриптомике, протеомике, метаболомике и эпигеномике, разраба- 
тывает базы биологических данных, строит математические и вычислительные модели молекулярных и 
физиологических процессов в клетках и органах человеческого тела. 
Xgencloud 
www.xgen.ru Игорь Угаров Москва 2010 Продажи 
Комплексные решения в области медицинских информационных технологий. Компания создает среду разра- 
ботки диагностических систем для наследственных и мультифакториальных заболеваний, облачный сервис для 
автоматического назначения и интерпретации результатов генетических анализов, а также информационно-по- 
исковую диагностическую систему для наследственных глазных болезней и синдромов. 
Евроген 
Сергей Лукьянов, 
www.evrogen.ru 
Тимофей Панфилов Москва 2000 Продажи 
Основными направлениями деятельности компании являются разработка и коммерциализация технологий и 
продуктов для молекулярной и клеточной биологии. Компания оказывает услуги в области секвенирования и 
биоинформатики. Ныне Евроген является одной из ведущих биотехнологических компаний в России. 
Геноаналитика 
www.genoanalytica.ru 
Александр Мазур, 
Сергей Бровцев, 
Юлия Ахтительнова 
Москва 2007 Продажи 
Выполняет секвенирование геномов, транскриптомов, определяет модификации гистонов в ChIP-Seq экспери- 
менте. Также компания оказывает консультации по планированию экспериментов в области секвенирования и ана- 
лиза биоинформатических данных. В качестве решения для массового рынка предлагает анализы «Мой Ген». 
Генотек 
www.genotek.ru 
Артем Елмуратов, 
Валерий Ильинский, 
Кирилл Петренко 
Москва 2010 Продажи 
DTC генетическое тестирование — определение предрасположенностей к различным заболеваниям, видам 
спорта, этническая информация и др. 
Genetico 
www.genetico.ru Артур Исаев Москва 2013 Продажи 
Genetico является первой в России частной сетью медико-генетических центров. Предоставляют услуги по 
предимплантационной диагностике, генетическому консультированию, а также по определению статуса носи- 
теля генетических заболеваний и этнической информации. 
Atlas 
Сергей Мусиенко, 
www.atlas.ru 
Андрей Перфильев Москва 2013 Продажи 
Разработка и внедрение скрининговых и диагностических панелей, основанных на определении молекулярно-гене- 
тических маркеров. Клиническая деятельность в центре персонализированной медицины Atlas Medical Center. 
Colorfood 
www.colorfood.ru Куват Момыналиев Москва 2012 Продажи 
Технология подбора персонализированной диеты на основе ДНК-тестирования. 
My Genetics 
www.mygenetics.ru Александр Цветкович Новосибирск 2013 Продажи 
Cоставление персонального генетического отчета с доступными интерпретациями результатов и рекоменда- 
циями по ведению здорового образа жизни на основе ДНК-анализа. 
Lifegen www.lifegen.ru Арсений Духинов Москва 2014 Продажи 
Продажа, обработка и анализ результатов генетических исследований. 
Список компаний можно разделить на две 
крупные группы: 1) компании, занимающиеся 
B2C продажами генетических тестов в раз- 
влекательных и информационных целях; 2) 
компании, занимающиеся разработкой или 
продажами B2B диагностических инструмен- 
тов для использования в медицинских и на- 
учных целях. Компании из первой группы в 
основной массе фокусируются исключи- 
тельно на российском рынке, в то время как 
ряд компаний из второй группы делает по- 
пытки выхода на международный рынок. 
Перспективы развития рынка весьма много- 
обещающи и включают следующие области: 
генетическая консультация при планирова- 
нии семьи, скрининг эмбрионов при экстра- 
корпоральном оплодотворении, пренатальная 
и неонатальная диагностика наследственных 
заболеваний, диагностика раковых опухолей. 
ЗАКЛЮЧЕНИЕ 
Приведенная аналитика дает первое общее 
представление о ландшафте науки и бизнеса 
в сфере геномики в России и может быть ис- 
пользована в качестве стартовой точки для 
дальнейшего более содержательного изуче- 
ния сообщества в России. Перспективы раз- 
вития рынка весьма широки, с 2000 года 
количество как образовательных программ, 
так и компаний, занимающихся геномными ис- 
следованиями, стабильно растет.
МИРОВОЙ ОПЫТ 
That each of us is truly biologically unique, extending to even monozy-gotic, 
42 
“identical” twins, is not fully appreciated. Now that it is possible to 
perform a comprehensive “omic” assessment of an individual, including 
one’s DNA and RNA sequence and at least some characterization of 
one’s proteome, metabolome, microbiome, autoantibodies, and 
epigenome, it has become abundantly clear that each of us has truly one-of- 
a-kind biological content. Well beyond the allure of the matchless fin-gerprint 
or snowflake concept, these singular, individual data and 
information set up a remarkable and unprecedented opportunity to im-prove 
medical treatment and develop preventive strategies to preserve 
health. 
FROM DIGITAL TO BIOLOGICAL TO INDIVIDUALIZED MEDICINE 
In 2010, Eric Schmidt of Google said “The power of individual targeting — 
the technology will be so good it will be very hard for people to watch or 
consume something that has not in some sense been tailored for them” 
[50]. Although referring to the capability of digital technology, we have now 
reached a time of convergence of the digital and biologic domains. It has 
been well established that 0 and 1 are interchangeable with A, C, T, and 
G in books and Shakespeare sonnets and that DNA may represent the 
ultimate data storage system [13, 34]. Biological transistors, also known 
as genetic logic gates, have now been developed that make a computer 
from a living cell [6]. The convergence of biology and technology was fur-ther 
captured by one of the protagonists of the digital era, Steve Jobs, 
who said “I think the biggest innovations of the 21st century will be at the 
intersection of biology and technology. A new era is beginning” [48]. 
With whole-genome DNA sequencing and a variety of omic technologies 
to define aspects of each individual’s biology at many different levels, we 
have indeed embarked on a new era of medicine. The term “personalized 
medicine” has been used for many years but has engendered consider-able 
confusion. A recent survey indicated that only 4% of the public under-stand 
what the term is intended to mean [90], and the hackneyed, 
commercial use of “personalized” makes many people think that this 
refers to a concierge service of medical care. Whereas “person” refers to 
a human being, “personalized” can mean anything from having mono-grammed 
stationary or luggage to ascribing personal qualities. Therefore, 
it was not surprising that a committee representing the National Academy 
of Sciences proposed using the term “precision medicine” as defined by 
“tailoring of medical treatment to the individual characteristics of each pa-tient” 
[69]. Although the term “precision” denotes the objective of exact-ness, 
ironically, it too can be viewed as ambiguous in this context 
because it does not capture the sense that the information is derived from 
the individual. For example, many laboratory tests could be made more 
precise by assay methodology, and treatments could be made more pre-cise 
by avoiding side effects — without having anything to do with a spe-cific 
individual. Other terms that have been suggested include genomic, 
digital, and stratified medicine, but all of these have a similar problem or 
appear to be too narrowly focused. 
The definition of individual is a single human being, derived from the Latin 
word individu, or indivisible. I propose individualized medicine as the pre-ferred 
term because it has a useful double entendre. It relates not only to 
medicine that is particularized to a human being but also the future impact 
of digital technology on individuals driving their health care. There will in-creasingly 
be the flow of one’s biologic data and relevant medical informa-tion 
directly to the individual. Be it a genome sequence on a tablet or the 
results of a biosensor for blood pressure or another physiologic metric 
displayed on a smartphone, the digital convergence with biology will de-finitively 
anchor the individual as a source of salient data, the conduit of 
information flow, and a — if not the — principal driver of medicine in the 
future. 
THE HUMAN GIS 
Perhaps the most commonly used geographic information systems (GIS) 
are Google maps, which provide a layered approach to data visualization, 
such as viewing a location via satellite overlaid with street names, land-marks, 
and real-time traffic data. This GIS exemplifies the concept of 
gathering and transforming large bodies of data to provide exquisite tem-poral 
and location information. With the multiple virtual views, it gives one 
the sense of physically being on site. Although Google has digitized and 
thus created a GIS for the Earth, it is now possible to digitize a human 
being. As shown in Figure 1, there are multiple layers of data that can 
now be obtained for any individual. This includes data from biosensors, 
scanners, electronic medical records, social media, and the various omics 
that include DNA sequence, transcriptome, proteome, metabolome, 
Над решением каких задач работают 
лучшие мировые специалисты в 
области омиксной науки и на какие 
вопросы дают ответы сами эти тех- 
нологии? SkАльманах публикует две 
лучшие и наиболее убедительные, по 
нашему мнению, работы последнего 
времени, иллюстрирующие направ- 
ление развития научной мысли. Это 
статьи “Individualized Medicine from 
Prewomb to Tomb” (Cell 157, March 27, 
2014) и “Personal Omics Profiling Reve-als 
Dynamic Molecular and Medical 
Phenotypes” (Cell 148, March 16, 2012), 
а также их краткое содержание на 
русском языке. 
INDIVIDUALIZED MEDICINE FROM 
PREWOMB TO TOMB 
Eric J. Topol 
The Scripps Translational Science Institute, The Scripps Research 
Institute and Scripps Health, La Jolla, CA 92037, USA. 
Correspondence: etopol@scripps.edu 
Reprinted from Cell, 157, Topol E.J., Individualized Medicine from 
Prewomb to Tomb, 241-253, 2014, with permission from Elsevier. 
http://dx.doi.org/10.1016/j.cell.2014.02.012
Партнер Фонда «Сколково» 
43 
epigenome, microbiome, and exposome. Going forward, I will use the 
term “panoromic” to denote the multiple biologic omic technologies. This 
term closely resembles and is adopted from panoramic, which refers to a 
wide-angle view or comprehensive representation across multiple appli-cations 
and repositories. Or more simply, according to the Merriam-Web-ster 
definition of panoramic, it “includes a lot of information and covers 
many topics.” Thus the term panoromic may be well suited for portraying 
the concept of big biological data. 
The first individual who had a human GIS-like construct was Michael Sny-der. 
Not only was his whole genome sequenced, he also collected serial 
gene expression, autoantibody, proteomic, and metabolomic [11] sam-ples. 
A portion of the data deluge that was generated is represented in the 
Circos plot of Figure 2 or an adoption of the London Tube map [85]. The 
integrated personal omics profiling (iPOP) or “Snyderome,” as it became 
known, proved to be useful for connecting viral infections to markedly ele-vated 
glucose levels. With this integrated analysis in hand, Michael Sny-der 
changed his lifestyle, eventually restoring normal glucose 
homeostasis. Since that report in 2012, Snyder and his team have pro-ceeded 
to obtain further omic data, including whole-genome DNA methy-lation 
data at multiple time points, serial microbiome (gut, urine, nasal, 
skin, and tongue) sampling, and the use of biosensors for activity tracking 
and heart rhythm. Snyder also discovered that several extended family 
members had smoldering, unrecognized glucose intolerance, thereby 
changing medical care for multiple individuals. 
Of note, to obtain the data and process this first panoromic study, it re-quired 
an armada of 40 experienced coauthors and countless hours of 
bioinformatics and analytical work. To give context to the digital data bur-den, 
it took 1 terabyte (TB) for DNA sequence, 2 TB for the epigenomic 
data, 0.7 TB for the transcriptome, and 3 TB for the microbiome. Accord-ingly, 
this first human GIS can be considered a remarkable academic feat 
and yielded key diagnostic medical information for the individual. 
But, it can hardly be considered practical or scalable at this juncture. With 
the cost of storing information continuing to drop substantially, the bottle-neck 
for scalability will likely be automating the analysis. 
On the other hand, each omic technology can readily be undertaken now 
and has the potential of providing meaningful medical information for an 
individual. 
THE OMIC TOOLS 
Whole-Genome and Exome Sequencing 
Perhaps the greatest technologic achievement in the biomedical domain 
has been the extraordinary progress in our ability to sequence a human 
genome over the past decade. Far exceeding the pace of Moore’s Law 
for the relentless improvement in transistor capacity, there has been a >4 
log order (or 0.00007th) reduction in cost of sequencing [10], with a cost 
in 2004 of ~$28.8 million compared with the cost as low as $1,000 in 
2014 [45]. However, despite this incomparable progress, there are still 
major limitations to how rapid, accurate, and complete sequencing can be 
accomplished. High-throughput sequencing involves chopping the DNA 
into small fragments, which are then amplified by PCR. Currently, it takes 
3 to 4 days in our lab to do the sample preparation and sequencing at 303 
to 403 coverage of a human genome. The read length of the fragments is 
now ~250 base pairs for the most cost-effective sequencing methods, but 
this is still suboptimal in determining maternal versus paternal alleles, or 
what is known as phasing. Because so much of understanding diseases 
involves compound heterozygote mutations, cis-acting sequence variant 
combinations, and allele-specific effects, phasing the diploid genome, or 
what we have called “diplomics” [93], is quite important. Recently, Mole-culo 
introduced a method for synthetically stitching together DNA se-quencing 
reads yielding fragments as long as 10,000 base pairs. These 
synthetic long reads are well suited for phasing. Unfortunately, the term 
“whole-genome sequencing” is far from complete because ~900 genes, 
or 3–4% of the genome, are not accessible [65]. These regions are typi-cally 
in centromeres or telomeres. Other technical issues that detract from 
accuracy include long sequences of repeated bases (homopolymers) and 
regions rich in guanine and cytosine. Furthermore, the accuracy for med-ical 
grade sequencing still needs to be improved. A missed call rate of 1 in 
10,000, which may not seem high, translates into a substantial number of 
errors when considering the 6 billion bases in a diploid genome. These er-rors 
obfuscate rare but potentially functional variants. Beyond this issue, 
the accurate determination of insertions, deletions, and structural variants 
is impaired, in part due to the relatively short reads that are typically ob-tained. 
The Clinical Sequencing Exploratory Research (CSER) program 
at the National Institutes of Health is aimed at improving the accuracy of 
sequencing for medical applications [68]. 
Despite these shortcomings, the ability to identify rare or low-frequency 
variants that are pathogenic has been a major outgrowth of high-through-put 
sequencing. Well beyond the genome scans and genome-wide asso-ciation 
studies that identified common variants associated with most 
complex, polygenic diseases and human traits, sequencing leads to high 
definition of the uncommon variants that typically have much higher pene-trance. 
For example, rare Mendelian conditions have seen a remarkable 
surge of definition of their genomic underpinnings [8]. In the first half of 
2010, the basis for four rare diseases was published, but in the first half of 
2012, that number jumped to 68 [8]. With the power of sequencing, it is 
anticipated that the molecular basis for most of the 7,000 known 
Mendelian diseases will be unraveled in the next few years. 
The 1.5% versus 98.5% 
Genome Sequencing Dilemma 
The exome consists of only 40 Mb, or 1.5% of the human genome. There 
is continued debate over the use of whole exome sequencing compared 
with whole-genome sequencing, given the lower cost of sequencing an 
exome, that can be readily captured via kits from a few different compa-nies 
(Agilent SureSelect, Illumina TruSeq, and Roche NimbleGen). 
Exome sequencing is typically performed at much deeper coverage, 
>1003 (as compared with 303-403 for whole genome), which enhances 
accuracy, and the interpretation of variants that affect coding elements is 
far more advanced compared with the rest of the genome. However, the 
collective output from genome-wide association studies of complex traits 
has indicated that 80% of the incriminated loci are in noncoding regions, 
outside the confifnes of genes [56]. It is fair to say that we have long un-derestimated 
the importance of the rest of the genome, but its high den- 
Figure 1. Geographic information system of a human being. 
The ability to digitize the medical essence of a human being is predicated 
on the integration of multiscale data, akin to a Google map, which consists 
of superimposed layers of data such as street, traffic, and satellite views. 
For a human being, these layers include demographics and the social 
graph, biosensors to capture the individual’s physiome, imaging to depict 
the anatomy (often along with physiologic data), and the biology from the 
various omics (genome-DNA sequence, transcriptome, proteome, metabo-lome, 
microbiome, and epigenome). In addition to all of these layers, there 
is one’s important environmental exposure data, known as the “exposome.”
МИРОВОЙ ОПЫТ 
sity of key regulatory features provides intricate and extraordinarily tight 
control over how genes operate. Recent whole-genome sequencing 
studies have identified many critical variants in noncoding portions of the 
genome [54]. A typical whole human genome sequence will contain 
3.5 million variants compared with the reference genome, predominantly 
composed of single-nucleotide polymorphisms but also including inser-tion- 
44 
deletions, copy number variants, and other types of structural vari-ants 
[29]. Today, analysis of most of the 3.5 million variants is left with the 
“variant of unknown significant” (VUS) diagnosis. As more people get se-quenced 
with the full range of disease phenotypes, the proportion of VUS 
will drop, and each sequence will become more informative. Figure 3 pro-vides 
a theoretical plot of how further reduction of the cost of whole-genome 
sequencing will also be accompanied by large numbers of 
individuals undergoing sequencing. In 2014, still well under 100,000 peo-ple 
have had whole-genome sequencing with only a very limited number 
of phenotypes addressed. At some point in the future, sequence data get 
progressively more informative at a lower price point, thus establishing 
particular value of whole-genome sequencing. It is not just about getting 
a large number of people with diverse medical conditions and diverse an-cestries 
sequenced. Here, too much focus on the individual can result in 
a loss of context, back to our analogy of the Google map of maximal 
zoom obscuring understanding. By anchoring the genomics of family 
members, such as was done with the important discovery of PCSK9 rare 
variants [40] in cholesterol metabolism, progress in genomic medicine will 
be catalyzed. 
Figure 2. Plots of panoramic information. 
Top: Circos plot of the Snyder genome. From outer to inner rings: chromo-some 
ideogram; genomic data (pale blue ring), structural variants >50 bp 
(deletions [blue tiles], duplications [red tiles]), indels (green triangles); tran-scriptomic 
data (yellow ring), expression ratio of viral infection to healthy 
states; proteomic data (light purple ring), ratio of protein levels during 
human rhinovirus (HRV) infection to healthy states; transcriptomic data (yel-low 
ring), differential heteroallelic expression ratio of alternative allele to ref-erence 
allele for missense and synonymous variants (purple dots) and 
candidate RNA missense and synonymous edits (red triangles, purple dots, 
orange triangles, and green dots, respectively). From [11] with permission. 
Bottom: Adopted London Tube model of integrated omics from Shendure 
and Aiden Integration of the many applications of next-generation DNA se-quencing, 
which include sites of DNA methylation (methyl-seq), protein- 
DNA interactions (ChIP-seq), 3D genome structure (Hi-C), genetically 
targeted purification of polysomal mRNAs (TRAP), the B cell and T cell 
repertoires (immunoseq), and functional consequences of genetic variation 
(synthetic saturation mutagenesis) with a small set of core techniques, rep-resented 
as open circles of “stations.” Like subway lines, individual se-quencing 
experiments move from station to station until they ultimately 
arrive at a common terminal — DNA sequencing. From [85] with permis-sion. 
At this juncture, however, it appears that exome and whole-genome se-quencing 
provide complementary information. As the cost of whole-genome 
sequencing is further reduced, along with the availability of 
enhanced analytical tools for the nongene 98.5% content interpretation, 
exome sequencing may ultimately become obsolete. 
Single-Cell Sequencing 
The ability to perform sequencing of individual cells has provided remark-able 
new insights about human biology and disease [4, 71, 83]. The unex-pected 
heterogeneity in DNA sequence from one cell to another, such as 
has been well documented in tumor tissue and even in somatic cells in 
healthy individuals, has enlightened us about intraindividual genomic vari-ation. 
The concept of “mosaicism” has gained rapid acceptance — with 
multiple mechanisms — ranging from gamete formation, embryonic de-velopment, 
to somatic mutation in cells in adulthood, that account for why 
each of us has cells with different DNA sequences [62, 63, 73, 97]. It re-mains 
unclear whether mosaicism has functional significance beyond 
being tied to certain congenital conditions and cancers, but this is an ac-tive 
area of research that is capitalizing on single-cell sequencing technol-ogy. 
This is especially the case in neuroscience in order to explain the 
observed frequent finding of transposons, which appear to involve be-tween 
80 and 300 unique insertions for each neuron and are potentially 
associated with neurologic diseases [73]. 
Sperm, which tend to swim solo, are particularly well suited for single-cell 
genomics. This work has quantified recombination rates of 25 events per 
sperm, identified the hot spots where these events are most likely to 
occur, and determined genomic instability as reflected by the rate of de 
novo mutations [73, 97]. Such de novo mutations, which increase in 
sperm with paternal age, are associated with autism, schizophrenia, and 
intellectual disability [8, 57, 73, 94]. 
Intriguing, and possibly revolutionary, single-cell methods using in situ se-quencing 
protocols are set to offer precise spatial information in addition to 
linear sequence data. In situ sequencing holds the potential to resolve the 
spatial distribution of copy number variants, circular DNA, tumor hetero-geneity, 
and RNA localization. A number of methods have been published 
in the last year, and progress is likely to accelerate in the near future. 
Transcriptomics, Proteomics, and Metabolomics 
As opposed to the DNA sequence, which is relatively static, RNA reflects 
the dynamic state of the cell. Gene expression of a particular tissue of the 
whole genome has been available via microarrays for several years, but 
RNA sequencing (RNA-seq) is a relatively new tool that transcends sim-
Партнер Фонда «Сколково» 
45 
ple expression by capturing data on gene fusions, alternative spliced tran-scripts, 
and posttranscriptional changes, along with the whole gamut of 
RNAs (including microRNA [e.g., miRNAseq], small RNA, lincRNA, ribo-somal 
RNA, and transfer RNA). 
A particularly valuable metric related to RNA is the expression quantitative 
trait locus (eQTL). By having both genome-wide association study 
(GWAS) data and whole-genome gene expression at baseline with or 
without particular stimuli, functional genomic assessment has been en-abled. 
For example, Westra et al. [99] used eQTLs and loci derived from 
GWAS to provide functional genomic, mechanistic insights for multiple 
complex traits, including lupus and type1diabetes. 
The proteome, metabolome, and autoantibody landscape can be as-sessed 
for an individual approaching the whole-genome level via recent 
advances in mass spectrometry and protein arrays. Using these tech-niques, 
posttranslational modifications of proteins, protein-protein interac-tions, 
or the small-molecule metabolites produced by these proteins can 
be revealed. Emerging technologies such as RNA-mediated oligonu-cleotide 
annealing, selection, and ligation sequencing (RASL-seq), bar-coded 
small hairpin RNA (shRNA) libraries, and combinatorial antibody 
libraries provide inexpensive and efficient views of biology. Longer read 
sequencing provides the opportunity to sequence antibodies, which typi-cally 
have variable and constant regions composed of 2,000 nucleotides. 
Microbiome 
Perhaps no area of biology has received more attention in recent years 
than the microbiome. Just the gut microbiome has orders of magnitude 
more DNA content than germline human DNA and has markedly height-ened 
diversity. Our commensal bacterial flora has been shown to play an 
important role in various medical conditions [12]. From fecal samples using 
a 16S ribosomal amplicon sequencing method, the gut micro-biome has 
been the subject of intensive prospective clinical assessment. It was deter-mined 
that there were three major enterotypes of the intestinal microbiome 
based on the predominant bacterial species, such as Bacteroides, Ru-minococcus, 
or Prevotella [3]. The resident species appear to be quite sta-ble 
over an extended period of time and to be initially transmitted via the 
mother at childbirth [23]. As the interface between genomics and the host’s 
environment, the microbiome clearly plays a pivotal role in defining each 
individual. The influence of the diet on the gut microbiome, such as the 
content of fiber, along with the underpinning of malnutrition, has been doc-umented 
[35, 76]. For example, even an individual’s response to medica-tions, 
such as digoxin [39], or multiple drugs used for cancer, has been 
shown to be linked to the bacterial flora of the gut microbiome [47, 95]. 
Epigenome 
There has been extraordinary progress in our ability to map the human 
epigenome from DNA methylation to histone modifications and chromatin 
structure [78, 104]. The prolific ENCODE project has provided troves of 
data detailing the role of regulatory elements such as enhancers and insu-lators 
and how they are tied to DNA methylation and histone changes [16]. 
Like gene expression, epigenomic findings are highly cell-type specific, 
with more than 200 different cell types in the human body. For methylation, 
whole-genome bisulphite sequencing has recently been performed for 30 
diverse human cell types [78]. Epigenomic reprogramming has a clear-cut 
role in cancer, be it via transcription factors or chromatin regulators [16, 
91]. Although access to tissue to define epigenomic signatures is a limiting 
factor outside of the cancer space, it is apparent that many other diseases 
are affected by epigenomic dynamics, such as complications of diabetes, 
rheumatoid arthritis, or hypertension [28, 60, 72]. Furthermore, epigenomic 
changes affect susceptibility to diseases, as has been shown with open 
chromatin related to the TCF7L2 gene [37] and parental origin of se-quence 
variants for Type2 diabetes mellitus and breast and prostate can-cer 
[57]. This parent-of-origin issue may be tied to transgenerational 
epigenomic instability, as has been well documented in plants, and is cer-tainly 
a key element of human biology and heritability [81]. 
Physiome and Exposome 
Understanding and quantifying an individual’s physiology and environ-mental 
interactions are crucial to digitizing a human being. Through wear-able 
biosensors and smartphones, this has become eminently practical. 
Continuous tracking is now obtainable for most key physiologic metrics, 
including blood pressure, heart rhythm, glucose, blood oxygen saturation, 
brain waves, intraocular eye pressure, and lung function indices. Similarly, 
there are environmental sensors that connect with smartphones to quan-tify 
such indices as air pollution, pollen count, radiation, water quality, am-bient 
humidity, electromagnetic fields, and the presence of pesticides in 
food. 
Bioinformatics 
Fundamental to individualized medicine is the ability to analyze the im-mense 
data sets and to extract all of the useful, salient information. This is 
exemplified by the task of sifting through a trio of whole-genome se-quences 
to find a causative mutation in a proband with an undiagnosed 
disease. Typically, this translates to finding one critical nucleotide variant 
out of well over one to two million single base variants and simplifying the 
analysis by only considering variants that change amino acid sequence or 
lead to obvious splicing defects [64]. Identifying the signal from the noise, 
with the vast majority of variants categorized as “unknown significance” 
(VUS), is the crux of the challenge. Moreover, the tools to assess struc-tural 
variants and indels are not as extensively developed and validated. 
So there are considerably more data that come from the sequencer for an 
individual than can be fully and accurately mined. Beyond this, there is 
the need for better integration of the multiple GIS layers, such as 
panoromic and biosensor data, and the ability to provide an integrative 
multiscale approach to an individual’s data set. Although not the compre-hensive 
multilayer as depicted in Figure 2, Zhang et al. [103] recently 
used an integrated systems approach, including omics of both human 
Figure 3. Hypothetical plot of cost of sequencing and number of individu-als 
sequenced over the next 6 years. 
As of early 2014, <100,000 individuals have had whole-genome sequencing, 
leaving the information difficult to fully interpret (of limited informativeness or 
value). When millions of people undergo sequencing, with the full gamut of di-verse 
phenotypes and ancestries, and the cost for sequencing continues to 
drop, a virtuous cycle of informativeness is established. With the new capabil-ity 
in 2014 to have whole-genome sequencing at a cost of $1,000, along with 
extremely high throughput, it is likely that millions of individuals will be se-quenced 
in the next 3-4 years. The cost of sequencing will continue to drop 
throughout this time, as increasing numbers of individuals undergo sequenc-ing. 
Projections suggest that at least 20,000 individuals with each phenotype 
may be necessary to reliably identify rare, functional genomic variants. Ac-cordingly, 
once millions of individuals across all main phenotypes and ances-tries 
are sequenced, there is a new set point, or threshold, of informativeness.
МИРОВОЙ ОПЫТ 
and mice brains to discover genetic networks in Alzheimer’s disease. Al-though 
46 
in the past there were generally insufficient efforts to understand 
epistasis, gene-gene interactions have been upstaged by the complexity 
of a higher-order bioinformatics challenge. 
HOW THE OMIC TOOLS REBOOT MEDICINE 
A Prewomb-to-Tomb Assessment 
At many points in the span of a lifetime, the unique biology of the individ-ual 
will play an increasing role. As depicted in the time-line of Figure 4, I 
will go through each topic sequentially. 
Preconception 
The ability to determine carrier mutations for each prospective parent has 
been greatly enhanced through multiple direct-to consumer sources, in-cluding 
23andMe, Counsyl, GenePeeks, and Good Start Genetics. This 
can be considered the ultimate form of prevention for major recessive 
conditions and has only received modest attention to date. Counsyl 
screens for more than 100 recessive Mendelian traits, and 23andMe 
screens 50 carrier conditions. The carrier rates for many serious condi-tions 
are higher than most people would suspect, such as 1 in 35 for 
spinal muscular atrophy, 1 in 40 for cystic fibrosis, and 1 in 125 individuals 
for Fragile X syndrome [92]. Gene-Peeks uses carrier data from 100,000 
DNA sequence variants for each prospective parent to perform a com-puter 
simulation of 10,000 ‘‘digital babies,’’ determining the probabilistic 
odds of significant Mendelian disorders [14]. They are already using their 
analytic methodology to screen sperm from the Manhattan cryobank; until 
now, sperm banks have been completely unregulated and without ge-nomic 
assessment [2, 77]. The concept of higher DNA resolution precon-ception 
screening is attractive, given that there are many more 
pathogenic variants in the genes that are implicated in disease, such as 
cystic fibrosis (2,000 variants), than are conventionally assessed [89]. 
Fetal Sequencing 
Whereas the diagnosis of chromosomal aberrations such as trisomy-21, 
18, 13 required amniocentesis or chorionic villi sampling, there are now 
four different maternal blood sampling assays to accomplish the same as-sessment 
with extremely high (>99%) accuracy [67]. Relying on the 
plasma fetal DNA present in adequate quantity from a maternal blood 
sample at 8–10 weeks of pregnancy, such testing has been transforma-tive, 
preempting the need for amniocentesis in all but the rare exception 
when results are ambiguous. Here is a great example of using plasma-free 
DNA sequencing to avoid an invasive test that carries a small but im-portant 
risk of miscarriage. However, with more than 4 million births in the 
United States each year, only a tiny fraction (<2%) of prenatal maternal 
blood sampling has yet been performed in clinical practice. Multiple 
groups have demonstrated the ability to do a fetal whole-exome se-quence 
from a maternal blood sample [24] or whole-genome sequencing 
from both parents’ DNA along with the maternal plasma-free DNA [55, 
61], but this takes a rather extensive computing and bioinformatics effort 
that is not presently scalable. Undoubtedly, that will be resolved over time 
but will engender the serious bioethical issues of what constitutes the ap-propriate 
reasons for termination of pregnancy. But, at the same time, it 
will afford the opportunity to make the molecular diagnoses of conditions 
in utero and facilitate treatment then or at the earliest time after birth. 
Neonatal Sequencing 
Monogenic diseases, many of which present in the first month of life, are 
a major cause of neonatal fatality and morbidity [80]. Despite routine heel 
sticks for blood sent out for analysis, with attendant delays of several days 
to weeks in obtaining results, there has not been any improvement in re-ducing 
neonatal mortality related to genetic disorders in the past 20 years 
[51, 89]. Now, it has been shown that whole-genome sequencing of new-borns 
can be accomplished in <48 hr and can lead to highly actionable in-formation 
for managing a neonate’s condition, such as in the classic 
example of phenylketonuria or galactosemia, whereby irrevocable dam-age 
might otherwise occur [51, 80, 89]. 
Undiagnosed, Idiopathic, and Rare Diseases 
The diagnosis of an XIAP mutation in a child with fulminant pan-colitis with 
successful, curative treatment is often cited as the first case of sequencing 
to save an individual’s life [101]. Since that report, there have been several 
other cases that used whole-genome or exome sequencing, along with 
other omic tools, for making the molecular diagnosis of idiopathic condi-tions 
[49]. For example, the National Institutes of Health Undiagnosed Dis- 
Figure 4. Timeline of Sequencing Applications in 
Medicine from Prewomb to Tomb. 
The medical application of genomics is relevant to 
many points during an individual’s lifespan. Prior to 
conception, a couple can have genomic screening 
for important recessive alleles. An expectant mother, 
at 8–12 weeks of pregnancy, can now have single 
tube of blood used to accurately assess chromoso-mal 
abnormalities of the fetus, determine gender, 
and even have whole-genome sequencing of the 
fetus performed. At birth, sequencing the genome of 
the newborn can be used to rapidly diagnosis many 
critical conditions for which a time delay, which fre-quently 
can occur with the present heel stick 
screening methods, might lead to irrevocable dam-age. 
The molecular basis for serious, undiagnosed 
conditions can often be established by sequencing 
the individual with parents of siblings. Ultimately, 
omic information at a young age will be useful by 
providing susceptibility to various medical condi-tions 
that have actionable prevention strategies. Se-quencing 
can be done to define a pathogen for 
more rapid and accurate approaches to infectious 
diseases. The driver mutations and key biologic un-derpinning 
pathways of an individual’s cancer can 
frequently be pinpointed by omics. The root causes 
of common polygenic conditions such as diabetes 
or coronary heart disease may ultimately be defined 
at the individual level. Specific sequence variants of 
germline DNA or the gut microbiome have rele-vance 
for response to prescription medication. 
Defining the genomics of healthspan, rather than 
the traditional focus on diseases, may prove to be 
especially worthwhile to understand protective alle-les 
and modifier genes. For an individual with sud-den 
death, a molecular autopsy via sequencing can 
be performed, along with family survivors, to deter-mine 
the cause of death and potentially prevent un-timely 
or avoidable deaths of members of the family 
and subsequent generations.
Партнер Фонда «Сколково» 
47 
ease Program uses exome sequencing to facilitate the diagnosis [30]. Re-cently, 
the group at Baylor College of Medicine published a series of 250 
individuals, of whom 80% were pediatric and largely affected by neurologic 
conditions, who underwent whole-exome sequencing. In that cohort, there 
were many affected patients with a known Mendelian trait but without a 
specific root cause established. A molecular diagnosis was made in 25% 
of the cohort [102]. At the Scripps Health and Scripps Research Institute, 
we have screened more than 100 individuals for the potential of having an 
idiopathic disease. This requires review by a multidisciplinary physician 
panel to assure that a comprehensive evaluation of the patient has been 
performed before turning to DNA sequencing. The first of 15 individuals 
who we enrolled into our protocol was 16 years old and had an incapaci-tating 
neurologic condition. She and her parents were sequenced, and in 
Figure 5, the bioinformatics challenge of interpreting the three whole-genome 
sequences is presented, along with the molecular diagnosis of an 
ADCY5 mutation that had not been previously described. In our 15 
probands at Scripps, we have had a successful molecular diagnosis in 8 
individuals. However, establishing the diagnosis represents only the first 
step of the desired strategy, as providing an effective treatment is the fun-damental 
goal. Unfortunately, the number of individuals for whom that has 
been achieved is quite limited to date, but strategies using repurposing of 
existing drugs, drugs that were partially developed but not commercialized, 
or acceleration of the development of genomically guided therapies are all 
actively being pursued. With an estimate of at least one million individuals 
in the United States with a serious medical condition left without a diagno-sis, 
such progress is encouraging [49]. 
Disease Prevention 
At some point in the future, it is hoped that having DNA sequence infor-mation 
will pave the way for prevention of an individual’s predisposed 
conditions. To date, however, that concept has not been actualized for a 
few principal reasons. First, most of the complex, polygenic traits have not 
had much more than 10% of their heritability explained by the common 
variants assessed by GWAS. The “missing” or unsolved heritability de-tracts 
from the ability to assign an individual any certainty or risk or protec-tion 
from a particular condition. There are some notable exceptions, such 
as age-related macular degeneration or type 1 diabetes mellitus, in which 
combinations of common and rare variants can provide a well-character-ized, 
quantified risk profile. Second, there is the appropriate question of 
whether the knowledge of a risk allele is actionable. Prototypic here is the 
apoε4 allele, which carries an unequivocal high risk for Alzheimer’s dis-ease, 
yet there is no proven strategy to prevent the disease. So, even 
armed with known risk, there is a lack of knowledge for how to mitigate it. 
Third, the way data for genomic susceptibility are analyzed via a popula-tion 
approach makes it difficult to extrapolate such average findings to a 
particular individual. For example, someone may have low-frequency 
modifier genes for a condition at risk or unusual environmental interac-tions 
that markedly affect susceptibility. Notwithstanding these issues, as 
millions of individuals with diverse phenotypes undergo whole-genome 
sequencing (Figure 3), the ability to provide meaningful risk data will in-crease. 
Having the full GIS of each individual will further enrich the proba-bilistic 
approach of providing vulnerability data early in one’s life. For 
example, if one’s sequence data indicate a risk for hypertension, that risk 
may be further modulated by knowledge of his/her proteins, metabolites, 
microbiome, and epigenomics. Specific treatments could be used that are 
biologically based from one’s GIS. Similarly, for asthma, the panoromic in-formation, 
coupled with biosensors that track air quality, pollution, forced 
expiratory volume, and other relevant physiologic metrics, could prove 
useful to prevent an attack. 
A futuristic way in which genomics and biosensors will ultimately converge 
is through injectable nanosensors that put the blood in continuous surveil-lance 
mode [25]. Such sensors have the ability to detect a DNA, RNA, 
autoantibody, or protein signal and to wirelessly transmit the signal to the 
individual’s smartphone. This sets up the potential for detecting endothe-lial 
sloughing from an artery before a heart attack [15], plasma tumor DNA 
in a patient being treated for or in remission from cancer, or a child with 
known genomic risk of autoimmune diabetes that is developing autoanti-bodies 
to pancreatic b-islet cells long before there has been destruction. 
The blood under continuous surveillance concept highlights the potential 
ability to temporally detect a risk signal for a major clinical event. That 
could be intensive antiplatelet medication to prevent a heart attack, ge-nomic- 
guided treatment of cancer recurrence at the earliest possible junc-ture, 
or immunomodulation therapy for autoimmune diabetes. 
Infectious Diseases 
Whole-genome sequencing has proven to be particularly useful for track-ing 
pathogen outbreaks, such as for tuberculosis [32], methicillin-resistant 
Staphylococcus aureus, antibiotic-resistant Klebsiella pneumonia, and 
Clostridium difficile [22, 44, 87]. Beyond identifying the particular bacterial 
or viral strain that accounts for an outbreak’s origin and spread, sequenc-ing 
is likely to prove to be quite useful for rapid, early characterization of 
the cause of infection and specific, effective antibiotic therapy. For sepsis, 
the current standard of care is to take blood or other body fluids for cul-ture, 
which typically takes 2 days to grow out. Additionally, there is at least 
another day required to determine sensitivities to a range of antibiotics. In 
the future, with lab-on-a-chip sequencing platforms that attach to or are in-tegrated 
with a smartphone (Biomeme and QuantuMD), it may be feasi-ble 
to do rapid sequencing of the pathogen and determination of the 
optimal treatment. Such a strategy would preempt the need for broad-spectrum 
antibiotic use, and the rapid diagnosis and targeted treatment 
would likely have a favorable impact on prognosis in these very high-risk, 
critically ill patients. 
Figure 5. Legend from Whole-Genome Sequencing to Identification of a 
Causative Variant. 
As of early 2014, <100,000 individuals have had whole-genome sequencing, 
leaving the information difficult to fully interpret (of limited informativeness or 
value). When millions of people undergo sequencing, with the full gamut of di-verse 
phenotypes and ancestries, and the cost for sequencing continues to 
drop, a virtuous cycle of informativeness is established. With the new capabil-ity 
in 2014 to have whole-genome sequencing at a cost of $1,000, along with 
extremely high throughput, it is likely that millions of individuals will be se-quenced 
in the next 3-4 years. The cost of sequencing will continue to drop 
throughout this time, as increasing numbers of individuals undergo sequenc-ing. 
Projections suggest that at least 20,000 individuals with each phenotype 
may be necessary to reliably identify rare, functional genomic variants. Ac-cordingly, 
once millions of individuals across all main phenotypes and ances-tries 
are sequenced, there is a new set point, or threshold, of informativeness.
МИРОВОЙ ОПЫТ 
Cancer 
With cancer’s basis in genomics, there have been extensive efforts to 
characterize the principal driver mutations and biologic pathways, espe-cially 
48 
through The Cancer Genome Atlas (TCGA) [1, 52, 53]. Our under-standing 
of the biology of cancer has expanded exponentially and, with it, 
so has the appreciation for its extreme complexity. Perhaps the two clas-sical 
“Hallmarks of Cancer” Reviews in Cell, one in 2000 and the sequel 
in 2011, best exemplify this [41, 42]. The diagram to explain the principal 
mechanisms of cancer was already exceptionally complex in 2000 and 
became at least a log order more intricate a decade later. In a more re-cent 
review of the cancer genome landscape, the Johns Hopkins group 
provided perspective for the 84 known oncogenes and 54 tumor suppres-sor 
genes that have been fully validated [96]. There will unquestionably 
be more, but estimates of the total number of genes involved in pivotal 
mutations may wind up being 200. Beyond this, the principal pathways in-volving 
cell survival, cell fate, and DNA damage repair are recognized. 
Certain cancers have a relative low burden of mutations per megabase of 
the tumor genome, such as acute myelogenous leukemia (<1), whereas 
other are quite high, like lung adenocarcinoma or squamous cell carci-noma 
(50) [53, 96]. Mutations of certain genes, such as the P53 tumor 
suppressor, are found in some patients with any of 12 common forms of 
cancer [53]. Our old taxonomy of cancer based upon the organ of origin 
may be considered inapt, for knowledge of the driver mutation(s) and 
pathway could be more useful for individualizing treatment. “Nof1” case 
reports with whole-genome sequencing have been particularly illuminat-ing 
for the clonal origin of an individual’s cancer [9, 38]. In the past 2 
years, the FDA has approved almost 20 new drugs that target a specific 
mutation for cancer. 
So, with these leaps in understanding biology and introduction of new ther-apies, 
why has there been relatively little impact in the clinic to date? One 
major barrier is that we do not have drugs that can target tumor suppres-sor 
genes, making up 40% of mix of principal, driver mutations. Some-times 
there are workarounds for this issue, such as the tumor suppressor 
gene PTEN, which results in PI3-kinase activation, but more often, this is 
not the case. Even for oncogenes, less than 40% have a specific drug an-tagonist, 
as most are part of protein complexes [96]. A second critical issue 
is that there is marked heterogeneity in tumors, both within an individual’s 
primary tumor and certainly intermetastatic. This appears to be a founda-tion 
for the common occurrence of relapse after an initial marked re-sponse, 
reflecting success directed to an oncogene but also that other 
undetected mutations become capable of propagating the tumor. The 
BRAF mutations, which are drivers in a variety of tumors, notably 
melanoma, thyroid, and colon, can be treated with a specific BRAF in-hibitor. 
In the first 2 weeks of oral therapy, there is usually a marked re-sponse, 
but at 9-12 months, a relapse is quite typical [88]. Interestingly, 
when targeting BRAF for colon cancer, there appears to be primary resist-ance 
to these inhibitors [74] related to EGFR expression and emphasizing 
that the stroma, microenvironment of the tumor can still exert an important 
role. The issues of heterogeneity and resistance lend credence to the use 
of combinations of targeted drugs in the future, but that has yet to be ex-plored 
at scale in prospective trials. A third largely unaddressed issue in 
the clinic is the involvement of the epigenome in tumorigenesis. At least 40 
epigenome regulator genes are known that have highly recurrent somatic 
mutations in tumors across a variety of cancers, affecting multiple target 
genes simultaneously [32, 53, 84, 96]. These are not screened for clini-cally, 
nor are there drugs available to modulate their effect. 
In the clinic today, the bare bones of mutation screening are typically used, 
such as HER2 for breast cancer or KRAS for colon cancer. Recently, 
Foundation Medicine commercialized a targeted gene panel of 287 genes 
that have an established role in cancer [27]. Using predominantly fixed-for-malin, 
paraffin-embedded samples, mutation cell concordance was estab-lished 
compared with mass spectrometric methodology (Sequenom), and 
the typical driver mutations were identified in a cohort of more than 2,000 
individuals, such as TP53, KRAS, CDKN2A, and PIK3CA [27]. However, 
there was a long tail of uncommon mutations that was identified, reflecting 
the profound diversity of cancers. This panel represents a step forward 
compared with a very limited gene mutation screen for commonly occur-ring 
drivers, which might even miss other pathogenic mutations within in-criminated 
genes. The 287 genes assessed represent only <15% of genes 
and only the coding elements. This is in contrast to research studies of 
whole-genome and whole-exome sequencing, with paired germline DNA 
for each individual, to more precisely determine driver mutations [53]. Fur-ther, 
multiple recent studies have highlighted the role of noncoding ele-ments 
of the genome to play a prominent role, such as TERT promoters in 
melanoma [46], a long, noncoding RNA SChLAP1 for aggressive prostate 
cancer [75], and identification of 100 non-coding driver variants for cancer 
using a new bioinformatics tool known as FunSeq [54]. Clearly, even a 
comprehensive exome would only represent a limited swath of sampling 
for root causes of cancer in an individual. 
Cancer genomic medicine of the future will likely involve a GIS of the 
tumor with assessment of DNA sequence, gene expression, RNA-seq, 
microRNAs, proteins, copy number variations, and DNA methylation 
cross-referenced with the individual’s germline DNA. But the issue of ad-dressing 
heterogeneity still looms [5, 96], and for that, there are a few 
possible steps, including deep sequencing of the tumor at multiple loca-tions, 
single-cell sequencing, or the use of the “liquid biopsy” of cancer 
[26, 59, 82]. 
Cell-free tumor DNA in plasma, which is present in the vast majority of pa-tients 
with cancer, has been shown to be a useful biomarker for following 
patients [26, 59, 82] and appears to have independent prognostic signifi-cance 
[17]. It may be that plasma tumor DNA is the best representative of 
the cancer for targeted treatment because avoidance of metastasis is of 
utmost concern. The ease of isolating and sequencing cell-free tumor 
DNA is likely to make this a very attractive and routine in the future. Also 
of particular interest, at some point, will be screening healthy people for 
cell-free tumor DNA to determine whether we are constantly facing micro-scopic 
tumor burden but are able to effectively keep the disease in check 
by a variety of homeostatic mechanisms. 
Molecular Diagnosis 
When a patient receives a diagnosis of a chronic illness today, it is non-specific 
and is based on clinical and not molecular features. Take, for ex-ample, 
diabetes mellitus type 2, which could reflect anything from insulin 
resistance, failure of β-islet cells, or a variety of subtypes, including α- 
adrenergic receptor (ADRA2A) diabetes [36] or a zinc transporter subtype 
(SLC30A8) [86]. Common genomic variants have been identified in path-ways 
involving signal transduction, cell proliferation, glucose sensing, and 
circadian rhythm [20]. Some individuals with a high fasting glucose have a 
G6PC2 variant that is associated with protection from diabetes [7]. 
Agenotype score, amalgamating the number of risk variants, has been 
shown to be helpful for identifying high susceptibility [66]. Moreover, there 
are 13 classes of drugs to treat diabetes, and the treatment could be 
made considerably more rational with knowledge of the individual’s un-derlying 
mechanism(s). This brief summary of the diabetes example re-flects 
the need for a new molecular taxonomy across all diseases. When 
an individual is diagnosed (or at some point when risk can be defined), 
the molecular basis will be assessed and, ideally, when possible, the root 
cause will be established. Clearly, for many common diseases, there are 
multiple pathways implicated, and this may prove to be difficult. But there 
has yet to be a systematic attempt of providing such a molecular diagno-sis 
in clinical care. Despite multiple reports of molecular subtypes of 
asthma [98], multiple sclerosis [70], and colon [79] and uterine cancer 
[52], which appear to be linked with therapy and prognosis, this has yet to 
be made part of medical practice. 
Pharmacogenomics 
Just as molecular subtyping of chronic disease is not part of medical prac-tice, 
pharmacogenomics screening for either assurance of efficacy or 
avoidance of major side effects is predominantly ignored. With the use of 
GWAS, there has been an avalanche of discovery of alleles that are piv-
Партнер Фонда «Сколково» 
49 
otal to individual drug response. Unlike polygenic disease, for which the 
penetrance for a common sequence variant is quite low (approximate 
odds ratio of 1.15), the typical genotype odds ratio for prescription drugs 
can be as high as 80, and for many, the range is 3- to 40-fold (reviewed in 
depth in [43]). The likely explanation for this pronounced impact of com-mon 
variants on individual drug response is based on selection — as 
compared with diseases, the human genome has had very limited time to 
adapt to medication exposure. Despite there being more than 100 drugs 
that carry a genomic “label” by the FDA, meaning that there is a recom-mendation 
for genotype assessment before the drug is used, there is 
rarely any pharmacogenomic assessment in clinical practice. This needs 
to improve, and perhaps the availability of point-of-care testing will help, 
along with reduced cost, to eventually promote routine use. Beyond this 
barrier, there needs to be more genomic sequencing for commonly used 
drugs, with associated phenotypic determination of efficacy and side ef-fects, 
along with systematic omic assessment for drugs in development. 
From the marked success of discovering genomic-drug interactions found 
to date, there is certainly the sense that, the more you look, the more you 
will find. The potential here is to reduce the waste of pharmaceuticals, not 
just by avoiding drugs that will not provide efficacy for particular individu-als 
but also by avoiding serious toxicity that can be either fatal or life 
threatening. 
Healthspan 
The human reference genome is based upon multiple young individuals 
who had no phenotypic characterization. Accordingly, we know nothing 
about the reference human’s natural history of disease, and one can con-sider 
this as a flawed standard for comparison. Ideally, we should have a 
reference genome that has had rigorous phenotyping. This is especially 
the case in an era of using sequencing in medical practice but with an in-adequate 
comparator. Perhaps the optimal phenotype would be 
healthspan. At Scripps, we have defined healthy elderly as age >80 years 
with no history of chronic illness or use of medications. The cohort (known 
as “Wellderly”) that we have assembled over the past 7 years of 1,400 in-dividuals 
has an average age of 88, and we have completed whole-genome 
sequencing for 500 of these individuals. The intent is to provide a 
more useful reference genome with a clearly defined, uniform, and rele-vant 
phenotype. 
Moreover, there is another important application of healthspan genomics. 
Multiple studies have established that a research investment in under-standing 
healthy aging would be more prudent than in any specific dis-ease 
category [33]. Because the cohort that we have enrolled carries a 
similar burden of common risk variants for chronic diseases compared 
with the general population, there are most likely a substantial number of 
modifier genes and protective alleles that may be ultimately identified. 
One example is from APP, a gene that has a variant for both high risk of 
Alzheimer’s and another rare variant with marked protection from cogni-tive 
impairment of Alzheimer’s [19]. Unquestionably, there are many more 
such variants left to be discovered, and therein lies the potential for drug 
discovery efforts that can follow such findings from nature of particular 
genes and pathways that prevent diseases. 
Molecular Autopsies 
Although physical autopsies have lost favor and become exceptionally 
rare, there is an opportunity to use sequencing to determine the cause of 
death, particularly when this occurs suddenly. Targeted or whole-genome 
sequencing for heritable heart disorders implicated in sudden death, in-cluding 
ion channel mutations and hypertrophic cardiomyopathy, can be 
performed in the deceased individual and family members. This approach 
is now actively being pursued in New York City for all sudden cardiac 
deaths [21] and may prove helpful in preventing this condition in family 
members. 
Future Directions 
This prewomb-to-tomb review has emphasized that there is a dispropor-tionate 
relationship between knowledge and implementation into clinical 
practice. For individualized medicine to take hold, it will require intensive, 
rigorous validation that these new approaches improve patient outcomes 
and are demonstrated to be cost effective. This proof will be essential for 
the medical community to embrace the opportunities but will also require 
educational programs that squarely address the knowledge chasm that 
currently exists for practicing physicians. A second theme is that our ef-forts 
have been largely sequence centric and have not adequately taken 
into account or integrated the data from other omics, no less biosensors 
and imaging. Related to this deficiency, there is a profound shortage of 
data scientists in biomedicine, with unparalleled opportunities to process 
enormous, high-yield data sets. While we will increasingly rely on algo-rithms, 
artificial intelligence, and machine learning, the rate-limiting step 
necessitates talented biocomputing and bioinformatic human expertise. 
One of the most attractive outgrowths of defining each individual’s unique 
biology in an era with unprecedented digital infrastructure is to be able to 
share the data. By taking the deidentified data from each individual, in-cluding 
panoromic, biosensors, social graph, treatment, and outcomes, 
an extraordinary resource can now be developed. Such a massive open 
online medical information (MOOM) repository could provide matching 
capability to approximate a newly diagnosed individual’s data as com-pared 
with all of those previously amalgamated. For a patient with cancer, 
for example, this could provide closest matches to the tumor GIF, demo-graphics, 
treatment, and outcomes to select an optimal strategy; this 
would potentially take Bayesian principles to a new, enriched potential. 
Such a MOOM resource does not need to be confined to cancer, but the 
first to be announced was with the Leukemia & Lymphoma Society and 
Oregon Health Sciences University for 900 patients with liquid tumors 
[100]. Hopefully, this will be one of many data-sharing initiatives in medi-cine 
to go forward, now that such rich unique information can be captured 
at the individual level, and our computing infrastructure is so well suited to 
perform such functions. Although we are still at the nascent stages of indi-vidualized 
medicine, there has never been more promise and opportunity 
to reboot the way health care can be rendered. Only with systematic vali-dation 
of these approaches at the intersection of biology and digital tech-nology 
can we actualize this more precise, futuristic version of medicine. 
ACKNOWLEDGMENTS 
I want to express my gratitude to my colleagues Ali Torkamani, PhD, and 
Erick Scott, MD, who reviewed the manuscript and offered editorial input 
and to Katrina Schreiber, who helped prepare the typescript and graphics. 
This work was supported by NIH/NCATS1UL1TR001114. Dr. Topol is an 
advisor to Illumina, Genapsys, and EdicoGenomics and is a cofounder of 
CypherGenomics. 
Эрик Топол 
Индивидуальная медицина: от планирования семьи до смерти 
Не все осознают, насколько биологически уникален каждый 
человек, даже однояйцевые близнецы. Степень этой индиви- 
дуальности стала ясна лишь сейчас, благодаря персонализи- 
рованному омиксному профилированию, в первую очередь 
ДНК- и РНК-секвенированию и описанию (в большей или 
меньшей степени) протеома, метаболома, эпигенома, микро- 
биома и профиля антител. Доступность этой информации 
создала беспрецедентные возможности для улучшения ме- 
дицинской технологии и развития превентивных стратегий 
сохранения здоровья. Масштаб этих новых возможностей 
значительно шире, чем у уникального генотипирования, с ко- 
торым обычно ассоциируют персональную геномику.
МИРОВОЙ ОПЫТ 
REFERENCES 
1. Alexandrov L.B. et al. (2013). Signatures of muta-tional 
50 
processes in human cancer. Nature. 500, 
415-421. 
2. Almeling R. (2013). The unregulated sperm 
industry. New York Times, November 30, 2013. 
3. Arumugam M. et al. (2011). Enterotypes of the 
human gut microbiome. Nature. 473, 174-180. 
4. Battich N. et al. (2013). Image-based transcrip 
tomics in thousands of single human cells at 
single-molecule resolution. Nat. Methods. 
10, 1127-1133. 
5. Bedard P.L. et al. (2013). Tumour heterogeneity 
in the clinic. Nature. 501, 355-364. 
6. Bonnet J. et al. (2013). Amplifying genetic logic 
gates. Science. 340, 599-603. 
7. Bouatia-Naji N. et al. (2008). Apolymorphism 
within the G6PC2 gene is associated with fast 
ing plasma glucose levels. Science. 320, 1085- 
1088. 
8. Boycott K.M. et al. (2013). Rare-disease genetics 
in the era of next-generation sequencing: 
discovery to translation. Nat. Rev. Genet. 
14, 681-691. 
9. Brannon A.R. et al. (2013). “N of 1” case reports 
in the era of whole-genome sequencing. 
J. Clin. Invest. 123, 4568-4570. 
10. Butte A.J. (2013). Should healthy people have 
their genomes sequenced at this time? The Wall 
Street Journal. February 15, 2013. 
11. Chen R. et al. (2012). Personal omics profiling 
reveals dynamic molecular and medical 
phenotypes. Cell. 148, 1293-1307. 
12. Cho I. et al. (2012). The human microbiome: 
at the interface of health and disease. 
Nat. Rev. Genet. 13, 260-270. 
13. Church G.M. et al. (2012). Next-generation 
digital information storage in DNA. 
Science. 337, 1628. 
14. Couzin-Frankel J. (2012). Genetics. New 
company pushes the envelope on pre-conception 
testing. Science. 338, 315-316. 
15. Damani S. et al. (2012). Characterization 
of circulating endothelial cells in acute myocardial 
infarction. Sci. Transl. Med. 4, 126ra33. 
16. Dawson M.A. et al. (2012). Cancer epigenetics: 
from mechanism to therapy. Cell. 150, 12-27. 
17. Dawson S.J. et al. (2013). Analysis of circulating 
tumor DNA to monitor metastatic breast cancer. 
N. Engl. J. Med. 368, 1199-1209. 
18. de Ligt J. et al. (2012). Diagnostic exome 
sequencing in persons with severe intellectual 
disability. N. Engl. J. Med. 367, 1921-1929. 
19. De Strooper B. et al. (2012). Alzheimer’s disease: 
Aprotective mutation. Nature. 488, 38-39. 
20. Dupuis J. et al. (2010). New genetic loci impli-cated 
in fasting glucose homeostasis and their 
impact on type 2 diabetes risk. Nat. Genet. 42, 
105-116. 
21. Erdmann J. (2013). Telltale hearts. Nat. Med. 19, 
1361-1364. 
22. Eyre D.W. et al. (2013). Diverse sources of C. 
difficile infection identified on whole-genome 
sequencing. N. Engl. J. Med. 369, 1195-1205. 
23. Faith J.J. et al. (2013). The long-term stability of 
the human gut microbiota. Science. 341, 237439. 
24. Fan H.C. et al. (2012). Non-invasive prenatal 
measurement of the fetal genome. 
Nature. 487, 320-324. 
25. Ferguson B.S. et al. (2013). Real-time, aptamer-based 
tracking of circulating 
therapeutic agents in living animals. 
Sci. Transl. Med. 5, 213ra165. 
26. Forshew T. et al. (2012). Noninvasive 
identification and monitoring of cancer mutations 
by targeted deep sequencing of plasma DNA. 
Sci. Transl. Med. 4, 136ra68. 
27. Frampton G.M. et al. (2013). Development and 
validation of a clinical cancer genomic profiling 
test based on massively parallel DNA 
sequencing. Nat. Biotechnol. 31, 1023-1031. 
28. Fratkin E. et al. (2012). The implications of EN 
CODE for diagnostics. Nat. Biotechnol. 30, 1065. 
29. Frazer K.A. et al. (2009). Human genetic 
variation and its contribution to complex traits. 
Nat. Rev. Genet. 10, 241-251. 
30. Gahl W.A. et al. (2011). The NIH Undiagnosed 
Diseases Program: lessons learned. 
JAMA. 305, 1904-1905. 
31. Gardy J.L. et al. (2011). Whole-genome 
sequencing and social-network analysis of 
a tuberculosis outbreak. N. Engl. J. Med. 364, 
730-739. 
32. Garraway L.A. et al. (2013). Lessons from the 
cancer genome. Cell. 153, 17-37. 
33. Goldman D.P. et al. (2013a). Substantial health 
and economic returns from delayed aging may 
warrant a new focus for medical research. 
Health Aff. (Millwood). 32, 1698-1705. 
34. Goldman N. et al. (2013b). Towards practical, 
high-capacity, low-maintenance information 
storage in synthesized DNA. Nature. 494, 
77-80. 
35. Gordon J.I. et al. (2012). The human gut 
microbiota and undernutrition. Sci. Transl. Med. 
4, 137ps12. 
36. Gribble F.M. (2010). Alpha2A-adrenergic 
receptors and type 2 diabetes. N. Engl. J. Med. 
362, 361-362. 
37. Groop L. (2010). Open chromatin and diabetes 
risk. Nat. Genet. 42, 190-192. 
38. Haffner M.C. et al. (2013). Tracking the clonal 
origin of lethal prostate cancer. J. Clin. Invest. 
123, 4918-4922. 
39. Haiser H.J. et al. (2013). Predicting and 
manipulating cardiac drug inactivation by the 
human gut bacterium Eggerthella lenta. Science. 
341, 295-298. 
40. Hall S.S. (2013). Genetics: a gene of rare effect. 
Nature. 496, 152-155. 
41. Hanahan D. et al. (2000). The hallmarks of 
cancer. Cell 100, 57-70. 
42. Hanahan D. et al. (2011). Hallmarks of cancer: 
the next generation. Cell. 144, 646-674. 
43. Harper A.R. et al. (2012). Pharmacogenomics 
in clinical practice and drug development. 
Nat. Biotechnol. 30, 1117-1124. 
44. Harris S.R. et al. (2013). Whole-genome 
sequencing for analysis of an outbreak of 
meticillin-resistant Staphylococcus aureus: 
a descriptive study. Lancet Infect. Dis. 13, 136. 
45. Hayden E.C. (2014). Is the $1,000 genome for 
real? Nature News. January 15, 2014. 
46. Huang F.W. et al. (2013). Highly recurrent TERT 
promoter mutations in human melanoma. Sci-ence. 
339, 957-959. 
47. Iida N. et al. (2013). Commensal bacteria control 
cancer response to therapy by modulating the 
tumor microenvironment. Science. 342, 967-970. 
48. Issacson W. (2011). Steve Jobs (Simon&Schuster). 
49. Jacob H.J. et al. (2013). Genomics in clinical 
practice: lessons from the front lines. 
Sci. Transl. Med. 5, 194cm5. 
50. Jenkins H.W. (2010). Google and the search for 
the future. Wall Street Journal, August 14, 2010. 
51. Kaiser J. (2013). Genomics. Researchers to 
explore promise, risks of sequencing newborns’ 
DNA. Science. 341, 1163. 
52. Kandoth C. et al. (2013a). Integrated genomic 
characterization of endometrialcarcinoma. 
Nature. 497, 67-73. 
53. Kandoth C. et al. (2013b). Mutational landscape 
and significance across 12 major cancer types. 
Nature. 502, 333-339.
Партнер Фонда «Сколково» 
51 
54. Khurana E. et al. (2013). Integrative annotation of 
variants from 1092 humans: application to cancer 
genomics. Science. 342, 1235587. 
55. Kitzman J.O. et al. (2012). Noninvasive 
whole-genome sequencing of a human fetus. 
Sci. Transl. Med. 4, 137ra76. 
56. Koboldt D.C. et al. (2013). The next-generation 
sequencing revolution and its impact on 
genomics. Cell. 155, 27-38. 
57. Kong A. et al. (2009). Parental origin of sequence 
variants associated with complex diseases. 
Nature. 462, 868-874. 
58. Kong A. et al. (2012). Rate of de novo mutations 
and the importance of father’s age to 
disease risk. Nature. 488, 471-475. 
59. Leary R.J. et al. (2010). Development of 
personalized tumor biomarkers using massively 
parallel sequencing. Sci. Transl. Med. 2, 20ra14. 
60. Liu Y. et al. (2013). Epigenome wide association 
data implicate DNA methylation as an intermedi-ary 
of genetic risk in rheumatoid arthritis. 
Nat. Biotechnol. 31, 142-147. 
61. Lo Y.M. et al. (2010). Maternal plasma DNA 
sequencing reveals the genome-wide genetic 
and mutational profile of the fetus. 
Sci. Transl. Med. 2, 61ra91. 
62. Lupski J.R. (2013). Genetics. Genome 
mosaicism — one human, multiple genomes. 
Science 341, 358-359. 
63. Macosko E.Z. et al. (2012). Exploring the 
variation within. Nat. Genet. 44, 614-616. 
64. Maher B. (2011). Human genetics: Genomes 
on prescription. Nature. 478, 22-24. 
65. Marx V. (2013). Next-generation sequencing: 
The genome jigsaw. Nature. 501, 263-268. 
66. Meigs J.B. et al. (2008). Genotype score in 
addition to common risk factors for prediction 
of type 2 diabetes. N. Engl. J. Med. 2208-2219. 
67. Morain S. et al. (2013). A new era in noninvasive 
prenatal testing. N. Engl. J. Med. 369, 499-501. 
68. National Human Genome Research Institute. 
(2013). Clinical sequencing exploratory research 
(CSER). http://www.genome.gov/27546194. 
69. National Research Council (2011). Toward 
precision medicine: building a knowledge network 
for biomedical research and a new taxonomy 
of disease (Washington, D.C.). 
70. Ottoboni L. et al. (2012). An RNA profile identifies 
two subsets of multiple sclerosis patients differing 
in disease activity. Sci. Transl. Med. 4, 153ra131. 
71. Owens B. (2012). Genomics: The single life. 
Nature. 491, 27-29. 
72. Pirola L. et al. (2010). Epigenetic phenomena 
linked to diabetic complications. Nat. Rev. 
Endocrinol. 6, 665-675. 
73. Poduri A. et al. (2013). Somatic mutation, 
genomic variation, and neurological disease. 
Science. 341, 1237758. 
4. Prahallad A. et al. (2012). Unresponsiveness of 
colon cancer to BRAF(V600E) inhibition through 
feedback activation of EGFR. Nature. 483, 103. 
75. Prensner J.R. et al. (2013). The long noncoding 
RNA SChLAP1 promotes aggressive prostate 
ancer and antagonizes the SWI/SNF complex. 
Nat. Genet. 45, 1392-1398. 
76. Ridaura V.K. et al. (2013). Gut microbiota from 
twins discordant for obesity modulate metabolism 
in mice. Science. 341, 1241214. 
77. Rincon P. (2013). Genepeeks firm to offer ‘digital 
baby’ screen for sperm donors. BBC News, 
October 4, 2014. 
78. Rivera C.M. et al. (2013). Mapping human 
epigenomes. Cell. 155, 39-55. 
79. Sadanandam A. et al. (2013). A colorectal cancer 
classification system that associates cellular 
phenotype and responses to therapy. Nat. Med. 
19, 619-625. 
80. Saunders C.J. et al. (2012). Rapid whole-genome 
sequencing for genetic disease 
diagnosis in neonatal intensive care units. 
Sci. Transl. Med. 4, 154ra135. 
81. Schmitz R.J. et al. (2011). Transgenerational 
epigenetic instability is a source of novel 
methylation variants. Science. 334, 369-373. 
82. Schwarzenbach H. et al. (2011). Cell-free nucleic 
acids as biomarkers in cancer patients. 
Nat. Rev. Cancer. 11, 426-437. 
83. Shapiro E. et al. (2013). Single-cell sequencing-based 
technologies will revolutionize whole-or-ganism 
science. Nat. Rev. Genet. 14, 618-630. 
84. Shen H. et al. (2013). Interplay between the 
cancer genome and epigenome. Cell 153, 
38-55. 
85. Shendure J. et al. (2012). The expanding scope 
of DNA sequencing. Nat. Biotechnol. 30, 1084. 
86. Sladek R. et al. (2007). A genome-wide 
association study identifies novel risk loci 
for type 2 diabetes. Nature. 445, 881-885. 
87. Snitkin E.S. et al. (2012). Tracking a hospital 
outbreak of carbapenem-resistant Klebsiella 
pneumoniae withwhole-genome sequencing. 
Sci. Transl. Med. 4, 148ra116. 
88. Sosman J.A. et al. (2012). Survival in BRAF 
V600-mutant advanced melanoma treated with 
vemurafenib. N. Engl. J. Med. 366, 707-714. 
89. Sosnay P.R. et al. (2013). Defining the disease 
liability of variants in the cystic fibrosis 
transmembrane conductance regulator gene. 
Nat. Genet. 45, 1160-1167. 
90. Stanton D. (2013). GFK survey. GFK. August 22, 
2013. 
91. Suvá M.L. et al. (2013). Epigenetic reprogram 
ming in cancer. Science. 339, 1567-1570. 
92. Test T.C. (2013). The Counsyl Test. 
https://www.counsyl.com. 
93. Tewhey R. et al. (2011). The importance of phase 
information for human genomics. Nat. Rev. 
Genet. 12, 215-223. 
94. Veltman J.A. et al. (2012). De novo mutations in 
human genetic disease. Nat. Rev. Genet. 13, 
565-575. 
95. Viaud S. et al. (2013). The intestinal microbiota 
modulates the anticancer immune effects 
of cyclophosphamide. Science. 342, 971-976. 
96. Vogelstein B. et al. (2013). Cancer genome 
landscapes. Science. 339, 1546-1558. 
97. Wang J. et al. (2012). Genome-wide single-cell 
analysis of recombination activity and de novo 
mutation rates in human sperm. Cell. 150, 402- 
412. 
98. Wenzel S.E. (2012). Asthma phenotypes: 
the evolution from clinical to molecular 
approaches. Nat. Med. 18, 716-725. 
99. Westra H.J. et al. (2013). Systematic 
identification of trans eQTLs as putative drivers of 
known disease associations. Nat. Genet. 45, 
1238-1243. 
100. Winslow R. (2013). Patients share DNA for cures. 
Wall Street Journal. September 16, 2013. 
101. Worthey E.A. et al. (2011). Making a definitive 
diagnosis: successful clinical application of whole 
exome sequencing in a child with intractable in 
flammatory bowel disease. Genet. Med. 13, 255- 
262. 
102. Yang Y. et al. (2013). Clinical whole-exome 
sequencing for the diagnosis of mendelian 
disorders. N. Engl. J. Med. 369, 1502-1511. 
103. Zhang B. et al. (2013). Integrated systems 
approach identifies genetic nodes and networks 
in late-onset Alzheimer’s disease. Cell. 153, 707- 
720. 
104. Ziller M.J. et al. (2013). Charting a dynamic DNA 
methylation landscape of the human genome. 
Nature. 500, 477-481.
МИРОВОЙ ОПЫТ 
PERSONAL OMICS PROFILING 
REVEALS DYNAMIC MOLECULAR 
AND MEDICAL PHENOTYPES 
SUMMARY 
Personalized medicine is expected to benefit from combining genomic in-formation 
52 
with regular monitoring of physiological states by multiple high-throughput 
methods. Here, we present an integrative personal omics 
profile (iPOP), an analysis that combines genomic, transcriptomic, pro-teomic, 
metabolomic, and autoantibody profiles from a single individual 
over a 14 month period. Our iPOP analysis revealed various medical 
risks, including type 2 diabetes. It also uncovered extensive, dynamic 
changes in diverse molecular components and biological pathways 
across healthy and diseased conditions. Extremely high-coverage ge-nomic 
and transcriptomic data, which provide the basis of our iPOP, re-vealed 
extensive heteroallelic changes during healthy and diseased 
states and an unexpected RNA editing mechanism. This study demon-strates 
that longitudinal iPOP can be used to interpret healthy and dis-eased 
states by connecting genomic information with additional dynamic 
omics activity. 
INTRODUCTION 
Personalized medicine aims to assess medical risks, monitor, diagnose 
and treat patients according to their specific genetic composition and mo-lecular 
phenotype. The advent of genome sequencing and the analysis of 
physiological states has proven to be powerful [8]. However, its imple-mentation 
for the analysis of otherwise healthy individuals for estimation 
of disease risk and medical interpretation is less clear. Much of the 
genome is difficult to interpret and many complex diseases, such as dia-betes, 
neurological disorders and cancer, likely involve a large number of 
different genes and biological pathways [6, 17, 33], as well as environ-mental 
contributors that can be difficult to assess. As such, the combina-tion 
of genomic information along with a detailed molecular analysis of 
samples will be important for predicting, diagnosing and treating diseases 
as well as for understanding the onset, progression, and prevalence of 
disease states [45]. 
Presently, healthy and diseased states are typically followed using a lim-ited 
number of assays that analyze a small number of markers of distinct 
types. With the advancement of many new technologies, it is now possi-ble 
to analyze upward of 105 molecular constituents. For example, DNA 
microarrays have allowed the subcategorization of lymphomas and 
gliomas [38], and RNA sequencing (RNA-Seq) has identified breast can-cer 
transcript isoforms [29, 33, 52, 56]. Although transcriptome and RNA 
splicing profiling are powerful and convenient, they provide a partial por-trait 
of an organism’s physiological state. Transcriptomic data, when com-bined 
with genomic, proteomic, and metabolomic data are expected to 
provide a much deeper understanding of normal and diseased states 
[46]. To date, comprehensive integrative omics profiles have been limited 
and have not been applied to the analysis of generally healthy individuals. 
To obtain a better understanding of: (1) how to generate an integrative 
personal omics profile (iPOP) and examine as many biological compo-nents 
as possible, (2) how these components change during healthy and 
diseased states, and (3) how this information can be combined with ge-nomic 
information to estimate disease risk and gain new insights into dis-eased 
states, we performed extensive omics profiling of blood 
components from a generally healthy individual over a 14 month period 
(24 months total when including time points with other molecular analy-ses). 
We determined the whole-genome sequence (WGS) of the subject, 
and together with transcriptomic, proteomic, metabolomic, and autoanti-body 
profiles, used this information to generate an iPOP. We analyzed the 
iPOP of the individual over the course of healthy states and two viral in-fections 
(Figure 1A). Our results indicate that disease risk can be esti-mated 
by a whole-genome sequence and by regularly monitoring health 
states with iPOP disease onset may also be observed. The wealth of in-formation 
provided by detailed longitudinal iPOP revealed unexpected 
molecular complexity, which exhibited dynamic changes during healthy 
and diseased states, and provided insight into multiple biological 
processes. Detailed omics profiling coupled with genome sequencing can 
provide molecular and physiological information of medical significance. 
This approach can be generalized for personalized health monitoring and 
medicine. 
RESULTS 
Overview of Personal Omics Profiling 
Our overall iPOP strategy was to: (1) determine the genome sequence at 
high accuracy and evaluate disease risks, (2) monitor omics components 
over time and integrate the relevant omics information to assess the vari-ation 
of physiological states, and (3) examine in detail the expression of 
personal variants at the level of RNA and protein to study molecular com-plexity 
and dynamic changes in diseased states. 
We performed iPOP on blood components (peripheral blood mononu-clear 
cells [PBMCs], plasma and sera that are highly accessible) from a 
Rui Chen,1,11 George I. Mias,1,11 Jennifer Li-Pook-Than,1,11 Lihua 
Jiang,1,11 Hugo Y.K. Lam,1,12 Rong Chen,2,12 Elana Miriami,1 Konrad J. 
Karczewski,1 Manoj Hariharan,1 Frederick E. Dewey,3Yong Cheng,1 
Michael J. Clark,1 Hogune Im,1 Lukas Habegger,6,7 Suganthi Balasub-ramanian, 
6,7 Maeve O’Huallachain,1 Joel T. Dudley,2 Sara Hillenmeyer,1 
Rajini Haraksingh,1 Donald Sharon,1 Ghia Euskirchen,1 Phil Lacroute,1 
Keith Bettinger,1 Alan P. Boyle,1 Maya Kasowski,1 Fabian Grubert,1 
Scott Seki,1 Marco Garcia,1 Michelle Whirl-Carrillo,1 Mercedes Gal-lardo, 
9,10 Maria A. Blasco,9 Peter L. Greenberg,4 Phyllis Snyder,1Teri E. 
Klein,1 Russ B. Altman,1,5 Atul J. Butte,2 Euan A. Ashley,3 Mark Ger-stein, 
6,7,8 Kari C. Nadeau,2 Hua Tang,1 and Michael Snyder1 
1Department of Genetics, Stanford University School of Medicine; 2Divi-sion 
of Systems Medicine and Division of Immunology and Allergy, De-partment 
of Pediatrics; 3Center for Inherited Cardiovascular Disease, 
Division of Cardiovascular Medicine; 4Division of Hematology, Depart-ment 
of Medicine; 5Department of Bioengineering Stanford University, 
Stanford, CA 94305, USA; 6Program in Computational Biology and Bio-informatics; 
7Department of Molecular Biophysics and Biochemistry; 
8Department of Computer Science Yale University, New Haven, CT 
06520, USA; 9Telomeres and Telomerase Group, Molecular Oncology 
Program, Spanish National Cancer Centre (CNIO), Madrid E-28029, 
Spain; 10Life Length, Madrid E-28003, Spain; 11These authors contribu-ted 
equally to this work; 12Present address: Personalis, Palo Alto, CA 
94301, USA. *Correspondence: mpsnyder@stanford.edu 
Reprinted from Cell, 148, Chen R. et al., Personal Omics Profiling Re-veals 
Dynamic Molecular and Medical Phenotypes, 1293-1307, 2012, 
with permission from Elsevier. ttp://dx.doi.org/10.1016/j.cell.2012.02.009
Партнер Фонда «Сколково» 
53 
54-year-old male volunteer over the course of 14 months (IRB-8629). The 
samples used for iPOP were taken over an interval of 401 days (days 0– 
400). In addition, a complete medical exam plus laboratory and additional 
tests were performed before the study officially launched (day 123) and 
blood glucose was sampled multiple times after the comprehensive omics 
profiling (days 401–602) (Figure 1A). Extensive sampling was performed 
during two viral infections that occurred during this period: a human rhi-novirus 
(HRV) infection beginning on day 0 and a respiratory syncytial 
virus (RSV) infection starting on day 289. A total of 20 time points were ex-tensively 
analyzed and a summary of the time course is indicated in Figure 
1A. The different types of analyses performed are summarized in Figures 
1B and 1C. These analyses, performed on PBMCs and/or serum compo-nents, 
included WGS, complete transcriptome analysis (providing informa-tion 
about the abundance of alternative spliced isoforms, heteroallelic 
expression, and RNA edits, as well as expression of miRNAs at selected 
time points), proteomic and metabolomic analyses, and autoantibody pro-files. 
An integrative analysis of these data highlights dynamic changes and 
provides information about healthy and diseased phenotypes. 
Whole-Genome Sequencing 
We first generated a high quality genome sequence of this individual 
using a variety of different technologies. Genomic DNA was subjected to 
deep WGS using technologies from Complete Genomics (CG, 35 nt 
paired end) and Illumina (100 nt paired end) at 150-and 120-fold total cov-erage, 
respectively, exome sequencing using three different technologies 
to 80-to 100-fold average coverage (see Extended Experimental Proce-dures 
available online) and analysis using genotyping arrays and RNA se-quencing. 
The vast majority of genomic sequences (91%) mapped to the hg19 
(GRCh37) reference genome. However, because of the depth of our se-quencing, 
we were able to identify sequences not present in the reference 
sequence. Assembly of the unmapped Illumina sequencing reads 
(60,434,531,9% of the total) resulted in 1,425 (of 29,751) contigs (span-ning 
26 Mb) overlapping with RefSeq gene sequences that were not an-notated 
in the hg19 reference genome. The remaining sequences 
appeared unique, including 2,919 exons expressed in the RNA-Seq data 
(e.g., Figure S1A). These results confirm that a large number of undocu-mented 
genetic regions exist in individual human genome sequences and 
can be identified by very deep sequencing and de novo assembly [34]. 
Our analysis detected many single nucleotide variants (SNVs), small in-sertions 
and deletions (indels) and structural variants (SVs; large inser-tions, 
deletions, and inversions relative to hg19), (summarized in Table 1 
and Experimental Procedures). 134,341 (4.1%) high-confidence SNVs 
are not present in dbSNP, indicating that they are very rare or private to 
the subject. Only 302 high-confidence indels reside within RefSeq protein 
coding exons and exhibit enrichments in multiples of three nucleotides 
(p<0.0001). In addition to indels, 2,566 high-confidence SVs were identi-fied 
(Experimental Procedures and Table S1) and 8,646 mobile element 
insertions were identified [47]. 
Analysis of the subject’s mother’s genome by comprehensive genome se-quencing 
(as above) and imputation allowed a maternal/paternal chromo-somal 
phasing of 92.5% of the subject’s SNVs and indels (see Extended 
Experimental Procedures for details). Of 1,162 compound heterozygous 
mutations in genes, 139 contain predicted compound heterozygous dele-terious 
and/or nonsense mutations. Phasing enabled the assembly of a 
personal genome sequence of very high confidence (c.f., [41]). 
WGS-Based Disease Risk Evaluation 
We identified variants likely to be associated with increased susceptibility 
to disease [12]. The list of high confidence SNVs and indels was analyzed 
for rare alleles (<5% of the major allele frequency in Europeans) and for 
changes in genes with known Mendelian disease phenotypes (data sum-marized 
in Table 2), revealing that 51 and 4 of the rare coding SNV and 
indels, respectively, in genes present in OMIM are predicted to lead to 
loss-of-function (Table S2A). This list of genes was further examined for 
medical relevance (Table S2A; example alleles are summarized in Figure 
2A), and 11 were validated by Sanger sequencing. High interest genes in-clude: 
(1) a mutation (E366K) in the SERPINA1 gene previously known in 
the subject, (2) a damaging mutation in TERT, associated with acquired 
aplastic anemia [57], and (3) variants associated with hypertriglyceridemia 
and diabetes, such as GCKR (homozygous) [54], and KCNJ11 (homozy-gous) 
[18] and TCF7 (heterozygous) [13]. 
Genetic disease risks were also assessed by the RiskOGram algorithm, 
which integrates information from multiple alleles associated with disease 
risk [6] (Figure 2B). This analysis revealed a modest elevated risk for 
coronary artery disease and significantly elevated risk levels of basal cell 
Table 1. Summary and Breakdown of DNA Variants 
Type Total Variants Total High 
Confidence 
Heterozygous 
High Confidence 
Homozygous 
High Confidence 
Total SNVs 3,739,701 3,301,521 1,971,629 1,329,892 
Total gene-associated SNVs 1,312,780 1,183,847 717.485 466.362 
Total coding/UTR 49.017 44.542 27.383 17.159 
Missense 10.592 9.683 5.944 3.739 
Nonsense 83 73 49 24 
Synonymous 11.459 10.864 6.747 4.117 
5´UTR 4.085 2.978 1.802 1.176 
3´UTR 22.798 20.944 12.841 8.103 
Intron 1,263,763 1,139,305 690.102 449.203 
Ts/Tv — 2.14 — — 
dbSNP 3,493,748 3,167,180 — — 
Candidate private SNV 245.953 134.341 — — 
Indels (-107~ +36 bp) 1,022,901 216.776 — — 
Coding 3.263 302 — — 
Structural variants (>50 bp) 44.781 2.566 — — 
In 1000G projecta 4.434 1.967 — — 
High confidence values are from variants identified across multiple plat-forms 
(Illumina and CG) and/or Exome and RNA-Seq data. Annotations 
were based from variant call formatted (vcf) files for heterozygous calls: 
0/1, reference (ref)/alternative (alt); 1/2, alt/alt and homozygous calls; 1/1, 
alt/alt; 1/, (alt/alt-incomplete call). Polyphen-2 was used to identify the lo-cation 
of the SNVs. a1000G (1000 Genomes Project Consortium, 2010).
МИРОВОЙ ОПЫТ 
Figure 1. Summary of Study 
(A) Time course summary. The subject was monitored for a total of 726 days, 
during which there were two infections (red bar, HRV; green bar, RSV). The 
black bar indicates the period when the subject: (1) increased exercise, (2) in-gested 
54 
81 mg of acetylsalicylic acid and ibuprofen tablets each day (the latter 
only during the first 6 weeks of this period), and (3) substantially reduced 
sugar intake. Blue numbers indicate fasted time points. 
(B) iPOP experimental design indicating the tissues and analyses involved in 
this study. 
(C) Circos [26] plot summarizing iPOP. From outer to inner rings: chromosome 
ideogram; genomic data (pale blue ring), structural variants >50 bp (deletions 
[blue tiles], duplications [red tiles]), indels (green triangles); transcriptomic data 
(yellow ring), expression ratio of HRV infection to healthy states; proteomic data 
(light purple ring), ratio of protein levels during HRV infection to healthy states; 
transcriptomic data (yellow ring), differential heteroallelic expression ratio of al-ternative 
allele to reference allele for missense and synonymous variants (pur-ple 
dots) and candidate RNA missense and synonymous edits (red triangles, 
purple dots, orange triangles and green dots, respectively).
Партнер Фонда «Сколково» 
55 
Table 2. Summary of Disease-Related Rare Variants 
Category Count 
Total high confidence rare SNVs 289,989 
Coding 2,546 
Missense 1,320 
Synonymous 1,214 
Nonsense 11 
Nonstop 1 
Damaging or possibly damaging 233 
Putative loss-of-function SNVsa* 51 
Total high confidence rare indels 51,248 
Coding indels 61 
Frameshift indels 27 
miRNA indels 3 
miRNA target sequence indels 5 
Putative loss-of-function indels* 4 
carcinoma (Figure 2B), hypertriglyceridemia, and type 2 diabetes (T2D) 
(Figures 2B and 2C). 
In addition to coding region variants we also analyzed genomic variants 
that may affect regulatory elements (transcription factors [TF]), which had 
not been attempted previously (Data S1). A total of 14,922 (of 234,980) 
SNVs lie in the motifs of 36 TFs known to be associated with the binding 
data (see Experimental Procedures), indicating that these are likely hav-ing 
a direct effect on TF binding. Comparison of SNPs that alter binding 
patterns of NFkB and Pol II sites [24], also revealed a number of other in-teresting 
regulatory variants, some of which are associated with human 
disease (e.g., EDIL) [48] (Figure S1B). 
Medical Phenotypes Monitoring 
Based on the above analysis of medically relevant variants and the 
RiskOGram, we monitored markers associated with high-risk disease 
phenotypes and performed additional medically relevant assays. 
Monitoring of glucose levels and HbA1c revealed the onset of T2D as di-agnosed 
by the subject’s physician (day 369, Figures 2A and 2C). The 
subject lacked many known factors associated with diabetes (nonsmoker; 
BMI = 23.9 and 21.7 on day 0 and day 511, respectively) and glucose lev-els 
were normal for the first part of the study. However, glucose levels ele-vated 
shortly after the RSV infection (after day 301) extending for several 
months (Figure 2D). High levels of glucose were further confirmed using 
glycated HbA1c measurements at two time points (days 329, 369) during 
this period (6.4% and 6.7%, respectively). After a dramatic change in diet, 
exercise and ingestion of low doses of acetylsalicylic acid a gradual de-crease 
in glucose (to ~93 mg/dl at day 602) and HbA1c levels to 4.7% 
was observed. Insulin resistance was not evident at day 322. The patient 
was negative for anti-GAD and anti-islet antibodies, and insulin levels cor-related 
well with the fasted and nonfasted states (Figure S2C), consistent 
with T2D. These results indicate that a genome sequence can be used to 
estimate disease risk in a healthy individual, and by monitoring traits as-sociated 
with that disease, disease markers can be detected and the phe-notype 
treated. 
The subject contained a TERT mutation previously associated with aplas-tic 
anemia [57]. However, measurements of telomere length suggested lit-tle 
or no decrease in telomere length and modest increase in numbers of 
cells with short telomeres relative to age-matched controls (Figures S2A 
and S2B). Importantly, the patient and his 83-year-old mother share the 
same mutation but neither exhibit symptoms of aplastic anemia, indicating 
that this mutation does not always result in disease and is likely context 
specific in its effects. 
Consistent with the elevated hypertriglyceridemia risk, triglycerides were 
found to be high (321 mg/dl) at the beginning of the study. These levels 
were reduced (81–116 mg/dl) after regularly taking simvastatin (20 
mg/day). 
We also examined the variants for their potential effects on drug response 
(see Extended Experimental Procedures). Among the alleles of interest, 
(Figure 2A and Table S2B) two genotypes affecting the LPIN1 and 
SLC22A1 genes were associated with favorable (glucose lowering) re-sponses 
to two diabetic drugs, rosiglitazone and metformin, respectively. 
We followed the levels of 51 cytokines along with the C-reactive protein 
(CRP) using ELISA assays, which revealed strong induction of proinflam-matory 
cytokines and CRP during each infection (Figures 2E and 2F). We 
also observed a spike of many cytokines at day 12 after the RSV infection 
(day 301 overall). These data define the physiological states and serve as 
a valuable reference for the omic profiles integrated into a longitudinal 
map of healthy and diseased states described in the next sections. 
Dynamic Omics Analysis: Integrative Omics Profiling 
of Molecular Responses 
We profiled the levels of transcripts, proteins, and metabolites across the 
HRV and RSV infections and healthy states using a variety of ap-proaches. 
RNA-Seq of 20 time points generated over 2.67 billion uniquely 
mapped 101b paired-end reads (123 million reads average per time 
point) and allowed for an analysis of the molecular complexity of the tran-scriptome 
in normal cells (PBMCs) at an unprecedented level. The rela-tive 
levels of 6,280 proteins were also measured at 14 time points through 
differential labeling of samples using isobaric tandem mass tags (TMT), 
followed by liquid chromatography and mass spectrometry (LC-MS/MS) 
[10, 49]. A total of 3,731 PBMC proteins could be consistently monitored 
across most of the 14 time points (see Figure S3A and Data S3). In addi-tion, 
6,862 and 4,228 metabolite peaks were identified for the HRV and 
RSV infection, and a total of 1,020 metabolites were tracked for both in-fections 
(see Figure S4 and Data S4, [3]). Finally, as described below, we 
also analyzed miRNAs during the HRV infection. 
This wealth of omics information allowed us to examine detailed dynamic 
trends related directly to the physiological states of the individual and re-vealed 
enormous changes in biological processes that occurred during 
healthy and diseased states. For each profile (transcriptome, proteome, 
metabolome), we systematically searched for two types of nonrandom 
patterns: (1) correlated patterns over time and (2) single unusual events 
(i.e., spikes that may occur at any given time point defined as statistically 
significantly high or low signal instances compared to what would be ex-pected 
by chance). To perform this analysis, we developed a general 
scheme for integrated analysis of data (see Figure S5 and Extended Ex-perimental 
Procedures for further details). We used a Fourier spectral 
analysis approach that both normalizes the various omics data on equal 
basis for identifying the common trends and features, and, also accounts 
for data set variability, uneven sampling, and data gaps, in order to detect 
real-time changes in any kind of omics activity at the differential time 
points (see Supplemental Information). Autocorrelations were calculated 
to assess nonrandomness of the time-series (p<0.05 one-tailed based on 
simulated bootstrap nonparametric distribution by sampling with replace-ment 
of the original data, n>100,000), with significant signals classified as 
autocorrelated (I). The remaining data was searched for spike events, 
which were classified as spike maxima (II) or spike minima (III) (p<0.05 
one-tailed based on differences from simulated, n>100,000 random distri-bution 
of the time-series). After classification, the data were agglomerated 
into hierarchical clusters (using correlation distance and average linkage) 
of common patterns and biological relevance was assessed through GO 
[5] analysis (Cytoscape [44], BiNGO [36] p<0.05, Benjamini-Hochberg [7] 
adjusted p<0.05) and pathway analysis (Reactome [11] functional interac-tion 
[FI], networks including KEGG [23, 44], p<0.05, FDR<0.05). The uni-fied 
framework approach was implemented on all the different data sets 
*In curated Mendelian disease genes.
МИРОВОЙ ОПЫТ 
Figure 1. Summary of Study 
(A) High interest disease- and drug-related variants in the subject’s genome. 
(B) RiskGraph of the top 20 diseases with the highest posttest probabilities. For 
each disease, the arrow represents the pretest probability according to the sub-ject’s 
56 
age, gender, and ethnicity. The line represents the posttest probability after 
incorporating the subject’s genome sequence. Listed to the right are the numbers 
of independent disease-associated SNVs used to calculate the subject’s posttest 
probability. 
(C) RiskOGram of type 2 diabetes. The RiskOGram illustrates how the subject’s 
posttest probability of T2D was calculated using 28 independent SNVs. The mid-dle 
graph displays the posttest probability. The left side shows the associated 
genes, SNVs, and the subject’s genotypes. The right side shows the likelihood 
ratio (LR), number of studies, cohort sizes, and the posttest probability. 
(D) Blood glucose trend. Measurements were taken from samples analyzed at ei-ther 
nonfasted or fasted states; the nonfasted states (all but days 186, 322, 329, 
and 369 and after day 400) were at a fixed time after a constant meal. Data was 
presented as moving average with a window of 15 days. Red and green arrows 
and bars indicate the times of the HRV and RSV infections, respectively. Black ar-rows 
and bars indicate the period with life style changes. 
(E) C-reactive protein trend line. Error bars represent standard deviation of 3 assays. 
(F) Serum cytokine profiles. Red box and day number, HRV infection; green box 
and day number, RSV infection; question mark, elevated cytokine levels indicating 
an unknown event at day 301. Red is increased cytokine levels.
Партнер Фонда «Сколково» 
57 
both individually and in combination, and our results revealed a number of 
differential changes that occurred both during infectious states and the 
varying glucose states. 
We first analyzed the different individual transcriptome, proteome (serum 
and PBMC) and metabolome data sets; the proteome and metabolome 
results are presented in the Supplemental Information (Figures S3, S4, 
S6 and Data S3-S6). A total of 19,714 distinct transcript isoforms [55] cor-responding 
to 12,659 genes (Figure S1C) were tracked for the entire time 
course, and their dynamic expression response was classified into either 
autocorrelated (I) and spike sets, further subdivided as displaying maxima 
(II) or minima (III) (Figure 3). The clustering and enrichment analysis dis-played 
a number of interesting pathways in each class. In the autocorre-lated 
group (Figure 3B, [I]; see also Figure S6A and Data S6, [1 and 2]), 
we found two main trends: an upward trend (2,023 genes), following the 
onset of the RSV infection, and a similar coincidental downward trend 
(2,207 genes). The upward autocorrelated trend revealed a number of 
pathways as enriched (p<0.002, FDR<0.05), including protein metabo-lism 
and influenza life cycle. Additionally, the downward autocorrelation 
cluster showed a multitude of enriched pathways (p<0.008, FDR<0.05), 
such as TCR signaling in naive CD4+ T cells, lysosome, B cell signaling, 
androgen regulation, and of particular interest, insulin signaling/response 
pathways. These different pathways, which are activated as a response 
to an immune infection, often share common genes and additionally we 
observe many genes hitherto unknown to be involved in these pathways 
but displaying the same trend. Furthermore, we observed that the down-ward 
trend, that began with the onset of the RSV infection and appeared 
to accelerate after day 307, coincided with the beginning of the observed 
elevated glucose levels in the subject. 
In the dynamic spike class we again saw patterns that were concordant 
with phenotypes (Figure 3B, [II] and [III]; see also Figure S6A and Data 
S6, [3-14]). A set of expression spikes displaying maxima (547 genes), 
that are common to the onset of both the RSV and HRV infections are as-sociated 
with phagosome, immune processes and phagocytosis, 
(p<1×10-4, FDR<6×10-3). Furthermore, a cluster that exhibits an elevated 
spike at the onset of the RSV infection involves the major histocompatibil-ity 
genes (p<7×10-4, Benjamini-Hochberg adjusted p<0.03). A large num-ber 
of genes with a coexpression pattern common to both infections in the 
time course have yet to be implicated in known pathways and provide 
possible connections related to immune response. Finally, our spike class 
displaying minima showed a distinct cluster (1,535 genes) singular to day 
307 (day 14 of the RSV infection), associated with TCR signaling again, 
TGF receptors, and T cell and insulin signaling pathways (p<0.02, 
FDR<0.03). Overall, the transcriptome analysis captures the dynamic re-sponse 
of the body responding to infection as also evidenced by our cy-tokine 
measurements, and also can monitor health changes over long 
periods of time, with various trends. 
To further leverage the transcriptome and genome data, we performed an 
integrated analysis of transcriptome, proteomic and metabolomics data 
for each time point, observing how this corresponded to the varying physi-ological 
states monitored as described in the above sections. Because of 
the availability of many time points through the course of infection, we ex-amined 
in detail the onset of the RSV infection, as well as extended our 
complete dynamics omics profile during the times that our subject began 
exhibiting high glucose levels. Figure 4 shows an integrated interpretation 
of omics data (see also Figure S6B and Data S7), where all trends are 
combined for each omics data set and the common patterns emerge pro-viding 
complementary information. In addition to the common patterns ob-served 
in our transcriptome analysis, new patterns emerged, some 
unique to protein data, some to metabolite, and some common to all. In 
particular we found the following interesting results: for autocorrelated 
clusters we found the same trends as observed in the transcriptome, ad-ditionally 
augmented with concordant protein expressions. Pathways 
such as the phagosome, lysosome, protein processing in endoplasmic 
reticulum, and insulin pathways emerged as significantly enriched 
(p<0.002, FDR<0.0075), and showed a downward trend post-infection, 
and further accelerated after 3 weeks following the initial onset of the RSV 
infection (this cluster comprised of 1,452 transcriptomic and 69 proteomic 
components, corresponding to 1,444 genes). The elevated spike class 
showed a maxima cluster on day 18 post RSV infection (one time point 
after the cytokine maximum), with enrichment in pathways such as the 
spliceosome, glucose regulation of insulin secretion, and various path-ways 
related to a stress response (p<1×10-4, FDR<0.02) — this cluster 
included 1,956 transcriptomic, 571 proteomic and 23 metabolomic com-ponents, 
corresponding to 2,344 genes. Even though current proteomic 
information is more limited than the full transcriptome because it follows 
fewer components, as evidenced in Figure 4 (II), several pathways, in-cluding 
the glucose regulation of insulin secretion pathway, clearly 
emerge from the proteomic information and would not have been ob-served 
by only monitoring the transcriptome. Additionally, in this cluster 
we find significant GO enrichment in splicing and metabolic processes 
(p<6×10-47, Benjamini-Hochberg adjusted p<10-45). Furthermore, inspec-tion 
of metabolites reveals 23 that show the same exact trend (i.e., spikes 
at day 18 post RSV infection); at least one, lauric acid has been impli-cated 
in fatty acid metabolism and insulin regulatory pathways [27]. Fi-nally, 
we observe minima spikes as well, with yet another interesting 
group on day 18, which showed downregulation in several pathways 
(p<0.003, FDR<0.05), such as the formation of platelet plug. This cluster 
displayed a high degree of synergy between the various omics data, com-prised 
of 3,237 transcriptomic and 761 proteomic components correspon-ding 
3,400 genes and 83 metabolomic components. 
In summary, our integrated approach revealed a clear systemic response 
to the RSV infection following its onset and postinfection response, includ-ing 
a pronounced response evident at day 18 post RSV infection. A vari-ety 
of infection/stress response related pathways were affected along with 
those associated to the high glucose levels in the later time points, includ-ing 
insulin response pathways. 
Dynamic Omics Analysis: Extensive Heteroallelic Variation 
and RNA Editing 
The considerable amount of transcriptome and proteome data allowed us 
to analyze and follow changes in allele-specific expression (ASE), splic-ing, 
and editing at the RNA and protein levels during healthy and dis-eased 
states. 
Of the 49,017 genomic variants associated with coding or UTR regions 
(Table 1), 12,785 (26%) were expressed in PBMCs (R40 read coverage; 
Table S3). A total of 8,509 of the variants are heterozygous (1,113 mis-sense) 
and the remainder (4,686; 684 missense) are homozygous. Eight 
of the 83 nonsense mutations were expressed indicating that not all non-sense 
mutations result in transcript loss. 
The numerous heterozygous variants allowed an analysis of the 
dynamics of differential ASE, (shrunk ratios, Experimental Procedures; 
Figures 5A and S7B) in PBMCs during healthy and diseased states. We 
found 497 and 1,047 genes that exhibited differential ASE during HRV 
and RSV infection, respectively (posterior probability ≥0.75, beta-binomial 
model; ≥40 reads, ≥7 time points); many of these are immune response 
genes, e.g., PADI4 and PLOD1 (Figure 5B). Among the differential ASE 
sites 100 and 218 were specific to HRV and RSV infected states, respec-tively 
(Figures 5C and 5D). Differential ASE genes in the HRV compared 
to healthy phase were enriched for those encoding SNARE vesicular 
transport proteins (DAVID analysis; Benjamini p<0.05). Summing over all 
computed ASE alternative to total ratios revealed that nonreference het-eroallelic 
variants were expressed at 98% of reference variants. The ex-pression 
of over 50 heterozygous variants, including some of the rare/ 
private SNVs (which form 0.72% of the genomic total), and differentially 
expressed variants (SVIL and TRIM5), was confirmed by Sanger cDNA 
sequencing and/or digital PCR [19] of cDNA (Figures 5B and S7). Overall, 
these results demonstrate that differential ASE is pervasive in humans 
and is particularly distinct during healthy and infected states, with many of 
these changes residing in immune response genes. 
The depth of our RNA-Seq data enabled us to re-evaluate the extent of
МИРОВОЙ ОПЫТ 
Figure 3. Transcriptome Time Course Analysis 
(A) Summary of approach for identification of differentially expressed components. 
The various omics sets were processed through a common framework involving 
spectral analysis, clustering, and pathway enrichment analysis. 
(B) Pattern classification. The different emergent patterns from the analysis of the 
transcriptome for the entire time course are displayed for the autocorrelation (I), 
58 
spike maxima (II), and spike minima (III) classes. For different clusters, examples of 
gene connections in selected pathways based on Reactome [11] FI (Cytoscape 
plugin [44]) are shown as networks. Example GO [5] enrichment analysis results 
from Cytoscape [44] BiNGO [36] plugin and pathway enrichment results (Reac-tome 
FI [11]) are included.
Партнер Фонда «Сколково» 
59 
Figure 4. Integrated Omics Analysis 
For days 186-400, the different emergent patterns from an integrated analysis of 
the transcriptome, proteome, and metabolome data are displayed for the autocor-relation 
(I), spike maxima (II), and spike minima (III) classes. For different clusters, 
examples of gene connections in selected pathways based on Reactome [11] 
and FI Cytoscape [44] plugin are shown as networks, with constituents marked as 
assessed from proteome data, transcriptome data or both. Example GO [5] en-richment 
analysis results from Cytoscape [44] BiNGO [36] plugin and pathway 
enrichment results (Reactome FI [11]) are included.
МИРОВОЙ ОПЫТ 
RNA editing (Figure 6 and Data S8 and S11A), typically an adenosine to 
inosine (A-to-I) conversion [32] or infrequently cytidine to uridine (C-to-U), 
in normal human cells. We found 2,376 high-confidence coding-associ-ated 
60 
RNA edits, including 795 A-to-I (A-to-G) and 277 C-to-U deamina-tion- 
like edits (Figure 6A). A total of 587 edits in 175 genes were predicted 
to cause amino acid substitutions (Polyphen-2 [3]); the remainder were 
nonsense (11), synonymous (435), or located in 50/30 UTRs (103/1,240). 
Ten edited bases causing amino acid substitutions were validated by 
Sanger cDNA sequencing and/or digital droplet PCR, as well as by identi-fication 
of their peptide counterparts by mass spectrometry (Figure 6B). 
Interestingly, we identified A-to-G edits (Figure 6B), e.g., IGFBP7, BLCAP, 
and AZIN1 in PBMCs that were known to occur in other tissues [16, 30], 
indicating that the same RNA can be edited in other cell types. BLCAP 
exhibited two edited changes (Figure 6C) with edited/total ratios of 0.12- 
0.2 and 0.18-0.31, respectively, comparable to the 0.21 ratio previously 
observed in the brain [14]. 
Furthermore, we found and validated two missense-causing edits, U-to-C 
in SCFD2 and G-to-A in FBXO25 (Figure 6D), indicating an amination-like 
RNA-editing mechanism, previously not observed in human cells. Our re-sults 
reveal that a large number of edits occur and exhibit dynamic and 
differential changes in populations of PBMCs (Figure 6B). The total num-ber 
of edited RNAs, while extensive, is significantly lower than that re-ported 
in human lymphoblastoid lines and very different in its distribution 
[33]. We believe that in addition to tissue-specific variation, the observed 
differences are also likely due to overcalling of false-positive SNVs, a 
problem we corrected with deep exome sequencing, removal of repeat 
regions and pseudo-genes, and strings of close-proximity variants (Data 
S11A). 
Finally, to determine whether the nonreference allele and edited RNAs 
serve as templates for protein synthesis, we generated proteome data-bases 
for 4,586 missense SNVs and all 30,385 edits and used them to 
search our mass spectra from the untargeted protein profiling experi-ments 
as well as in a targeted approach to directly search for 500 edited 
proteins (see Extended Experimental Procedures). Peptides for 48 SNVs 
Figure 5. Heteroallelic Expression 
Study of PBMCs 
(A) Frequency of allele-specific expression 
(ASE) based on shrunk alternative/total ra-tios 
of RNA-Seq data. A total of 143 posi-tions 
fall outside the three standard 
deviations (s) range (see Figure S7B; 
<0.33, >0.66), suggesting that certain het-erozygous 
alleles (DNA level) are preferen-tially 
expressed in PBMCs. Standard 
deviations (s) are denoted with dotted lines 
and the average ratio overlapping across 
all time points is 0.49. 
(B) Digital droplet PCR validation of two 
heteroallelic expressed genes PADI4 and 
PLOD (relative to alternative allele). 
(C) Heat map of the HRV infection time 
course (seven time points) showing differ-ential 
ASE during HRV infection day 0 (red 
arrow) relative to average shrunk ratios of 
healthy states (days 116-255). 
(D) Heat map of the RSV infection time 
course (13 time points) showing differential 
ASE specific to RSV infection day 289 (red 
arrow) relative to average shrunk ratios of 
healthy states (days 311-400), onset of high 
glucose on day 307 is also shown (red 
arrow). Heat map ratios are relative to the 
alternative allele (alternative/ total, posterior 
probability >0.75). Example of enriched 
KEGG pathway gene cluster [21] (Ben-jamini 
p<0.05) shown below Figure 5C. 
and 51 edits were identified (FDR<0.01 and requiring one unique peptide 
per protein; Data S9 and S11B). A total of 17/17 selected SNVs (100%) 
were validated by Sanger sequencing. Seven peptides derived from the 
SNV and six peptides derived from edited transcripts were unique to a 
single protein in the IPI database [25] and classified as high confidence. 
These results indicate that a large fraction of personal variants are ex-pressed 
as transcripts and a number of these are also translated as pro-teins. 
miRNA Variant Analysis 
In addition to the omics profiling above, we identified 619-681 known miR-NAs 
from PBMCs per time point (>10 reads, days 4, 21, 116, 185, and 
186), 106 of which showed dynamic changes (e.g., Figures S2D and 
S2E). Examination of miRNA editing revealed 50 edited miRNAs (C-to-U 
or A-to-I) with stringent criteria (edited reads >5% of total reads or >399 
modified reads) indicating that at least 4% of expressed miRNAs are po-tentially 
edited. Eighteen miRNAs contain edits located within the func-tionally 
critical “seed sequences,” potentially affecting their mRNA targets. 
Interestingly, expression of SNV-containing miRNAs was generally higher 
compared to SNV-free miRNA (Figures 6E and 6F). In addition to edits, 
analysis of the SNVs located in miRNAs revealed that most (25 of 31) 
SNV-containing miRNAs were not expressed. These miRNAs were 
among those discovered in cancer cell lines [22] and may not normally be 
highly expressed in PBMCs from healthy individuals. 
DISCUSSION 
To our knowledge, our study is the first to perform extensive personal 
iPOP of an individual through healthy and diseased states. It revealed ex-tensive 
complex and dynamic changes in the omics profiles, especially in 
the transcriptomes, between healthy states and viral infections, and be-tween 
nondiabetic and diabetic states. iPOP provides a multidimensional 
view of medical states, including healthy states, response to viral infec-tion, 
recovery, and T2D onset. Our study indicates that disease risk can
Партнер Фонда «Сколково» 
61 
be assessed from a genome sequence and illustrates how traits associ-ated 
with disease can be monitored to identify varying physiological 
stages. We show that large numbers of molecular components are pres-ent 
in blood samples and can be measured (>3 billion measurements 
taken over 20 time points). For the transcriptome many of these arise 
from differential splicing, ASE, and editing events. By observing dynamic 
molecular changes that correspond to physiological states, this proof-of-principle 
study offers a pilot implementation of personalized medicine. The 
information obtained may greatly help in the design and application of 
personalized health monitoring, diagnosis, prognosis, and treatment. 
We speculate that differential expression of ASE/edits may be important 
in monitoring and assessing diseased states. In this respect the 
genes/proteins in which one isoform is abundant in one condition (e.g., 
diseased or healthy state) whereas another is abundant in another (e.g., 
diseased state) may provide unique physiological advantages to the indi-vidual 
in distinct environmental conditions. Because multiple genes in our 
study that exhibit ASE and editing changes are involved in immune func-tion, 
we speculate that these components are particularly valuable for me-diating 
immune responses to environmental conditions such as exposure 
to pathogens. Likewise miRNA SNVs and edits, which also undergo dif-ferential 
expression, may confer unique biological responses. 
Although we analyzed a single individual, insights were gained by inte-grating 
the multiple omics profiles associated with distinct physiological 
states. Through examination of molecular patterns, clear signatures of dy-namic 
biological processes were evident, including immune responses 
during infection, insulin signaling response alterations after the RSV infec-tion. 
Indeed, careful monitoring of omics changes across multiple time 
points for the same individual revealed detailed responses, which might 
not have been evident had the analyses been performed on groups due 
to interindividual variability. Hence, we expect that our longitudinal person-alized 
profiling approach provides valuable information on an individual 
basis. 
We focused on a generally healthy subject who exhibited no apparent dis-ease 
symptoms. This is a critical aspect of personalized medicine, which 
is to perform iPOP and evaluate the importance and changes of all the 
profiles in ordinary individuals. These results have important implications 
and suggest new paradigm shifts: first, genome sequencing can be used 
to direct the monitoring of specific diseases (in this study, aplastic anemia 
and diabetes) and second, by following large numbers of molecules a 
more comprehensive view of disease states can be analyzed to follow 
physiological states. 
Our study revealed that many distinct molecular events and pathways are 
activated both through viral infection and the onset of diabetes. Indeed, 
the monitoring of large numbers of different components revealed a 
steady decrease of insulin-related responses that are associated with dia-betes- 
insulin response pathways occurring from the early healthy state to 
a high glucose state. Although many of the activated and repressed path-ways 
could be detected through transcript profiling, some were detected 
only with the proteomics data and some with the combined set of data. In 
addition a large number of connections with diabetes and insulin signaling 
using metabolites, miRNAs, and autoantibodies were observed. One par-ticularly 
interesting response detected with the proteomics data was the 
onset of the elevated glucose response that was tightly associated with 
the RSV infection and a particular subclinical response at day 12/18 
postinfection. It is tempting to speculate that the RSV infection and/or the 
associated event at day 12/18 triggered the onset of high glucose/T2D. 
Although viral infections have been associated with T1D [52]), we are un-aware 
of viral infection associated with T2D. Inflammation and activated 
innate immunity have been associated with T2D (Pickup, 2004), and we 
speculate that perhaps RSV triggered aberrant glucose metabolism 
through activation of a viral inflammation response in conjunction with a 
predisposition toward T2D. Although this cannot be proven with the analy-ses 
from a single individual, this study nonetheless serves as proof-of-principle 
that iPOP can be performed and provide valuable information. 
Because diabetes is a complex disease there may be many ways to ac-quire 
high glucose phenotype; longitudinal iPOP analysis of a large num-ber 
of individuals may be extremely valuable to dissecting the disease 
and its various subtypes, as well providing information into the molecular 
mechanism of its onset. 
Finally, we believe that the wealth of data generated from this study will 
serve as a valuable resource to the community in the developing field of 
personalized medicine. A large database with the complete time-dynamic 
profiles for more individuals that acquire infections and other types of dis-eases 
will be extremely valuable in the early diagnostics, monitoring and 
treatment of diseased states. 
EXPERIMENTAL PROCEDURES 
The subject and mother in this study were recruited under the IRB proto-col 
IRB-8629 at Stanford University. Full methods and associated refer-ences 
can be found in the Extended Experimental Procedures section. 
WGS was performed at Complete Genomics and Illumina. High-confi-dence 
SNVs were mostly correct as evidenced by: (1) Illumina Omni1- 
Quad genotyping arrays (99.3% sensitivity), (2) a Ti/Tv ratio of 2.14 as 
expected (1000 Genomes Project Consortium, 2010), (3) Illumina capture 
and DNA sequencing (92.7% accuracy), and (4) Sanger sequencing of 36 
randomly selected SNVs (36/36 validated, Table S1). In contrast, the low 
confidence SNVs had a Ti/Tv of only 1.46 and an accuracy of 63.8% (19 
of 33 confirmed by Sanger sequencing, Table S1A). Similarly, the majority 
of the 216,776 high-confidence indels are likely to be correct as (1) 
Sanger sequencing validated 14 of 15 (93%) tested indels and (2) 
exome-sequencing validated most indels (4,706, 82%); meanwhile the 
806,125 low confidence indels had a low validation rate (5,225, 0.65%). 
SVs were called using: (1) paired-end mapping [9] (2) read depth [2], (3) 
split reads [59], and (4) junction mapping [28] to the breakpoint junction 
database from the 1000 G [37]. A total of 2,566 were found by two differ-ent 
methods or platforms (CG or Illumina) and were called high confi-dence; 
>90% of these were in the database of genome variants. 
Strand-specific RNA-Seq libraries were prepared as described previously 
[39] and sequenced on 1-3 lanes of Illumina’s HiSeq 2000 instrument. 
The TopHat package [50] was used to align the reads to the hg19 refer-ence 
genome, followed by Cufflinks for transcript assembly and RNA ex-pression 
analysis [50]. The Samtools package [31] was used to identify 
variants including single nucleotide variants (SNV) and Indels. Small 
RNAs were prepared from PBMCs for the first five time points; sequenc-ing 
was performed according to Illumina’s Small RNA v1.5 Sample Prepa-ration 
Guide. 
The Luminex 51-plex Human Cytokines assay was performed at the 
Stanford Human Immune Monitoring Center. For mass spectrometry, pro-teins 
were prepared from PBMC cell lysates, labeled at lysines using the 
TMT isobaric tags by Pierce, and digested with trypsin and analyzed 
using reverse phase LC coupled to a Thermo Scientific (LTQ)-Orbitrap 
Velos instrument. In order to profile serum, 14 major glycoproteins were 
first removed using the Agilent Human 14 Multiple Affinity Removal Sys-tem 
(MARS) column in order to analyze the less abundant constituents. 
Metabolites were extracted by four times serum volume of equal mixture 
of methanol, acetonitrile, and acetone and separated using our Agilent 
1260 liquid chromatography. Hydrophobic molecules were profiled using 
reversed phase UPLC followed by APCI-MS and hydrophilic molecule 
were analyzed using HILIC UPLC followed by ESI-MS in either the posi-tive 
or negative mode. 
For the integrated analysis, per omics set, for each time-series curve the 
Lomb-Scargle transformation [20, 35, 42, 43] for unevenly sampled 
gapped time-series data was implemented [4, 15, 53, 58, 60]. This al-lowed 
us to obtain a periodogram, which was used to calculate autocorre-lations 
and then reconstruct the time-series with even sampling, allowing 
standard time-series analysis and performing data clustering, while taking 
the time intervals into account (see Extended Experimental Procedures). 
Autoantibodyome profiling was performed using the Invitrogen ProtoArray 
Protein Microarray v5.0 according to the manufacturer’s instructions.
МИРОВОЙ ОПЫТ 
Figure 3. Transcriptome Time Course Analysis 
(A) Distribution of candidate RNA editing types in missense (red) and synony-mous 
62 
and UTRs (blue), based on seven or more time points (total 20 time points). 
(B) Selected summary of known and novel RNA edits expressed in PBMCs. RNA 
edits were validated by digital PCR (green) and mass spectrometry (yellow). 
(C) Detail of two missense-causing edit sites in BLCAP. Selected data from RNA-Seq 
at day 4 and day 255 (top left), Sanger sequencing of day 255 cDNA (bottom 
left), and digital PCR (right panel) are shown. 
(D) Digital droplet PCR analysis of novel edit sites in SCFD2 (left) and FBXO25 
(right) genes show no variants in DNA, whereas in RNA, editing is evident (top left 
quadrant). 
(E and F) Expression of SNV-containing and SNV-free miRNA, respectively, for 
days 4, 21, 116, 185, and 186. Red lines, mean; error bars, standard error of the 
mean. Genome browsers, chromatograms, and digital PCR data were analyzed 
with software from DNAnexus, Inc., Chromas 2.33, and QuantaLife, respectively.
Партнер Фонда «Сколково» 
63 
ACCESSION NUMBERS 
The SRA accession number for the WGS sequence reported in this paper 
is SRP008054.4. The GEO accession number for the RNA-Seq and 
miRNA-Seq data sequence reported in this paper is GSE33029. See Ex-tended 
Experimental Procedures for data dissemination details. 
SUPPLEMENTAL INFORMATION 
Supplemental information includes Extended Experimental Procedures, 
seven figures, four tables, and eleven data files and can be found with 
this article online at doi:10.1016/j.cell.2012.02.009. 
ACKNOWLEDGMENTS 
M.S. is funded by grants from Stanford University and the NIH. M.G. is 
funded by grants from the NIH. G.I.M. is funded by NIH training grant. 
K.J.K., J.T.D., and S.H. are supported by the NIH/NLM training grant T15- 
LM007033. T.E.K. and R.B.A are funded by NIH/NIGMS R24-GM61374. 
M.A.B.’s laboratory is funded by the Spanish Ministry of Science and In-novation 
Projects SAF2008-05384 and CSD2007-00017, European 
Union FP7 Projects 2007A-201630 (GENICA) and 2007-A-200950 
(TELOMARKER), European Research Council Advanced Grant 
GA232854, the Körber Foundation, the Fundación Marcelino Botín, and 
Fundación Lilly (Espanã). F.E.D. was supported by NIH/NHLBI training 
grant T32 HL094274. E.A.A. was supported by NIH/NHLBI KO8 
HL083914, NIH New Investigator DP2 Award OD004613, and a grant 
from the Breetwor Family Foundation. We dedicate this manuscript to Dr. 
Tara A.Gianoulis, an enthusiastic advocate for genomic science. R.B.A., 
E.A.A., A.B., and M.S. serve as founders and consultants for Personalis. 
R.B.A. is a consultant to 23andMe. M.S. is a member of the scientific ad-visory 
board of GenapSys and a consultant for Illumina. M.A.B. acts as 
consultant and holds stock in Life Length. 
Received: October 11, 2011. Revised: January 27, 2012. Accepted: Feb-ruary 
4, 2012. Published: March 15, 2012 
Руи Чен и соавторы 
Лаборатория Майкла Шнайдера Стенфордского университета, 
США и др. 
Персональное омиксное профилирование выявляет изменяю- 
щиеся молекулярные и медицински значимые фенотипы 
Ожидается, что персонализированная медицина выиграет от 
сочетания геномной информации с регулярным мониторингом 
физиологического состояния организма с помощью высоко- 
пропускных экспериментальных технологий. Представлено ин- 
тегративное персональное омиксное профилирование (иПОП), 
которое комбинирует геномные, экспрессионные, протеомные, 
метаболомные и аутоиммунные тесты, проведенные на одном 
человеке в течение 14 месяцев. иПОП-анализ выявил риски 
здоровья, включая диабет 2-го типа. Также анализ показал 
значительные динамические изменения в различных молеку- 
лярных компонентах и биологических путях в условиях нормы 
и болезни. Геномные и экспрессионные данные самого высо- 
кого разрешения, лежащие в основе анализа, продемонстри- 
ровали обширные гетероаллельные изменения между 
здоровым и больным состояниями и неожиданно позволили 
выявить механизм редактирования РНК. Исследование пока- 
зало, что долговременное иПОП-профилирование может ис- 
пользоваться для интерпретации здорового и больного 
состояний путем сочетания геномной информации и дополни- 
тельных динамических омиксных тестов. 
REFERENCES 
1. 1000 Genomes Project Consortium. (2010). A map of human 
genome variation from population-scale sequencing. 
Nature. 467, 1061-1073. 
2. Abyzov A. et al. (2011). CNVnator: an approach to discover, 
genotype, and characterize typical and atypical CNVs from family 
and population genome sequencing. Genome Res. 21, 974-984. 
3. Adzhubei I.A. et al. (2010). A method and server for predicting 
damaging missense mutations. Nat. Methods. 7, 248-249. 
4. Ahdesmäki M. et al. (2007). Robust regression for periodicity 
detection in non-uniformly sampled time-course gene expression 
data. BMC Bioinformatics. 8, 233. 
5. Ashburner M. et al. (2000). Gene ontology: tool for the unification 
of biology. The Gene Ontology Consortium. Nat. Genet. 25, 25-29. 
6. Ashley E.A. et al. (2010). Clinical assessment incorporating a 
personal genome. Lancet. 375, 1525-1535. 
7. Benjamini Y. et al. (1995). Controlling the false discovery rate: 
a practical and powerful approach to multiple testing. 
Roy. Statist. Soc. Ser. B 57, 289-300. 
8. Cancer Genome Atlas Research Network. (2011). Integrated 
genomic analyses of ovarian carcinoma. Nature. 474, 609-615. 
9. Chen K. et al. (2009). Break-Dancer: an algorithm for high-resolution 
mapping of genomic structural variation. 
Nat. Methods. 6, 677-681. 
10. Cox J. et al. (2010). Quantitative, high-resolution proteomics for 
data-driven systems biology. Annu. Rev. Biochem. 80, 273-299. 
11. Croft D. et al. (2011). Reactome: a database of reactions, pathways 
and biological processes. Nucleic Acids Res. 39 D691-D697. 
12. Dewey F.E. et al.. (2011). Phased whole-genome genetic risk in a 
family quartet using a major allele reference sequence. 
PLoS Genet. 7, e1002280. 
13. Erlich H.A. et al. Type I Diabetes Genetics Consortium. (2009). 
Evidence for association of the TCF7 locus with type I diabetes. 
Genes Immun. 10 (Suppl. 1), S54-S59. 
14. Galeano F. et al. (2010). Human BLCAP transcript: new editing 
events in normal and cancerous tissues. 
Int. J. Cancer. 127, 127-137. 
15. Glynn E.F. et al. (2006). Detecting periodic patterns in unevenly 
spaced gene expression time series using Lomb-Scargle 
periodograms. Bioinformatics. 22, 310-316. 
16. Gommans W.M. et al. (2008). Screening of human SNP database 
identifies recoding sites of A-to-I RNA editing. RNA. 14, 2074-2085. 
17. Grayson B.L. et al. (2011). Peripheral blood gene expression profiles 
in metabolic syndrome, coronary artery disease and type 2 diabetes. 
Genes Immun. 12, 341-351. 
18. Hani E.H. et al. (1998). Missense mutations in the pancreatic islet 
beta cell inwardly rectifying K+ channel gene (KIR6.2/BIR): 
a meta-analysis suggests a role in the polygenic basis of Type II dia 
betes mellitus in Caucasians. Diabetologia. 41, 1511-1515.
МИРОВОЙ ОПЫТ 
19. Hindson B.J. et al. (2011). High-throughput droplet digital PCR 
64 
system for absolute quantitation of DNA copy number. 
Anal. Chem. 83, 8604-8610. 
20. Hocke K. et al. (2009). Gap filling and noise reduction of unevenly 
sampled data by means of the Lomb-Scargle periodogram. Atmos. 
Chem. Phys. 9, 4197-4206. 
21. Huang W. et al. (2009). Bioinformatics enrichment tools: paths 
toward the comprehensive functional analysis of large gene lists. 
Nucleic Acids Res. 37, 1-13. 
22. Jima D.D. et al. (2010). Deep sequencing of the small RNA 
transcriptome of normal and malignant human B cells identifies 
hundreds of novel microRNAs. Blood. 116, e118-e127. 
23. Kanehisa M. et al. (2000). KEGG: Kyoto encyclopedia of genes and 
genomes. Nucleic Acids Res. 28, 27-30. 
24. Kasowski M. et al. (2010). Variation in transcription factor binding 
among humans. Science. 328, 232-235. 
25. Kersey P.J. et al. (2004). The International Protein Index: an 
integrated database for proteomics experiments. Proteomics. 4, 1985-1988. 
26. Krzywinski M. et al. (2009). Circos: an information aesthetic for 
comparative genomics. Genome Res. 19, 1639-1645. 
27. Kusunoki M. et al. (2007). Relationship between serum concentrations of satu-rated 
fatty acids and unsaturated fatty acids and the homeostasis model insulin 
re sistance index in Japanese patients with type 2 diabetes mellitus. 
J. Med. Invest. 54, 243-247. 
28. Lam H.Y. et al. (2010). Nucleotide-resolution analysis of structural variants 
using BreakSeq and a breakpoint library. Nat. Biotechnol. 28, 47-55. 
29. Lapuk A. et al. (2010). Exon-level microarray analyses identify alternative 
splicing programs in breast cancer. Mol. Cancer Res. 8, 961-974. 
30. Levanon E.Y. et al. (2005). Evolutionarily conserved human targets of 
adenosine to inosine RNA editing. Nucleic Acids Res. 33, 1162-1168. 
31. Li H. et al. (2009a). The Sequence Alignment/Map format and SAMtools. 
Bioinformatics. 25, 2078-2079. 
32. Li J.B. et al. (2009b). Genome-wide identification of human RNA editing 
sites by parallel DNA capturing and sequencing. Science. 324, 1210-1213. 
33. Li M. et al. (2011). Widespread RNA and DNA sequence differences in 
the human transcriptome. Science. 333, 53-58. 
34. Li R. et al. (2010). Building the sequence map of the human pan-genome. 
Nat. Biotechnol. 28, 57-63. 
35. Lomb N. (1976). Least-squares frequency analysis of unequally spaced data. 
Astrophys. Space Sci. 39, 447-462. 
36. Maere S. et al. (2005). BiNGO: a Cytoscape plugin to assess 
overrepresentation of gene ontology categories in biological networks. 
Bioinformatics. 21, 3448-3449. 
37. Mills R.E. et al. (2011). Mapping copy number variation by population-scale 
genome sequencing. Nature. 470, 59-65. 
38. Mischel P.S. et al. (2003). Identification of molecular subtypes of glioblastoma 
by gene expression profiling. Oncogene. 22, 2361- 2373. 
39. Parkhomchuk D. et al. (2009). Transcriptome analysis by strand-specific 
sequencing of complementary DNA. Nucleic Acids Res. 37, e123. 
40. Pickup J.C. (2004). Inflammation and activated innate immunity in the 
pathogenesis of type 2 diabetes. Diabetes Care. 27, 813-823. 
41. Rozowsky J. et al. (2011). AlleleSeq: analysis of allele-specific expression and 
binding in a network framework. Mol. Syst. Biol. 7, 522. 
42. Scargle J.D. (1982). Studies in astronomical time series analysis. II-Statistical 
aspects of spectral analysis of unevenly spaced data. 
Astrophys. J. 263, 835-853. 
43. Scargle J.D. (1989). Studies in astronomical time series analysis. III-Fourier 
transforms, autocorrelation functions, and cross-correlation functions of 
unevenly spaced data. Astrophys. J. 343, 874-887. 
44. Smoot M.E. et al. (2011). Cytoscape 2.8: new features for data integration and 
network visualization. Bioinformatics. 27, 431-432. 
45. Snyder M. et al. (2009). Personal phenotypes to go with personal genomes. 
Mol. Syst. Biol. 5, 273. 
46. Snyder M. et al. (2010). Personal genome sequencing: current approaches 
and challenges. Genes Dev. 24, 423-431. 
47. Stewart C. et al. (2011). A comprehensive map of mobile element 
insertion polymorphisms in humans. PLoS Genet. 7, e1002236. 
48. Sun J.C. et al. (2010). High expression level of EDIL3 in HCC predicts poor 
prognosis of HCC patients. World J. Gastroenterol. 16, 4611-4615. 
49. Theodoridis G. et al. (2011). Mass spectrometry-based holistic analytical 
approaches for metabolite profiling in systems biology studies. 
Mass. Spectrom. Rev. 30, 884-906. 
50. Trapnell C. et al. (2009). TopHat: discovering splice junctions with RNA-Seq. 
Bioinformatics. 25, 1105-1111. 
51. Trapnell C. et al. (2010). Transcript assembly and quantification by RNA-Seq 
reveals unannotated transcripts and isoform switching during cell 
differentiation. Nat. Biotechnol. 28, 511-515. 
52. van der Werf N. et al. (2007). Viral infections as potential triggers of type 1 
diabetes. Diabetes Metab. Res. Rev. 23, 169-183. 
53. Van Dongen H.P. et al. (1999). A procedure of multiple period searching in 
unequally spaced time-series with the Lomb-Scargle method. 
Biol. Rhythm Res. 30, 149-177. 
54. Vaxillaire M. et al. (2008). The common P446L polymorphism in GCKR 
inversely modulates fasting glucose and triglyceride levels and reduces type 2 
diabetes risk in the DESIR prospective general French population. 
Diabetes. 57, 2253-2257. 
55. Wang E.T. et al. (2008). Alternative isoform regulation in human tissue 
transcriptomes. Nature. 456, 470-476. 
56. Wu J.Q. et al. (2010). Dynamic transcriptomes during neural differentiation 
of human embryonic stem cells revealed by short, long, and paired-end 
sequencing. Proc. Natl. Acad. Sci. USA. 107, 5254-5259. 
57. Yamaguchi H. et al. (2005). Mutations in TERT, the gene for telomerase 
reverse transcriptase, in aplastic anemia. N. Engl. J. Med. 352, 1413-1424. 
58. Yang R. et al. (2011). LSPR: an integrated periodicity detection algorithm 
for unevenly sampled temporal microarray data. Bioinformatics. 27, 
1023-1025. 
59. Ye K. et al. (2009). Pindel: a pattern growth approach to detect break 
points of large deletions and medium sized insertions from paired-end 
short reads. Bioinformatics. 25, 2865-2871. 
60. Zhao W. et al. (2008). Detecting periodic genes from irregularly sampled 
gene expressions: a comparison study. 
EURASIP J. Bioinform. Syst. Biol. 2008, 769293.

Sk biomed 03 10

  • 1.
    СОДЕРЖАНИЕ 02 ВВЕДЕНИЕ Ю.Никольский НАУКА ФУНДАМЕНТАЛЬНЫЕ НАУЧНЫЕ ИССЛЕДОВАНИЯ С ИСПОЛЬЗОВАНИЕМ ОМИКСНЫХ ТЕХНОЛОГИЙ Н.Янковский БИОИНФОРМАТИКА РОЛЬ БИОИНФОРМАТИКИ И АНАЛИЗА «БОЛЬШИХ ДАННЫХ», ПРОИЗВОДИМЫХ В ОМИКСНЫХ ЭКСПЕРИМЕНТАХ М.Гельфанд ГЕНОМИКА РАЗВИТИЕ ГЕНОМИКИ И ОМИКСНЫХ ТЕХНОЛОГИЙ В РОССИИ В.Милейко МЕЖДУНАРОДНОЕ СОТРУДНИЧЕСТВО В КОЛЛАБОРАТИВНЫХ ОМИКСНЫХ ПРОЕКТАХ Й.Хаяшизаки, О.Гусев 04 08 10 12 ФАРМАКОЛОГИЯ ОМИКСНЫЕ ТЕХНОЛОГИИ В ФАРМАЦЕВТИЧЕСКОЙ ИНДУСТРИИ В.Пруцкий 14 КЛИНИКА ОМИКСНЫЕ ТЕХНОЛОГИИ В ПРАКТИКЕ КРУПНОГО ГОСПИТАЛЯ И «ТРАНСЛЯЦИОННАЯ МЕДИЦИНА» Т.Татаринова ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ ДЛЯ НАСЕЛЕНИЯ: ПОТРЕБИТЕЛЬСКАЯ ГЕНОМИКА И ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ В КЛИНИКАХ А.Афанасьев 16 18
  • 2.
    ОМИКСНЫЕ ТЕХНОЛОГИИ ВПРАКТИКЕ ПРЕНАТАЛЬНОЙ ДИАГНОСТИКИ: МНЕНИЕ СЕРВИСНОЙ КОМПАНИИ Е.Померанцева ПЕРСОНАЛИЗИРОВАННАЯ МЕДИЦИНА В ОНКОЛОГИИ: ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ РАКОВЫХ ОПУОЛЕЙ И РОЛЬ ОМИКСНЫХ ТЕХНОЛОГИЙ Т.Серебрийская МИКРОБИОМ ЧЕЛОВЕКА: ПРАКТИКА И ОМИКСНЫЕ МЕТОДЫ ИЗУЧЕНИЯ Д.Алексеев 20 22 24 МНЕНИЯ 26 КАКОВЫ ПЕРСПЕКТИВЫ ОМИКСНЫХ ТЕХНОЛОГИЙ В РОССИИ? КАК ГОСУДАРСТВО МОЖЕТ СОДЕЙСТВОВАТЬ ИХ РАЗВИТИЮ? НАСКОЛЬКО УБЕДИТЕЛЬНЫМ НА МИРОВОМ ФОНЕ ВЫГЛЯДИТ ОТЕЧЕСТВЕННЫЙ НАУЧНЫЙ ЗАДЕЛ В ЭТОЙ ОБЛАСТИ? СООБЩЕСТВО ГЕНОМИКА В РОССИИ: ОБРАЗОВАНИЕ, НАУКА, БИЗНЕС А.Афанасьев, Е.Власова, Ю.Пеков, Е.Цымбалов, Р.Яворский 34 МИРОВОЙ ОПЫТ INDIVIDUALIZED MEDICINE FROM PREWOMB TO TOMB E.J.Topol 42 PERSONAL OMICS PROFILING REVEALS DYNAMIC MOLECULAR AND MEDICAL PHENOTYPES R.Chen, G.I.Mias, J.Li-Pook-Than, L.Jiang, H.Y.K.Lam, R.Chen, E.Miriami, K.J.Karczewski, M.Hariharan, F.E.Dewey, Y.Cheng, M.J.Clark, H.Im, L.Habegger, S.Balasubramanian, M.O’Huallachain, J.T.Dudley, S.Hillenmeyer, R.Haraksingh, D.Sharon, G.Euskirchen, P.Lacroute, K.Bettinger, A.P.Boyle, M.Kasowski, F.Grubert, S.Seki, M.Garcia, M.Whirl- Carrillo, M.Gallardo, M.A.Blasco, P.L.Greenberg, P.Snyder, T.E.Klein, R.B.Altman, A.J.Butte, E.A.Ashley, M.Gerstein, K.C.Nadeau, H.Tang, and M.Snyder 52 Фонд «Сколково» Партнер Фонда «Сколково» НАД АЛЬМАНАХОМ РАБОТАЛИ: Кирилл Каем, Юрий Никольский, Евгения Маейр, Юлия Мучник, Дэвид Новак, Александр Чернов, Роман Щербаков, Ольга Устинкова, Денис Ковардаков. Выражаем искреннюю признатель- ность авторам статей. НА ОБЛОЖКЕ: Сhromosomes 3D rendered on black background, www.dreamstime.com Подписано в печать 03.10.2014. Отпечатано в ООО «Август Борг». 121009, г. Москва, Шубинский пер., д. 2/3. © Составление и оформление. Фонд Сколково, 2014
  • 3.
    BiOMED ВВЕДЕНИЕ 2 В течение нескольких десятилетий после от- крытия структуры ДНК экспериментальная биология развивалась по «редукционному» пути, все более (и, заметим, очень эффек- тивно) углубляясь в детали биологических систем — от физиологии, цитологии и био- химических реакций до структуры белков и комплексов. Такое развитие изменилось ко- ренным образом в конце 1980-х, когда были разработаны технологии, позволившие мно- гократно увеличить пропускную способность двух стандартных лабораторных методов — секвенирования ДНК и гибридизации нук- леиновых кислот. В 1986 г. Лерой Худ (Leroy Hood, Калифорнийский технологический ин- ститут, Caltech) изобрел первый автоматиче- ский секвенатор ДНК. В 1989 г. Стив Фодор (Stephen P.A.Fodor, компания Affymax) создал первый ДНК-чип (microarray), использующий технологию полупроводников для одновре- менного анализа экспрессии тысяч генов с помощью гибридизации нуклеиновых кис- лот. Эти две технологии положили начало эре так называемой омиксной биологии и беспрецедентной аккумуляции «больших данных», производимых в биомедицинских экспериментах. В течение последующих 25 лет омиксный инструментарий обогатился многопараллельными методами для опреде- ления концентрации и активности белков (протеомика), метаболитов (метаболомика), регуляции экспрессии генов (эпигеномика) и др. Особенно феноменален был прогресс в секвенировании ДНК, где скорость «прочи- тывания» на одном инструменте выросла в 5 тысяч раз при удешевлении операции в мил- лионы раз. Сегодня полный геном человека может быть «прочитан» за одни сутки при цене в $1,000. Омиксные методы революционизировали методологию экспериментальной биологии, анализа данных и технологию развития ле- карств; они все больше внедряются в прак- тику медицины и повседневную жизнь. В науке более 70% заявок на исследова- тельские гранты в США и Европе предпола- гают использование, по крайней мере, одной омиксной технологии. Фармацевтиче- ские компании применяют новые методы в разных целях: от токсикогеномики и репози- ционирования лекарств до мониторинга па- циентов в клинических испытаниях (ведущие компании проводят до 10 различ- ных омиксных тестов для каждого пациента в фазе II). В онкологической клинической практике секвенирование и генотипирова- ние на чипах широко используются для определения мутаций и патологического пе- репрофилирования экспрессии генов в ра- ковых опухолях. Омиксное генотипирование также повсе- местно проводится для обследования роди- телей и новорожденных в пренатальной диагностике. Наконец, взрослое население развитых стран уже осведомлено о тестах 23andMe и других компаний «потребитель- ВВЕДЕНИЕ Автор: Юрий Никольский, кандидат биологических наук, директор по науке кластера биомедицинских технологий Фонда «Сколково»
  • 4.
    BiOMED Партнер Фонда«Сколково» 3 ской геномики», проводящих недорогое ге- нотипирование для всех желающих, показы- вающее генетическое родство, объясняющее фенотипические черты и предсказывающее предрасположенность к определенным болезням. Новые технологии дали мощный толчок раз- витию нескольких областей индустрии. Омиксная биология привела к появлению новых инструментов, роботизированных станций, программного обеспечения для об- работки и анализа данных и развития спе- циализированных сервисов. Быстрое развитие омиксной экосистемы способство- вало рыночному буму биомедицинских тех- нологий в конце 1990-х, достигшему пика в 2000-е гг., после первой публикации генома человека в 1998 г. Спекулятивный всплеск рынка, совпавший с интернет-бумом, создал небывалую рыночную стоимость таких ком- паний — пионеров в области омиксных тех- нологий, как Affymetrix (геномика), Incyte (секвенирование ДНК), Informax (биоинфор- матика), Milennium Science (геномика, про- теомика) и многих других. В настоящее время омиксный сектор представляет собой многомиллиардную индустрию с такими ли- дерами, как Illumina (инструменты и сервисы для секвенирования нового поколения), ThermoFisher Scientific Inc. (секвенирование, протеомика), Agilent (тесты, биоинформа- тика), Accelrys (био- и химиоинформатика) и других. Омиксные технологии развиваются и в Рос- сии, хотя и неравномерно. В отличие от не- которых «опоздавших» стран (Япония, Китай, Корея), в нашей стране не ведутся работы по созданию «национального секве- натора», а производятся «тематические» микрочипы на существующих платформах. В то же время сервисный омиксный бизнес представлен в России достаточно широко, а в области анализа данных и биоинформа- тики российские компании и лаборатории оперируют на мировом уровне. В этом альманахе мы решили собрать мне- ния широкого круга специалистов, активно вовлеченных в развитие и практическое ис- пользование омиксных технологий. Наши авторы представляют академическую науку: экспериментальную биологию, био- информатику, экономику, практическую ге- номику, а также ведущие клиники, сервисные компании и фармацевтическую индустрию. В основном мы фокусировались на состоянии дел на российском рынке с не- которым сравнением с западными анало- гами. Альманах предназначен для широкого круга читателей и не отражает мнения Фонда «Сколково» или государственных организаций. Author: Yuri Nikolsky, Cand. Biol. Sci., Science Director of Biomedical Technologies Cluster, The Skolkovo Foundation Genomics and other methods of multiparallel molecular assays, dubbed as «omics techno-logy », have revolutionized experimental bio-logy since 1980s. New technology had deep implementations in drug discovery, diagno-stics, data analysis and, increasingly, practice of medicine. Omics-focused innovation ecosy-stem evolved into a multi-billion dollar industry, which is now enjoying a major breakthrough from research to clinical market. Russia was late with omics hardware develop-ment and is not visible on international omics services markets. However, Russian omics data analysts and bioinformaticians are regar-ded as some of the best in the world, and the country is fast progressing in development of clinical applications based on omics techni-ques. In this review, we collected opinions of a diverse group of Russian professionals dealing with new technology: academic and industrial scientists, bioinformaticians; omics service providers; vendors of omics products and ser-vices for oncology, prenatal diagnostics and microbiome analysis. We are glad to summarize that our experts are overall optimistic about perspectives of omics evolution in Russia, citing our advantage in en-gineering and math-centered education and high level of market development, especially in consumer genomics and clinical applications.
  • 5.
    НАУКА 4 ФУНДАМЕНТАЛЬНЫЕ НАУЧНЫЕ ИССЛЕДОВАНИЯ С ИСПОЛЬЗОВАНИЕМ ОМИКСНЫХ ТЕХНОЛОГИЙ Самой первой из омиксных технологий стала известна геномика. Она изучает не отдель- ные гены, а всю совокупность генетической информации, которая называется геномом. Термин «геном» был предложен почти сто лет назад, а выделение геномики как от- дельного направления науки произошло в 1980-х, при обсуждении проекта «Геном че- ловека». Суффикс «ом» во всех «омиксных» терминах указывает, что рассматривается вся совокупность данных в целом. Конечно, геномика изучает не только геном человека, но и геномы всех других организ- мов. Ее достижения находят применение во многих сферах: в медицине, криминали- стике, животноводстве и растениеводстве, экологии, в решении фундаментальных во- просов происхождения и эволюции жизни. Когда исследовательские методы позво- ляли изучать только отдельные гены, при поиске генетических основ заболеваний приходилось перебирать по одному те гены, которые могут быть связаны с болезнью. Для этого надо было предположить, какие звенья метаболизма нарушены, и какие из- ученные к тому времени гены могут быть во- влечены в эти нарушения. Достижение успеха в значительной мере зависело от ин- туиции и везения исследователя. При анализе всего генома генетический де- фект может быть найден даже в том случае, когда природа нарушения неизвестна. Вы- явив этот дефект, можно определить, какой ген поврежден, на какие функции он влияет, и, исходя из этого, разрабатывать уже не общие стратегии лечения, а при- цельно направленные на коррекцию кон- кретного звена метаболизма. Впервые полная последовательность нук- леотидов генома человека была определена в 2003 году. Секвенирование (определение последовательности, от английского слова sequence) проводилось общими усилиями лучших лабораторий мира, заняло более 10 лет и обошлось в 3 млрд долларов. Сейчас развитие технологий привело к тому, что весь геном человека может быть «прочтен» за несколько дней, а стоимость его секвени- рования снизилась до нескольких тысяч долларов и продолжает снижаться. Автор: Николай Янковский, доктор биологиче- ских наук, член-корреспондент РАН, директор Института общей генетики им. Н.И.Вавилова РАН, Москва, Россия Суффикс «ом» во всех «омиксных» терминах указывает, что рассматрива- ется вся совокупность данных в целом.
  • 6.
    Партнер Фонда «Сколково» 5 Секвенирование полного генома человека дает информацию предельного разрешения о последовательности нуклеотидов. Однако многие участки генома неинформативны. Ведь на уровне последовательностей нук- леотидов люди отличаются друг от друга лишь одним нуклеотидом из тысячи. Имеет смысл сэкономить и анализировать лишь те нуклеотиды, по которым есть различия. Для такого анализа применяют микрочипы — короткие фрагменты ДНК, закрепленные на твердом носителе и нацеленные на распо- знавание того, какой нуклеотид стоит в за- ранее выбранных позициях в геноме. Генотип индивида определяют по тому, какие фрагменты ДНК прореагировали при добавлении к ним геномной ДНК. Стоимость такого анализа исчисляется уже не тысячами, а сотнями долларов на обра- зец, а проанализировать одновременно можно до миллиона участков генома. Мик- рочипы для определения генотипа могут быть нацелены не на изучение полного ге- нома (когда распознаваемые участки равно- мерно рассеяны вдоль всей геномной ДНК), а на анализ десятков или сотен генов, свя- занных с интересующим исследователя за- болеванием (например, если мы говорим о кардиочипе). Еще один способ сэкономить — читать не весь геном, а только его наиболее важные части. Эти участки, кодирующие белки, на- зывают экзонами, а всю их совокупность — экзомом. Секвенирование экзома позволяет выявить мутации, нарушающие структуру белков, но для нормального функционирования клетки важна не только структура белка, но и его количество. Это количество зависит от уровня активности гена — насколько интен- сивно синтезируются на нем молекулы мРНК, и от процессов, следующих за синте- зом РНК и приводящих к появлению функ- ционального белка. Эти этапы реализации генетической информации изучают такие Секвенирование полного генома человека дает информацию предельного разрешения о последова- тельности нуклеотидов. разделы наук, как транскриптомика и про- теомика. Сейчас известно, что транскриби- руются не только белок-кодирующие участки генома, но и другие участки, связан- ные с регуляцией активности генов, продол- жительностью жизни и активностью мРНК и многими другими клеточными процессами. Важные функции выполняют некодирующие РНК, которые не служат матрицей для син- теза белка, а сами активно вмешиваются в жизнь клетки. Они связываются с мРНК и подавляют экспрессию закодированной в ней информации, модулируют — в зависи- мости от условий — всплески активности генов, участвуют в формировании струк- dreamstime.com
  • 7.
    НАУКА 6 туры,распознающих участков и функцио- нальных центров молекулярных машин. Для того чтобы определить спектр и количе- ство синтезируемых в клетке мРНК, исполь- зуют различные подходы. Например, микрочипы, аналогичные тем, которые при- меняют при генотипировании, позволяют выявить, какие мРНК присутствуют в анали- зируемом образце, и тем самым узнать, какие из генов «работают», а какие «мол- чат». Другим методом анализа спектра и ко- ткани и изменений их спектра, количества и активности; метаболомика, изучающая со- став и концентрации метаболитов. В послед- ние годы возникла коннектомика, направленная на изучение совокупности нервных связей (коннектома) головного мозга высших животных, включая человека. Важное направление — изучение микро- биома, то есть совокупности всех микроорга- низмов в каком-либо месте их обитания (кишечнике человека, определенном участке и т.п.). Для этого проводится тоталь- ное секвенирование «диагностических» для разных групп микроорганизмов участков ДНК, выделенной из соответствующего био- логического материала. При ряде заболева- ний состав и количественное соотношение компонентов микробиома нарушаются, а восстановление или приближение к нор- мальному соотношению за счет приема про- биотиков способствует излечению. Понятно, что всем этим «омикам» прихо- дится иметь дело с динамичными показате- лями, меняющимися на протяжении жизни, в том числе в случае болезни. Поэтому омикс- ные методы используют для поиска прогно- стических и диагностических маркеров, указывающих на развитие заболевания или на успех (либо неуспех) его лечения. Омикс- ные технологии незаменимы при поиске эф- фективных маркеров. Лучших из всех возможных — потому что они как раз все возможные охватывают. А после того, как маркер (или маркеры) найден, может быть разработана дешевая и применимая в широ- ких масштабах технология его анализа. Сей- час уже используются методы анализа транскриптома для оценки эффективности химиотерапии при некоторых видах рака. Если лечение успешно, должна измениться экспрессия определенных генов. Если пре- парат на пациента не действует (что видно по отсутствию ожидаемых изменений в ра- боте генов), то можно быстро изменить схему терапии, не ожидая недели или ме- сяцы, чтобы обнаружить неэффективность лечения по ухудшению состояния пациента. На современном уровне развития омиксных технологий становится ясно, что нужен ком- плексный подход. На геномном уровне последовательность нуклеотидов ДНК опре- деляет безусловное развитие болезни для моногенных заболеваний или таких, в разви- При ряде заболеваний состав и количественное соотношение компонентов микробиома нарушается, а восстановление или приближение к нормальному соотношению за счет приема пробиотиков способствует излечению. личества РНК является тотальное секвени- рование всех РНК образца. Поскольку моле- кулы РНК намного менее стабильны, чем ДНК, то для анализа часто используют такой прием, как синтез кДНК, то есть ДНК, комплементарной РНК и синтезированной на РНК-матрице с помощью фермента об- ратной транскриптазы. Еще одним уровнем сложности в реализа- ции генетической информации является прижизненное модулирование активности генов за счет химической модификации (ме- тилирования) регуляторных участков генов (сама последовательность нуклеотидов остается при этом неизменной) или модифи- кации гистонов — белков, поддерживающих структуру ДНК. Такая модификация зависит от жизненных событий: от изменений кон- центрации гормонов или метаболитов до из- менений внешней среды, особенностей жизненного стиля или пережитых стрессов, и, что представляет особый интерес, нали- чия или отсутствия изменений, ведущих к болезни. Эти изменения изучает эпигено- мика. Еще несколько «омиков» изучают дру- гие уровни функционирования клетки и организма: протеомика, направленная на описание совокупности белков клетки или
  • 8.
    Партнер Фонда «Сколково» 7 тие которых вовлечены немногие гены. Таких заболеваний около 5-7 тысяч, и встре- чаются они с низкой частотой — один слу- чай на несколько тысяч или реже. Суммарно носителями таких заболеваний являются не- сколько процентов новорожденных. Гораздо шире распространены мультиген- ные заболевания, в которые вовлечены мно- гие гены, обычно со слабыми эффектами, взаимодействующие со средовыми факто- рами риска. К этой группе относятся сер- дечно-сосудистые, онкологические, аутоиммунные, психические и ряд других со- циально значимых заболеваний. Среди таких заболеваний небольшую долю состав- ляют моногенные формы. Например, повреждение гена BRCA1 обна- ружено в семейных формах рака груди, а мутации в генах калиевых каналов — в син- дромах нарушения ритма сердца с высоким риском внезапной смерти. То есть один и тот же результат — болезнь получается при «сильной» мутации в очень важном гене или при сочетании средовых факторов риска с набором «слабых» мутаций во множестве генов. Как и мутации, средовые факторы риска (впрямую или через эпигенетические изменения активности генов) меняют мета- болические процессы организма. Выявле- ние мутаций в генах, ведущих к развитию мультифакторных заболеваний, не дает аб- солютного диагностического инструмента в руки исследователя, но позволяет «заце- пить» тот метаболический путь, который за- действован в развитии болезни. А это уже путь к определению фармакологической ми- шени, которая будет работать вне зависи- мости от того, вызвано заболевание генетическими или средовыми причинами. От генетических особенностей зависит и ин- дивидуальная реакция на лекарства. Омиксные технологии имеют огромное значение для развития медицины и фарма- цевтики. Знание структуры геномов разных видов и популяций растений и животных не- обходимо для современной селекционной работы, для понимания механизмов устой- чивости к патогенам, плодовитости или уро- жайности, районирования сортов и многих других направлений агробиотехнологий. Author: Nikolay Yankovsky, Professor, Dr. Biol. Sci., Cor-responding Member of the Russian Academy of Sci-ences, The Vavilov Institute of General Genetics of the Russian Academy of Sciences Genomics, which studies the wholeness of ge-netic information, was developed as the first “omics” technology. It became widely known in mid-1980s due to human genome project. Ge-nomics methods, especially DNA sequencing, are directly applicable in medicine, criminalistics, agriculture. Genomics was followed by methods measuring next steps of genome expression, RNA transcription and epigenetics; proteomics and metabolomics. It is clear now that multiple levels of omics data should be used together in integrative studies resulting in biomarkers, drug targets and other applications. dreamstime.com
  • 9.
    БИОИНФОРМАТИКА 8 РОЛЬБИОИНФОРМАТИКИ И АНАЛИЗА «БОЛЬШИХ ДАННЫХ», ПРОИЗВОДИМЫХ В ОМИКСНЫХ ЭКСПЕРИМЕНТАХ Омиксные технологии — основной источник «больших данных» в биомедицине, они по- рождают огромный объем сложных много- уровневых данных геномики, транскрипто- мики, эпигеномики, протеомики и т.д. Как ис- следуют такие данные, какую информацию можно извлечь из их совместного анализа? Какова роль биоинформатики в обеспечении такого качества анализа, которое позволяет использовать его в клинической практике? Для начала стоит рассмотреть возможности и ограничения этих технологий. Геномика — это в каком-то смысле расширение тради- ционной медицинской генетики. Разница в том, что тут рассматриваются не мутации в отдельных генах, а полный набор генетиче- ских особенностей организма. Проблема же в том, что лишь в немногих случаях эти осо- бенности позволяют делать существенные выводы. В случае классических, так назы- ваемых менделевских, мутаций все понятно: наличие такой мутации вызывает болезнь. Однако именно в силу этой определенности такие мутации относительно редки. Основ- ной же массив генетических вариантов вы- зывает лишь предрасположенности, проявление которых зависит от других генов и от внешней среды. Некоторые предраспо- ложенности достаточно сильны, чтобы при- вести к реальным медицинским решениям (скажем, при некоторых мутациях, вызываю- щих предрасположенность к раку молочной железы, назначают более частые и глубокие обследования: в этом случае риск несвоевре- менного обнаружения опухоли перевешивает расходы и возможные осложнения от диагно- стических процедур). Большинство же из- вестных предрасположенностей значимы лишь статистически, на больших выборках, и мало что дают в конкретных случаях. Автор: Михаил Гельфанд, доктор биологических наук, профессор, факультет биоинформатики и биоинженерии МГУ им. М.В.Ломоносова, Москва, Россия dreamstime.com
  • 10.
    Партнер Фонда «Сколково» В правильно организованных проектах постановка эксперимента с самого начала учитывает то, как будут анали- зироваться его результаты. 9 Другое, недавно появившееся и стреми- тельно развивающееся ответвление гено- мики — геномика рака. Она тесно связана с транскриптомикой, т.е. изучением того, с какой интенсивностью работают гены. Рак — это в первую очередь молекулярная болезнь, следствие разладки сигнальных и регулятор- ных систем клетки (кстати, ничего не напо- минает?). Нормальная клетка не делится бесконтрольно, имеет фиксированное время жизни, обменивается информацией с сосед- ними клетками. Более того, в каждую клетку заложен механизм, который уничтожает ее, если какие-то системы нарушены — подобно тому, как ракета осуществляет самоподрыв, если при старте произошла нештатная ситуа- ция и ракета отклонилась от курса. В рако- вых клетках за счет мутаций в геноме и, как следствие, изменений в работе генов этот механизм нарушен, клетка становится бес- смертной, часто делится, приобретает спо- собность жить в несвойственном окружении (так возникают метастазы). Так вот, оказы- вается, что раки, которые традиционно счи- тали однородными, на самом деле могут вызываться разными молекулярными полом- ками и, наоборот, в раках разного тканевого происхождения могут быть нарушены одни и те же молекулярные системы. Исследование ракового генома и транскриптома дает воз- можность более точной диагностики и более тонкого назначения лекарств. Протеомика — это следующий шаг в этом на- правлении, когда изучается не интенсив- ность, с которой с гена считывается информация в виде мРНК, а количество ко- нечного продукта, белка. Но пока что, на- сколько мне известно, массовых исследований и тем более применения ана- лиза ракового протеома не проводилось. Можно представить себе и другие примене- ния транскриптомики, скажем, раннюю диаг- ностику потенциальных отторжений при пересадке органов. Но пока что я таких работ не видел. Эпигеномика, т.е. изучение функционального состояния генома, пока не имеет самостоятельных применений, потому что это в каком-то смысле промежуточные данные. В то же время исследование эпиге- номики важно для понимания биологических механизмов работы генома, клеточной диф- ференциации, развития организма. Наконец, метаболомика — это исследование концентраций небольших молекул; это клас- сические биохимические анализы, только в принципиально большем масштабе. Такие ис- следования активно проводятся во многих медицинских центрах, в том числе в некото- рых российских лабораториях. Цель их — точная постановка диагноза. Без обширного и глубокого статистического анализа, т.е. без биоинформатики, исследо- вания в области омиксных технологий невоз- можны в принципе. Одной из особенностей современной биологии является то, что ис- чезла грань между генерацией эксперимен- тальных данных и их обработкой: соответ- ственно, биоинформатики являются интег- ральной частью команды исследователей. Впрочем, рассуждая об этих интересных во- просах, полезно иметь в виду, что доля бюд- жета России, направляемого на науку и здравоохранение, сокращается. При этом уровень коррупции в медицине и в медицин- ском образовании, по всей видимости, весьма велик; соответственно, падает квали- фикация врачей (тривиальным подтвержде- нием этому являются медицинские коллекции Диссернета). Полезно также по- нимать, что самый простой способ резко по- высить эффективность лечения рака — это своевременная диагностика и адекватная те- рапия на ранних стадиях. Author: Mikhail Gelfand, Dr. Biol. Sci., Professor of Bio-engineering and Bioinformatics, Lomonosov Moscow State University, Russia Every omics technology features has its own ad-vantages and limitations. However, all omics stu-dies are united in the requirement for bioinformatics they would be impossible without. In well-designed projects, analysis is embodied in experimental planning from the very beginning. Fading the line between experimental data gene-ration and analysis is a characteristic feature of modern biology.
  • 11.
    ГЕНОМИКА 10 РАЗВИТИЕГЕНОМИКИ И ОМИКСНЫХ ТЕХНОЛОГИЙ В РОССИИ Автор: Владислав Милейко, кандидат биологи- ческих наук, директор Геномного центра Нано- технологического центра «Техноспарк», Москва, Троицк, Россия – Каков современный ландшафт омиксных технологий в России? Кто игроки в области секвенирования, генотипирования, протео- мики, метаболомики и т.д.? Как развивается сервисный бизнес? – На волне мирового бума омиксных техно- логий Россия активно вливается в эту пер- спективную, но непростую историю. Несмотря на то что в России стоит уже не одна сотня секвенаторов NGS (next genera-tion sequencing), большая их часть пылится в ожидании запуска или работает на считан- ные проценты от своей мощности. Причин на то несколько: и перекосы в статьях финан- сирования исследований (есть деньги на до- рогую технику, но нет на расходники), и глобальный дефицит «качественных» про- ектов. А самое главное — это нехватка спе- циалистов, способных не только работать с этими технологиями и биоинформатикой данных, но и инициировать наполненные смыслом и востребованные исследования. Следует, конечно, отметить и другую важ- ную особенность омиксной науки: чтобы де- лать классные проекты в секвенировании, не нужен секвенатор. Более того, необходи- мость обслуживать секвенатор, обучать своих специалистов работе на нем и т.д. — зачастую непозволительная роскошь для не- больших групп исследователей. Вся пре- лесть высокопроизводительных методов заключается в возможности уместить целый проект в один (а то и меньше) запуск при- бора, поэтому он запросто может стоять хоть на другом континенте. По большому счету, «домашний» секвенатор нужен только двум категориям исследователей. Тем, кто зани- мается разработкой новых методологий и им нужно регулярно запускать прибор, глубоко понимая особенности его работы в разных режимах (НоМоТех). И тем, кто внедряет прикладные технологии в практику и дол- жен следовать строгим стандартным опера- ционным процедурам, обеспечивая бескомпромиссную надежность и воспроиз- водимость результатов (например, таким компаниям, как «Парсек-Лаб»). Наверное, в масштабах страны наиболее правильная стратегия — не наращивание парка приборов, а развитие квалифициро- ванных сервисных компаний и центров кол- лективного пользования, реализующих комплексные решения: от участия в дизайне эксперимента (с учетом имеющегося практи- ческого опыта) до полноценного биоинфор- матического сопровождения и анализа данных. Такой подход позволит не только Чтобы делать классные проекты в секвенировании, не нужен секвенатор.
  • 12.
    Партнер Фонда «Сколково» 11 увеличить доступность технологии широ- кому кругу коллективов, но и повысить само качество реализуемых проектов. – Нужен ли нам собственный секвенатор и другое оборудование? – Несмотря на успешный опыт использова- ния NGS в России и неутихающую «гонку во- оружений» в разработке новых технологий секвенирования, перспектива создания оте- чественного секвенатора выглядит туман- ной. Такой проект может быть реализован только большим консорциумом, включаю- щим высококлассных физиков, инженеров, химиков и молекулярных биологов. Главное требование к такой команде — не только и даже не столько квалификация (с этим у нас проблем нет), сколько реальный опыт успеш- ного сотрудничества в аналогичных разра- ботках. На текущий момент такого опыта, к сожалению, накоплено мало. На мой взгляд, более оправданы усилия по созданию собственной версии расходных ма- териалов для секвенирования (например, под платформу Ion Torrent), рынок для кото- рых намного больше, чем для «машин», а по- требность в дешевых расходниках не вызывает сомнения, и не только в России. Может быть, таким путем мы первыми в мире сможем сделать «геном за $100». Отдельно следует отметить перспективы создания новых подходов к секвенированию на базе существующих платформ. Наиболее ярким примером стал успех стартапа Mole-culo. Команда из Стэнфорда с русскими кор- нями (Chief Technology Officer Дмитрий Пушкарев — выпускник МФТИ) создала на настольном секвенаторе комплексное реше- ние для «чтения» необычайно длинных последовательностей — более 10Kb. Разра- ботка открыла новые возможности для сборки геномов de novo, анализа наслед- ственных заболеваний и др. Уже через год после первых запусков секвенатора Moleculo купил лидер индустрии компания Illumina. В России есть все предпосылки для работы над такого рода задачами. В биологии и био- информатике, как нигде, пригодятся и рус- ская смекалка, и инженерный уклон нашего образования. Одним таким проектом яв- ляется компания НоМоТех, разработки кото- рой позволяют с высокой точностью секве- нировать высокогетерогенные образцы. – Какие у нас особенности и перспективы развития и на чем стоит сфокусироваться России, по Вашему мнению? – С подачи лидеров индустрии NGS стало «модно» использовать чуть ли не для любых задач в биологии и не только. Иной раз ка- жется, что каждый исследователь готов при- думать приложение для NGS в своей области, зачастую без оглядки на целесооб- разность. Тем временем в нашей стране ряд важных задач остается без должного внима- ния. Это в первую очередь касается сель- ского хозяйства, пищевой промышленности и промышленной биотехнологии. Кроме того, следует бросить всю мощь омиксных технологий в ресурсодобывающую отрасль. России, крупнейшему экспортеру нефти и газа, непозволительно уделять так мало внимания новым возможностям иссле- дования как фундаментальных процессов образования углеводородов, так и приклад- ных технологий поиска и обследования ме- сторождений. Удельная концентрация проектов в области медицинских омиксных решений в России очень высока, хотя абсо- лютное количество нам еще предстоит нара- щивать, пока NGS и другие современные подходы не станут реальной медицинской практикой. В биологии и биоинформатике, как нигде, пригодится русская смекалка. Author: Vladislav Milejko, Cand. Biol. Sci., CEO of the Genome Center of the Technospark Nanotech-nology Center, Moscow, Russia In Russia, it makes sense to develop high quality omics service companies and shared use cen-ters. These entities should be able to run integra-ted projects with a scope of services from experiment design to data analysis. We can also participate in development of novel sequencing technologies, and international collaboration is very important to bring the know-how to the in-dustry. We have an advantage of our engene-ering- focused education to be succesful in such enterprises.
  • 13.
    CAГЕНОМИКА 12 МЕЖДУНАРОДНОЕ СОТРУДНИЧЕСТВО В КОЛЛАБОРАТИВНЫХ ОМИКСНЫХ ПРОЕКТАХ – Омиксные проекты сложные и дорогие. Как нигде в биомедицине, в геномных исследова- ниях важно сотрудничество между на- учными коллективами. Вы представляете коллектив, объединивший организатора кон- сорциума функционального анализа геномов млекопитающих FANTOM и новых участни- ков проекта. Расскажите, пожалуйста, про этот проект и ваш опыт ведения и участия в широкомасштабных международных иссле- дованиях. – Скорость и объем получаемых в наши дни геномных данных диктуют свои условия, не- обходимые для достойного осмысления по- лучаемой информации. Мы уверены, что проведение широких полногеномных иссле- дований должно осуществляться в рамках международной кооперации. Проект FANTOM, ставящий целью получение де- тальных знаний о функционировании гено- мов модельных млекопитающих и человека, на наш взгляд, является успешным приме- ром такого подхода. FANTOM — это между- народный консорциум, организованный доктором Хаяшизаки (РИКЕН) и его колле- гами в 2000 году для функциональной анно- тации полноразмерных кДНК, полученных в рамках проекта Mouse Encyclopedia. C тех пор FANTOM развился и теперь включает в себя весь спектр анализа активности генома — от активности отдельных генов до полно- геномной реконструкции регуляторных транскрипционных сетей. Эти ресурсы задействованы во многих про- ектах. Так, например, группа нобелевского лауреата Синъи Яманаки (Shinya Yamanaka) использовала данные FANTOM для выбора предварительного набора из 24 факторов транскрипции для создания плюрипотент- ных стволовых клеток. Проект развивается Автор: Йошихиде Хаяшизаки, директор программы персонифицированной медицины РИКЕН и руководитель международного кон- сорциума Functional Annotation of the Mammalian Genome (FANTOM), Япония Автор: Олег Гусев, со-руководитель совместной лаборатории КФУ—РИКЕН Functional Genomics, Россия
  • 14.
    CA Партнер Фонда«Сколково» 13 этапами, эволюционируя от анализа не- скольких тысяч кДНК в 2000 году до рекон- струкции активности транскрипционных сетей основных типов клеток человека, ра- ковых клеток и различных этапов эмбрио- нального развития млекопитающих, законченного в 2014 году. В настоящее время консорциум включает более 500 человек из 20 стран. На следующем этапе планируется анализ транскрипционной активности в более чем 1000 патологических случаях в клетках. Кроме того, одним из актуальных направле- ний является получение данных об этноспе- цифических особенностях активности генома. Это прекрасная возможность, в том числе для потенциальных российских участников проекта: полученные данные будут представлять огромный интерес как в фундаментальном плане, так и в практиче- ской области персонифицированной меди- цины. Мы уверены, что ряд геномных центров в России способны стать полноцен- ными партнерами проекта и самостоя- тельно осуществлять полный цикл сбора и анализа данных. – Каковы ваши общие научные интересы и как омиксные технологии помогают их решать? – Одним из главных стимулов в создании со- вместной лаборатории и старта совместных исследований стала разработка специали- стами РИКЕН метода полногеномного ана- лиза активности промоторов (CAGE). Группа в Казанском федеральном университете ведет несколько проектов с привлечением геномных методов, направленных на понима- ние основ уникальных способностей ряда жи- вотных выживать в поистине экстремальных условиях. Три основных проекта включают анализ генома насекомого, африканской хи- рономиды, способной выживать при полном обезвоживании; изучение генетических основ устойчивости уникального вида пиявок к глубокой заморозке без потери жизнеспо- собности и исследования в области генети- ческого контроля спячки млекопитающих. Во всех этих проектах ключевыми вопро- сами являются особенности регуляции транскрипции в геноме. Метод CAGE яв- ляется одним из универсальных и позволяет идентифицировать различные типы РНК (включая некодирующие), напрямую вовле- ченные в контроль работы генов в экстре- мальных условиях. А уникальные адаптивные особенности исследуемых орга- низмов вызывают глубокий интерес япон- ских коллег. – Известно, что планируется организация со- вместной компании для реализации одной из разработок РИКЕН в России. Расскажите, пожалуйста, об этом подробнее. – Да, такие планы есть. Дело в том, что в Японии существует ряд компаний, активно внедряющих разработки научных институтов (в том числе РИКЕН) в конкретные приклад- ные проекты, например, в области генной диагностики. Не так давно группа россий- ских специалистов выразила интерес к трансферу ряда технологий и в Россию, и мы планируем осуществлять консультацион- ную поддержку этой инициативы. Кроме того, несколько наших совместных проектов по изучению сценариев развития при ряде форм рака на основе полногеномного ана- лиза CAGE уже в ближайшем будущем могут стать основой для разработки новых диагно- стических подходов в онкологии. Authors: Dr. Yoshihide Hayashizaki, Preventive Medi-cine and Diagnosis Innovation Program, RIKEN, Program Director and General organizer of Functio-nal Annotation of the Mammalian Genome (FAN-TOM) International Research Consortium, and Oleg Gusev, co-head of the joint Kazan Federal Univer-sity— RIKEN Functional Genomics laboratory Nowadays, large scale genomic projects would be carried out as international collaborations. For instance, one of the largest projects, FANTOM, attracted scientists from over 20 countries. A gro-wing number of researchers use the FANTOM results, including Nobel Prize winner Shinya Ya-manaka. Russian scientific centers should join such projects. Moreover, Russian biologists are interested in transferring some of omics techno-logies to Russia. Ряд геномных центров в России способны стать полноценными партне- рами проекта и осуществлять полный цикл сбора и анализа данных.
  • 15.
    ФАРМАКОЛОГИЯ 14 ОМИКСНЫЕТЕХНОЛОГИИ В ФАРМАЦЕВТИЧЕСКОЙ ИНДУСТРИИ – Какие задачи помогают решать омиксные технологии в процессе открытия лекарств? – Омиксные и, в первую очередь, геномные технологии появились в качестве стандарт- ных инструментов в фармацевтических ком- паниях во второй половине 1990-х годов. Поначалу их применяли для поиска и вали- дации мишеней в научных исследованиях и разработках. Однако одним из первых прак- тических применений геномики (точнее, вы- сокопроизводительного мультиплексного (high throughput) экспрессионного профили- рования) стал анализ токсичности и без- опасности новых лекарственных веществ, так называемая «токсикогеномика». Токси- когеномика использует экспрессионный анализ для предсказания потенциальной токсичности лекарственных веществ и уровня безопасности новых лекарственных препаратов, находящихся на стадии разра- ботки. Параллельно омиксные технологии нашли применение в оценке фармакодина- мических параметров новых соединений, т.е. их способности индуцировать биологи- ческие изменения в модельных системах, таких как клеточные линии и лабораторные животные. Относительно недавно геномные технологии стали применяться и в клиниче- ских исследованиях: от определения био- маркеров (в первую очередь, ответа на лекарства) до персонализированной тера- пии. Пожалуй, сегодня можно сказать, что именно поздние стадии разработки новых лекарственных препаратов выиграют от омиксных технологий больше всех. – Омиксные технологии – сложные, и они бы- стро эволюционируют. В какой степени фар- мацевтические компании развивают их внутри и насколько используют сервисные компании? Каковы тенденции и перспективы развития омиксных компаний в контрактно- исследовательских организациях (КИО)? – В целом фармацевтические компании не развивают омиксные технологии сами: это просто не их работа. Обычно фармацевти- ческие компании приобретают технологии или вступают в партнерство с компаниями, которые специализируются на данных тех- нологиях. В большинстве случаев фарма- цевтические компании начинают с тестирования технологий внутри компаний самостоятельно. Позже, когда технологии «созревают» до состояния «ценного мате- риала», компании предпочитают отдавать Автор: Виталий Пруцкий, кандидат биологических наук, глава по информа- ционному обеспечению R&D, «АстраЗенека», Санкт-Петербург, Россия
  • 16.
    Партнер Фонда «Сколково» 15 проекты на аутсорсинг в специализирован- ные сервисные организации. В некоторых случаях, после оценки вариантов сотрудни- чества, мы выбираем то, что реально не- обходимо, и приносим технологии обратно в наши лаборатории. Но в целом большинство проектов сегодня осуществляется специа- лизированными сервисными поставщиками. Стандартной практикой является покупка «классическими» КИО омиксных технологий или КИО сервисных компаний. Такие транс- акции совершили, например, одни из круп- нейших мировых КИО — Covance и Quintiles. – В какой степени российские фармацевти- ческие компании «в тренде»? Есть ли отста- вание от глобальных фармацевтических компаний в отношении внедрения и исполь- зования омиксных технологий? В частности, известно, что глобальные компании широко ведут секвенирование биопсий и крови в клинических испытаниях с целью определе- ния групп пациентов, хорошо отвечающих на лекарство. Как обстоит дело в клинических испытаниях, ведущихся в России? – С моей точки зрения, существует огром- ная пропасть в степени понимания и исполь- зования омиксных технологий между глобальными и российскими фармацевтиче- скими компаниями. Возможно, такая боль- шая разница отражает тип развития лекарственных препаратов в российской фармацевтической индустрии: очень редко Существует огромная пропасть в сте- пени использования омиксных техно- логий между глобальными и российскими компаниями. это оригинальные исследования, с вовлече- нием всех стадий научно-исследователь- ского процесса. Однако с недавнего времени мы наблюдаем примеры использо- вания омиксных технологий для демонстра- ции фармакодинамической эквивалент- ности биосимиляров, производимых россий- скими компаниями, и оригинальных препа- ратов. К сожалению, я не слышал о каком-либо широкомасштабном и система- тическом использовании омиксных техноло- гий в клинических испытаниях, проводимых российскими компаниями. Author: Vitali Proutski, Cand. Biol. Sci., Head of the AstraZeneca Russia R&D Information Management Omics (first of all, genomics) technologies be-came standard tools in pharmaceutical compa-nies in the second half of 1990s. First, they were applied for target validation in preclinical rese-arch; later they expanded to clinical trials. I be-lieve that the latter stages of drug development will actually win the most from omics assays. From my perspective, there is a wide gap in un-derstanding of omics technologies between glo-bal and local pharmaceutical companies. dreamstime.com
  • 17.
    КЛИНИКА 16 dreamstime.com ОМИКСНЫЕ ТЕХНОЛОГИИ В ПРАКТИКЕ КРУПНОГО ГОСПИТАЛЯ И «ТРАНСЛЯ- ЦИОННАЯ МЕДИЦИНА» – Какие омиксные технологии и как исполь- зуются в практике современного детского госпиталя? Что они добавляют к стандарт- ным методам клинической диагностики и лечения? – Детский госпиталь Лос-Анджелеса (CHLA) – это один из лучших и самых боль- ших детских госпиталей в США, который на- ходится в центре города. CHLA — частный госпиталь, работающий совместно со Шко- лой медицины KEKA Университета Южной Калифорнии (USC). Более 60 тысяч детей ежегодно получают помощь в CHLA. Иссле- довательский Институт Сабан (TSRI) — это отделение CHLA, отвечающее за научную деятельность госпиталя. Ученые из TSRI в сотрудничестве с генетиками и лечащими врачами проводят анализ геномных и транс- криптомных последовательностей, генной экспрессии, метилирования ДНК и другие исследования. В зависимости от типа забо- левания проводятся полногеномное иссле- дование, панельное исследование группы генов или анализ одного гена. Новые техно- логии постоянно разрабатываются, оцени- ваются, внедряются и становятся частью ежедневной работы госпиталя. Например, около полугода назад ученые из Группы молекулярной патологии и генетики приду- мали быстрый и эффективный тест для об- наружения мутаций в гене RB1, который
  • 18.
    Партнер Фонда «Сколково» Автор: Татьяна Татаринова, кандидат биологических наук, профессор, Школа медицины Кека Университета Южной Калифорнии; директор лаборатории вычислительной биологии, Детский госпиталь Лос-Анджелеса, США 17 позволил улучшить диагностику и лечение пациентов, страдающих ретинобластомой. Практически все случаи двусторонней рети- нобластомы вызваны наследуемой мута- цией в гене RB1. Наши ученые использовали подход NGS — высокопроиз- водительное секвенирование второго поко- ления, которое способно обнаруживать точечные мутации, вставки и делеции раз- ного размера и дупликации гена RB1. Метод позволяет детектировать даже небольшой уровень мозаичных мутаций напрямую из образцов крови. Сэнгеровское секвенирова- ние, широко использовавшееся до середины 2000-х годов, обычно пропускает такие му- тации. Весь анализ занимает менее трех дней с момента выделения ДНК. Такая ско- рость позволяет провести раннюю молеку- лярную диагностику ретинобластомы и своевременно подобрать индивидуальный метод лечения. Каждую неделю в CHLA приезжают докладчики из разных универси- тетов и исследовательских лабораторий; проводятся семинары, школы и тренинги по ознакомлению врачей и исследователей с новыми технологиями. – Каким образом вы анализируете данные? Ведь даже в случае одного пациента могут накапливаться гигантские массивы сиквенс- ных и других данных. Каким образом они коррелируют с клиникой? – CHLA имеет несколько мощных серверов исключительно для анализа и хранения кли- нических геномных данных. У нас также есть доступ к HPCС (High Performance Com-puter Cluster) Университета Южной Кали- форнии, где мы обсчитываем особенно большие массивы данных. Мы постоянно тестируем новые биоинфор- матические программы (например, для вы- равнивания последовательностей) и базы данных мутаций и встраиваем подходящие элементы в наш набор программ для разных случаев. Биоинформатическая компьютер- ная процедура создает отчет по каждому пациенту. Этот отчет посылается медику-ге- нетику и лечащему врачу для выбора персо- нального терапевтического подхода. Все найденные мутации и клиническая картина каждого пациента хранятся во внутренней базе данных CHLA. Это позволяет анализи- ровать старые случаи и лучше подбирать те- рапевтические методы для пациентов. – Что такое «трансляционная медицина» и как она внедрена в практику госпиталя? – Ученые и доктора из Детского госпиталя Лос-Анджелеса вовлечены в работу Южно- Калифорнийского Института клинической и трансляционной медицины (Southern Califor-nia Clinical and Translational Science Institute, SC CTSI). Задача SC CTSI — обеспечение лучшего здравоохранения для жителей Лос- Новые технологии постоянно разраба- тываются, оцениваются, внедряются и становятся частью ежедневной работы госпиталя.
  • 19.
    КЛИНИКА 18 Анджелеса,происходящих из разных иму- щественных, социальных и этнических групп. SC CTSI — это своего рода мост, со- единяющий ученых с лечащими врачами и населением. Работа ведется по нескольким направлениям: 1) создание эффективного сотрудничества между учеными, докторами и пациентами; 2) ознакомление и вовлечение широкого круга людей в научные исследования; 3) идентификация наиболее срочных задач здравоохранения и областей научных иссле- дований в Лос-Анджелесе. Примером работы института является ис- следование сердечно-сосудистых заболева- ний латиноамериканцев, проведенное с участием широкого круга пациентов, где ис- пытуемые сами становятся исследовате- – Насколько методы получения и обсчета омиксных клинических данных применимы в наше время в России? – Проведение омиксных исследований и разработка индивидуального подхода к лечению — чрезвычайно важный, но очень дорогостоящий элемент медицины. К тому же это динамично развивающаяся область. Новые технологии устаревают в течение буквально нескольких лет, и для приобрете- ния нового оборудования нужны дополни- тельные вложения. Мне кажется, что передовые российские медицинские центры будут использовать омиксные технологии в том же объёме, что и западные госпитали, но в массы эти технологии придут уже после окончания экспериментальной фазы. Author: Tatiana Tatarinova, Cand. Biol. Sci., Professor of The Keck School of Medicine of the University of Southern California; director of the Computational Biology Laboratory of the Children’s Hospital Los Angeles, USA At our hospital, new (omics) technologies are part of everyday life. Thus, our scientists applied next generation sequencing (NGS) to develop a quick and efficient test monitoring mutations in RB1 gene. This test is needed for early diagno-stics of retinoblastoma and selection of indivi-dualized treatment strategy. We have several powerful servers for storage and analysis of cli-nical genomic data and have access to HPCС (High Performance Computer Cluster) of the University of Southern California (USC) for high volume projects. In time, omics technologies will become standard practice in advanced Russian research clinics. Проведение омиксных исследований и разработка индивидуального подхода к лечению — чрезвычайно важный, но дорогостоящий элемент медицины. лями. SC CTSI также проводил исследова- ния эффективности различных методов те- стирования на вирус СПИД; тестирование использования текстовых сообщений для контроля диабетиков. Во всех случаях трансляционная природа исследований вы- ражается в скорейшем доступе новых меди- цинских технологий, участии пациентов и их лечащих врачей в проведении исследова- ний и ознакомлении широкой публики с важными научными результатами. dreamstime.com
  • 20.
    Партнер Фонда «Сколково» 19 ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ ДЛЯ НАСЕЛЕНИЯ: ПОТРЕБИТЕЛЬСКАЯ ГЕНОМИКА И ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ В КЛИНИКАХ – Поясните, пожалуйста, что означает тер- мин consumer genomics? Каков спектр ваших услуг, и зачем люди вообще анализи- руют свои геномы? – Мы работаем с врачами, делаем для них систему анализа экзомных данных, помогаю- щую диагностировать редкие наследствен- ные заболевания. Consumer genomics — это то, чем занимаются компании 23andMe, «Ге- нотек», «Мой Ген» и др., — работа непос- редственно с частными лицами, анализ их ДНК из слюны на микрочипах и предостав- ление информации о родословной, о пред- расположенностях к тем или иным мультифакторным заболеваниям, статусе носителя по нескольким десяткам генетиче- ских заболеваний. – Против пионера в области анализа гено- мов, американской компании 23andMe, в прошлом году FDA было вынесено указание о частичной приостановке деятельности из- за их интерпретации генетической предис- позиции к болезням и сборе коммерческой базы данных пациентов. Прокомментируйте, пожалуйста, этот случай. Как обстоят дела в России в этом контексте? – 23andMe обвинили в том, что они предо- ставляют пациентам медицински значимую информацию в обход врачей, а пациенты ее могут неправильно интерпретировать и на- нести себе вред. Собирать коммерческую базу данных никто никому не запрещал, за- претили выдавать именно медицински значимую информацию. Вокруг этого до сих пор ведутся бурные дебаты, позиция FDA не всеми принята однозначно. Что касается России, то у нас фактически никаких мер ре- гуляции к компаниям не применяется. Автор: Андрей Афанасьев, кандидат биологических наук, генеральный директор компании iBinom, Москва, Россия – Каковы перспективы рынка интерпретации геномов в России и мире? Быть может, это выглядит несколько наивно, но может пока- заться, что это «одноразовый» продукт: у нас ведь всего один геном, достаточно сделать генетический анализ лишь раз в жизни? – Да, геном у человека действительно один, и если сделать полногеномное секвенирова- ние, то другие генетические тесты можно не делать. Но пока полногеномное секвениро- вание стоит несколько тысяч долларов. По- этому в «развлекательных» целях делают микрочиповое исследование (отдельные то- чечные мутации), а в медицинских — таргет- ное секвенирование (отдельные гены) или секвенирование экзома (все гены). Надеюсь, что рано или поздно мы дойдем до поголов- ного секвенирования всех новорожденных. Author: Andrew Afanasiev, Cand. Biol. Sci., CEO of iBinom Consumer genomics tests empowers doctors with tools for analysis of exome sequence data. Patients get information about their pedigree, their mutation bearer status in regards to several dozen monogenic diseases and predisposition to polygenic diseases. Consumer genomics market will become more and more attractive.
  • 21.
    КЛИНИКА 20 ОМИКСНЫЕТЕХНОЛОГИИ В ПРАКТИКЕ ПРЕНАТАЛЬНОЙ ДИАГНОСТИКИ: МНЕНИЕ СЕРВИСНОЙ КОМПАНИИ – Вы занимаетесь пренатальной ДНК-диагно- стикой и другими клиническими исследова- ниями. Какие омиксные технологии Вы используете в продуктах и сервисах? – Мы используем микрочипы как для геноти- пирования точечных мутаций, так и для мо- лекулярного кариотипирования. Генотипирование на микрочипах в нашем случае — это реакции минисеквенирования на большую панель точек. Эта технология позволяет нам проводить скрининг носитель- ства моногенных заболеваний. Молекуляр- ное кариотипирование мы используем для скрининга на хромосомные аномалии эм- брионов, полученных при экстракорпораль- ном оплодотворении. При этом первым этапом является полногеномная амплифика- ция, что позволяет получать большое коли- чество данных, используя в качестве стартового материала одну лишь клетку. Кроме того, мы используем и разрабатываем киты для ПЦР. А наиболее «чистая» гено- мика в нашем случае — это биоинформати- ческий анализ результатов полноэкзомного секвенирования. – Кто ваши клиенты: врачи, пациенты? В какой степени они принимают новые тех- нологии? Откуда получают информацию? – Мы работаем и с пациентами, и с врачами. В целом и те, и другие иногда разбираются в новых технологиях по-разному. Конечно, если эти две группы сравнить напрямую, врачи ориентируются в современных мето- дах лучше. С другой стороны, если сравнить, насколько уровень знаний отличается от ожидаемого, то пациенты чаще отличаются в лучшую сторону, а врачи — в худшую. Примеры высказываний пациентов по мето- дам преимплантационной генетической диаг- ностики для семей с транслокациями: «–Ты немного не права. ПЦР видит только не- сбалансированных эмбрионов. Эмбрион без транслокации или эмбрион со сбалансиро- ванной транслокацией считаются хорошими. FISH отличает сбалансированных от несба- лансированных. Скорее всего, методики FISH отличаются в разных клиниках. – В первом проте у нас был именно FISH, мы для него перед протом сдавали кровь, по этой крови делали определённые маркеры для определения транслокации, и в ответе по ПГД было указано, имеет ли эмбрион транс- локацию, и если да, то какую: сбалансирован- ную или несбалансированную.» А так воспринимают пациенты рекламную ак- тивность в форме научных публикаций: «…хоть бы не позорились, публикуют на- учные данные по разовому успеху ("впервые в России") проведения диагностики…» Автор: Екатерина Померанцева, кандидат биоло- гических наук, заведующая лабораторией меди- цинской генетики Института стволовых клеток человека, Москва, Россия
  • 22.
    Партнер Фонда «Сколково» Медицина вообще может быть охарак- теризована как искусство принимать решения в условиях неполноты информации. 21 Уровень владения вопросом, мне кажется, замечательный. Понятно, что не все паци- енты старательно вникают в технологии. Но в целом очевидна тенденция — увеличение информированности, чувства ответственно- сти за свое здоровье (в том числе за диагно- стику), уход от желания переложить ответственность на врача. Специалисты де- монстрируют более негативный тренд, кото- рый я бы условно назвала «огораживание». Полагаю, это связано с нежеланием расши- рять компетенции и желанием застрахо- ваться от ответственности за ошибки. Медицина вообще может быть охарактеризо- вана как искусство принимать решения в условиях неполноты информации. Почему-то в последние годы об этом стали забывать. То ли зарегулированность и схематичность про- токолов лечения тому виной, то ли избыточ- ный пресс личной ответственности. Отдельный вопрос, откуда эта неполнота бе- рется? Казалось бы, геномные данные соз- дают, скорее, избыток информации. Но это обманчивое впечатление. Большая часть ин- формации, получаемой из таких данных, – это сведения о малоизученных мутациях, клини- ческий эффект которых исследован недоста- точно, и его надо предполагать на основе собственного анализа ситуации, опыта и зна- ний. И в других областях — протеомике, ме- таболомике наблюдаемые закономерности часто являются новыми, ранее не исследо- ванными, клинически не изученными. Тем не менее они могут быть инкорпорированы в клиническую практику, если есть аналитиче- ские, научные аргументы в их пользу. Так что образование, безусловно, в этой области необходимо. И прежде всего — именно врачам. – Насколько в вашем бизнесе важна регуля- ция в отношении продуктов, созданных на основе омиксных технологий? Известно, что секвенирование ДНК регулируется во мно- гих странах, поскольку позволяет однозначно идентифицировать пациентов. Как обстоит с этим вопросом дело в России? – В России пока таких ограничений нет, и не хотелось бы, чтобы ограничения появились раньше, чем продуманные системы оценки качества, подготовленные квалифицирован- ными специалистами. Author: Ekaterina Pomerantseva, Cand. Biol. Sci., Head of laboratory, the Human Stem Cells Institute In prenatal diagnostics, omics technologies are used in many ways, including screening for mo-nogenic disorders and chromosomal aberrations in embrios taken during in vitro fertilization. In our case, «pure» genomics consists of bioinformatics analysis of exome sequencing. We work with pa-tients and doctors, and, surprizingly, patients un-derstand new technologies better. Probably, it is due to some doctors' resistance to develop new competencies and unwillingness to take an addi-tional risk of mistakes. dreamstime.com
  • 23.
    КЛИНИКА 22 ПЕРСОНАЛИЗИРОВАННАЯ МЕДИЦИНА В ОНКОЛОГИИ: ГЕНЕТИЧЕСКОЕ ТЕСТИРОВАНИЕ РАКОВЫХ ОПУОЛЕЙ И РОЛЬ ОМИКСНЫХ ТЕХНОЛОГИЙ между мутациями и нарушениями на транс- криптомном и белковом уровнях, а также оценить функциональную значимость этих аберраций для процесса канцерогенеза, определить сигнальные пути, играющие ключевую роль в развитии заболевания. – Раковые заболевания могут развиваться очень быстро, и опухоли быстро мутируют. В этом контексте насколько релевантны ваши анализы и часто ли надо их повторять для одного и того же пациента? – Внутриопухолевая гетерогенность яв- ляется одной из проблем диагностики рака – В чем состоит ваш бизнес и насколько он основан на использовании секвенирования и других омиксных технологий? Насколько индивидуальны пациенты с точки зрения му- таций, и в какой степени индивидуально лечение? – Компания «РосГенДиагностика» работает в области персонализированной онкологии. Мы разрабатываем технологию подбора наиболее эффективной терапии рака для конкретного пациента на основе его молеку- лярно-генетических особенностей. Раковая опухоль каждого пациента уникальна и об- условлена индивидуальным сочетанием эпигенетических, генетических (наследст- венных и приобретенных) и экспрессионных Автор: Татьяна Серебрийская, кандидат биологи- ческих наук, старший научный сотрудник лабо- ратории трансляционных исследований и персонализированной медицины Московского физико-технического института, директор ООО «РосГенДиагностика», Долгопрудный, Россия Раковая опухоль каждого пациента уникальна и обусловлена сочетанием эпигенетических, генетических и экспрессионных изменений. изменений (уровень РНК, белка). Уже сей- час очевидно, что тесты на основе единич- ных биомаркеров (single-gene tests) или анализ одного типа данных, таких как экс- прессионные или генетические, не дают полноты картины происходящих в опухоли изменений. В своей разработке мы используем интегри- рованный анализ изменений, происходящих на уровне мутаций генов (NGS секвенирова- ние) и на уровне их экспрессии (экспрес- сионный анализ, масс-спектральный анализ) в опухолевой ткани. Это дает возможность установить причинно-следственную связь
  • 24.
    Партнер Фонда «Сколково» 23 и правильного подбора терапии. Еще боль- шей проблемой является гетерогенность, индуцированная селективным давлением таргетной терапии. Назначаемые препараты могут убить часть раковых клеток, чувстви- тельных к действиям препаратов. При этом клетки, устойчивые к действию препарата и существующие в небольшом количестве в популяции раковых клеток, получают селек- тивное преимущество в росте и вызывают рецидив заболевания. В этой связи исполь- зование мультигенных панелей или экзом- ного сиквенса в совокупности с транскрип- ционным анализом может помочь отследить изменение молекулярно-генетического про- филя опухоли и скорректировать терапию. – Каковы перспективы развития персонали- зированной медицины в России и в мире? Какие болезни, кроме рака, находятся в фо- кусе внимания ваших методов? – Мы наблюдаем активный рост мирового рынка персонализированной медицины, ос- нову которой составляют молекулярная ди- агностика и таргетная терапия, — как продажа сопутствующих диагностических те- стов (companion diagnostics), так и оказание услуг по тестированию, так называемые «4P» (predictive, preventive, personalized, parti-cipatory care). По данным агентства MarketsandMarkets, рынок сопутствующих ди- агностических тестов составляет 3,136.9 млн долларов США в 2014 г. и достигнет 8,730.7 млн долларов США к 2019 г. Совершенствование технологии секвениро- вания, разработка современного оборудова- ния и реактивов, а также снижение стоимости секвенирования генома и его от- дельных биомаркерных участков дает на- дежду говорить о возможном широком внедрении молекулярно-генетических те- стов в клиническую практику. Методы с использованием секвенирования применяются также для диагностики сер- дечно-сосудистых, иммунных, нейрологиче- ских, орфанных заболеваний, заболеваний органов слуха и зрения. В 2012 г. в США было применено около 50 разных болезнь- ориентированных тестов, в основе которых лежит секвенирование. Author: Tatiana Serebryjskaya, Cand. Biol. Sci., se-nior research fellow of the Translational Research and Personalized Medicine laboratory, Moscow Institute of Physics and Technology, RosGenDia We work in the area of personalized oncology. Tests based on single biomarkers (single gene) or even the only data type (genetic or expres-sion) are not sufficient to describe the whole pic-ture of molecular changes in the tumor. In order to establish causality relations between muta-tions, gene expression and protein level in can-cer, one needs to combine DNA and RNA sequencing, and MS proteomics analysis. dreamstime.com
  • 25.
    КЛИНИКА 24 МИКРОБИОМЧЕЛОВЕКА: ПРАКТИКА И ОМИКСНЫЕ МЕТОДЫ ИЗУЧЕНИЯ ром варятся тысячи бактериальных видов (у каждого человека в своих пропорциях), и каждый из этих видов содержит в ге- номе тысячу ферментов. Мы получаем гигантское химическое раз- нообразие, которое еще и зависит от полу- чения субстрата (нашего питания). Вся эта система миллионами лет эволюциониро- вала и отбиралась — и, более того, эта коэволюция происходит и сейчас. С учетом того, что бактерии делятся и му- тируют гораздо быстрее, чем организм хо- зяина, можно сказать, что это адаптогенный орган — и мы считаем, что ему комплементарна система иммунитета, в тесном взаимодействии с которой он и находится с самого рождения человека. Мы пока только предполагаем механизмы, но уже на приличных когортах были пока- заны корреляции микробиома и, скажем, топ-10 заболеваний. – Какие омиксные методы используются для изучения микробиома и насколько они при- менимы в клинике? – Основной подход – секвенирование. Ко- нечно, это метод в первую очередь иссле- довательский. Но, с другой стороны, сейчас цена самого простого анализа ДНК дошла до вполне потребительского уровня. Так что клиницисты скоро получат новые панели тестов, которые будут вы- являть особенности микробиоты — не уве- рен, что сам состав микробов будет нужен клиницистам — скорее, важнее выбор на- правления в лечении с использованием данных по микробам. Для клиники биота станет очень важной и тоже персонализи- рованной. Она одновременно обладает и диагностическим (т.е. показывает, что сейчас с человеком происходит), и тера- певтическим (ее изменение может приве- сти к улучшению) потенциалами. Автор: Дмитрий Алексеев, кандидат биологических наук, заведующий лабораторией биоинформатики НИИ физико-химической медицины, Москва, Россия – Анализ врожденных мутаций и генетиче- ских изменений при раке и других человече- ских болезнях интуитивно понятны. А при чем здесь микробы? Что такое микробиом и зачем его изучать? – На самом деле, микробиом за последние годы набирает значимость; есть исследо- ватели, которые называют микробиоту ки- шечника человека новым органом, ранее недооцененным. Не стану говорить ба- нальности про то, что клеток бактерий в кишечнике больше, чем клеток человека, и так далее — сразу расскажу понятную мне аналогию. Мы думаем, что кишечник — это огромный химический реактор, в кото- С учетом того, что бактерии делятся и мутируют гораздо быстрее, чем орга- низм хозяина, можно сказать, что кишечник – это адаптогенный орган.
  • 26.
    Партнер Фонда «Сколково» Мы находимся в огромном научном поле исследователей микробиоты, и конкуренция очень высока. Поэтому мы стараемся выбирать клинические темы очень узко и очень зависим от партнеров в клинике. 25 – Насколько специфичны для России за- дачи, над которыми Вы работаете? – Мы находимся в огромном научном поле исследователей микробиоты — и, ко- нечно, конкуренция очень высока. По- этому мы стараемся выбирать клинические темы очень узко и очень за- висим от партнеров в клинике. Насколько интересный случай заболевания они най- дут, насколько качественно смогут рабо- тать с протоколами, настолько качественный сиквенс и анализ мы смо- жем произвести. Пока у нас есть прове- ренные партнеры в гастроэнтерологии; мы с ними сделали очень хороший пилот- ный проект российского консорциума metagenome.ru. Отсюда и спектр заболе- ваний: различные кишечные и желудоч- ные заболевания и последствия антибиотикотерапии. Author: Dmitry Alexeev, head of Bioinformatics labo-ratory, SRI of Physical-Chemical Medicine Preliminary research shows relationships bet-ween the status of human microbiome and ten most widely spread diseases. With rapid se-quencing cost reduction, microbiome tests will soon be included in standard practice of the-rapy selection. We mostly work with gastroen-terological diseases and side effects of antibiotic use. dreamstime.com
  • 27.
    МНЕНИЯ 26 ОМИКСНЫЕТЕХНОЛОГИИ В РОССИИ Каковы перспективы омиксных технологий в России, как государство может содействовать их развитию и на- сколько убедительным на мировом фоне выглядит оте- чественный научный задел в этой области? SkАльманах задал эти одинаковые вопросы своим респон- дентам и получил крайне любопытную палитру мнений. Николай Янковский (Институт общей генетики им. Н.И.Вавилова, Россия): Развитие омиксных технологий включает ла- бораторную работу и биоинформатику – ком- пьютерный анализ полученных в лаборатории данных. Отечественная школа биоинформатики очень сильна и достойно выглядит на мировом уровне. А вот исследо- вания, для которых необходимы разнообраз- ные реактивы и оборудование, довольно проблематично найти в России, и обходятся биологам, потому что они меньше зависят от инфраструктуры. Подробнее об этом — чуть ниже. Специалистов готовят на факультете био- инженерии и биоинформатики МГУ и на ка- федре информационной биологии факультета естественных наук Новосибир- ского государственного университета. Кроме того, имеются программы дополнительного образования. Есть программы подготовки биоинформатиков и в других университетах (например, в Казанском государственном университете и Московском физико-техни- ческом университете), но пока не очень сильные. Специалисты востребованы — био- информатика является очень дефицитной профессией, а уровень подготовки хороших выпускников позволяет им поступать в аспи- рантуру на Западе; аналогично, аспиранты, защитившиеся в сильных российских лабо- раториях, могут найти хорошее место постдока. В России многие эксперименталь- ные лаборатории пришли к мысли о том, что им необходимо либо тесное сотрудничество с биоинформатиками, либо биоинформатики в штате. Вторая часть вопроса, про роль государства в регуляции технологий, — это оксюморон. Если же речь идет о применении техноло- гий, то это зависит от того, где и как эти тех- нологии применяются. Скажем, диагностику, основанную на омиксных данных, регулиро- вать надо так же, как другие диагностиче- ские процедуры, анализы и т.п. Сохранение медицинской тайны — так же, как при гене- тических и прочих исследованиях. Для выбора наиболее актуальных и эффективных проектов необходимо развитие института рецензирования. они от 2,5 до 20 раз дороже, чем на Западе. Необходимо изменение таможенных пошлин на реагенты и оборудование для научных ис- следований, снижение забюрократизирован- ности их закупок. Для выбора актуальных и эффективных проектов необходимо разви- тие института рецензирования с привлече- нием квалифицированных экспертов российского и международного сообщества. Михаил Гельфанд (факультет биоинформатики и биоинженерии МГУ им. М.В.Ломоносова, Россия): Перспективы любой науки в России не очень радужны. Биоинформатикам в этом смысле немного проще, чем экспериментальным
  • 28.
    Партнер Фонда «Сколково» dreamstime.com 27 Что до роли государства в развитии, то, опять же, тут нет никакой специфики. Госу- дарство должно развивать фундаменталь- ные аспекты науки, основанной на омиксных данных, путем открытых, прозрачных конкур- сов с адекватным уровнем финансирования и компетентной, добросовестной эксперти- зой, желательно международной. Без этого, как показывает опыт всех последних конкур- сов, включая гранты Российского научного фонда, невозможно обеспечить выполнение указанных условий и даже просто избежать банального конфликта интересов. Если же речь идет именно о создании и практическом использовании конкретных технологий, то тут имеют место стандартные проблемы: слабая заинтересованность экономики в новых технологиях; отсутствие реального ин- тереса у медицинских администраторов (проще зарабатывать на откатах при закуп- ках дорогого оборудования, при проведении клинических испытаний, на одобрении ле- карств). Сюда также следует добавить ко- роткие горизонты планирования и общую неуверенность бизнеса, в том числе старта- пов; бюрократические барьеры и попытки из- влечения административной ренты и т.п. В случае биологических разработок сложно- сти создают накрутки на стоимость оборудо- вания (приборы стоят минимум на 50% до- роже, чем в Европе или США) и таможенные барьеры (запрет на вывоз образцов; долгое оформление поступающих реактивов при не- адекватном их хранении). Владислав Милейко (Геномный центр Нанотехнологического центра «Техноспарк», Россия): Я искренне верю, что современный уровень открытости международного научного со- общества и потенциал российских команд позволит нам сократить существующее от- ставание в области биомедицинских иссле- дований, а в некоторых областях и добиться прорыва. Следует понимать, что на сего- дняшний день современные инструменты ис- следования по своим возможностям опережают задачи, которые мы готовы им ставить. Это означает, что во многом уро- Государство должно развивать фунда- ментальные аспекты науки, основанной на омиксных данных, путем открытых, прозрачных конкурсов.
  • 29.
    МНЕНИЯ 28 веньдостижений определяется качеством идеи, а не оснащенностью лаборатории. Таким образом, появляется шанс делать вы- дающиеся работы, обладая ограниченными ресурсами. Важным конъюнктурным фактором, который мог бы в позитивном смысле переломить си- туацию, является заинтересованное участие большого бизнеса в больших же проектах по омиксным исследованиям. Это относится и к фарминдустрии, и не только. Государство — важный участник развития в дорогостоящих областях, к которым отно- сятся и омиксные технологии. На мой взгляд, главная задача государства в этом контексте – обеспечить востребованность разработок. Это относится и к актуализации регуляторной сферы в соответствии с совре- менным состоянием технологий, и даже к пиару передовых технологий в индустриаль- ных кругах. На начальном этапе (на котором мы как раз находимся) важно, чтобы госу- дарство поддержало широкое внедрение прикладных технологий. Когда готовые ре- шения, на практике покажут «товар лицом», сам собой начнет расти интерес со стороны всех участников процесса: от исследовате- лей до инвесторов и бизнеса как потреби- теля новых технологий. Йошихиде Хаяшизаки (RIKEN, Япо- ния) и Олег Гусев (лаборатория “Functional Genomics”, Россия): Перспективы развития омиксных технологий в России в той области, которой мы занима- емся, представляются очень позитивными. В стране активно появляются омиксные центры. Да, по количеству и техническим по- казателям оборудования многим таким груп- пам еще далеко до ведущих мировых лидеров в области, например, геномики. В то же время технический потенциал позволяет решать большинство вопросов, связанных с омиксными технологиями. Пример: россий- ско-японская статья о расшифровке генома криптобиотической хирономиды, которая в сентябре 2014 года вышла в журнале Nature Communications1. Несмотря на то что коллек- тив авторов включает представителей ряда ведущих университетов Японии, основная часть секвенирования генома и анализа дан- ных проводилась в России, на базе МГУ им. М.В.Ломоносова. И это далеко не единичный пример! Многие группы в стране уже имеют 1Gusev O., Suetsugu Y., Cornette R. et al. Comparative genome sequencing reveals genomic signature of extreme desiccation tolerance in the anhydrobiotic midge. Nature Communications 5, Article number: 4784. doi:10.1038/ncomms5784. dreamstime.com
  • 30.
    Партнер Фонда «Сколково» Оборудование очень плохо загружено из-за нехватки квалифицированного персонала, высокой стоимости расход- ных материалов, недостатка опыта. 29 заслуженную высокую репутацию и обла- дают всеми возможностями для работы в международных консорциумах и осуществ- ления собственных амбициозных проектов. Что до роли государства в регуляции и раз- витии омиксных технологий и биоинформа- тики, то хотелось бы видеть поменьше ограничений в международной кооперации для российских групп и побольше грантов, направленных на развитие этого направле- ния. И обязательно с привлечением ведущих иностранных экспертов. Одна из сложностей, с которой мы столкну- лись, — это высокий (часто запредельный) консерватизм врачей. Развитие омиксных технологий невозможно без активной обрат- ной связи со стороны медиков. Именно они должны являться «заказчиками» исследова- ний. Кроме того, одной из интересных ини- циатив может стать инициация федеральных программ по анализу этноспе- цифических особенностей активности ге- нома в норме и при разных патологиях параллельно в ряде регионов России. С на- учной и практической точек зрения, такие данные будут представлять высокую цен- ность и смогут стать основой новых подхо- дов в генетической диагностике. Виталий Пруцкий («АстраЗенека», Россия): Перспективы развития омиксных технологий в той области, которой я занимаюсь, — это проблема спроса и предложения. До тех пор, пока российская фармацевтическая про- мышленность остается в основном сфокуси- рована на дженериках, не стоит ожидать широкого применения этих технологий в России. Интересно, что возможность приме- нения таких технологий в России значи- тельно выше, чем спрос на них. Хотя и не настолько широко, как на Западе, но совре- менные высокопроизводительные омиксные методы и оборудование используются во многих академических институтах и некото- рых компаниях. Проблема в том, что обору- дование очень плохо загружено из-за нехватки квалифицированного персонала, высокой стоимости расходных материалов, недостатка опыта и, хуже всего, научных идей для применения этих технологий. Парадоксально, но клиническое примене- ние, возможно, будет развиваться в России быстрее, чем во многих других странах. У нас есть несколько стартапов в области «по- требительской геномики», которые предла- гают омиксные сервисы по предсказанию ответов на лекарственную терапию или даже составлению рекомендаций по пита- нию и здоровью. В целом я поддерживаю такое быстрое развитие. Но мы должны быть осторожны с интерпретацией предска- заний, поскольку поставщики таких серви- сов имеют мало опыта и часто не осведомлены о нуждах и требованиях для аналитической и клинической валидации тестов, которые они предлагают. Государственные структуры могут и, воз- можно, должны играть важную роль в не- скольких ипостасях. Во-первых, государство может помочь создать реаль- dreamstime.com
  • 31.
    МНЕНИЯ 30 ныйспрос на омиксные сервисы путем под- держки инноваций биофармацевтических компаний и развития оригинальных терапев- тических и диагностических продуктов. Это, конечно, непросто, поскольку разработка ин- новаций в биомедицине занимает длитель- ное время. Будет также необходимо существенное раз- витие научной и технологической экспер- тизы, которую Россия частично утратила, а частично никогда не имела. Экспертиза не приходит в виде книг и руководств. Необхо- димы люди с реальным опытом работы в на- учных исследованиях и разработках в глобальных фармацевтических компаниях, которые знают, «как это делается», и могут научить коллег. Государственные программы уже помогли привлечь некоторых россий- ских ученых, успешно работающих за рубе- жом. Но эти программы явно недостаточны по сравнению с масштабом задач. Если правительство заинтересовано в раз- витии фармацевтической индустрии, осно- ванной на инновациях (и омиксных техноло- гий как одного из инструментов), оно должно привлекать на лидерские позиции в российских институтах и компаниях россий- ских и зарубежных специалистов, реально участвовавших в развитии терапевтических препаратов и диагностических продуктов. Важно, что, несмотря на трудности, есть причины верить в то, что Россия быстро ра- зовьет омиксные технологии в применении к персонализированной медицине. Татьяна Татаринова (Школа меди- цины Кека Университета Южной Калифорнии, США): Россия могла бы выйти в лидеры омиксных технологий, приняв государственную про- грамму глобального генотипирования насе- ления, детального анализа заболеваемости и реакции на препараты у разных этниче- ских групп. Насколько мне известно, ни одна из крупных стран мира не имеет подобной масштабной планомерной программы. Результаты глобального генотипирования с помощью микрочипов и полногеномного сек- венирования также будут иметь огромное фундаментальное значение для изучения истории расселения и смешения народов России. Десятки малочисленных народов Необходимы эксперты с реальным опытом работы в научных исследованиях и разработках в глобальных фармацевтических компаниях. dreamstime.com dreamstime.com
  • 32.
    Партнер Фонда «Сколково» 31 находятся на грани исчезновения, и в тече- ние ближайших 10 лет у нас есть последняя возможность изучить их историю методами генетики. Такие работы уже ведутся: группы Е.В. и О.П.Балановских из Медико-генетиче- ского научного центра РАМН, С.А.Лимбор- ской из Института молекулярной генетики РАН и А.С.Кондрашова из МГУ им. М.В.Ло- моносова описывают генотипы разных наро- дов, населяющих Россию. Моя лаборатория в CHLA сотрудничает с группой профессора А.С.Кондрашова в области исследования на- родов Таймыра и Енисея. Мы только что вернулись из Сибири, где собрали около 130 образцов ДНК малых народов. Россия – одна из самых этнически неодно- родных стран в мире. Уже достоверно уста- новлено, что реакция на многие медицинские препараты и частота заболева- ний различаются между этническими груп- пами. Приведу несколько примеров. Эндометриоз чаще встречается у азиатских женщин и менее распространен у африканок по сравнению с европейками2. А, например, пациентам с африканскими корнями необхо- димо принимать более высокие дозы варфа- рина по сравнению с пациентами европей- ского и азиатского происхождения для до- стижения одинакового антикоагуляционного эффекта3. Пациенты с азиатскими корнями более чувствительны к токсичности препа- ратов антираковой химиотерапии, содержа- щим платину, чем европейцы4. Многие производители лекарств уже тестируют пре- параты независимо для разных рас. К сожа- лению, этого уровня детальности недостаточно для многих препаратов, и не- обходимо отойти от грубого деления на расы. Например, обнаружено, что концентра- ция препарата такролимус через 12 часов после приема различается в 3-5 раз у паци- ентов из различных областей Африки. А если принять во внимание, что представи- тели разных этнических групп смешиваются и забывают свои корни, задача вырисовыва- ется очень сложная. Если говорить о роли государства, то оно должно поддерживать фундаментальные и прикладные исследования в России и по- ощрять внедрение успешных западных раз- работок и технологий. Наверное, не стоит пытаться изобрести в России то, что уже изобретено и проверено на Западе, это 2Gerlinger C., Faustmann T., Hassall J.J., Seitz C. Treatment of endometriosis in different ethnic populations: a meta-analysis of two clinical trials. BMC Womens Health. 2012 Apr 19;12:9. doi: 10.1186/1472-6874-12-9. Review. 3Yasuda S.U., Zhang L., Huang S.M. The role of ethnicity in vari-ability in response to drugs: focus on clinical pharmacology studies. Clin. Pharmacol. Ther. 2008 Sep;84(3):417-23. doi: 10.1038/clpt.2008.141. Epub 2008 Jul 9. 4O'Donnell P.H., Gamazon E., Zhang W. et al. Population differ-ences in platinum toxicity as a means to identify novel genetic susceptibility variants. Pharmacogenet. Genomics. 2010 May;20(5):327-37. doi: 10.1097/FPC.0b013e3283396c4e. dreamstime.com
  • 33.
    МНЕНИЯ 32 dreamstime.com только усилит технологическое отставание. Сотрудничество с западными компаниями, госпиталями и университетами гораздо пер- спективнее поиска собственного пути. В Рос- сии много замечательных ученых в области фундаментальной биологии и биоинформа- тики. Они выжили и сохранили международ- ное лидерство в годы перестройки (например, биоинформатическая лаборато- рия профессоров М.С.Гельфанда и А.А.Ми- ронова в МГУ им. М.В.Ломоносова). Многие из них работают на одном энтузиазме. Их не- обходимо поддерживать. Тогда Россия будет выступать равным партнером в меж- дународном сотрудничестве. Екатерина Померанцева (Институт стволовых клеток человека, Россия) Перспективы развития омиксных технологий в России кажутся мне хорошими. С точки зрения научных кадров в России уже сейчас есть хорошие команды, квалифицированные специалисты, готовые создавать продукты и услуги на основе таких технологий. Но ограничения в этой области тоже есть. Некоторые из них — общемировые, другие – скорее, локальные. Например, проблема па- тентной защиты едина для специалистов по геномике из всех стран. С другой стороны, наше ограничение — это недостаток знаний у клиницистов о возможностях геномных технологий. Проблемы с оценкой качества таких услуг также очень актуальны. Сейчас практически нет возможности отличить хо- роший, информативный и научно обоснован- ный тест от плохо продуманного, клинически бессмысленного. Приоритеты государства в регуляции и развитии омиксных технологий и биоинформатики вполне очевидны. Во- первых, это снижение зависимости от им- порта. Во-вторых, государственная поддержка больных, которые прибегают к геномным исследованиям при наследствен- ных заболеваниях: требуется рассмотреть возможность хотя бы частичной компенса- ции расходов на диагностику. В числе прио- ритетов – обучение специалистов, правильному пониманию геномных данных. Татьяна Серебрийская («РосГенДиаг- ностика», Россия) Необходимо отметить сложности внедрения клинико-диагностических тестов на основе омиксных данных в клиническую практику. К ним можно отнести стоимость оборудования и отсутствие достаточного количества высо- коквалифицированных специалистов-гене- тиков. Другой большой проблемой является отсутствие четких стандартов проведения исследований, которые относятся к области как гистопатологической практики, так и биоинформационной обработки результатов. Роль государства — поддерживать внедре- ние инновационных методов в клиническую практику, но при этом жестко контролиро- вать качество молекулярно-диагностических тестов. Государство может помочь в преодо- лении трудностей, стоящих перед исследо- вателями и разработчиками, посредством различных программ и грантов, спонсируя закупку дорогостоящего оборудования и способствуя повышению квалификации вра- чей-генетиков. Более глобальной для России проблемой яв- ляется зависимость от поставки импортных реактивов для секвенирования. В отличие от оборудования, которое покупается одно- кратно, реактивы нужны постоянно. Отсутствие своего производства реактивов для молекулярной генетики ставит страну в полную зависимость от поставщиков-монополистов.
  • 34.
    Партнер Фонда «Сколково» 33 Андрей Афанасьев (iBinom, Россия): Омиксные технологии в России будут разви- ваться и со временем должны войти в кли- ническую практику. Пока что большинство применений находится на стадии научных и медицинских исследований. В этой связи было здорово увидеть государственную под- держку этих направлений. Наиболее важ- ными представляются индивидуальная диагностика наследственных заболеваний на основе геномного секвенирования, а также персонализированная диагностика онкологических заболеваний на основе сек- венирования экзомов и транскриптомов опу- холевой и здоровой тканей. О государственной регуляции, по моему мне- нию, говорить пока рано, тем более что из- быточная регуляция в данной области может только навредить, как навредил об- суждавшийся закон о клеточных техноло- гиях, по сути сделавший невозможными клинические исследования в этой области. Дмитрий Алексеев (НИИ физико- химической медицины, Россия): Опыт общения с европейскими и американ- скими коллегами показывает: если раньше владение омиксными технологиями было определенным козырем, то сейчас оно ста- новится сервисной услугой. Исследователи включаются в процесс либо на стадии пла- нирования и подготовки эксперимента, либо занимаются анализом данных. Много омикс- ных решений приходит в клинику. Мне кажется, что в России будет то же самое: ученые просто будут заказывать ис- следования и получать результаты, клиници- сты, вероятно, получат какие-то in vitro диагностические (IVD) устройства, где не- возможно менять параметры, но и выход будет прогнозируемым. Вопрос о роли государства в регуляции и развитии омиксных технологий и биоинфор- матики, а также о приоритетах в этой обла- сти довольно сложен. Хотелось бы, чтобы государство ставило задачи другого уровня. Например, запуск ракеты на Юпитер, сниже- ние заболеваемости раком вдвое, улучше- ние производительности труда на 30%. Вот где хорошо бы выбирать приоритеты. Если раньше владение омиксными технологиями было определенным козырем для группы, то сейчас оно становится сервисной услугой. Дальше профессиональная команда могла бы отбирать решения, направленные на до- стижение результата. И тут точно никак без омиксных технологий и биоинформатики не обойтись. Фундаментальные исследования сейчас уже проводятся на основе конкурсов. Те конкурсы, что я видел, прозрачны, пра- вила их более-менее ясны. Так что тут регу- ляция не нужна — самые активные и умеющие доносить свои идеи люди добьются реализации своих идей. Что касается биоинформатики, то мы имеем огромный и мощный сектор IT. Здесь мы пре- одолеем все барьеры легко и не только заме- стим импорт, но и создадим товары на экспорт. Это уже происходит. Что касается омиксных технологий, то в этой области про- цессы займут чуть больше времени. Думаю, конструкцию больших приборов нам уже не стоит догонять, а вот в гонке за миниатюр- ные, носимые, вживляемые устройства мы вполне можем соревноваться. В этих вопросах роль государства состоит в том, чтобы создать цели, разумные и про- зрачные правила и исполнять их. Вот и все. А остальное мы сами в состоянии освоить, об- думать и понять, как наши идеи из фунда- ментального поля могут сообразно задаче перейти в практическую плоскость. dreamstime.com
  • 35.
    СООБЩЕСТВО 34 ГЕНОМИКАВ РОССИИ: ОБРАЗОВАНИЕ, НАУКА, БИЗНЕС Авторы: Андрей Афанасьев, iBinom; Евгения Власова, Высшая школа экономики; Юрий Пеков, МГУ им. М.В.Ломо- носова; Евгений Цымбалов, Высшая школа экономики; Ростислав Яворский, Высшая школа экономики Профессиональное сообщест- во — это сложный организм, ко- торый состоит из людей разных специальностей, разных компе- тенций, с разными целями и ин- тересами, из компаний (больших и маленьких), университетов, на- учных центров, технопарков, биз- нес-инкубаторов, инвестицион- ных фондов и проводимых ими мероприятий. В данном обзоре собрана информация о ключевых составляющих «профессиональ- ного сообщества геномики» в России: образовательных учреж- дениях, научных центрах, ком- мерческих организациях, чья деятельность в той или иной сте- пени связана с геномными иссле- дованиями. ОБРАЗОВАНИЕ Разделим образовательные услуги по направ- лению генетики и биоинформатики на 2 блока: основного и дополнительного образо- вания. Основным образованием мы назовем программы специалитета, балакалавриата и магистратуры государственных высших учеб- ных заведений. Дополнительным — отдель- ные очные и заочные курсы разной дли- тельности и сложности и циклы семинаров. Основное образование Основное образование в области геномики и биоинформатики в той или иной степени представлено в 17 государственных высших учебных заведениях (табл. 1), 6 из этих вузов находятся в Москве, Московской области или Санкт-Петербурге. Остальные расположены в Новосибирске, Нижнем Новгороде, Тюмени, Волгограде, Воронеже, Саратове, Калинин- граде, Саранске, Калуге и Уфе. В связи с междисциплинарностью этого на- правления образовательные программы представлены не только на биоинформатиче- ских, биотехнологических, биологических фа- культетах (МГУ им. М.В.Ломоносова, СПбГУ, НГУ им. Н.И.Лобачевского, МГМУ им. И.М.Сеченова, МФТИ, ТюмГУ, НИ МГУ имени Н.П.Огарева, БФУ им. И.Канта, КГПУ им. К.Э.Циолковского, СГУ им. Н.Г.Чернышев- ского) и естественно-научных факультетах (НГУ им. Н.И.Лобачевского, БГПУ им. М.Ак- муллы), но и на физико-механическом фа- культете (СПбГУ), факультетах свободных искусств и наук (СПбГУ), приоритетных тех- нологий (ВолГУ), вычислительной матема- тики и кибернетики (НГУ им. Н.И.Лобачевского), биологической и меди- цинской физики (МФТИ). Пока полный цикл высшего образования (от бакалавра или специалиста до аспиранта) по данному направлению можно пройти только в МГУ им. М.В.Ломоносова, СПбГУ, МФТИ и ВолГУ. Дополнительное образование В Москве и Санкт-Петербурге за последние 5 лет широкое распространение получили очные курсы по биоинформатике и циклы се- минаров продолжительностью от семестра до 2 лет (табл. 2) При условии прохождения конкурса все из них можно посещать бесплатно. Также познакомиться с основами биоинфор- матики можно дистанционно, решая задачи на уникальной платформе для самообразова- ния в области биоинформатики Rosalind, раз- работанной командой из Санкт-Петербурга, или пройдя подготовленный в СПбГУ шести- недельный курс на платформе Coursera.
  • 36.
    Партнер Фонда «Сколково» 35 Таблица 1. Основное образование по направлению генетики и биоинформатики специалитет бакалавриат магистратура Количество мест бюджетные платные Учебное заведение Факультет или образовательная программа, страница в Интернете Стоимость 1 года обучения (руб.) Проходной балл в 2013/2014 г. Уровни подготовки Московский государственный университет имени М.В.Ломоносова Биологический факультет (с кафедрами ге- нетики, биоинженерии и биотехнологий) www.bio.msu.ru/doc/index.php?ID=33 * * 181 38 325 000 421/500 Факультет биоинженерии и биоинформатики www.fbb.msu.ru/doc/index.php?ID=98 * 30 25 325 000 447/500 Санкт-Петербургский государственный университет Биологический факультет (с кафедрой генетики и биотехнологий) www.bio.spbu.ru * * 75 15 201 500 229/300 Факультет свободных искусств и наук (с биоинформатическим направлением Науки о жизни) www.artesliberales.spbu.ru/adm/bachelors/major/ls * * 60 — 239 500 273/300 Новосибирский государственный университет Факультет естественных наук (с кафедрой информационной биологии) www.kib.nsu.ru * * 150 65 100 000 213/300 Первый Московский государственный меди- цинский университет им. И.М.Сеченова Биоинженерия и биоинформатика www.mma.ru/education/pocty * нет 10 90 000 — Биотехнология www.mma.ru/education/pocty * 10 15 96 000 — Московский физико- технический университет, Долгопрудный, Московская область Факультет биологической и медицинской физики (с кафедрой биоинформатики) www.mipt.ru/education/chairs/bioinformatics * * — — — — Санкт-Петербургский академический университет РАН Кафедра математических и информационных технологий www.mit.spbau.ru * * 0 25 20 000 — Тюменский государствен- ный университет Биоинженерия и биоинформатика www.go.utmn.ru/?pageid=8898 * 11 10 74 850 — Национальный исследо- вательский Мордовский государственный университет им. Н.П.Огарева, Саранск Факультет биотехнологии и биологии (специальность Биотехнология) www.mrsu.ru/ru/i_faculty/detail.php?ID=3485 * * 30 10 112 000 193/300 Факультет биотехнологии и биологии (специ- альность Биоинженерия и биоинформатика) www.mrsu.ru/ru/i_faculty/detail.php?ID=3486 * 18 15 67 060 221/300 Балтийский федеральный университет им. И.Канта, Калининград Химико-биологический институт (специальность Биоинженерия и биоинформатика) www.kantiana.ru/education/high * 25 — 86 000 194/300 Саратовский государст- венный университет им. Н.Г.Чернышевского Биоинженерия и биоинформатика www.sgu.ru/structure/biological/courses/bachelor-bio-inzheneriya- i-bioinformatika-specialitet * 10 10 68 400 183/300 Воронежский государст- венный университет инженерных технологий Биоинженерия и биоинформатика www.vsuet.ru/obuch/spec.asp * 25 — 53 650 129/300 Волгоградский государственный университет Институт приоритетных технологий (направ- ление Биоинженерия и биоинформатика) www.volsu.ru/struct/institutes/ipt * 21 — 78 400 194/300 Башкирский государствен- ный педагогический уни- верситет им. М.Акмуллы Естественно-географический факультет (с кафедрой генетики) www.bspu.ru/node/5651 * 66 10 67 060 167/300 Калужский государствен- ный университет им. К.Э.Циолковского Генетика www.tksu.ru/ie/default.aspx * 16 14 87 460 205/300 Санкт-Петербургский государственный поли- технический университет Физико-механический факультет www.amd.stu.neva.ru/education/bioinformatics * 162 35 42 500 172/300 Нижегородский государст- венный университет им. Н.И.Лобачевского Факультет вычислительной математики и кибернетики (направление Биоинформатика) www.vmk.unn.ru/bioinformatics * * 213 110 85 000 196/300 «–»: нет информации.
  • 37.
    СООБЩЕСТВО 36 Таблица2. Дополнительное образование по направлению генетики и биоинформатики НАУКА Научные центры Подробный анализ научных исследований по геномике в России предоставляет сер- вис eLibrary http://www.elibrary.ru. По за- просу «геном» и с ограничением поиска на статьи, выпущенные за последние 3 года, на сентябрь 2014 года выборка включает 5928 публикаций, большинство из которых — журнальные статьи. Ориентировочно полсотни организаций выпустили за этот период не менее 30 пуб- ликаций (в среднем не менее 10 статей в год). По этому критерию можно судить, что геномика относится к сфере их на- учной деятельности и в их составе есть активно работающая группа ученых. Спи- сок этих организаций приведен в табл. 3. Не является неожиданным, что основные научные центры расположены в Москве, Санкт-Петербурге и Новосибирске. На пе- речисленные в табл. 3 организации прихо- дится 46% всех публикаций (2748 из 5928). Рисунок 1.Типы публикаций в выборке, сформированной по запросу «геном» по данным сервиса eLibrary 5426 181 148 114 59 статья в журнале патент диссертация статья в сборнике конференции другие публикации (книги, отчеты, главы) Учебное заведение, официальный сайт Вид занятий Форма обучения Стоимость Длительность обучения Moscow Bioinformatic School http://www.bioinformaticseminar.com/ru/wiki Семинары Вечерняя Бесплатно 2 года Школа анализа данных («Yandex») Полный wwwbioinformaticseminar.com/ru/ курс Вечерняя Бесплатно 2 года NgsCourse (факультет биоинженерии и биоинформатики МГУ им. М.В.Ломоносова) www.bioinf.fbb.msu.ru/wiki/index.php/NgsCourse Полный курс Заочная Бесплатно Семестр Центр геномной биоинформатики им. Ф.Г.Добржанского Санкт-Петербургского государственного университета www.dobzhanskycenter.bio.spbu.ru/ru/obrazovanie Семинары Заочная Бесплатно Индивиду- ально Введение в биоинформатику: биоинформатика в биологии и медицине (Санкт-Петербургский государственный университет, Coursera) www.coursera.org/course/bioinfo Дистанци- онный курс Заочная Бесплатно Индивиду- ально Московский семинар по биоинформатике (факультет биоинженерии и биоинформатики МГУ им. М.В.Ломоносова) www.rtcb.iitp.ru/msb/index.htm Семинары Очная Бесплатно Индивиду- ально Институт биоинформатики Санкт-Петербург- ского академического университета www.bioinformaticsinstitute.ru Полный курс 20 часов в неделю Бесплатно/ 10 000 руб. 2 года Rosalind www.rosalind.info/problems/locations Дистанци- онный курс Заочная Бесплатно Индивиду- ально
  • 38.
    Партнер Фонда «Сколково» 37 Таблица 3. Организации, работающие по направлению генетики и биоинформатики Организация Москва Московский государственный университет им. М.В.Ломоносова 127 Первый Московский государственный ме- дицинский университет им. И.М.Сеченова 124 Медико-генетический научный центр РАМН 106 Российский онкологический научный центр им. Н.Н.Блохина РАМН 102 Институт генетики им. Н.И.Вавилова РАН 77 Научный центр акушерства, гинекологии и перинатологии им. академика В.И.Кулакова 58 Институт молекулярной биологии им. В.А.Энгельгардта РАН 57 Российский университет дружбы народов 57 Российский национальный исследователь- ский медуниверситет им. Н.И.Пирогова 55 Государственный научно-исследователь- ский институт генетики и селекции 48 промышленных микроорганизмов Институт биоорганической химии им. акад. М.М.Шемякина и Ю.А.Овчинникова РАН 48 Институт биологии гена РАН 44 Российский государственный аграрный университет — Московская сельскохозяй- 44 ственная академия им. К.А Тимирязева Гематологический научный центр 42 Институт молекулярной генетики РАН 41 Научно-исследовательский институт общей патологии и патофизиологии РАМН 41 Институт иммунологии ФМБА 38 Центр "Биоинженерия" РАН 37 Институт биологии развития им. Н.К.Кольцова РАН 36 Институт микробиологии им. С.Н.Виноградского РАН 35 Эндокринологический научный центр Минздрава РФ 34 Институт физиологии растений им. К.А.Тимирязева РАН 33 Московский медико-стоматологический университет им. А.И.Евдокимова 29 Центральный научно-исследовательский институт эпидемиологии Роспотребнадзора 29 Санкт-Петербург Санкт-Петербургский государственный университет 81 Северо-Западный государственный меди- цинский университет им. И.И.Мечникова 49 Первый Санкт-Петербургский государст- венный медицинский университет 46 им. акад. И.П.Павлова Санкт-Петербургский государственный педиатрический медицинский университет 34 Федеральный центр сердца, крови и эндокринологии им. В.А.Алмазова 32 Научно-исследовательский институт экспериментальной медицины СЗО РАМН 31 Организация Новосибирск Институт цитологии и генетики СО РАН 152 Институт химической биологии и фунда- ментальной медицины СО РАН 78 Новосибирский национальный исследова- тельский государственный университет 64 Новосибирский государственный медицин- ский университет 50 Научно-исследовательский институт тера- пии и профилактической медицины 43 СО РАМН Научно-исследовательский институт моле- кулярной биологии и биофизики СО РАМН 32 Другие города Белгородский государственный националь- ный исследовательский университет 41 Научный центр проблем здоровья семьи и репродукции человека СО РАМН, Иркутск 37 Казанский (Приволжский) федеральный университет 67 Казанский государственный медицинский университет 65 Красноярский государственный медицин- ский университет им. В.Ф.Войно-Ясенецкого 42 Курский государственный медицинский университет 35 Омская государственная медицинская ака- демия 34 Донской государственный аграрный университет, Ростов-на-Дону 33 Саратовский государственный медицин- ский университет им. В.И.Разумовского 33 Сибирский государственный медицинский университет, Томск 63 Научно-исследовательский институт меди- цинской генетики Томского научного 47 центра СО РАМН Институт биохимии и генетики Уфимского НЦ РАН 84 Башкирский государственный медицинский университет, Уфа 48 Башкирский государственный университет, Уфа 36 Читинская государственная медицинская академия 49 число публикации число публикации
  • 39.
    СООБЩЕСТВО 38 Журналы Для формирования списка основных журналов мы воспользовались тем же критерием: не менее 30 публикаций с начала 2012 года. На эти журналы приходится четверть (1502 из 5928) всех публикаций из рассматриваемой коллекции (табл. 4). Таблица 4. Журнальные публикации в выборке, сформированной по запросу «геном, с начала 2012 года» по данным сервиса eLibrary Издатель Название журнала Количество публикаций МАИК Наука/Интерпериодика Генетика 226 МАИК Наука/Интерпериодика Молекулярная биология 145 ФГБНУ «Центральная научная сельскохозяйственная библиотека» Ветеринария. Реферативный журнал 132 МАИК Наука/Интерпериодика Биохимия 85 Издательство РАМН Бюллетень экспериментальной биологии и медицины 77 Российская академия естествознания Фундаментальные исследования 77 Институт цитологии и генетики СО РАН, Новосибирск Вавиловский журнал генетики и селекции 72 МАИК Наука/Интерпериодика Микробиология 71 Издательство «Медицина» Гематология и трансфузиология 56 Российская академия естествознания Современные проблемы науки и образования 52 ФГБУ «Медико-генетический научный центр» Медицинская генетика 51 Отделение биологических наук РАН Цитология 49 ООО «Бионика Медиа» Акушерство и гинекология 46 Восточно-Сибирский научный Бюллетень Восточно-Сибирского научного центр СО РАМН центра СО РАМН 41 МАИК Наука/Интерпериодика Физиология растений 41 Санкт-Петербургский научный центр РАН Экологическая генетика 41 Российская академия сельскохозяйственных наук Сельскохозяйственная биология 40 Издательский дом «Русский врач» Молекулярная медицина 38 МАИК Наука/Интерпериодика Доклады Академии наук 37 Издательство Park Media Ltd, Moscow Acta Naturae (русскоязычная версия) 33 Издательство Союза педиатров Вестник Российской академии медицинских России «ПедиатрЪ» наук 32 Издательство «Медиа Сфера» Журнал неврологии и психиатрии им. C.C.Корсакова 30 Московский институт педиатрии и детской хирургии Российский вестник перинатологии и педиатрии 30
  • 40.
    Партнер Фонда «Сколково» 39 Направления исследований Как уже видно из названий журналов, основной фокус исследований генома лежит в области биологии и химии, математические науки и биоинформатика практически не представлены (рис. 2). Рисунок 2. Распределение по тематическим рубрикам в коллекции «геном, с начала 2012 года» по данным сервиса eLibrary (5 наиболее представленных тематик) Медицина и здравоохранение Биология Сельское и лесное хозяйство Химия Экономика. Экономические науки 5637 3856 1319 501 390 Использованный подход к поиску публика- ций обладает множеством недостатков, не может охватить многочисленные нюансы и специфику научной деятельности и даже не учитывает различный уровень значимо- сти статей, для измерения которого обычно используют индексы цитирования и импакт-факторы. Количество статей для разных организаций и изданий ни в коем случае не может быть главной характери- стикой научной деятельности. Тем не менее данный вид анализа позволяет в первом приближении оценить численность научных центров и тематику исследований по темам, связанным с геномикой. БИЗНЕС Объем российского рынка геномики и био- информатики пока не превышает 500 млн руб. и находится в стадии активного фор- мирования. Темпы роста рынка доста- точно высоки и превышают 30%. Основ- ные драйверы роста: фантастическое па- дение стоимости геномного секвенирования и накопление доказа- тельств медицинской эффективности дан- ных диагностических технологий, а также рост осведомленности врачей и граждан о возможностях современной геномики. Список компаний В табл. 5 включены компании, занимаю- щиеся геномикой и биоинформатикой, большинство сотрудников которых рабо- тают в России, независимо от их организа- ционно-правовой формы и страны регистрации юридического лица. Большин- ство игроков существует менее 3 лет. Почти все они сосредоточены в Москве, Санкт-Пе- тербурге и Новосибирске — регионах с до- статочными компетенциями в области биоинформатики. Коллектив и руководство большинства компаний моложе 35 лет.
  • 41.
    СООБЩЕСТВО Ugene www.ugene.unipro.ruКонстантин Оконечников Новосибирск 2008 Продажи Свободное программное обеспечение для молекулярных биологов. Компания разрабатывает программный про- дукт, в который интегрированы наиболее используемые алгоритмы анализа генетических данных в единой ви- зуальной рабочей среде, удобной для прикладного специалиста. 40 Таблица 5. Компании, занимающиеся геномикой и биоинформатикой Компания, официальный сайт Ключевые лица Город Год осно- вания Стадия готовности продукта РосГенДиагностика www.community.sk.ru/ net/1120425 Татьяна Никольская, Татьяна Серебрийская Москва 2012 Разработка Технологии ранней диагностики рака на основе персонализированной медицины. Компания также анализирует геномные и экспрессионные данные, полученные из образца опухоли или биопсии онкологического больного и ре- комендует лечащему врачу набор наиболее важных генов-мишеней и комбинаций доступных на рынке лекарств, которые будут максимально эффективны для лечения данного пациента. Personal Biomedicine www.personalbiomed.ru Михаил Пятницкий Москва 2013 Разработка Подбор персонализированной противораковой терапии на основе анализа данных секвенирования экзома и транс- криптома больной и здоровой тканей пациента. Компания выявляет изменения генетического материала в образцах опухолевой ткани, создает базы данных генов, вовлечённых в онкогенез различных типов опухолей, и предлагает врачам варианты лекарственной терапии в зависимости от обнаруженных генетических нарушений. GeneStack www.genestack.com Михаил Капущевский Кембридж, Санкт-Петербург 2012 Разработка Компания разрабатывает программную платформу (веб-сервис) для разработки и запуска сложных биоинформа- тических приложений, безопасного хранения и распространения внутри организации или публично большого объема биологических данных. Для сторонних разработчиков выпущены спецификации, которые позволяют встроить в платформу собственное приложение. iBinom www.ibinom.com Андрей Афанасьев, Игнат Колесниченко, Валерий Ильинский Москва 2012 Продажи Облачный сервис по анализу геномных данных для врачей. Компания создает программный продукт для под- держки принятия решений при диагностике наследственных заболеваний, позволяющий врачам-генетикам быстро получать из данных секвенирования список мутаций, являющихся потенциальными кандидатами на причину на- следственного заболевания. MirOB www.mirob.interactome.ru Александр Фокин Москва 2012 Разработка Программная платформа анализа генных сетей для решения задач персонализированной медицины. Компания создает базу данных валидированных молекулярно-генетических взаимодействий, сфокусировавшись на микроРНК и транскрипционных факторах. Разработан визуализатор генных сетей по различным критериям. Реа- лизован поиск кратчайших путей между группами указанных генов. Oftalmic www.oftalmic.ru Марианна Иванова Москва 2008 Продажи Генетическая диагностика и поиск путей эффективного патогенетически направленного лечения глазных забо- леваний. Клиент прислает по почте пробирку с образцами своего биологического материала, после анализа кото- рого сотрудники компании проводят поиск изменений в геноме, приводящих к заболеваниям глаз, разъясняют результаты генетических тестов и определяют, к каким заболеваниям глаз клиент имеет предрасположенность. Компания также проводит консультации о возможностях генетической диагностики и эффективных способах лече- ния глазных заболеваний. Первый онкологический научно-консультационный Антон Буздин, центр Андрей Гаража, Москва 2012 Разработка www.ponkc.com/index.html Алекс Жаворонков Услуги по персонализированному подбору терапии для пациентов с онкологическими заболеваниями на основе методов транскриптомного профилирования и анализа интерактома клетки. Компания проводит детальный мо- лекулярно-генетический анализ тканей пациента, индивидуализированный крупномасштабный скрининг экспрес- сии генов, генетическую паспортизацию и разрабатывает индивидуальную карту лечения. Knomics Дмитрий Алексеев, www.knomics.ru Эдуард Ашрафьян Москва 2011 Продажи Поддержка биомедицинских исследований, проводимых с использованием омиксных технологий: протеомика, ге- номика, транскриптомика, метаболомика. Компания также оказывает услуги по комплексному биоинформатиче- скому анализу бактериальных геномов на основе данных, полученных с помощью NGS, услуги по обучению основам биоинформатического анализа данных высокопроизводительного секвенирования и услуги по организации и про- ведению биоинформатических школ для обучения основам биоинформатического анализа данных высокопроиз- водительного секвенирования NGS. ParSeq Александр Павлов, www.parseq.pro Антон Брагин Санкт-Петербург 2012 Продажи Комплексные решения для молекулярно-генетических исследований на основе технологии NGS. Компания разра- батывает диагностические панели для выявления тяжелых наследственных заболеваний, комплексные базы дан- ных с информацией о наиболее значимых генетических мутациях и полиморфизмах, а также программную среду и биоинформатические ресурсы для интерпретации генетической информации пациента, полученной в ходе сек- венирования, для использования ее в медицинских целях.
  • 42.
    Партнер Фонда «Сколково» 41 Компания, Продолжение таблицы 5. официальный сайт Ключевые лица Город Biosoft www.biosoft.ru Год осно- вания Стадия готовности продукта Александр Кель, Федор Колпаков Новосибирск 2002 Продажи Создание унифицированной платформы для анализа биомедицинских данных. Компания также проводит интег- рированный анализ данных по геномике, транскриптомике, протеомике, метаболомике и эпигеномике, разраба- тывает базы биологических данных, строит математические и вычислительные модели молекулярных и физиологических процессов в клетках и органах человеческого тела. Xgencloud www.xgen.ru Игорь Угаров Москва 2010 Продажи Комплексные решения в области медицинских информационных технологий. Компания создает среду разра- ботки диагностических систем для наследственных и мультифакториальных заболеваний, облачный сервис для автоматического назначения и интерпретации результатов генетических анализов, а также информационно-по- исковую диагностическую систему для наследственных глазных болезней и синдромов. Евроген Сергей Лукьянов, www.evrogen.ru Тимофей Панфилов Москва 2000 Продажи Основными направлениями деятельности компании являются разработка и коммерциализация технологий и продуктов для молекулярной и клеточной биологии. Компания оказывает услуги в области секвенирования и биоинформатики. Ныне Евроген является одной из ведущих биотехнологических компаний в России. Геноаналитика www.genoanalytica.ru Александр Мазур, Сергей Бровцев, Юлия Ахтительнова Москва 2007 Продажи Выполняет секвенирование геномов, транскриптомов, определяет модификации гистонов в ChIP-Seq экспери- менте. Также компания оказывает консультации по планированию экспериментов в области секвенирования и ана- лиза биоинформатических данных. В качестве решения для массового рынка предлагает анализы «Мой Ген». Генотек www.genotek.ru Артем Елмуратов, Валерий Ильинский, Кирилл Петренко Москва 2010 Продажи DTC генетическое тестирование — определение предрасположенностей к различным заболеваниям, видам спорта, этническая информация и др. Genetico www.genetico.ru Артур Исаев Москва 2013 Продажи Genetico является первой в России частной сетью медико-генетических центров. Предоставляют услуги по предимплантационной диагностике, генетическому консультированию, а также по определению статуса носи- теля генетических заболеваний и этнической информации. Atlas Сергей Мусиенко, www.atlas.ru Андрей Перфильев Москва 2013 Продажи Разработка и внедрение скрининговых и диагностических панелей, основанных на определении молекулярно-гене- тических маркеров. Клиническая деятельность в центре персонализированной медицины Atlas Medical Center. Colorfood www.colorfood.ru Куват Момыналиев Москва 2012 Продажи Технология подбора персонализированной диеты на основе ДНК-тестирования. My Genetics www.mygenetics.ru Александр Цветкович Новосибирск 2013 Продажи Cоставление персонального генетического отчета с доступными интерпретациями результатов и рекоменда- циями по ведению здорового образа жизни на основе ДНК-анализа. Lifegen www.lifegen.ru Арсений Духинов Москва 2014 Продажи Продажа, обработка и анализ результатов генетических исследований. Список компаний можно разделить на две крупные группы: 1) компании, занимающиеся B2C продажами генетических тестов в раз- влекательных и информационных целях; 2) компании, занимающиеся разработкой или продажами B2B диагностических инструмен- тов для использования в медицинских и на- учных целях. Компании из первой группы в основной массе фокусируются исключи- тельно на российском рынке, в то время как ряд компаний из второй группы делает по- пытки выхода на международный рынок. Перспективы развития рынка весьма много- обещающи и включают следующие области: генетическая консультация при планирова- нии семьи, скрининг эмбрионов при экстра- корпоральном оплодотворении, пренатальная и неонатальная диагностика наследственных заболеваний, диагностика раковых опухолей. ЗАКЛЮЧЕНИЕ Приведенная аналитика дает первое общее представление о ландшафте науки и бизнеса в сфере геномики в России и может быть ис- пользована в качестве стартовой точки для дальнейшего более содержательного изуче- ния сообщества в России. Перспективы раз- вития рынка весьма широки, с 2000 года количество как образовательных программ, так и компаний, занимающихся геномными ис- следованиями, стабильно растет.
  • 43.
    МИРОВОЙ ОПЫТ Thateach of us is truly biologically unique, extending to even monozy-gotic, 42 “identical” twins, is not fully appreciated. Now that it is possible to perform a comprehensive “omic” assessment of an individual, including one’s DNA and RNA sequence and at least some characterization of one’s proteome, metabolome, microbiome, autoantibodies, and epigenome, it has become abundantly clear that each of us has truly one-of- a-kind biological content. Well beyond the allure of the matchless fin-gerprint or snowflake concept, these singular, individual data and information set up a remarkable and unprecedented opportunity to im-prove medical treatment and develop preventive strategies to preserve health. FROM DIGITAL TO BIOLOGICAL TO INDIVIDUALIZED MEDICINE In 2010, Eric Schmidt of Google said “The power of individual targeting — the technology will be so good it will be very hard for people to watch or consume something that has not in some sense been tailored for them” [50]. Although referring to the capability of digital technology, we have now reached a time of convergence of the digital and biologic domains. It has been well established that 0 and 1 are interchangeable with A, C, T, and G in books and Shakespeare sonnets and that DNA may represent the ultimate data storage system [13, 34]. Biological transistors, also known as genetic logic gates, have now been developed that make a computer from a living cell [6]. The convergence of biology and technology was fur-ther captured by one of the protagonists of the digital era, Steve Jobs, who said “I think the biggest innovations of the 21st century will be at the intersection of biology and technology. A new era is beginning” [48]. With whole-genome DNA sequencing and a variety of omic technologies to define aspects of each individual’s biology at many different levels, we have indeed embarked on a new era of medicine. The term “personalized medicine” has been used for many years but has engendered consider-able confusion. A recent survey indicated that only 4% of the public under-stand what the term is intended to mean [90], and the hackneyed, commercial use of “personalized” makes many people think that this refers to a concierge service of medical care. Whereas “person” refers to a human being, “personalized” can mean anything from having mono-grammed stationary or luggage to ascribing personal qualities. Therefore, it was not surprising that a committee representing the National Academy of Sciences proposed using the term “precision medicine” as defined by “tailoring of medical treatment to the individual characteristics of each pa-tient” [69]. Although the term “precision” denotes the objective of exact-ness, ironically, it too can be viewed as ambiguous in this context because it does not capture the sense that the information is derived from the individual. For example, many laboratory tests could be made more precise by assay methodology, and treatments could be made more pre-cise by avoiding side effects — without having anything to do with a spe-cific individual. Other terms that have been suggested include genomic, digital, and stratified medicine, but all of these have a similar problem or appear to be too narrowly focused. The definition of individual is a single human being, derived from the Latin word individu, or indivisible. I propose individualized medicine as the pre-ferred term because it has a useful double entendre. It relates not only to medicine that is particularized to a human being but also the future impact of digital technology on individuals driving their health care. There will in-creasingly be the flow of one’s biologic data and relevant medical informa-tion directly to the individual. Be it a genome sequence on a tablet or the results of a biosensor for blood pressure or another physiologic metric displayed on a smartphone, the digital convergence with biology will de-finitively anchor the individual as a source of salient data, the conduit of information flow, and a — if not the — principal driver of medicine in the future. THE HUMAN GIS Perhaps the most commonly used geographic information systems (GIS) are Google maps, which provide a layered approach to data visualization, such as viewing a location via satellite overlaid with street names, land-marks, and real-time traffic data. This GIS exemplifies the concept of gathering and transforming large bodies of data to provide exquisite tem-poral and location information. With the multiple virtual views, it gives one the sense of physically being on site. Although Google has digitized and thus created a GIS for the Earth, it is now possible to digitize a human being. As shown in Figure 1, there are multiple layers of data that can now be obtained for any individual. This includes data from biosensors, scanners, electronic medical records, social media, and the various omics that include DNA sequence, transcriptome, proteome, metabolome, Над решением каких задач работают лучшие мировые специалисты в области омиксной науки и на какие вопросы дают ответы сами эти тех- нологии? SkАльманах публикует две лучшие и наиболее убедительные, по нашему мнению, работы последнего времени, иллюстрирующие направ- ление развития научной мысли. Это статьи “Individualized Medicine from Prewomb to Tomb” (Cell 157, March 27, 2014) и “Personal Omics Profiling Reve-als Dynamic Molecular and Medical Phenotypes” (Cell 148, March 16, 2012), а также их краткое содержание на русском языке. INDIVIDUALIZED MEDICINE FROM PREWOMB TO TOMB Eric J. Topol The Scripps Translational Science Institute, The Scripps Research Institute and Scripps Health, La Jolla, CA 92037, USA. Correspondence: etopol@scripps.edu Reprinted from Cell, 157, Topol E.J., Individualized Medicine from Prewomb to Tomb, 241-253, 2014, with permission from Elsevier. http://dx.doi.org/10.1016/j.cell.2014.02.012
  • 44.
    Партнер Фонда «Сколково» 43 epigenome, microbiome, and exposome. Going forward, I will use the term “panoromic” to denote the multiple biologic omic technologies. This term closely resembles and is adopted from panoramic, which refers to a wide-angle view or comprehensive representation across multiple appli-cations and repositories. Or more simply, according to the Merriam-Web-ster definition of panoramic, it “includes a lot of information and covers many topics.” Thus the term panoromic may be well suited for portraying the concept of big biological data. The first individual who had a human GIS-like construct was Michael Sny-der. Not only was his whole genome sequenced, he also collected serial gene expression, autoantibody, proteomic, and metabolomic [11] sam-ples. A portion of the data deluge that was generated is represented in the Circos plot of Figure 2 or an adoption of the London Tube map [85]. The integrated personal omics profiling (iPOP) or “Snyderome,” as it became known, proved to be useful for connecting viral infections to markedly ele-vated glucose levels. With this integrated analysis in hand, Michael Sny-der changed his lifestyle, eventually restoring normal glucose homeostasis. Since that report in 2012, Snyder and his team have pro-ceeded to obtain further omic data, including whole-genome DNA methy-lation data at multiple time points, serial microbiome (gut, urine, nasal, skin, and tongue) sampling, and the use of biosensors for activity tracking and heart rhythm. Snyder also discovered that several extended family members had smoldering, unrecognized glucose intolerance, thereby changing medical care for multiple individuals. Of note, to obtain the data and process this first panoromic study, it re-quired an armada of 40 experienced coauthors and countless hours of bioinformatics and analytical work. To give context to the digital data bur-den, it took 1 terabyte (TB) for DNA sequence, 2 TB for the epigenomic data, 0.7 TB for the transcriptome, and 3 TB for the microbiome. Accord-ingly, this first human GIS can be considered a remarkable academic feat and yielded key diagnostic medical information for the individual. But, it can hardly be considered practical or scalable at this juncture. With the cost of storing information continuing to drop substantially, the bottle-neck for scalability will likely be automating the analysis. On the other hand, each omic technology can readily be undertaken now and has the potential of providing meaningful medical information for an individual. THE OMIC TOOLS Whole-Genome and Exome Sequencing Perhaps the greatest technologic achievement in the biomedical domain has been the extraordinary progress in our ability to sequence a human genome over the past decade. Far exceeding the pace of Moore’s Law for the relentless improvement in transistor capacity, there has been a >4 log order (or 0.00007th) reduction in cost of sequencing [10], with a cost in 2004 of ~$28.8 million compared with the cost as low as $1,000 in 2014 [45]. However, despite this incomparable progress, there are still major limitations to how rapid, accurate, and complete sequencing can be accomplished. High-throughput sequencing involves chopping the DNA into small fragments, which are then amplified by PCR. Currently, it takes 3 to 4 days in our lab to do the sample preparation and sequencing at 303 to 403 coverage of a human genome. The read length of the fragments is now ~250 base pairs for the most cost-effective sequencing methods, but this is still suboptimal in determining maternal versus paternal alleles, or what is known as phasing. Because so much of understanding diseases involves compound heterozygote mutations, cis-acting sequence variant combinations, and allele-specific effects, phasing the diploid genome, or what we have called “diplomics” [93], is quite important. Recently, Mole-culo introduced a method for synthetically stitching together DNA se-quencing reads yielding fragments as long as 10,000 base pairs. These synthetic long reads are well suited for phasing. Unfortunately, the term “whole-genome sequencing” is far from complete because ~900 genes, or 3–4% of the genome, are not accessible [65]. These regions are typi-cally in centromeres or telomeres. Other technical issues that detract from accuracy include long sequences of repeated bases (homopolymers) and regions rich in guanine and cytosine. Furthermore, the accuracy for med-ical grade sequencing still needs to be improved. A missed call rate of 1 in 10,000, which may not seem high, translates into a substantial number of errors when considering the 6 billion bases in a diploid genome. These er-rors obfuscate rare but potentially functional variants. Beyond this issue, the accurate determination of insertions, deletions, and structural variants is impaired, in part due to the relatively short reads that are typically ob-tained. The Clinical Sequencing Exploratory Research (CSER) program at the National Institutes of Health is aimed at improving the accuracy of sequencing for medical applications [68]. Despite these shortcomings, the ability to identify rare or low-frequency variants that are pathogenic has been a major outgrowth of high-through-put sequencing. Well beyond the genome scans and genome-wide asso-ciation studies that identified common variants associated with most complex, polygenic diseases and human traits, sequencing leads to high definition of the uncommon variants that typically have much higher pene-trance. For example, rare Mendelian conditions have seen a remarkable surge of definition of their genomic underpinnings [8]. In the first half of 2010, the basis for four rare diseases was published, but in the first half of 2012, that number jumped to 68 [8]. With the power of sequencing, it is anticipated that the molecular basis for most of the 7,000 known Mendelian diseases will be unraveled in the next few years. The 1.5% versus 98.5% Genome Sequencing Dilemma The exome consists of only 40 Mb, or 1.5% of the human genome. There is continued debate over the use of whole exome sequencing compared with whole-genome sequencing, given the lower cost of sequencing an exome, that can be readily captured via kits from a few different compa-nies (Agilent SureSelect, Illumina TruSeq, and Roche NimbleGen). Exome sequencing is typically performed at much deeper coverage, >1003 (as compared with 303-403 for whole genome), which enhances accuracy, and the interpretation of variants that affect coding elements is far more advanced compared with the rest of the genome. However, the collective output from genome-wide association studies of complex traits has indicated that 80% of the incriminated loci are in noncoding regions, outside the confifnes of genes [56]. It is fair to say that we have long un-derestimated the importance of the rest of the genome, but its high den- Figure 1. Geographic information system of a human being. The ability to digitize the medical essence of a human being is predicated on the integration of multiscale data, akin to a Google map, which consists of superimposed layers of data such as street, traffic, and satellite views. For a human being, these layers include demographics and the social graph, biosensors to capture the individual’s physiome, imaging to depict the anatomy (often along with physiologic data), and the biology from the various omics (genome-DNA sequence, transcriptome, proteome, metabo-lome, microbiome, and epigenome). In addition to all of these layers, there is one’s important environmental exposure data, known as the “exposome.”
  • 45.
    МИРОВОЙ ОПЫТ sityof key regulatory features provides intricate and extraordinarily tight control over how genes operate. Recent whole-genome sequencing studies have identified many critical variants in noncoding portions of the genome [54]. A typical whole human genome sequence will contain 3.5 million variants compared with the reference genome, predominantly composed of single-nucleotide polymorphisms but also including inser-tion- 44 deletions, copy number variants, and other types of structural vari-ants [29]. Today, analysis of most of the 3.5 million variants is left with the “variant of unknown significant” (VUS) diagnosis. As more people get se-quenced with the full range of disease phenotypes, the proportion of VUS will drop, and each sequence will become more informative. Figure 3 pro-vides a theoretical plot of how further reduction of the cost of whole-genome sequencing will also be accompanied by large numbers of individuals undergoing sequencing. In 2014, still well under 100,000 peo-ple have had whole-genome sequencing with only a very limited number of phenotypes addressed. At some point in the future, sequence data get progressively more informative at a lower price point, thus establishing particular value of whole-genome sequencing. It is not just about getting a large number of people with diverse medical conditions and diverse an-cestries sequenced. Here, too much focus on the individual can result in a loss of context, back to our analogy of the Google map of maximal zoom obscuring understanding. By anchoring the genomics of family members, such as was done with the important discovery of PCSK9 rare variants [40] in cholesterol metabolism, progress in genomic medicine will be catalyzed. Figure 2. Plots of panoramic information. Top: Circos plot of the Snyder genome. From outer to inner rings: chromo-some ideogram; genomic data (pale blue ring), structural variants >50 bp (deletions [blue tiles], duplications [red tiles]), indels (green triangles); tran-scriptomic data (yellow ring), expression ratio of viral infection to healthy states; proteomic data (light purple ring), ratio of protein levels during human rhinovirus (HRV) infection to healthy states; transcriptomic data (yel-low ring), differential heteroallelic expression ratio of alternative allele to ref-erence allele for missense and synonymous variants (purple dots) and candidate RNA missense and synonymous edits (red triangles, purple dots, orange triangles, and green dots, respectively). From [11] with permission. Bottom: Adopted London Tube model of integrated omics from Shendure and Aiden Integration of the many applications of next-generation DNA se-quencing, which include sites of DNA methylation (methyl-seq), protein- DNA interactions (ChIP-seq), 3D genome structure (Hi-C), genetically targeted purification of polysomal mRNAs (TRAP), the B cell and T cell repertoires (immunoseq), and functional consequences of genetic variation (synthetic saturation mutagenesis) with a small set of core techniques, rep-resented as open circles of “stations.” Like subway lines, individual se-quencing experiments move from station to station until they ultimately arrive at a common terminal — DNA sequencing. From [85] with permis-sion. At this juncture, however, it appears that exome and whole-genome se-quencing provide complementary information. As the cost of whole-genome sequencing is further reduced, along with the availability of enhanced analytical tools for the nongene 98.5% content interpretation, exome sequencing may ultimately become obsolete. Single-Cell Sequencing The ability to perform sequencing of individual cells has provided remark-able new insights about human biology and disease [4, 71, 83]. The unex-pected heterogeneity in DNA sequence from one cell to another, such as has been well documented in tumor tissue and even in somatic cells in healthy individuals, has enlightened us about intraindividual genomic vari-ation. The concept of “mosaicism” has gained rapid acceptance — with multiple mechanisms — ranging from gamete formation, embryonic de-velopment, to somatic mutation in cells in adulthood, that account for why each of us has cells with different DNA sequences [62, 63, 73, 97]. It re-mains unclear whether mosaicism has functional significance beyond being tied to certain congenital conditions and cancers, but this is an ac-tive area of research that is capitalizing on single-cell sequencing technol-ogy. This is especially the case in neuroscience in order to explain the observed frequent finding of transposons, which appear to involve be-tween 80 and 300 unique insertions for each neuron and are potentially associated with neurologic diseases [73]. Sperm, which tend to swim solo, are particularly well suited for single-cell genomics. This work has quantified recombination rates of 25 events per sperm, identified the hot spots where these events are most likely to occur, and determined genomic instability as reflected by the rate of de novo mutations [73, 97]. Such de novo mutations, which increase in sperm with paternal age, are associated with autism, schizophrenia, and intellectual disability [8, 57, 73, 94]. Intriguing, and possibly revolutionary, single-cell methods using in situ se-quencing protocols are set to offer precise spatial information in addition to linear sequence data. In situ sequencing holds the potential to resolve the spatial distribution of copy number variants, circular DNA, tumor hetero-geneity, and RNA localization. A number of methods have been published in the last year, and progress is likely to accelerate in the near future. Transcriptomics, Proteomics, and Metabolomics As opposed to the DNA sequence, which is relatively static, RNA reflects the dynamic state of the cell. Gene expression of a particular tissue of the whole genome has been available via microarrays for several years, but RNA sequencing (RNA-seq) is a relatively new tool that transcends sim-
  • 46.
    Партнер Фонда «Сколково» 45 ple expression by capturing data on gene fusions, alternative spliced tran-scripts, and posttranscriptional changes, along with the whole gamut of RNAs (including microRNA [e.g., miRNAseq], small RNA, lincRNA, ribo-somal RNA, and transfer RNA). A particularly valuable metric related to RNA is the expression quantitative trait locus (eQTL). By having both genome-wide association study (GWAS) data and whole-genome gene expression at baseline with or without particular stimuli, functional genomic assessment has been en-abled. For example, Westra et al. [99] used eQTLs and loci derived from GWAS to provide functional genomic, mechanistic insights for multiple complex traits, including lupus and type1diabetes. The proteome, metabolome, and autoantibody landscape can be as-sessed for an individual approaching the whole-genome level via recent advances in mass spectrometry and protein arrays. Using these tech-niques, posttranslational modifications of proteins, protein-protein interac-tions, or the small-molecule metabolites produced by these proteins can be revealed. Emerging technologies such as RNA-mediated oligonu-cleotide annealing, selection, and ligation sequencing (RASL-seq), bar-coded small hairpin RNA (shRNA) libraries, and combinatorial antibody libraries provide inexpensive and efficient views of biology. Longer read sequencing provides the opportunity to sequence antibodies, which typi-cally have variable and constant regions composed of 2,000 nucleotides. Microbiome Perhaps no area of biology has received more attention in recent years than the microbiome. Just the gut microbiome has orders of magnitude more DNA content than germline human DNA and has markedly height-ened diversity. Our commensal bacterial flora has been shown to play an important role in various medical conditions [12]. From fecal samples using a 16S ribosomal amplicon sequencing method, the gut micro-biome has been the subject of intensive prospective clinical assessment. It was deter-mined that there were three major enterotypes of the intestinal microbiome based on the predominant bacterial species, such as Bacteroides, Ru-minococcus, or Prevotella [3]. The resident species appear to be quite sta-ble over an extended period of time and to be initially transmitted via the mother at childbirth [23]. As the interface between genomics and the host’s environment, the microbiome clearly plays a pivotal role in defining each individual. The influence of the diet on the gut microbiome, such as the content of fiber, along with the underpinning of malnutrition, has been doc-umented [35, 76]. For example, even an individual’s response to medica-tions, such as digoxin [39], or multiple drugs used for cancer, has been shown to be linked to the bacterial flora of the gut microbiome [47, 95]. Epigenome There has been extraordinary progress in our ability to map the human epigenome from DNA methylation to histone modifications and chromatin structure [78, 104]. The prolific ENCODE project has provided troves of data detailing the role of regulatory elements such as enhancers and insu-lators and how they are tied to DNA methylation and histone changes [16]. Like gene expression, epigenomic findings are highly cell-type specific, with more than 200 different cell types in the human body. For methylation, whole-genome bisulphite sequencing has recently been performed for 30 diverse human cell types [78]. Epigenomic reprogramming has a clear-cut role in cancer, be it via transcription factors or chromatin regulators [16, 91]. Although access to tissue to define epigenomic signatures is a limiting factor outside of the cancer space, it is apparent that many other diseases are affected by epigenomic dynamics, such as complications of diabetes, rheumatoid arthritis, or hypertension [28, 60, 72]. Furthermore, epigenomic changes affect susceptibility to diseases, as has been shown with open chromatin related to the TCF7L2 gene [37] and parental origin of se-quence variants for Type2 diabetes mellitus and breast and prostate can-cer [57]. This parent-of-origin issue may be tied to transgenerational epigenomic instability, as has been well documented in plants, and is cer-tainly a key element of human biology and heritability [81]. Physiome and Exposome Understanding and quantifying an individual’s physiology and environ-mental interactions are crucial to digitizing a human being. Through wear-able biosensors and smartphones, this has become eminently practical. Continuous tracking is now obtainable for most key physiologic metrics, including blood pressure, heart rhythm, glucose, blood oxygen saturation, brain waves, intraocular eye pressure, and lung function indices. Similarly, there are environmental sensors that connect with smartphones to quan-tify such indices as air pollution, pollen count, radiation, water quality, am-bient humidity, electromagnetic fields, and the presence of pesticides in food. Bioinformatics Fundamental to individualized medicine is the ability to analyze the im-mense data sets and to extract all of the useful, salient information. This is exemplified by the task of sifting through a trio of whole-genome se-quences to find a causative mutation in a proband with an undiagnosed disease. Typically, this translates to finding one critical nucleotide variant out of well over one to two million single base variants and simplifying the analysis by only considering variants that change amino acid sequence or lead to obvious splicing defects [64]. Identifying the signal from the noise, with the vast majority of variants categorized as “unknown significance” (VUS), is the crux of the challenge. Moreover, the tools to assess struc-tural variants and indels are not as extensively developed and validated. So there are considerably more data that come from the sequencer for an individual than can be fully and accurately mined. Beyond this, there is the need for better integration of the multiple GIS layers, such as panoromic and biosensor data, and the ability to provide an integrative multiscale approach to an individual’s data set. Although not the compre-hensive multilayer as depicted in Figure 2, Zhang et al. [103] recently used an integrated systems approach, including omics of both human Figure 3. Hypothetical plot of cost of sequencing and number of individu-als sequenced over the next 6 years. As of early 2014, <100,000 individuals have had whole-genome sequencing, leaving the information difficult to fully interpret (of limited informativeness or value). When millions of people undergo sequencing, with the full gamut of di-verse phenotypes and ancestries, and the cost for sequencing continues to drop, a virtuous cycle of informativeness is established. With the new capabil-ity in 2014 to have whole-genome sequencing at a cost of $1,000, along with extremely high throughput, it is likely that millions of individuals will be se-quenced in the next 3-4 years. The cost of sequencing will continue to drop throughout this time, as increasing numbers of individuals undergo sequenc-ing. Projections suggest that at least 20,000 individuals with each phenotype may be necessary to reliably identify rare, functional genomic variants. Ac-cordingly, once millions of individuals across all main phenotypes and ances-tries are sequenced, there is a new set point, or threshold, of informativeness.
  • 47.
    МИРОВОЙ ОПЫТ andmice brains to discover genetic networks in Alzheimer’s disease. Al-though 46 in the past there were generally insufficient efforts to understand epistasis, gene-gene interactions have been upstaged by the complexity of a higher-order bioinformatics challenge. HOW THE OMIC TOOLS REBOOT MEDICINE A Prewomb-to-Tomb Assessment At many points in the span of a lifetime, the unique biology of the individ-ual will play an increasing role. As depicted in the time-line of Figure 4, I will go through each topic sequentially. Preconception The ability to determine carrier mutations for each prospective parent has been greatly enhanced through multiple direct-to consumer sources, in-cluding 23andMe, Counsyl, GenePeeks, and Good Start Genetics. This can be considered the ultimate form of prevention for major recessive conditions and has only received modest attention to date. Counsyl screens for more than 100 recessive Mendelian traits, and 23andMe screens 50 carrier conditions. The carrier rates for many serious condi-tions are higher than most people would suspect, such as 1 in 35 for spinal muscular atrophy, 1 in 40 for cystic fibrosis, and 1 in 125 individuals for Fragile X syndrome [92]. Gene-Peeks uses carrier data from 100,000 DNA sequence variants for each prospective parent to perform a com-puter simulation of 10,000 ‘‘digital babies,’’ determining the probabilistic odds of significant Mendelian disorders [14]. They are already using their analytic methodology to screen sperm from the Manhattan cryobank; until now, sperm banks have been completely unregulated and without ge-nomic assessment [2, 77]. The concept of higher DNA resolution precon-ception screening is attractive, given that there are many more pathogenic variants in the genes that are implicated in disease, such as cystic fibrosis (2,000 variants), than are conventionally assessed [89]. Fetal Sequencing Whereas the diagnosis of chromosomal aberrations such as trisomy-21, 18, 13 required amniocentesis or chorionic villi sampling, there are now four different maternal blood sampling assays to accomplish the same as-sessment with extremely high (>99%) accuracy [67]. Relying on the plasma fetal DNA present in adequate quantity from a maternal blood sample at 8–10 weeks of pregnancy, such testing has been transforma-tive, preempting the need for amniocentesis in all but the rare exception when results are ambiguous. Here is a great example of using plasma-free DNA sequencing to avoid an invasive test that carries a small but im-portant risk of miscarriage. However, with more than 4 million births in the United States each year, only a tiny fraction (<2%) of prenatal maternal blood sampling has yet been performed in clinical practice. Multiple groups have demonstrated the ability to do a fetal whole-exome se-quence from a maternal blood sample [24] or whole-genome sequencing from both parents’ DNA along with the maternal plasma-free DNA [55, 61], but this takes a rather extensive computing and bioinformatics effort that is not presently scalable. Undoubtedly, that will be resolved over time but will engender the serious bioethical issues of what constitutes the ap-propriate reasons for termination of pregnancy. But, at the same time, it will afford the opportunity to make the molecular diagnoses of conditions in utero and facilitate treatment then or at the earliest time after birth. Neonatal Sequencing Monogenic diseases, many of which present in the first month of life, are a major cause of neonatal fatality and morbidity [80]. Despite routine heel sticks for blood sent out for analysis, with attendant delays of several days to weeks in obtaining results, there has not been any improvement in re-ducing neonatal mortality related to genetic disorders in the past 20 years [51, 89]. Now, it has been shown that whole-genome sequencing of new-borns can be accomplished in <48 hr and can lead to highly actionable in-formation for managing a neonate’s condition, such as in the classic example of phenylketonuria or galactosemia, whereby irrevocable dam-age might otherwise occur [51, 80, 89]. Undiagnosed, Idiopathic, and Rare Diseases The diagnosis of an XIAP mutation in a child with fulminant pan-colitis with successful, curative treatment is often cited as the first case of sequencing to save an individual’s life [101]. Since that report, there have been several other cases that used whole-genome or exome sequencing, along with other omic tools, for making the molecular diagnosis of idiopathic condi-tions [49]. For example, the National Institutes of Health Undiagnosed Dis- Figure 4. Timeline of Sequencing Applications in Medicine from Prewomb to Tomb. The medical application of genomics is relevant to many points during an individual’s lifespan. Prior to conception, a couple can have genomic screening for important recessive alleles. An expectant mother, at 8–12 weeks of pregnancy, can now have single tube of blood used to accurately assess chromoso-mal abnormalities of the fetus, determine gender, and even have whole-genome sequencing of the fetus performed. At birth, sequencing the genome of the newborn can be used to rapidly diagnosis many critical conditions for which a time delay, which fre-quently can occur with the present heel stick screening methods, might lead to irrevocable dam-age. The molecular basis for serious, undiagnosed conditions can often be established by sequencing the individual with parents of siblings. Ultimately, omic information at a young age will be useful by providing susceptibility to various medical condi-tions that have actionable prevention strategies. Se-quencing can be done to define a pathogen for more rapid and accurate approaches to infectious diseases. The driver mutations and key biologic un-derpinning pathways of an individual’s cancer can frequently be pinpointed by omics. The root causes of common polygenic conditions such as diabetes or coronary heart disease may ultimately be defined at the individual level. Specific sequence variants of germline DNA or the gut microbiome have rele-vance for response to prescription medication. Defining the genomics of healthspan, rather than the traditional focus on diseases, may prove to be especially worthwhile to understand protective alle-les and modifier genes. For an individual with sud-den death, a molecular autopsy via sequencing can be performed, along with family survivors, to deter-mine the cause of death and potentially prevent un-timely or avoidable deaths of members of the family and subsequent generations.
  • 48.
    Партнер Фонда «Сколково» 47 ease Program uses exome sequencing to facilitate the diagnosis [30]. Re-cently, the group at Baylor College of Medicine published a series of 250 individuals, of whom 80% were pediatric and largely affected by neurologic conditions, who underwent whole-exome sequencing. In that cohort, there were many affected patients with a known Mendelian trait but without a specific root cause established. A molecular diagnosis was made in 25% of the cohort [102]. At the Scripps Health and Scripps Research Institute, we have screened more than 100 individuals for the potential of having an idiopathic disease. This requires review by a multidisciplinary physician panel to assure that a comprehensive evaluation of the patient has been performed before turning to DNA sequencing. The first of 15 individuals who we enrolled into our protocol was 16 years old and had an incapaci-tating neurologic condition. She and her parents were sequenced, and in Figure 5, the bioinformatics challenge of interpreting the three whole-genome sequences is presented, along with the molecular diagnosis of an ADCY5 mutation that had not been previously described. In our 15 probands at Scripps, we have had a successful molecular diagnosis in 8 individuals. However, establishing the diagnosis represents only the first step of the desired strategy, as providing an effective treatment is the fun-damental goal. Unfortunately, the number of individuals for whom that has been achieved is quite limited to date, but strategies using repurposing of existing drugs, drugs that were partially developed but not commercialized, or acceleration of the development of genomically guided therapies are all actively being pursued. With an estimate of at least one million individuals in the United States with a serious medical condition left without a diagno-sis, such progress is encouraging [49]. Disease Prevention At some point in the future, it is hoped that having DNA sequence infor-mation will pave the way for prevention of an individual’s predisposed conditions. To date, however, that concept has not been actualized for a few principal reasons. First, most of the complex, polygenic traits have not had much more than 10% of their heritability explained by the common variants assessed by GWAS. The “missing” or unsolved heritability de-tracts from the ability to assign an individual any certainty or risk or protec-tion from a particular condition. There are some notable exceptions, such as age-related macular degeneration or type 1 diabetes mellitus, in which combinations of common and rare variants can provide a well-character-ized, quantified risk profile. Second, there is the appropriate question of whether the knowledge of a risk allele is actionable. Prototypic here is the apoε4 allele, which carries an unequivocal high risk for Alzheimer’s dis-ease, yet there is no proven strategy to prevent the disease. So, even armed with known risk, there is a lack of knowledge for how to mitigate it. Third, the way data for genomic susceptibility are analyzed via a popula-tion approach makes it difficult to extrapolate such average findings to a particular individual. For example, someone may have low-frequency modifier genes for a condition at risk or unusual environmental interac-tions that markedly affect susceptibility. Notwithstanding these issues, as millions of individuals with diverse phenotypes undergo whole-genome sequencing (Figure 3), the ability to provide meaningful risk data will in-crease. Having the full GIS of each individual will further enrich the proba-bilistic approach of providing vulnerability data early in one’s life. For example, if one’s sequence data indicate a risk for hypertension, that risk may be further modulated by knowledge of his/her proteins, metabolites, microbiome, and epigenomics. Specific treatments could be used that are biologically based from one’s GIS. Similarly, for asthma, the panoromic in-formation, coupled with biosensors that track air quality, pollution, forced expiratory volume, and other relevant physiologic metrics, could prove useful to prevent an attack. A futuristic way in which genomics and biosensors will ultimately converge is through injectable nanosensors that put the blood in continuous surveil-lance mode [25]. Such sensors have the ability to detect a DNA, RNA, autoantibody, or protein signal and to wirelessly transmit the signal to the individual’s smartphone. This sets up the potential for detecting endothe-lial sloughing from an artery before a heart attack [15], plasma tumor DNA in a patient being treated for or in remission from cancer, or a child with known genomic risk of autoimmune diabetes that is developing autoanti-bodies to pancreatic b-islet cells long before there has been destruction. The blood under continuous surveillance concept highlights the potential ability to temporally detect a risk signal for a major clinical event. That could be intensive antiplatelet medication to prevent a heart attack, ge-nomic- guided treatment of cancer recurrence at the earliest possible junc-ture, or immunomodulation therapy for autoimmune diabetes. Infectious Diseases Whole-genome sequencing has proven to be particularly useful for track-ing pathogen outbreaks, such as for tuberculosis [32], methicillin-resistant Staphylococcus aureus, antibiotic-resistant Klebsiella pneumonia, and Clostridium difficile [22, 44, 87]. Beyond identifying the particular bacterial or viral strain that accounts for an outbreak’s origin and spread, sequenc-ing is likely to prove to be quite useful for rapid, early characterization of the cause of infection and specific, effective antibiotic therapy. For sepsis, the current standard of care is to take blood or other body fluids for cul-ture, which typically takes 2 days to grow out. Additionally, there is at least another day required to determine sensitivities to a range of antibiotics. In the future, with lab-on-a-chip sequencing platforms that attach to or are in-tegrated with a smartphone (Biomeme and QuantuMD), it may be feasi-ble to do rapid sequencing of the pathogen and determination of the optimal treatment. Such a strategy would preempt the need for broad-spectrum antibiotic use, and the rapid diagnosis and targeted treatment would likely have a favorable impact on prognosis in these very high-risk, critically ill patients. Figure 5. Legend from Whole-Genome Sequencing to Identification of a Causative Variant. As of early 2014, <100,000 individuals have had whole-genome sequencing, leaving the information difficult to fully interpret (of limited informativeness or value). When millions of people undergo sequencing, with the full gamut of di-verse phenotypes and ancestries, and the cost for sequencing continues to drop, a virtuous cycle of informativeness is established. With the new capabil-ity in 2014 to have whole-genome sequencing at a cost of $1,000, along with extremely high throughput, it is likely that millions of individuals will be se-quenced in the next 3-4 years. The cost of sequencing will continue to drop throughout this time, as increasing numbers of individuals undergo sequenc-ing. Projections suggest that at least 20,000 individuals with each phenotype may be necessary to reliably identify rare, functional genomic variants. Ac-cordingly, once millions of individuals across all main phenotypes and ances-tries are sequenced, there is a new set point, or threshold, of informativeness.
  • 49.
    МИРОВОЙ ОПЫТ Cancer With cancer’s basis in genomics, there have been extensive efforts to characterize the principal driver mutations and biologic pathways, espe-cially 48 through The Cancer Genome Atlas (TCGA) [1, 52, 53]. Our under-standing of the biology of cancer has expanded exponentially and, with it, so has the appreciation for its extreme complexity. Perhaps the two clas-sical “Hallmarks of Cancer” Reviews in Cell, one in 2000 and the sequel in 2011, best exemplify this [41, 42]. The diagram to explain the principal mechanisms of cancer was already exceptionally complex in 2000 and became at least a log order more intricate a decade later. In a more re-cent review of the cancer genome landscape, the Johns Hopkins group provided perspective for the 84 known oncogenes and 54 tumor suppres-sor genes that have been fully validated [96]. There will unquestionably be more, but estimates of the total number of genes involved in pivotal mutations may wind up being 200. Beyond this, the principal pathways in-volving cell survival, cell fate, and DNA damage repair are recognized. Certain cancers have a relative low burden of mutations per megabase of the tumor genome, such as acute myelogenous leukemia (<1), whereas other are quite high, like lung adenocarcinoma or squamous cell carci-noma (50) [53, 96]. Mutations of certain genes, such as the P53 tumor suppressor, are found in some patients with any of 12 common forms of cancer [53]. Our old taxonomy of cancer based upon the organ of origin may be considered inapt, for knowledge of the driver mutation(s) and pathway could be more useful for individualizing treatment. “Nof1” case reports with whole-genome sequencing have been particularly illuminat-ing for the clonal origin of an individual’s cancer [9, 38]. In the past 2 years, the FDA has approved almost 20 new drugs that target a specific mutation for cancer. So, with these leaps in understanding biology and introduction of new ther-apies, why has there been relatively little impact in the clinic to date? One major barrier is that we do not have drugs that can target tumor suppres-sor genes, making up 40% of mix of principal, driver mutations. Some-times there are workarounds for this issue, such as the tumor suppressor gene PTEN, which results in PI3-kinase activation, but more often, this is not the case. Even for oncogenes, less than 40% have a specific drug an-tagonist, as most are part of protein complexes [96]. A second critical issue is that there is marked heterogeneity in tumors, both within an individual’s primary tumor and certainly intermetastatic. This appears to be a founda-tion for the common occurrence of relapse after an initial marked re-sponse, reflecting success directed to an oncogene but also that other undetected mutations become capable of propagating the tumor. The BRAF mutations, which are drivers in a variety of tumors, notably melanoma, thyroid, and colon, can be treated with a specific BRAF in-hibitor. In the first 2 weeks of oral therapy, there is usually a marked re-sponse, but at 9-12 months, a relapse is quite typical [88]. Interestingly, when targeting BRAF for colon cancer, there appears to be primary resist-ance to these inhibitors [74] related to EGFR expression and emphasizing that the stroma, microenvironment of the tumor can still exert an important role. The issues of heterogeneity and resistance lend credence to the use of combinations of targeted drugs in the future, but that has yet to be ex-plored at scale in prospective trials. A third largely unaddressed issue in the clinic is the involvement of the epigenome in tumorigenesis. At least 40 epigenome regulator genes are known that have highly recurrent somatic mutations in tumors across a variety of cancers, affecting multiple target genes simultaneously [32, 53, 84, 96]. These are not screened for clini-cally, nor are there drugs available to modulate their effect. In the clinic today, the bare bones of mutation screening are typically used, such as HER2 for breast cancer or KRAS for colon cancer. Recently, Foundation Medicine commercialized a targeted gene panel of 287 genes that have an established role in cancer [27]. Using predominantly fixed-for-malin, paraffin-embedded samples, mutation cell concordance was estab-lished compared with mass spectrometric methodology (Sequenom), and the typical driver mutations were identified in a cohort of more than 2,000 individuals, such as TP53, KRAS, CDKN2A, and PIK3CA [27]. However, there was a long tail of uncommon mutations that was identified, reflecting the profound diversity of cancers. This panel represents a step forward compared with a very limited gene mutation screen for commonly occur-ring drivers, which might even miss other pathogenic mutations within in-criminated genes. The 287 genes assessed represent only <15% of genes and only the coding elements. This is in contrast to research studies of whole-genome and whole-exome sequencing, with paired germline DNA for each individual, to more precisely determine driver mutations [53]. Fur-ther, multiple recent studies have highlighted the role of noncoding ele-ments of the genome to play a prominent role, such as TERT promoters in melanoma [46], a long, noncoding RNA SChLAP1 for aggressive prostate cancer [75], and identification of 100 non-coding driver variants for cancer using a new bioinformatics tool known as FunSeq [54]. Clearly, even a comprehensive exome would only represent a limited swath of sampling for root causes of cancer in an individual. Cancer genomic medicine of the future will likely involve a GIS of the tumor with assessment of DNA sequence, gene expression, RNA-seq, microRNAs, proteins, copy number variations, and DNA methylation cross-referenced with the individual’s germline DNA. But the issue of ad-dressing heterogeneity still looms [5, 96], and for that, there are a few possible steps, including deep sequencing of the tumor at multiple loca-tions, single-cell sequencing, or the use of the “liquid biopsy” of cancer [26, 59, 82]. Cell-free tumor DNA in plasma, which is present in the vast majority of pa-tients with cancer, has been shown to be a useful biomarker for following patients [26, 59, 82] and appears to have independent prognostic signifi-cance [17]. It may be that plasma tumor DNA is the best representative of the cancer for targeted treatment because avoidance of metastasis is of utmost concern. The ease of isolating and sequencing cell-free tumor DNA is likely to make this a very attractive and routine in the future. Also of particular interest, at some point, will be screening healthy people for cell-free tumor DNA to determine whether we are constantly facing micro-scopic tumor burden but are able to effectively keep the disease in check by a variety of homeostatic mechanisms. Molecular Diagnosis When a patient receives a diagnosis of a chronic illness today, it is non-specific and is based on clinical and not molecular features. Take, for ex-ample, diabetes mellitus type 2, which could reflect anything from insulin resistance, failure of β-islet cells, or a variety of subtypes, including α- adrenergic receptor (ADRA2A) diabetes [36] or a zinc transporter subtype (SLC30A8) [86]. Common genomic variants have been identified in path-ways involving signal transduction, cell proliferation, glucose sensing, and circadian rhythm [20]. Some individuals with a high fasting glucose have a G6PC2 variant that is associated with protection from diabetes [7]. Agenotype score, amalgamating the number of risk variants, has been shown to be helpful for identifying high susceptibility [66]. Moreover, there are 13 classes of drugs to treat diabetes, and the treatment could be made considerably more rational with knowledge of the individual’s un-derlying mechanism(s). This brief summary of the diabetes example re-flects the need for a new molecular taxonomy across all diseases. When an individual is diagnosed (or at some point when risk can be defined), the molecular basis will be assessed and, ideally, when possible, the root cause will be established. Clearly, for many common diseases, there are multiple pathways implicated, and this may prove to be difficult. But there has yet to be a systematic attempt of providing such a molecular diagno-sis in clinical care. Despite multiple reports of molecular subtypes of asthma [98], multiple sclerosis [70], and colon [79] and uterine cancer [52], which appear to be linked with therapy and prognosis, this has yet to be made part of medical practice. Pharmacogenomics Just as molecular subtyping of chronic disease is not part of medical prac-tice, pharmacogenomics screening for either assurance of efficacy or avoidance of major side effects is predominantly ignored. With the use of GWAS, there has been an avalanche of discovery of alleles that are piv-
  • 50.
    Партнер Фонда «Сколково» 49 otal to individual drug response. Unlike polygenic disease, for which the penetrance for a common sequence variant is quite low (approximate odds ratio of 1.15), the typical genotype odds ratio for prescription drugs can be as high as 80, and for many, the range is 3- to 40-fold (reviewed in depth in [43]). The likely explanation for this pronounced impact of com-mon variants on individual drug response is based on selection — as compared with diseases, the human genome has had very limited time to adapt to medication exposure. Despite there being more than 100 drugs that carry a genomic “label” by the FDA, meaning that there is a recom-mendation for genotype assessment before the drug is used, there is rarely any pharmacogenomic assessment in clinical practice. This needs to improve, and perhaps the availability of point-of-care testing will help, along with reduced cost, to eventually promote routine use. Beyond this barrier, there needs to be more genomic sequencing for commonly used drugs, with associated phenotypic determination of efficacy and side ef-fects, along with systematic omic assessment for drugs in development. From the marked success of discovering genomic-drug interactions found to date, there is certainly the sense that, the more you look, the more you will find. The potential here is to reduce the waste of pharmaceuticals, not just by avoiding drugs that will not provide efficacy for particular individu-als but also by avoiding serious toxicity that can be either fatal or life threatening. Healthspan The human reference genome is based upon multiple young individuals who had no phenotypic characterization. Accordingly, we know nothing about the reference human’s natural history of disease, and one can con-sider this as a flawed standard for comparison. Ideally, we should have a reference genome that has had rigorous phenotyping. This is especially the case in an era of using sequencing in medical practice but with an in-adequate comparator. Perhaps the optimal phenotype would be healthspan. At Scripps, we have defined healthy elderly as age >80 years with no history of chronic illness or use of medications. The cohort (known as “Wellderly”) that we have assembled over the past 7 years of 1,400 in-dividuals has an average age of 88, and we have completed whole-genome sequencing for 500 of these individuals. The intent is to provide a more useful reference genome with a clearly defined, uniform, and rele-vant phenotype. Moreover, there is another important application of healthspan genomics. Multiple studies have established that a research investment in under-standing healthy aging would be more prudent than in any specific dis-ease category [33]. Because the cohort that we have enrolled carries a similar burden of common risk variants for chronic diseases compared with the general population, there are most likely a substantial number of modifier genes and protective alleles that may be ultimately identified. One example is from APP, a gene that has a variant for both high risk of Alzheimer’s and another rare variant with marked protection from cogni-tive impairment of Alzheimer’s [19]. Unquestionably, there are many more such variants left to be discovered, and therein lies the potential for drug discovery efforts that can follow such findings from nature of particular genes and pathways that prevent diseases. Molecular Autopsies Although physical autopsies have lost favor and become exceptionally rare, there is an opportunity to use sequencing to determine the cause of death, particularly when this occurs suddenly. Targeted or whole-genome sequencing for heritable heart disorders implicated in sudden death, in-cluding ion channel mutations and hypertrophic cardiomyopathy, can be performed in the deceased individual and family members. This approach is now actively being pursued in New York City for all sudden cardiac deaths [21] and may prove helpful in preventing this condition in family members. Future Directions This prewomb-to-tomb review has emphasized that there is a dispropor-tionate relationship between knowledge and implementation into clinical practice. For individualized medicine to take hold, it will require intensive, rigorous validation that these new approaches improve patient outcomes and are demonstrated to be cost effective. This proof will be essential for the medical community to embrace the opportunities but will also require educational programs that squarely address the knowledge chasm that currently exists for practicing physicians. A second theme is that our ef-forts have been largely sequence centric and have not adequately taken into account or integrated the data from other omics, no less biosensors and imaging. Related to this deficiency, there is a profound shortage of data scientists in biomedicine, with unparalleled opportunities to process enormous, high-yield data sets. While we will increasingly rely on algo-rithms, artificial intelligence, and machine learning, the rate-limiting step necessitates talented biocomputing and bioinformatic human expertise. One of the most attractive outgrowths of defining each individual’s unique biology in an era with unprecedented digital infrastructure is to be able to share the data. By taking the deidentified data from each individual, in-cluding panoromic, biosensors, social graph, treatment, and outcomes, an extraordinary resource can now be developed. Such a massive open online medical information (MOOM) repository could provide matching capability to approximate a newly diagnosed individual’s data as com-pared with all of those previously amalgamated. For a patient with cancer, for example, this could provide closest matches to the tumor GIF, demo-graphics, treatment, and outcomes to select an optimal strategy; this would potentially take Bayesian principles to a new, enriched potential. Such a MOOM resource does not need to be confined to cancer, but the first to be announced was with the Leukemia & Lymphoma Society and Oregon Health Sciences University for 900 patients with liquid tumors [100]. Hopefully, this will be one of many data-sharing initiatives in medi-cine to go forward, now that such rich unique information can be captured at the individual level, and our computing infrastructure is so well suited to perform such functions. Although we are still at the nascent stages of indi-vidualized medicine, there has never been more promise and opportunity to reboot the way health care can be rendered. Only with systematic vali-dation of these approaches at the intersection of biology and digital tech-nology can we actualize this more precise, futuristic version of medicine. ACKNOWLEDGMENTS I want to express my gratitude to my colleagues Ali Torkamani, PhD, and Erick Scott, MD, who reviewed the manuscript and offered editorial input and to Katrina Schreiber, who helped prepare the typescript and graphics. This work was supported by NIH/NCATS1UL1TR001114. Dr. Topol is an advisor to Illumina, Genapsys, and EdicoGenomics and is a cofounder of CypherGenomics. Эрик Топол Индивидуальная медицина: от планирования семьи до смерти Не все осознают, насколько биологически уникален каждый человек, даже однояйцевые близнецы. Степень этой индиви- дуальности стала ясна лишь сейчас, благодаря персонализи- рованному омиксному профилированию, в первую очередь ДНК- и РНК-секвенированию и описанию (в большей или меньшей степени) протеома, метаболома, эпигенома, микро- биома и профиля антител. Доступность этой информации создала беспрецедентные возможности для улучшения ме- дицинской технологии и развития превентивных стратегий сохранения здоровья. Масштаб этих новых возможностей значительно шире, чем у уникального генотипирования, с ко- торым обычно ассоциируют персональную геномику.
  • 51.
    МИРОВОЙ ОПЫТ REFERENCES 1. Alexandrov L.B. et al. (2013). Signatures of muta-tional 50 processes in human cancer. Nature. 500, 415-421. 2. Almeling R. (2013). The unregulated sperm industry. New York Times, November 30, 2013. 3. Arumugam M. et al. (2011). Enterotypes of the human gut microbiome. Nature. 473, 174-180. 4. Battich N. et al. (2013). Image-based transcrip tomics in thousands of single human cells at single-molecule resolution. Nat. Methods. 10, 1127-1133. 5. Bedard P.L. et al. (2013). Tumour heterogeneity in the clinic. Nature. 501, 355-364. 6. Bonnet J. et al. (2013). Amplifying genetic logic gates. Science. 340, 599-603. 7. Bouatia-Naji N. et al. (2008). Apolymorphism within the G6PC2 gene is associated with fast ing plasma glucose levels. Science. 320, 1085- 1088. 8. Boycott K.M. et al. (2013). Rare-disease genetics in the era of next-generation sequencing: discovery to translation. Nat. Rev. Genet. 14, 681-691. 9. Brannon A.R. et al. (2013). “N of 1” case reports in the era of whole-genome sequencing. J. Clin. Invest. 123, 4568-4570. 10. Butte A.J. (2013). Should healthy people have their genomes sequenced at this time? The Wall Street Journal. February 15, 2013. 11. Chen R. et al. (2012). Personal omics profiling reveals dynamic molecular and medical phenotypes. Cell. 148, 1293-1307. 12. Cho I. et al. (2012). The human microbiome: at the interface of health and disease. Nat. Rev. Genet. 13, 260-270. 13. Church G.M. et al. (2012). Next-generation digital information storage in DNA. Science. 337, 1628. 14. Couzin-Frankel J. (2012). Genetics. New company pushes the envelope on pre-conception testing. Science. 338, 315-316. 15. Damani S. et al. (2012). Characterization of circulating endothelial cells in acute myocardial infarction. Sci. Transl. Med. 4, 126ra33. 16. Dawson M.A. et al. (2012). Cancer epigenetics: from mechanism to therapy. Cell. 150, 12-27. 17. Dawson S.J. et al. (2013). Analysis of circulating tumor DNA to monitor metastatic breast cancer. N. Engl. J. Med. 368, 1199-1209. 18. de Ligt J. et al. (2012). Diagnostic exome sequencing in persons with severe intellectual disability. N. Engl. J. Med. 367, 1921-1929. 19. De Strooper B. et al. (2012). Alzheimer’s disease: Aprotective mutation. Nature. 488, 38-39. 20. Dupuis J. et al. (2010). New genetic loci impli-cated in fasting glucose homeostasis and their impact on type 2 diabetes risk. Nat. Genet. 42, 105-116. 21. Erdmann J. (2013). Telltale hearts. Nat. Med. 19, 1361-1364. 22. Eyre D.W. et al. (2013). Diverse sources of C. difficile infection identified on whole-genome sequencing. N. Engl. J. Med. 369, 1195-1205. 23. Faith J.J. et al. (2013). The long-term stability of the human gut microbiota. Science. 341, 237439. 24. Fan H.C. et al. (2012). Non-invasive prenatal measurement of the fetal genome. Nature. 487, 320-324. 25. Ferguson B.S. et al. (2013). Real-time, aptamer-based tracking of circulating therapeutic agents in living animals. Sci. Transl. Med. 5, 213ra165. 26. Forshew T. et al. (2012). Noninvasive identification and monitoring of cancer mutations by targeted deep sequencing of plasma DNA. Sci. Transl. Med. 4, 136ra68. 27. Frampton G.M. et al. (2013). Development and validation of a clinical cancer genomic profiling test based on massively parallel DNA sequencing. Nat. Biotechnol. 31, 1023-1031. 28. Fratkin E. et al. (2012). The implications of EN CODE for diagnostics. Nat. Biotechnol. 30, 1065. 29. Frazer K.A. et al. (2009). Human genetic variation and its contribution to complex traits. Nat. Rev. Genet. 10, 241-251. 30. Gahl W.A. et al. (2011). The NIH Undiagnosed Diseases Program: lessons learned. JAMA. 305, 1904-1905. 31. Gardy J.L. et al. (2011). Whole-genome sequencing and social-network analysis of a tuberculosis outbreak. N. Engl. J. Med. 364, 730-739. 32. Garraway L.A. et al. (2013). Lessons from the cancer genome. Cell. 153, 17-37. 33. Goldman D.P. et al. (2013a). Substantial health and economic returns from delayed aging may warrant a new focus for medical research. Health Aff. (Millwood). 32, 1698-1705. 34. Goldman N. et al. (2013b). Towards practical, high-capacity, low-maintenance information storage in synthesized DNA. Nature. 494, 77-80. 35. Gordon J.I. et al. (2012). The human gut microbiota and undernutrition. Sci. Transl. Med. 4, 137ps12. 36. Gribble F.M. (2010). Alpha2A-adrenergic receptors and type 2 diabetes. N. Engl. J. Med. 362, 361-362. 37. Groop L. (2010). Open chromatin and diabetes risk. Nat. Genet. 42, 190-192. 38. Haffner M.C. et al. (2013). Tracking the clonal origin of lethal prostate cancer. J. Clin. Invest. 123, 4918-4922. 39. Haiser H.J. et al. (2013). Predicting and manipulating cardiac drug inactivation by the human gut bacterium Eggerthella lenta. Science. 341, 295-298. 40. Hall S.S. (2013). Genetics: a gene of rare effect. Nature. 496, 152-155. 41. Hanahan D. et al. (2000). The hallmarks of cancer. Cell 100, 57-70. 42. Hanahan D. et al. (2011). Hallmarks of cancer: the next generation. Cell. 144, 646-674. 43. Harper A.R. et al. (2012). Pharmacogenomics in clinical practice and drug development. Nat. Biotechnol. 30, 1117-1124. 44. Harris S.R. et al. (2013). Whole-genome sequencing for analysis of an outbreak of meticillin-resistant Staphylococcus aureus: a descriptive study. Lancet Infect. Dis. 13, 136. 45. Hayden E.C. (2014). Is the $1,000 genome for real? Nature News. January 15, 2014. 46. Huang F.W. et al. (2013). Highly recurrent TERT promoter mutations in human melanoma. Sci-ence. 339, 957-959. 47. Iida N. et al. (2013). Commensal bacteria control cancer response to therapy by modulating the tumor microenvironment. Science. 342, 967-970. 48. Issacson W. (2011). Steve Jobs (Simon&Schuster). 49. Jacob H.J. et al. (2013). Genomics in clinical practice: lessons from the front lines. Sci. Transl. Med. 5, 194cm5. 50. Jenkins H.W. (2010). Google and the search for the future. Wall Street Journal, August 14, 2010. 51. Kaiser J. (2013). Genomics. Researchers to explore promise, risks of sequencing newborns’ DNA. Science. 341, 1163. 52. Kandoth C. et al. (2013a). Integrated genomic characterization of endometrialcarcinoma. Nature. 497, 67-73. 53. Kandoth C. et al. (2013b). Mutational landscape and significance across 12 major cancer types. Nature. 502, 333-339.
  • 52.
    Партнер Фонда «Сколково» 51 54. Khurana E. et al. (2013). Integrative annotation of variants from 1092 humans: application to cancer genomics. Science. 342, 1235587. 55. Kitzman J.O. et al. (2012). Noninvasive whole-genome sequencing of a human fetus. Sci. Transl. Med. 4, 137ra76. 56. Koboldt D.C. et al. (2013). The next-generation sequencing revolution and its impact on genomics. Cell. 155, 27-38. 57. Kong A. et al. (2009). Parental origin of sequence variants associated with complex diseases. Nature. 462, 868-874. 58. Kong A. et al. (2012). Rate of de novo mutations and the importance of father’s age to disease risk. Nature. 488, 471-475. 59. Leary R.J. et al. (2010). Development of personalized tumor biomarkers using massively parallel sequencing. Sci. Transl. Med. 2, 20ra14. 60. Liu Y. et al. (2013). Epigenome wide association data implicate DNA methylation as an intermedi-ary of genetic risk in rheumatoid arthritis. Nat. Biotechnol. 31, 142-147. 61. Lo Y.M. et al. (2010). Maternal plasma DNA sequencing reveals the genome-wide genetic and mutational profile of the fetus. Sci. Transl. Med. 2, 61ra91. 62. Lupski J.R. (2013). Genetics. Genome mosaicism — one human, multiple genomes. Science 341, 358-359. 63. Macosko E.Z. et al. (2012). Exploring the variation within. Nat. Genet. 44, 614-616. 64. Maher B. (2011). Human genetics: Genomes on prescription. Nature. 478, 22-24. 65. Marx V. (2013). Next-generation sequencing: The genome jigsaw. Nature. 501, 263-268. 66. Meigs J.B. et al. (2008). Genotype score in addition to common risk factors for prediction of type 2 diabetes. N. Engl. J. Med. 2208-2219. 67. Morain S. et al. (2013). A new era in noninvasive prenatal testing. N. Engl. J. Med. 369, 499-501. 68. National Human Genome Research Institute. (2013). Clinical sequencing exploratory research (CSER). http://www.genome.gov/27546194. 69. National Research Council (2011). Toward precision medicine: building a knowledge network for biomedical research and a new taxonomy of disease (Washington, D.C.). 70. Ottoboni L. et al. (2012). An RNA profile identifies two subsets of multiple sclerosis patients differing in disease activity. Sci. Transl. Med. 4, 153ra131. 71. Owens B. (2012). Genomics: The single life. Nature. 491, 27-29. 72. Pirola L. et al. (2010). Epigenetic phenomena linked to diabetic complications. Nat. Rev. Endocrinol. 6, 665-675. 73. Poduri A. et al. (2013). Somatic mutation, genomic variation, and neurological disease. Science. 341, 1237758. 4. Prahallad A. et al. (2012). Unresponsiveness of colon cancer to BRAF(V600E) inhibition through feedback activation of EGFR. Nature. 483, 103. 75. Prensner J.R. et al. (2013). The long noncoding RNA SChLAP1 promotes aggressive prostate ancer and antagonizes the SWI/SNF complex. Nat. Genet. 45, 1392-1398. 76. Ridaura V.K. et al. (2013). Gut microbiota from twins discordant for obesity modulate metabolism in mice. Science. 341, 1241214. 77. Rincon P. (2013). Genepeeks firm to offer ‘digital baby’ screen for sperm donors. BBC News, October 4, 2014. 78. Rivera C.M. et al. (2013). Mapping human epigenomes. Cell. 155, 39-55. 79. Sadanandam A. et al. (2013). A colorectal cancer classification system that associates cellular phenotype and responses to therapy. Nat. Med. 19, 619-625. 80. Saunders C.J. et al. (2012). Rapid whole-genome sequencing for genetic disease diagnosis in neonatal intensive care units. Sci. Transl. Med. 4, 154ra135. 81. Schmitz R.J. et al. (2011). Transgenerational epigenetic instability is a source of novel methylation variants. Science. 334, 369-373. 82. Schwarzenbach H. et al. (2011). Cell-free nucleic acids as biomarkers in cancer patients. Nat. Rev. Cancer. 11, 426-437. 83. Shapiro E. et al. (2013). Single-cell sequencing-based technologies will revolutionize whole-or-ganism science. Nat. Rev. Genet. 14, 618-630. 84. Shen H. et al. (2013). Interplay between the cancer genome and epigenome. Cell 153, 38-55. 85. Shendure J. et al. (2012). The expanding scope of DNA sequencing. Nat. Biotechnol. 30, 1084. 86. Sladek R. et al. (2007). A genome-wide association study identifies novel risk loci for type 2 diabetes. Nature. 445, 881-885. 87. Snitkin E.S. et al. (2012). Tracking a hospital outbreak of carbapenem-resistant Klebsiella pneumoniae withwhole-genome sequencing. Sci. Transl. Med. 4, 148ra116. 88. Sosman J.A. et al. (2012). Survival in BRAF V600-mutant advanced melanoma treated with vemurafenib. N. Engl. J. Med. 366, 707-714. 89. Sosnay P.R. et al. (2013). Defining the disease liability of variants in the cystic fibrosis transmembrane conductance regulator gene. Nat. Genet. 45, 1160-1167. 90. Stanton D. (2013). GFK survey. GFK. August 22, 2013. 91. Suvá M.L. et al. (2013). Epigenetic reprogram ming in cancer. Science. 339, 1567-1570. 92. Test T.C. (2013). The Counsyl Test. https://www.counsyl.com. 93. Tewhey R. et al. (2011). The importance of phase information for human genomics. Nat. Rev. Genet. 12, 215-223. 94. Veltman J.A. et al. (2012). De novo mutations in human genetic disease. Nat. Rev. Genet. 13, 565-575. 95. Viaud S. et al. (2013). The intestinal microbiota modulates the anticancer immune effects of cyclophosphamide. Science. 342, 971-976. 96. Vogelstein B. et al. (2013). Cancer genome landscapes. Science. 339, 1546-1558. 97. Wang J. et al. (2012). Genome-wide single-cell analysis of recombination activity and de novo mutation rates in human sperm. Cell. 150, 402- 412. 98. Wenzel S.E. (2012). Asthma phenotypes: the evolution from clinical to molecular approaches. Nat. Med. 18, 716-725. 99. Westra H.J. et al. (2013). Systematic identification of trans eQTLs as putative drivers of known disease associations. Nat. Genet. 45, 1238-1243. 100. Winslow R. (2013). Patients share DNA for cures. Wall Street Journal. September 16, 2013. 101. Worthey E.A. et al. (2011). Making a definitive diagnosis: successful clinical application of whole exome sequencing in a child with intractable in flammatory bowel disease. Genet. Med. 13, 255- 262. 102. Yang Y. et al. (2013). Clinical whole-exome sequencing for the diagnosis of mendelian disorders. N. Engl. J. Med. 369, 1502-1511. 103. Zhang B. et al. (2013). Integrated systems approach identifies genetic nodes and networks in late-onset Alzheimer’s disease. Cell. 153, 707- 720. 104. Ziller M.J. et al. (2013). Charting a dynamic DNA methylation landscape of the human genome. Nature. 500, 477-481.
  • 53.
    МИРОВОЙ ОПЫТ PERSONALOMICS PROFILING REVEALS DYNAMIC MOLECULAR AND MEDICAL PHENOTYPES SUMMARY Personalized medicine is expected to benefit from combining genomic in-formation 52 with regular monitoring of physiological states by multiple high-throughput methods. Here, we present an integrative personal omics profile (iPOP), an analysis that combines genomic, transcriptomic, pro-teomic, metabolomic, and autoantibody profiles from a single individual over a 14 month period. Our iPOP analysis revealed various medical risks, including type 2 diabetes. It also uncovered extensive, dynamic changes in diverse molecular components and biological pathways across healthy and diseased conditions. Extremely high-coverage ge-nomic and transcriptomic data, which provide the basis of our iPOP, re-vealed extensive heteroallelic changes during healthy and diseased states and an unexpected RNA editing mechanism. This study demon-strates that longitudinal iPOP can be used to interpret healthy and dis-eased states by connecting genomic information with additional dynamic omics activity. INTRODUCTION Personalized medicine aims to assess medical risks, monitor, diagnose and treat patients according to their specific genetic composition and mo-lecular phenotype. The advent of genome sequencing and the analysis of physiological states has proven to be powerful [8]. However, its imple-mentation for the analysis of otherwise healthy individuals for estimation of disease risk and medical interpretation is less clear. Much of the genome is difficult to interpret and many complex diseases, such as dia-betes, neurological disorders and cancer, likely involve a large number of different genes and biological pathways [6, 17, 33], as well as environ-mental contributors that can be difficult to assess. As such, the combina-tion of genomic information along with a detailed molecular analysis of samples will be important for predicting, diagnosing and treating diseases as well as for understanding the onset, progression, and prevalence of disease states [45]. Presently, healthy and diseased states are typically followed using a lim-ited number of assays that analyze a small number of markers of distinct types. With the advancement of many new technologies, it is now possi-ble to analyze upward of 105 molecular constituents. For example, DNA microarrays have allowed the subcategorization of lymphomas and gliomas [38], and RNA sequencing (RNA-Seq) has identified breast can-cer transcript isoforms [29, 33, 52, 56]. Although transcriptome and RNA splicing profiling are powerful and convenient, they provide a partial por-trait of an organism’s physiological state. Transcriptomic data, when com-bined with genomic, proteomic, and metabolomic data are expected to provide a much deeper understanding of normal and diseased states [46]. To date, comprehensive integrative omics profiles have been limited and have not been applied to the analysis of generally healthy individuals. To obtain a better understanding of: (1) how to generate an integrative personal omics profile (iPOP) and examine as many biological compo-nents as possible, (2) how these components change during healthy and diseased states, and (3) how this information can be combined with ge-nomic information to estimate disease risk and gain new insights into dis-eased states, we performed extensive omics profiling of blood components from a generally healthy individual over a 14 month period (24 months total when including time points with other molecular analy-ses). We determined the whole-genome sequence (WGS) of the subject, and together with transcriptomic, proteomic, metabolomic, and autoanti-body profiles, used this information to generate an iPOP. We analyzed the iPOP of the individual over the course of healthy states and two viral in-fections (Figure 1A). Our results indicate that disease risk can be esti-mated by a whole-genome sequence and by regularly monitoring health states with iPOP disease onset may also be observed. The wealth of in-formation provided by detailed longitudinal iPOP revealed unexpected molecular complexity, which exhibited dynamic changes during healthy and diseased states, and provided insight into multiple biological processes. Detailed omics profiling coupled with genome sequencing can provide molecular and physiological information of medical significance. This approach can be generalized for personalized health monitoring and medicine. RESULTS Overview of Personal Omics Profiling Our overall iPOP strategy was to: (1) determine the genome sequence at high accuracy and evaluate disease risks, (2) monitor omics components over time and integrate the relevant omics information to assess the vari-ation of physiological states, and (3) examine in detail the expression of personal variants at the level of RNA and protein to study molecular com-plexity and dynamic changes in diseased states. We performed iPOP on blood components (peripheral blood mononu-clear cells [PBMCs], plasma and sera that are highly accessible) from a Rui Chen,1,11 George I. Mias,1,11 Jennifer Li-Pook-Than,1,11 Lihua Jiang,1,11 Hugo Y.K. Lam,1,12 Rong Chen,2,12 Elana Miriami,1 Konrad J. Karczewski,1 Manoj Hariharan,1 Frederick E. Dewey,3Yong Cheng,1 Michael J. Clark,1 Hogune Im,1 Lukas Habegger,6,7 Suganthi Balasub-ramanian, 6,7 Maeve O’Huallachain,1 Joel T. Dudley,2 Sara Hillenmeyer,1 Rajini Haraksingh,1 Donald Sharon,1 Ghia Euskirchen,1 Phil Lacroute,1 Keith Bettinger,1 Alan P. Boyle,1 Maya Kasowski,1 Fabian Grubert,1 Scott Seki,1 Marco Garcia,1 Michelle Whirl-Carrillo,1 Mercedes Gal-lardo, 9,10 Maria A. Blasco,9 Peter L. Greenberg,4 Phyllis Snyder,1Teri E. Klein,1 Russ B. Altman,1,5 Atul J. Butte,2 Euan A. Ashley,3 Mark Ger-stein, 6,7,8 Kari C. Nadeau,2 Hua Tang,1 and Michael Snyder1 1Department of Genetics, Stanford University School of Medicine; 2Divi-sion of Systems Medicine and Division of Immunology and Allergy, De-partment of Pediatrics; 3Center for Inherited Cardiovascular Disease, Division of Cardiovascular Medicine; 4Division of Hematology, Depart-ment of Medicine; 5Department of Bioengineering Stanford University, Stanford, CA 94305, USA; 6Program in Computational Biology and Bio-informatics; 7Department of Molecular Biophysics and Biochemistry; 8Department of Computer Science Yale University, New Haven, CT 06520, USA; 9Telomeres and Telomerase Group, Molecular Oncology Program, Spanish National Cancer Centre (CNIO), Madrid E-28029, Spain; 10Life Length, Madrid E-28003, Spain; 11These authors contribu-ted equally to this work; 12Present address: Personalis, Palo Alto, CA 94301, USA. *Correspondence: mpsnyder@stanford.edu Reprinted from Cell, 148, Chen R. et al., Personal Omics Profiling Re-veals Dynamic Molecular and Medical Phenotypes, 1293-1307, 2012, with permission from Elsevier. ttp://dx.doi.org/10.1016/j.cell.2012.02.009
  • 54.
    Партнер Фонда «Сколково» 53 54-year-old male volunteer over the course of 14 months (IRB-8629). The samples used for iPOP were taken over an interval of 401 days (days 0– 400). In addition, a complete medical exam plus laboratory and additional tests were performed before the study officially launched (day 123) and blood glucose was sampled multiple times after the comprehensive omics profiling (days 401–602) (Figure 1A). Extensive sampling was performed during two viral infections that occurred during this period: a human rhi-novirus (HRV) infection beginning on day 0 and a respiratory syncytial virus (RSV) infection starting on day 289. A total of 20 time points were ex-tensively analyzed and a summary of the time course is indicated in Figure 1A. The different types of analyses performed are summarized in Figures 1B and 1C. These analyses, performed on PBMCs and/or serum compo-nents, included WGS, complete transcriptome analysis (providing informa-tion about the abundance of alternative spliced isoforms, heteroallelic expression, and RNA edits, as well as expression of miRNAs at selected time points), proteomic and metabolomic analyses, and autoantibody pro-files. An integrative analysis of these data highlights dynamic changes and provides information about healthy and diseased phenotypes. Whole-Genome Sequencing We first generated a high quality genome sequence of this individual using a variety of different technologies. Genomic DNA was subjected to deep WGS using technologies from Complete Genomics (CG, 35 nt paired end) and Illumina (100 nt paired end) at 150-and 120-fold total cov-erage, respectively, exome sequencing using three different technologies to 80-to 100-fold average coverage (see Extended Experimental Proce-dures available online) and analysis using genotyping arrays and RNA se-quencing. The vast majority of genomic sequences (91%) mapped to the hg19 (GRCh37) reference genome. However, because of the depth of our se-quencing, we were able to identify sequences not present in the reference sequence. Assembly of the unmapped Illumina sequencing reads (60,434,531,9% of the total) resulted in 1,425 (of 29,751) contigs (span-ning 26 Mb) overlapping with RefSeq gene sequences that were not an-notated in the hg19 reference genome. The remaining sequences appeared unique, including 2,919 exons expressed in the RNA-Seq data (e.g., Figure S1A). These results confirm that a large number of undocu-mented genetic regions exist in individual human genome sequences and can be identified by very deep sequencing and de novo assembly [34]. Our analysis detected many single nucleotide variants (SNVs), small in-sertions and deletions (indels) and structural variants (SVs; large inser-tions, deletions, and inversions relative to hg19), (summarized in Table 1 and Experimental Procedures). 134,341 (4.1%) high-confidence SNVs are not present in dbSNP, indicating that they are very rare or private to the subject. Only 302 high-confidence indels reside within RefSeq protein coding exons and exhibit enrichments in multiples of three nucleotides (p<0.0001). In addition to indels, 2,566 high-confidence SVs were identi-fied (Experimental Procedures and Table S1) and 8,646 mobile element insertions were identified [47]. Analysis of the subject’s mother’s genome by comprehensive genome se-quencing (as above) and imputation allowed a maternal/paternal chromo-somal phasing of 92.5% of the subject’s SNVs and indels (see Extended Experimental Procedures for details). Of 1,162 compound heterozygous mutations in genes, 139 contain predicted compound heterozygous dele-terious and/or nonsense mutations. Phasing enabled the assembly of a personal genome sequence of very high confidence (c.f., [41]). WGS-Based Disease Risk Evaluation We identified variants likely to be associated with increased susceptibility to disease [12]. The list of high confidence SNVs and indels was analyzed for rare alleles (<5% of the major allele frequency in Europeans) and for changes in genes with known Mendelian disease phenotypes (data sum-marized in Table 2), revealing that 51 and 4 of the rare coding SNV and indels, respectively, in genes present in OMIM are predicted to lead to loss-of-function (Table S2A). This list of genes was further examined for medical relevance (Table S2A; example alleles are summarized in Figure 2A), and 11 were validated by Sanger sequencing. High interest genes in-clude: (1) a mutation (E366K) in the SERPINA1 gene previously known in the subject, (2) a damaging mutation in TERT, associated with acquired aplastic anemia [57], and (3) variants associated with hypertriglyceridemia and diabetes, such as GCKR (homozygous) [54], and KCNJ11 (homozy-gous) [18] and TCF7 (heterozygous) [13]. Genetic disease risks were also assessed by the RiskOGram algorithm, which integrates information from multiple alleles associated with disease risk [6] (Figure 2B). This analysis revealed a modest elevated risk for coronary artery disease and significantly elevated risk levels of basal cell Table 1. Summary and Breakdown of DNA Variants Type Total Variants Total High Confidence Heterozygous High Confidence Homozygous High Confidence Total SNVs 3,739,701 3,301,521 1,971,629 1,329,892 Total gene-associated SNVs 1,312,780 1,183,847 717.485 466.362 Total coding/UTR 49.017 44.542 27.383 17.159 Missense 10.592 9.683 5.944 3.739 Nonsense 83 73 49 24 Synonymous 11.459 10.864 6.747 4.117 5´UTR 4.085 2.978 1.802 1.176 3´UTR 22.798 20.944 12.841 8.103 Intron 1,263,763 1,139,305 690.102 449.203 Ts/Tv — 2.14 — — dbSNP 3,493,748 3,167,180 — — Candidate private SNV 245.953 134.341 — — Indels (-107~ +36 bp) 1,022,901 216.776 — — Coding 3.263 302 — — Structural variants (>50 bp) 44.781 2.566 — — In 1000G projecta 4.434 1.967 — — High confidence values are from variants identified across multiple plat-forms (Illumina and CG) and/or Exome and RNA-Seq data. Annotations were based from variant call formatted (vcf) files for heterozygous calls: 0/1, reference (ref)/alternative (alt); 1/2, alt/alt and homozygous calls; 1/1, alt/alt; 1/, (alt/alt-incomplete call). Polyphen-2 was used to identify the lo-cation of the SNVs. a1000G (1000 Genomes Project Consortium, 2010).
  • 55.
    МИРОВОЙ ОПЫТ Figure1. Summary of Study (A) Time course summary. The subject was monitored for a total of 726 days, during which there were two infections (red bar, HRV; green bar, RSV). The black bar indicates the period when the subject: (1) increased exercise, (2) in-gested 54 81 mg of acetylsalicylic acid and ibuprofen tablets each day (the latter only during the first 6 weeks of this period), and (3) substantially reduced sugar intake. Blue numbers indicate fasted time points. (B) iPOP experimental design indicating the tissues and analyses involved in this study. (C) Circos [26] plot summarizing iPOP. From outer to inner rings: chromosome ideogram; genomic data (pale blue ring), structural variants >50 bp (deletions [blue tiles], duplications [red tiles]), indels (green triangles); transcriptomic data (yellow ring), expression ratio of HRV infection to healthy states; proteomic data (light purple ring), ratio of protein levels during HRV infection to healthy states; transcriptomic data (yellow ring), differential heteroallelic expression ratio of al-ternative allele to reference allele for missense and synonymous variants (pur-ple dots) and candidate RNA missense and synonymous edits (red triangles, purple dots, orange triangles and green dots, respectively).
  • 56.
    Партнер Фонда «Сколково» 55 Table 2. Summary of Disease-Related Rare Variants Category Count Total high confidence rare SNVs 289,989 Coding 2,546 Missense 1,320 Synonymous 1,214 Nonsense 11 Nonstop 1 Damaging or possibly damaging 233 Putative loss-of-function SNVsa* 51 Total high confidence rare indels 51,248 Coding indels 61 Frameshift indels 27 miRNA indels 3 miRNA target sequence indels 5 Putative loss-of-function indels* 4 carcinoma (Figure 2B), hypertriglyceridemia, and type 2 diabetes (T2D) (Figures 2B and 2C). In addition to coding region variants we also analyzed genomic variants that may affect regulatory elements (transcription factors [TF]), which had not been attempted previously (Data S1). A total of 14,922 (of 234,980) SNVs lie in the motifs of 36 TFs known to be associated with the binding data (see Experimental Procedures), indicating that these are likely hav-ing a direct effect on TF binding. Comparison of SNPs that alter binding patterns of NFkB and Pol II sites [24], also revealed a number of other in-teresting regulatory variants, some of which are associated with human disease (e.g., EDIL) [48] (Figure S1B). Medical Phenotypes Monitoring Based on the above analysis of medically relevant variants and the RiskOGram, we monitored markers associated with high-risk disease phenotypes and performed additional medically relevant assays. Monitoring of glucose levels and HbA1c revealed the onset of T2D as di-agnosed by the subject’s physician (day 369, Figures 2A and 2C). The subject lacked many known factors associated with diabetes (nonsmoker; BMI = 23.9 and 21.7 on day 0 and day 511, respectively) and glucose lev-els were normal for the first part of the study. However, glucose levels ele-vated shortly after the RSV infection (after day 301) extending for several months (Figure 2D). High levels of glucose were further confirmed using glycated HbA1c measurements at two time points (days 329, 369) during this period (6.4% and 6.7%, respectively). After a dramatic change in diet, exercise and ingestion of low doses of acetylsalicylic acid a gradual de-crease in glucose (to ~93 mg/dl at day 602) and HbA1c levels to 4.7% was observed. Insulin resistance was not evident at day 322. The patient was negative for anti-GAD and anti-islet antibodies, and insulin levels cor-related well with the fasted and nonfasted states (Figure S2C), consistent with T2D. These results indicate that a genome sequence can be used to estimate disease risk in a healthy individual, and by monitoring traits as-sociated with that disease, disease markers can be detected and the phe-notype treated. The subject contained a TERT mutation previously associated with aplas-tic anemia [57]. However, measurements of telomere length suggested lit-tle or no decrease in telomere length and modest increase in numbers of cells with short telomeres relative to age-matched controls (Figures S2A and S2B). Importantly, the patient and his 83-year-old mother share the same mutation but neither exhibit symptoms of aplastic anemia, indicating that this mutation does not always result in disease and is likely context specific in its effects. Consistent with the elevated hypertriglyceridemia risk, triglycerides were found to be high (321 mg/dl) at the beginning of the study. These levels were reduced (81–116 mg/dl) after regularly taking simvastatin (20 mg/day). We also examined the variants for their potential effects on drug response (see Extended Experimental Procedures). Among the alleles of interest, (Figure 2A and Table S2B) two genotypes affecting the LPIN1 and SLC22A1 genes were associated with favorable (glucose lowering) re-sponses to two diabetic drugs, rosiglitazone and metformin, respectively. We followed the levels of 51 cytokines along with the C-reactive protein (CRP) using ELISA assays, which revealed strong induction of proinflam-matory cytokines and CRP during each infection (Figures 2E and 2F). We also observed a spike of many cytokines at day 12 after the RSV infection (day 301 overall). These data define the physiological states and serve as a valuable reference for the omic profiles integrated into a longitudinal map of healthy and diseased states described in the next sections. Dynamic Omics Analysis: Integrative Omics Profiling of Molecular Responses We profiled the levels of transcripts, proteins, and metabolites across the HRV and RSV infections and healthy states using a variety of ap-proaches. RNA-Seq of 20 time points generated over 2.67 billion uniquely mapped 101b paired-end reads (123 million reads average per time point) and allowed for an analysis of the molecular complexity of the tran-scriptome in normal cells (PBMCs) at an unprecedented level. The rela-tive levels of 6,280 proteins were also measured at 14 time points through differential labeling of samples using isobaric tandem mass tags (TMT), followed by liquid chromatography and mass spectrometry (LC-MS/MS) [10, 49]. A total of 3,731 PBMC proteins could be consistently monitored across most of the 14 time points (see Figure S3A and Data S3). In addi-tion, 6,862 and 4,228 metabolite peaks were identified for the HRV and RSV infection, and a total of 1,020 metabolites were tracked for both in-fections (see Figure S4 and Data S4, [3]). Finally, as described below, we also analyzed miRNAs during the HRV infection. This wealth of omics information allowed us to examine detailed dynamic trends related directly to the physiological states of the individual and re-vealed enormous changes in biological processes that occurred during healthy and diseased states. For each profile (transcriptome, proteome, metabolome), we systematically searched for two types of nonrandom patterns: (1) correlated patterns over time and (2) single unusual events (i.e., spikes that may occur at any given time point defined as statistically significantly high or low signal instances compared to what would be ex-pected by chance). To perform this analysis, we developed a general scheme for integrated analysis of data (see Figure S5 and Extended Ex-perimental Procedures for further details). We used a Fourier spectral analysis approach that both normalizes the various omics data on equal basis for identifying the common trends and features, and, also accounts for data set variability, uneven sampling, and data gaps, in order to detect real-time changes in any kind of omics activity at the differential time points (see Supplemental Information). Autocorrelations were calculated to assess nonrandomness of the time-series (p<0.05 one-tailed based on simulated bootstrap nonparametric distribution by sampling with replace-ment of the original data, n>100,000), with significant signals classified as autocorrelated (I). The remaining data was searched for spike events, which were classified as spike maxima (II) or spike minima (III) (p<0.05 one-tailed based on differences from simulated, n>100,000 random distri-bution of the time-series). After classification, the data were agglomerated into hierarchical clusters (using correlation distance and average linkage) of common patterns and biological relevance was assessed through GO [5] analysis (Cytoscape [44], BiNGO [36] p<0.05, Benjamini-Hochberg [7] adjusted p<0.05) and pathway analysis (Reactome [11] functional interac-tion [FI], networks including KEGG [23, 44], p<0.05, FDR<0.05). The uni-fied framework approach was implemented on all the different data sets *In curated Mendelian disease genes.
  • 57.
    МИРОВОЙ ОПЫТ Figure1. Summary of Study (A) High interest disease- and drug-related variants in the subject’s genome. (B) RiskGraph of the top 20 diseases with the highest posttest probabilities. For each disease, the arrow represents the pretest probability according to the sub-ject’s 56 age, gender, and ethnicity. The line represents the posttest probability after incorporating the subject’s genome sequence. Listed to the right are the numbers of independent disease-associated SNVs used to calculate the subject’s posttest probability. (C) RiskOGram of type 2 diabetes. The RiskOGram illustrates how the subject’s posttest probability of T2D was calculated using 28 independent SNVs. The mid-dle graph displays the posttest probability. The left side shows the associated genes, SNVs, and the subject’s genotypes. The right side shows the likelihood ratio (LR), number of studies, cohort sizes, and the posttest probability. (D) Blood glucose trend. Measurements were taken from samples analyzed at ei-ther nonfasted or fasted states; the nonfasted states (all but days 186, 322, 329, and 369 and after day 400) were at a fixed time after a constant meal. Data was presented as moving average with a window of 15 days. Red and green arrows and bars indicate the times of the HRV and RSV infections, respectively. Black ar-rows and bars indicate the period with life style changes. (E) C-reactive protein trend line. Error bars represent standard deviation of 3 assays. (F) Serum cytokine profiles. Red box and day number, HRV infection; green box and day number, RSV infection; question mark, elevated cytokine levels indicating an unknown event at day 301. Red is increased cytokine levels.
  • 58.
    Партнер Фонда «Сколково» 57 both individually and in combination, and our results revealed a number of differential changes that occurred both during infectious states and the varying glucose states. We first analyzed the different individual transcriptome, proteome (serum and PBMC) and metabolome data sets; the proteome and metabolome results are presented in the Supplemental Information (Figures S3, S4, S6 and Data S3-S6). A total of 19,714 distinct transcript isoforms [55] cor-responding to 12,659 genes (Figure S1C) were tracked for the entire time course, and their dynamic expression response was classified into either autocorrelated (I) and spike sets, further subdivided as displaying maxima (II) or minima (III) (Figure 3). The clustering and enrichment analysis dis-played a number of interesting pathways in each class. In the autocorre-lated group (Figure 3B, [I]; see also Figure S6A and Data S6, [1 and 2]), we found two main trends: an upward trend (2,023 genes), following the onset of the RSV infection, and a similar coincidental downward trend (2,207 genes). The upward autocorrelated trend revealed a number of pathways as enriched (p<0.002, FDR<0.05), including protein metabo-lism and influenza life cycle. Additionally, the downward autocorrelation cluster showed a multitude of enriched pathways (p<0.008, FDR<0.05), such as TCR signaling in naive CD4+ T cells, lysosome, B cell signaling, androgen regulation, and of particular interest, insulin signaling/response pathways. These different pathways, which are activated as a response to an immune infection, often share common genes and additionally we observe many genes hitherto unknown to be involved in these pathways but displaying the same trend. Furthermore, we observed that the down-ward trend, that began with the onset of the RSV infection and appeared to accelerate after day 307, coincided with the beginning of the observed elevated glucose levels in the subject. In the dynamic spike class we again saw patterns that were concordant with phenotypes (Figure 3B, [II] and [III]; see also Figure S6A and Data S6, [3-14]). A set of expression spikes displaying maxima (547 genes), that are common to the onset of both the RSV and HRV infections are as-sociated with phagosome, immune processes and phagocytosis, (p<1×10-4, FDR<6×10-3). Furthermore, a cluster that exhibits an elevated spike at the onset of the RSV infection involves the major histocompatibil-ity genes (p<7×10-4, Benjamini-Hochberg adjusted p<0.03). A large num-ber of genes with a coexpression pattern common to both infections in the time course have yet to be implicated in known pathways and provide possible connections related to immune response. Finally, our spike class displaying minima showed a distinct cluster (1,535 genes) singular to day 307 (day 14 of the RSV infection), associated with TCR signaling again, TGF receptors, and T cell and insulin signaling pathways (p<0.02, FDR<0.03). Overall, the transcriptome analysis captures the dynamic re-sponse of the body responding to infection as also evidenced by our cy-tokine measurements, and also can monitor health changes over long periods of time, with various trends. To further leverage the transcriptome and genome data, we performed an integrated analysis of transcriptome, proteomic and metabolomics data for each time point, observing how this corresponded to the varying physi-ological states monitored as described in the above sections. Because of the availability of many time points through the course of infection, we ex-amined in detail the onset of the RSV infection, as well as extended our complete dynamics omics profile during the times that our subject began exhibiting high glucose levels. Figure 4 shows an integrated interpretation of omics data (see also Figure S6B and Data S7), where all trends are combined for each omics data set and the common patterns emerge pro-viding complementary information. In addition to the common patterns ob-served in our transcriptome analysis, new patterns emerged, some unique to protein data, some to metabolite, and some common to all. In particular we found the following interesting results: for autocorrelated clusters we found the same trends as observed in the transcriptome, ad-ditionally augmented with concordant protein expressions. Pathways such as the phagosome, lysosome, protein processing in endoplasmic reticulum, and insulin pathways emerged as significantly enriched (p<0.002, FDR<0.0075), and showed a downward trend post-infection, and further accelerated after 3 weeks following the initial onset of the RSV infection (this cluster comprised of 1,452 transcriptomic and 69 proteomic components, corresponding to 1,444 genes). The elevated spike class showed a maxima cluster on day 18 post RSV infection (one time point after the cytokine maximum), with enrichment in pathways such as the spliceosome, glucose regulation of insulin secretion, and various path-ways related to a stress response (p<1×10-4, FDR<0.02) — this cluster included 1,956 transcriptomic, 571 proteomic and 23 metabolomic com-ponents, corresponding to 2,344 genes. Even though current proteomic information is more limited than the full transcriptome because it follows fewer components, as evidenced in Figure 4 (II), several pathways, in-cluding the glucose regulation of insulin secretion pathway, clearly emerge from the proteomic information and would not have been ob-served by only monitoring the transcriptome. Additionally, in this cluster we find significant GO enrichment in splicing and metabolic processes (p<6×10-47, Benjamini-Hochberg adjusted p<10-45). Furthermore, inspec-tion of metabolites reveals 23 that show the same exact trend (i.e., spikes at day 18 post RSV infection); at least one, lauric acid has been impli-cated in fatty acid metabolism and insulin regulatory pathways [27]. Fi-nally, we observe minima spikes as well, with yet another interesting group on day 18, which showed downregulation in several pathways (p<0.003, FDR<0.05), such as the formation of platelet plug. This cluster displayed a high degree of synergy between the various omics data, com-prised of 3,237 transcriptomic and 761 proteomic components correspon-ding 3,400 genes and 83 metabolomic components. In summary, our integrated approach revealed a clear systemic response to the RSV infection following its onset and postinfection response, includ-ing a pronounced response evident at day 18 post RSV infection. A vari-ety of infection/stress response related pathways were affected along with those associated to the high glucose levels in the later time points, includ-ing insulin response pathways. Dynamic Omics Analysis: Extensive Heteroallelic Variation and RNA Editing The considerable amount of transcriptome and proteome data allowed us to analyze and follow changes in allele-specific expression (ASE), splic-ing, and editing at the RNA and protein levels during healthy and dis-eased states. Of the 49,017 genomic variants associated with coding or UTR regions (Table 1), 12,785 (26%) were expressed in PBMCs (R40 read coverage; Table S3). A total of 8,509 of the variants are heterozygous (1,113 mis-sense) and the remainder (4,686; 684 missense) are homozygous. Eight of the 83 nonsense mutations were expressed indicating that not all non-sense mutations result in transcript loss. The numerous heterozygous variants allowed an analysis of the dynamics of differential ASE, (shrunk ratios, Experimental Procedures; Figures 5A and S7B) in PBMCs during healthy and diseased states. We found 497 and 1,047 genes that exhibited differential ASE during HRV and RSV infection, respectively (posterior probability ≥0.75, beta-binomial model; ≥40 reads, ≥7 time points); many of these are immune response genes, e.g., PADI4 and PLOD1 (Figure 5B). Among the differential ASE sites 100 and 218 were specific to HRV and RSV infected states, respec-tively (Figures 5C and 5D). Differential ASE genes in the HRV compared to healthy phase were enriched for those encoding SNARE vesicular transport proteins (DAVID analysis; Benjamini p<0.05). Summing over all computed ASE alternative to total ratios revealed that nonreference het-eroallelic variants were expressed at 98% of reference variants. The ex-pression of over 50 heterozygous variants, including some of the rare/ private SNVs (which form 0.72% of the genomic total), and differentially expressed variants (SVIL and TRIM5), was confirmed by Sanger cDNA sequencing and/or digital PCR [19] of cDNA (Figures 5B and S7). Overall, these results demonstrate that differential ASE is pervasive in humans and is particularly distinct during healthy and infected states, with many of these changes residing in immune response genes. The depth of our RNA-Seq data enabled us to re-evaluate the extent of
  • 59.
    МИРОВОЙ ОПЫТ Figure3. Transcriptome Time Course Analysis (A) Summary of approach for identification of differentially expressed components. The various omics sets were processed through a common framework involving spectral analysis, clustering, and pathway enrichment analysis. (B) Pattern classification. The different emergent patterns from the analysis of the transcriptome for the entire time course are displayed for the autocorrelation (I), 58 spike maxima (II), and spike minima (III) classes. For different clusters, examples of gene connections in selected pathways based on Reactome [11] FI (Cytoscape plugin [44]) are shown as networks. Example GO [5] enrichment analysis results from Cytoscape [44] BiNGO [36] plugin and pathway enrichment results (Reac-tome FI [11]) are included.
  • 60.
    Партнер Фонда «Сколково» 59 Figure 4. Integrated Omics Analysis For days 186-400, the different emergent patterns from an integrated analysis of the transcriptome, proteome, and metabolome data are displayed for the autocor-relation (I), spike maxima (II), and spike minima (III) classes. For different clusters, examples of gene connections in selected pathways based on Reactome [11] and FI Cytoscape [44] plugin are shown as networks, with constituents marked as assessed from proteome data, transcriptome data or both. Example GO [5] en-richment analysis results from Cytoscape [44] BiNGO [36] plugin and pathway enrichment results (Reactome FI [11]) are included.
  • 61.
    МИРОВОЙ ОПЫТ RNAediting (Figure 6 and Data S8 and S11A), typically an adenosine to inosine (A-to-I) conversion [32] or infrequently cytidine to uridine (C-to-U), in normal human cells. We found 2,376 high-confidence coding-associ-ated 60 RNA edits, including 795 A-to-I (A-to-G) and 277 C-to-U deamina-tion- like edits (Figure 6A). A total of 587 edits in 175 genes were predicted to cause amino acid substitutions (Polyphen-2 [3]); the remainder were nonsense (11), synonymous (435), or located in 50/30 UTRs (103/1,240). Ten edited bases causing amino acid substitutions were validated by Sanger cDNA sequencing and/or digital droplet PCR, as well as by identi-fication of their peptide counterparts by mass spectrometry (Figure 6B). Interestingly, we identified A-to-G edits (Figure 6B), e.g., IGFBP7, BLCAP, and AZIN1 in PBMCs that were known to occur in other tissues [16, 30], indicating that the same RNA can be edited in other cell types. BLCAP exhibited two edited changes (Figure 6C) with edited/total ratios of 0.12- 0.2 and 0.18-0.31, respectively, comparable to the 0.21 ratio previously observed in the brain [14]. Furthermore, we found and validated two missense-causing edits, U-to-C in SCFD2 and G-to-A in FBXO25 (Figure 6D), indicating an amination-like RNA-editing mechanism, previously not observed in human cells. Our re-sults reveal that a large number of edits occur and exhibit dynamic and differential changes in populations of PBMCs (Figure 6B). The total num-ber of edited RNAs, while extensive, is significantly lower than that re-ported in human lymphoblastoid lines and very different in its distribution [33]. We believe that in addition to tissue-specific variation, the observed differences are also likely due to overcalling of false-positive SNVs, a problem we corrected with deep exome sequencing, removal of repeat regions and pseudo-genes, and strings of close-proximity variants (Data S11A). Finally, to determine whether the nonreference allele and edited RNAs serve as templates for protein synthesis, we generated proteome data-bases for 4,586 missense SNVs and all 30,385 edits and used them to search our mass spectra from the untargeted protein profiling experi-ments as well as in a targeted approach to directly search for 500 edited proteins (see Extended Experimental Procedures). Peptides for 48 SNVs Figure 5. Heteroallelic Expression Study of PBMCs (A) Frequency of allele-specific expression (ASE) based on shrunk alternative/total ra-tios of RNA-Seq data. A total of 143 posi-tions fall outside the three standard deviations (s) range (see Figure S7B; <0.33, >0.66), suggesting that certain het-erozygous alleles (DNA level) are preferen-tially expressed in PBMCs. Standard deviations (s) are denoted with dotted lines and the average ratio overlapping across all time points is 0.49. (B) Digital droplet PCR validation of two heteroallelic expressed genes PADI4 and PLOD (relative to alternative allele). (C) Heat map of the HRV infection time course (seven time points) showing differ-ential ASE during HRV infection day 0 (red arrow) relative to average shrunk ratios of healthy states (days 116-255). (D) Heat map of the RSV infection time course (13 time points) showing differential ASE specific to RSV infection day 289 (red arrow) relative to average shrunk ratios of healthy states (days 311-400), onset of high glucose on day 307 is also shown (red arrow). Heat map ratios are relative to the alternative allele (alternative/ total, posterior probability >0.75). Example of enriched KEGG pathway gene cluster [21] (Ben-jamini p<0.05) shown below Figure 5C. and 51 edits were identified (FDR<0.01 and requiring one unique peptide per protein; Data S9 and S11B). A total of 17/17 selected SNVs (100%) were validated by Sanger sequencing. Seven peptides derived from the SNV and six peptides derived from edited transcripts were unique to a single protein in the IPI database [25] and classified as high confidence. These results indicate that a large fraction of personal variants are ex-pressed as transcripts and a number of these are also translated as pro-teins. miRNA Variant Analysis In addition to the omics profiling above, we identified 619-681 known miR-NAs from PBMCs per time point (>10 reads, days 4, 21, 116, 185, and 186), 106 of which showed dynamic changes (e.g., Figures S2D and S2E). Examination of miRNA editing revealed 50 edited miRNAs (C-to-U or A-to-I) with stringent criteria (edited reads >5% of total reads or >399 modified reads) indicating that at least 4% of expressed miRNAs are po-tentially edited. Eighteen miRNAs contain edits located within the func-tionally critical “seed sequences,” potentially affecting their mRNA targets. Interestingly, expression of SNV-containing miRNAs was generally higher compared to SNV-free miRNA (Figures 6E and 6F). In addition to edits, analysis of the SNVs located in miRNAs revealed that most (25 of 31) SNV-containing miRNAs were not expressed. These miRNAs were among those discovered in cancer cell lines [22] and may not normally be highly expressed in PBMCs from healthy individuals. DISCUSSION To our knowledge, our study is the first to perform extensive personal iPOP of an individual through healthy and diseased states. It revealed ex-tensive complex and dynamic changes in the omics profiles, especially in the transcriptomes, between healthy states and viral infections, and be-tween nondiabetic and diabetic states. iPOP provides a multidimensional view of medical states, including healthy states, response to viral infec-tion, recovery, and T2D onset. Our study indicates that disease risk can
  • 62.
    Партнер Фонда «Сколково» 61 be assessed from a genome sequence and illustrates how traits associ-ated with disease can be monitored to identify varying physiological stages. We show that large numbers of molecular components are pres-ent in blood samples and can be measured (>3 billion measurements taken over 20 time points). For the transcriptome many of these arise from differential splicing, ASE, and editing events. By observing dynamic molecular changes that correspond to physiological states, this proof-of-principle study offers a pilot implementation of personalized medicine. The information obtained may greatly help in the design and application of personalized health monitoring, diagnosis, prognosis, and treatment. We speculate that differential expression of ASE/edits may be important in monitoring and assessing diseased states. In this respect the genes/proteins in which one isoform is abundant in one condition (e.g., diseased or healthy state) whereas another is abundant in another (e.g., diseased state) may provide unique physiological advantages to the indi-vidual in distinct environmental conditions. Because multiple genes in our study that exhibit ASE and editing changes are involved in immune func-tion, we speculate that these components are particularly valuable for me-diating immune responses to environmental conditions such as exposure to pathogens. Likewise miRNA SNVs and edits, which also undergo dif-ferential expression, may confer unique biological responses. Although we analyzed a single individual, insights were gained by inte-grating the multiple omics profiles associated with distinct physiological states. Through examination of molecular patterns, clear signatures of dy-namic biological processes were evident, including immune responses during infection, insulin signaling response alterations after the RSV infec-tion. Indeed, careful monitoring of omics changes across multiple time points for the same individual revealed detailed responses, which might not have been evident had the analyses been performed on groups due to interindividual variability. Hence, we expect that our longitudinal person-alized profiling approach provides valuable information on an individual basis. We focused on a generally healthy subject who exhibited no apparent dis-ease symptoms. This is a critical aspect of personalized medicine, which is to perform iPOP and evaluate the importance and changes of all the profiles in ordinary individuals. These results have important implications and suggest new paradigm shifts: first, genome sequencing can be used to direct the monitoring of specific diseases (in this study, aplastic anemia and diabetes) and second, by following large numbers of molecules a more comprehensive view of disease states can be analyzed to follow physiological states. Our study revealed that many distinct molecular events and pathways are activated both through viral infection and the onset of diabetes. Indeed, the monitoring of large numbers of different components revealed a steady decrease of insulin-related responses that are associated with dia-betes- insulin response pathways occurring from the early healthy state to a high glucose state. Although many of the activated and repressed path-ways could be detected through transcript profiling, some were detected only with the proteomics data and some with the combined set of data. In addition a large number of connections with diabetes and insulin signaling using metabolites, miRNAs, and autoantibodies were observed. One par-ticularly interesting response detected with the proteomics data was the onset of the elevated glucose response that was tightly associated with the RSV infection and a particular subclinical response at day 12/18 postinfection. It is tempting to speculate that the RSV infection and/or the associated event at day 12/18 triggered the onset of high glucose/T2D. Although viral infections have been associated with T1D [52]), we are un-aware of viral infection associated with T2D. Inflammation and activated innate immunity have been associated with T2D (Pickup, 2004), and we speculate that perhaps RSV triggered aberrant glucose metabolism through activation of a viral inflammation response in conjunction with a predisposition toward T2D. Although this cannot be proven with the analy-ses from a single individual, this study nonetheless serves as proof-of-principle that iPOP can be performed and provide valuable information. Because diabetes is a complex disease there may be many ways to ac-quire high glucose phenotype; longitudinal iPOP analysis of a large num-ber of individuals may be extremely valuable to dissecting the disease and its various subtypes, as well providing information into the molecular mechanism of its onset. Finally, we believe that the wealth of data generated from this study will serve as a valuable resource to the community in the developing field of personalized medicine. A large database with the complete time-dynamic profiles for more individuals that acquire infections and other types of dis-eases will be extremely valuable in the early diagnostics, monitoring and treatment of diseased states. EXPERIMENTAL PROCEDURES The subject and mother in this study were recruited under the IRB proto-col IRB-8629 at Stanford University. Full methods and associated refer-ences can be found in the Extended Experimental Procedures section. WGS was performed at Complete Genomics and Illumina. High-confi-dence SNVs were mostly correct as evidenced by: (1) Illumina Omni1- Quad genotyping arrays (99.3% sensitivity), (2) a Ti/Tv ratio of 2.14 as expected (1000 Genomes Project Consortium, 2010), (3) Illumina capture and DNA sequencing (92.7% accuracy), and (4) Sanger sequencing of 36 randomly selected SNVs (36/36 validated, Table S1). In contrast, the low confidence SNVs had a Ti/Tv of only 1.46 and an accuracy of 63.8% (19 of 33 confirmed by Sanger sequencing, Table S1A). Similarly, the majority of the 216,776 high-confidence indels are likely to be correct as (1) Sanger sequencing validated 14 of 15 (93%) tested indels and (2) exome-sequencing validated most indels (4,706, 82%); meanwhile the 806,125 low confidence indels had a low validation rate (5,225, 0.65%). SVs were called using: (1) paired-end mapping [9] (2) read depth [2], (3) split reads [59], and (4) junction mapping [28] to the breakpoint junction database from the 1000 G [37]. A total of 2,566 were found by two differ-ent methods or platforms (CG or Illumina) and were called high confi-dence; >90% of these were in the database of genome variants. Strand-specific RNA-Seq libraries were prepared as described previously [39] and sequenced on 1-3 lanes of Illumina’s HiSeq 2000 instrument. The TopHat package [50] was used to align the reads to the hg19 refer-ence genome, followed by Cufflinks for transcript assembly and RNA ex-pression analysis [50]. The Samtools package [31] was used to identify variants including single nucleotide variants (SNV) and Indels. Small RNAs were prepared from PBMCs for the first five time points; sequenc-ing was performed according to Illumina’s Small RNA v1.5 Sample Prepa-ration Guide. The Luminex 51-plex Human Cytokines assay was performed at the Stanford Human Immune Monitoring Center. For mass spectrometry, pro-teins were prepared from PBMC cell lysates, labeled at lysines using the TMT isobaric tags by Pierce, and digested with trypsin and analyzed using reverse phase LC coupled to a Thermo Scientific (LTQ)-Orbitrap Velos instrument. In order to profile serum, 14 major glycoproteins were first removed using the Agilent Human 14 Multiple Affinity Removal Sys-tem (MARS) column in order to analyze the less abundant constituents. Metabolites were extracted by four times serum volume of equal mixture of methanol, acetonitrile, and acetone and separated using our Agilent 1260 liquid chromatography. Hydrophobic molecules were profiled using reversed phase UPLC followed by APCI-MS and hydrophilic molecule were analyzed using HILIC UPLC followed by ESI-MS in either the posi-tive or negative mode. For the integrated analysis, per omics set, for each time-series curve the Lomb-Scargle transformation [20, 35, 42, 43] for unevenly sampled gapped time-series data was implemented [4, 15, 53, 58, 60]. This al-lowed us to obtain a periodogram, which was used to calculate autocorre-lations and then reconstruct the time-series with even sampling, allowing standard time-series analysis and performing data clustering, while taking the time intervals into account (see Extended Experimental Procedures). Autoantibodyome profiling was performed using the Invitrogen ProtoArray Protein Microarray v5.0 according to the manufacturer’s instructions.
  • 63.
    МИРОВОЙ ОПЫТ Figure3. Transcriptome Time Course Analysis (A) Distribution of candidate RNA editing types in missense (red) and synony-mous 62 and UTRs (blue), based on seven or more time points (total 20 time points). (B) Selected summary of known and novel RNA edits expressed in PBMCs. RNA edits were validated by digital PCR (green) and mass spectrometry (yellow). (C) Detail of two missense-causing edit sites in BLCAP. Selected data from RNA-Seq at day 4 and day 255 (top left), Sanger sequencing of day 255 cDNA (bottom left), and digital PCR (right panel) are shown. (D) Digital droplet PCR analysis of novel edit sites in SCFD2 (left) and FBXO25 (right) genes show no variants in DNA, whereas in RNA, editing is evident (top left quadrant). (E and F) Expression of SNV-containing and SNV-free miRNA, respectively, for days 4, 21, 116, 185, and 186. Red lines, mean; error bars, standard error of the mean. Genome browsers, chromatograms, and digital PCR data were analyzed with software from DNAnexus, Inc., Chromas 2.33, and QuantaLife, respectively.
  • 64.
    Партнер Фонда «Сколково» 63 ACCESSION NUMBERS The SRA accession number for the WGS sequence reported in this paper is SRP008054.4. The GEO accession number for the RNA-Seq and miRNA-Seq data sequence reported in this paper is GSE33029. See Ex-tended Experimental Procedures for data dissemination details. SUPPLEMENTAL INFORMATION Supplemental information includes Extended Experimental Procedures, seven figures, four tables, and eleven data files and can be found with this article online at doi:10.1016/j.cell.2012.02.009. ACKNOWLEDGMENTS M.S. is funded by grants from Stanford University and the NIH. M.G. is funded by grants from the NIH. G.I.M. is funded by NIH training grant. K.J.K., J.T.D., and S.H. are supported by the NIH/NLM training grant T15- LM007033. T.E.K. and R.B.A are funded by NIH/NIGMS R24-GM61374. M.A.B.’s laboratory is funded by the Spanish Ministry of Science and In-novation Projects SAF2008-05384 and CSD2007-00017, European Union FP7 Projects 2007A-201630 (GENICA) and 2007-A-200950 (TELOMARKER), European Research Council Advanced Grant GA232854, the Körber Foundation, the Fundación Marcelino Botín, and Fundación Lilly (Espanã). F.E.D. was supported by NIH/NHLBI training grant T32 HL094274. E.A.A. was supported by NIH/NHLBI KO8 HL083914, NIH New Investigator DP2 Award OD004613, and a grant from the Breetwor Family Foundation. We dedicate this manuscript to Dr. Tara A.Gianoulis, an enthusiastic advocate for genomic science. R.B.A., E.A.A., A.B., and M.S. serve as founders and consultants for Personalis. R.B.A. is a consultant to 23andMe. M.S. is a member of the scientific ad-visory board of GenapSys and a consultant for Illumina. M.A.B. acts as consultant and holds stock in Life Length. Received: October 11, 2011. Revised: January 27, 2012. Accepted: Feb-ruary 4, 2012. Published: March 15, 2012 Руи Чен и соавторы Лаборатория Майкла Шнайдера Стенфордского университета, США и др. Персональное омиксное профилирование выявляет изменяю- щиеся молекулярные и медицински значимые фенотипы Ожидается, что персонализированная медицина выиграет от сочетания геномной информации с регулярным мониторингом физиологического состояния организма с помощью высоко- пропускных экспериментальных технологий. Представлено ин- тегративное персональное омиксное профилирование (иПОП), которое комбинирует геномные, экспрессионные, протеомные, метаболомные и аутоиммунные тесты, проведенные на одном человеке в течение 14 месяцев. иПОП-анализ выявил риски здоровья, включая диабет 2-го типа. Также анализ показал значительные динамические изменения в различных молеку- лярных компонентах и биологических путях в условиях нормы и болезни. Геномные и экспрессионные данные самого высо- кого разрешения, лежащие в основе анализа, продемонстри- ровали обширные гетероаллельные изменения между здоровым и больным состояниями и неожиданно позволили выявить механизм редактирования РНК. Исследование пока- зало, что долговременное иПОП-профилирование может ис- пользоваться для интерпретации здорового и больного состояний путем сочетания геномной информации и дополни- тельных динамических омиксных тестов. REFERENCES 1. 1000 Genomes Project Consortium. (2010). A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073. 2. Abyzov A. et al. (2011). CNVnator: an approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing. Genome Res. 21, 974-984. 3. Adzhubei I.A. et al. (2010). A method and server for predicting damaging missense mutations. Nat. Methods. 7, 248-249. 4. Ahdesmäki M. et al. (2007). Robust regression for periodicity detection in non-uniformly sampled time-course gene expression data. BMC Bioinformatics. 8, 233. 5. Ashburner M. et al. (2000). Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat. Genet. 25, 25-29. 6. Ashley E.A. et al. (2010). Clinical assessment incorporating a personal genome. Lancet. 375, 1525-1535. 7. Benjamini Y. et al. (1995). Controlling the false discovery rate: a practical and powerful approach to multiple testing. Roy. Statist. Soc. Ser. B 57, 289-300. 8. Cancer Genome Atlas Research Network. (2011). Integrated genomic analyses of ovarian carcinoma. Nature. 474, 609-615. 9. Chen K. et al. (2009). Break-Dancer: an algorithm for high-resolution mapping of genomic structural variation. Nat. Methods. 6, 677-681. 10. Cox J. et al. (2010). Quantitative, high-resolution proteomics for data-driven systems biology. Annu. Rev. Biochem. 80, 273-299. 11. Croft D. et al. (2011). Reactome: a database of reactions, pathways and biological processes. Nucleic Acids Res. 39 D691-D697. 12. Dewey F.E. et al.. (2011). Phased whole-genome genetic risk in a family quartet using a major allele reference sequence. PLoS Genet. 7, e1002280. 13. Erlich H.A. et al. Type I Diabetes Genetics Consortium. (2009). Evidence for association of the TCF7 locus with type I diabetes. Genes Immun. 10 (Suppl. 1), S54-S59. 14. Galeano F. et al. (2010). Human BLCAP transcript: new editing events in normal and cancerous tissues. Int. J. Cancer. 127, 127-137. 15. Glynn E.F. et al. (2006). Detecting periodic patterns in unevenly spaced gene expression time series using Lomb-Scargle periodograms. Bioinformatics. 22, 310-316. 16. Gommans W.M. et al. (2008). Screening of human SNP database identifies recoding sites of A-to-I RNA editing. RNA. 14, 2074-2085. 17. Grayson B.L. et al. (2011). Peripheral blood gene expression profiles in metabolic syndrome, coronary artery disease and type 2 diabetes. Genes Immun. 12, 341-351. 18. Hani E.H. et al. (1998). Missense mutations in the pancreatic islet beta cell inwardly rectifying K+ channel gene (KIR6.2/BIR): a meta-analysis suggests a role in the polygenic basis of Type II dia betes mellitus in Caucasians. Diabetologia. 41, 1511-1515.
  • 65.
    МИРОВОЙ ОПЫТ 19.Hindson B.J. et al. (2011). High-throughput droplet digital PCR 64 system for absolute quantitation of DNA copy number. Anal. Chem. 83, 8604-8610. 20. Hocke K. et al. (2009). Gap filling and noise reduction of unevenly sampled data by means of the Lomb-Scargle periodogram. Atmos. Chem. Phys. 9, 4197-4206. 21. Huang W. et al. (2009). Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37, 1-13. 22. Jima D.D. et al. (2010). Deep sequencing of the small RNA transcriptome of normal and malignant human B cells identifies hundreds of novel microRNAs. Blood. 116, e118-e127. 23. Kanehisa M. et al. (2000). KEGG: Kyoto encyclopedia of genes and genomes. Nucleic Acids Res. 28, 27-30. 24. Kasowski M. et al. (2010). Variation in transcription factor binding among humans. Science. 328, 232-235. 25. Kersey P.J. et al. (2004). The International Protein Index: an integrated database for proteomics experiments. Proteomics. 4, 1985-1988. 26. Krzywinski M. et al. (2009). Circos: an information aesthetic for comparative genomics. Genome Res. 19, 1639-1645. 27. Kusunoki M. et al. (2007). Relationship between serum concentrations of satu-rated fatty acids and unsaturated fatty acids and the homeostasis model insulin re sistance index in Japanese patients with type 2 diabetes mellitus. J. Med. Invest. 54, 243-247. 28. Lam H.Y. et al. (2010). Nucleotide-resolution analysis of structural variants using BreakSeq and a breakpoint library. Nat. Biotechnol. 28, 47-55. 29. Lapuk A. et al. (2010). Exon-level microarray analyses identify alternative splicing programs in breast cancer. Mol. Cancer Res. 8, 961-974. 30. Levanon E.Y. et al. (2005). Evolutionarily conserved human targets of adenosine to inosine RNA editing. Nucleic Acids Res. 33, 1162-1168. 31. Li H. et al. (2009a). The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25, 2078-2079. 32. Li J.B. et al. (2009b). Genome-wide identification of human RNA editing sites by parallel DNA capturing and sequencing. Science. 324, 1210-1213. 33. Li M. et al. (2011). Widespread RNA and DNA sequence differences in the human transcriptome. Science. 333, 53-58. 34. Li R. et al. (2010). Building the sequence map of the human pan-genome. Nat. Biotechnol. 28, 57-63. 35. Lomb N. (1976). Least-squares frequency analysis of unequally spaced data. Astrophys. Space Sci. 39, 447-462. 36. Maere S. et al. (2005). BiNGO: a Cytoscape plugin to assess overrepresentation of gene ontology categories in biological networks. Bioinformatics. 21, 3448-3449. 37. Mills R.E. et al. (2011). Mapping copy number variation by population-scale genome sequencing. Nature. 470, 59-65. 38. Mischel P.S. et al. (2003). Identification of molecular subtypes of glioblastoma by gene expression profiling. Oncogene. 22, 2361- 2373. 39. Parkhomchuk D. et al. (2009). Transcriptome analysis by strand-specific sequencing of complementary DNA. Nucleic Acids Res. 37, e123. 40. Pickup J.C. (2004). Inflammation and activated innate immunity in the pathogenesis of type 2 diabetes. Diabetes Care. 27, 813-823. 41. Rozowsky J. et al. (2011). AlleleSeq: analysis of allele-specific expression and binding in a network framework. Mol. Syst. Biol. 7, 522. 42. Scargle J.D. (1982). Studies in astronomical time series analysis. II-Statistical aspects of spectral analysis of unevenly spaced data. Astrophys. J. 263, 835-853. 43. Scargle J.D. (1989). Studies in astronomical time series analysis. III-Fourier transforms, autocorrelation functions, and cross-correlation functions of unevenly spaced data. Astrophys. J. 343, 874-887. 44. Smoot M.E. et al. (2011). Cytoscape 2.8: new features for data integration and network visualization. Bioinformatics. 27, 431-432. 45. Snyder M. et al. (2009). Personal phenotypes to go with personal genomes. Mol. Syst. Biol. 5, 273. 46. Snyder M. et al. (2010). Personal genome sequencing: current approaches and challenges. Genes Dev. 24, 423-431. 47. Stewart C. et al. (2011). A comprehensive map of mobile element insertion polymorphisms in humans. PLoS Genet. 7, e1002236. 48. Sun J.C. et al. (2010). High expression level of EDIL3 in HCC predicts poor prognosis of HCC patients. World J. Gastroenterol. 16, 4611-4615. 49. Theodoridis G. et al. (2011). Mass spectrometry-based holistic analytical approaches for metabolite profiling in systems biology studies. Mass. Spectrom. Rev. 30, 884-906. 50. Trapnell C. et al. (2009). TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25, 1105-1111. 51. Trapnell C. et al. (2010). Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28, 511-515. 52. van der Werf N. et al. (2007). Viral infections as potential triggers of type 1 diabetes. Diabetes Metab. Res. Rev. 23, 169-183. 53. Van Dongen H.P. et al. (1999). A procedure of multiple period searching in unequally spaced time-series with the Lomb-Scargle method. Biol. Rhythm Res. 30, 149-177. 54. Vaxillaire M. et al. (2008). The common P446L polymorphism in GCKR inversely modulates fasting glucose and triglyceride levels and reduces type 2 diabetes risk in the DESIR prospective general French population. Diabetes. 57, 2253-2257. 55. Wang E.T. et al. (2008). Alternative isoform regulation in human tissue transcriptomes. Nature. 456, 470-476. 56. Wu J.Q. et al. (2010). Dynamic transcriptomes during neural differentiation of human embryonic stem cells revealed by short, long, and paired-end sequencing. Proc. Natl. Acad. Sci. USA. 107, 5254-5259. 57. Yamaguchi H. et al. (2005). Mutations in TERT, the gene for telomerase reverse transcriptase, in aplastic anemia. N. Engl. J. Med. 352, 1413-1424. 58. Yang R. et al. (2011). LSPR: an integrated periodicity detection algorithm for unevenly sampled temporal microarray data. Bioinformatics. 27, 1023-1025. 59. Ye K. et al. (2009). Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads. Bioinformatics. 25, 2865-2871. 60. Zhao W. et al. (2008). Detecting periodic genes from irregularly sampled gene expressions: a comparison study. EURASIP J. Bioinform. Syst. Biol. 2008, 769293.