Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоинформатики

73 views

Published on

DataScience Lab, 13 мая 2017
BioVec: Word2Vec в задачах анализа геномных данных и биоинформатики
Дмитрий Новицкий (Старший научный сотрудник в ИПММС НАНУ)
Этот доклад посвящен bioVec: применению технологии word2vec в задачах биоинфоматики. Сначала мы напомним как работает Word2vec и аналогичные ему методы Word Embedding. Затем расскажем об особенностях Word2vec в применении к геномным последовательностям-- основному виду данных в биоинформатике. Как обучать bioVec, и применять эту технологию к задачам классификации белков, предсказания их функции и др. В заключении мы продемонстрируем примеры кода для обучения и использования bioVec.
Все материалы доступны по ссылке: http://datascience.in.ua/report2017

Published in: Technology
  • Be the first to comment

DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоинформатики

  1. 1. 1Д М И Т Р И Й Н О В И Ц К И Й BIOVEC: WORD2VEC И БИОИНФОРМАТИКА
  2. 2. ВВЕДЕНИЕ: ЧТО ТАКОЕ БИОИНФОРМАТИКА • математические методы компьютерного анализа генома, транскриптома, протеома (омикс- биоинформатика). • разработка алгоритмов и программ для предсказания пространственной структуры биополимеров– РНК и белок - структурная биоинформатика ~ ФОЛДНИНГ • ]моделирование белковых каскадов,предсказание функции белка, регуляторных контуров и т. 2
  3. 3. SHOTGUN & NEXT GEN. SEQUENCING 3 Strand Sequence Original AGCATGCTGCAGTCATGCTTAGG CTA First shotgun sequence AGCATGCTGCAGTCATGCT------- -------------------TAGGCTA Second shotgun sequence AGCATG-------------------- ------CTGCAGTCATGCTTAGGCTA Reconstruction AGCATGCTGCAGTCATGCTTAGG CTA
  4. 4. ПРИМЕР БЕЛКОВОЙ ПОСЛЕДОВАТЕЛЬНОСТИ 4
  5. 5. ВЫРАВНИВАНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ 5 • Обнаружение внутривидового и межвидового полиморфизма. • Таксономия • Молекулярные часы
  6. 6. WORD2VEC : КРАТКОЕ СОДЕРЖАНИЕ • Represent each word with a low-dimensional vector • Word similarity = vector similarity • Key idea: Predict surrounding words of every word • Faster and can easily incorporate a new sentence/document or add a word to the vocabulary 6
  7. 7. REPRESENT THE MEANING OF WORD – WORD2VEC • 2 basic neural network models: • Continuous Bag of Word (CBOW): use a window of word to predict the middle word • Skip-gram (SG): use a word to predict the surrounding ones in window. 7
  8. 8. WORD2VEC – CONTINUOUS BAG OF WORD • E.g. “The cat sat on floor” • Window size = 2 8 the cat on floor sat
  9. 9. 9 0 1 0 0 0 0 0 0 … 0 0 0 0 1 0 0 0 0 … 0 cat on 0 0 0 0 0 0 0 1 … 0 Input layer Hidden layer sat Output layer one-hot vector one-hot vector Index of cat in vocabulary
  10. 10. 10 0 1 0 0 0 0 0 0 … 0 0 0 0 1 0 0 0 0 … 0 cat on 0 0 0 0 0 0 0 1 … 0 Input layer Hidden layer sat Output layer 𝑊"×$ 𝑊"×$ V-dim V-dim N-dim 𝑊′$×" V-dim N will be the size of word vector We must learn W and W’
  11. 11. 11 0 1 0 0 0 0 0 0 … 0 0 0 0 1 0 0 0 0 … 0 xcat xon 0 0 0 0 0 0 0 1 … 0 Input layer Hidden layer sat Output layer V-dim V-dim N-dim V-dim + 𝑣' = 𝑣)*+ + 𝑣-. 2 0.1 2.4 1.6 1.8 0.5 0.9 … … … 3.2 0.5 2.6 1.4 2.9 1.5 3.6 … … … 6.1 … … … … … … … … … … … … … … … … … … … … 0.6 1.8 2.7 1.9 2.4 2.0 … … … 1.2 × 0 1 0 0 0 0 0 0 … 0 𝑊"×$ 0 ×𝑥)*+ = 𝑣)*+ 2.4 2.6 … … 1.8 =
  12. 12. 12 0 1 0 0 0 0 0 0 … 0 0 0 0 1 0 0 0 0 … 0 xcat xon 0 0 0 0 0 0 0 1 … 0 Input layer Hidden layer sat Output layer V-dim V-dim N-dim V-dim + 𝑣' = 𝑣)*+ + 𝑣-. 2 0.1 2.4 1.6 1.8 0.5 0.9 … … … 3.2 0.5 2.6 1.4 2.9 1.5 3.6 … … … 6.1 … … … … … … … … … … … … … … … … … … … … 0.6 1.8 2.7 1.9 2.4 2.0 … … … 1.2 × 0 0 0 1 0 0 0 0 … 0 𝑊"×$ 0 ×𝑥-. = 𝑣-. 1.8 2.9 … … 1.9 =
  13. 13. 13 0 1 0 0 0 0 0 0 … 0 0 0 0 1 0 0 0 0 … 0 cat on 0 0 0 0 0 0 0 1 … 0 Input layer Hidden layer 𝑦'456 Output layer 𝑊"×$ 𝑊"×$ V-dim V-dim N-dim 𝑊"×$ 7 ×𝑣' = 𝑧 V-dim N will be the size of word vector 𝑣' 𝑦' = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑧)
  14. 14. 14 0 1 0 0 0 0 0 0 … 0 0 0 0 1 0 0 0 0 … 0 cat on 0 0 0 0 0 0 0 1 … 0 Input layer Hidden layer 𝑦'456 Output layer 𝑊"×$ 𝑊"×$ V-dim V-dim N-dim 𝑊"×$ 7 ×𝑣' = 𝑧 𝑦' = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑧) V-dim N will be the size of word vector 𝑣' 0.01 0.02 0.00 0.02 0.01 0.02 0.01 0.7 … 0.00 𝑦' We would prefer 𝑦' close to 𝑦'A*+
  15. 15. 15 0 1 0 0 0 0 0 0 … 0 0 0 0 1 0 0 0 0 … 0 xcat xon 0 0 0 0 0 0 0 1 … 0 Input layer Hidden layer sat Output layer V-dim V-dim N-dim V-dim 𝑊"×$ 𝑊"×$ 0.1 2.4 1.6 1.8 0.5 0.9 … … … 3.2 0.5 2.6 1.4 2.9 1.5 3.6 … … … 6.1 … … … … … … … … … … … … … … … … … … … … 0.6 1.8 2.7 1.9 2.4 2.0 … … … 1.2 𝑊"×$ 0 Contain word’s vectors 𝑊"×$ 7 We can consider either W or W’ as the word’s representation. Or even take the average.
  16. 16. SOME INTERESTING RESULTS 16
  17. 17. WORD ANALOGIES 17
  18. 18. ОСНОВНАЯ СТАТЬЯ • Continuous Distributed Representation of Biological Sequences for Deep Proteomics and Genomics • Ehsaneddin Asgari, • Mohammad R. K. Mofrad • PLOS ONE November 10, 2015 • https://doi.org/10.1371/journal.pone.0141287 18
  19. 19. СЕМЕЙСТВА БЕЛКОВ 19
  20. 20. РАЗБИВКА БЕЛКОВОЙ ПОСЛЕДОВАТЕЛЬНОСТИ 20
  21. 21. РАСПРЕДЕЛЕНИЕ БЕЛКОВ В ПРОСТРАНСТВЕ 2Х КОМПОНЕНТ ЦВЕТ ОБОЗНАЧАЕТ ЗНАЧЕНИЕ СООТВ. ПРИЗНАКА 21
  22. 22. PHENYLALANINE-GLYCINE NUCLEOPORINS (FG-NUPS) 22
  23. 23. ПОСЛЕДОВАТЕЛЬНОСТИ FG-NUP VS СТРУКТУРИРОВАННЫЕ БЕЛКОВЫЕ ПОСЛЕДОВАТЕЛЬНОСТИ 23
  24. 24. РЕАЛИЗАЦИЯ • https://github.com/peter-volkov/biovec 24
  25. 25. СПАСИБО ЗА ВНИМАНИЕ! 25

×