20121006 algorithmsinbioinformatics vyahhi_lecture03

393 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
393
On SlideShare
0
From Embeds
0
Number of Embeds
87
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

20121006 algorithmsinbioinformatics vyahhi_lecture03

  1. 1. Поиск Последовательностей Николай Вяххи vyahhi@bioinf.spbau.ru Computer Science клуб Екатеринбург, 2012суббота, 6 октября 12 г.
  2. 2. Задача Поиск подстроки в строке: Дано: текст T шаблон P Найти: позиции вхождения P в Tсуббота, 6 октября 12 г.
  3. 3. Наивный алгоритм ATCA ATATGAACTGAGATCAATсуббота, 6 октября 12 г.
  4. 4. Наивный алгоритм ATCA ATATGAACTGAGATCAATсуббота, 6 октября 12 г.
  5. 5. Наивный алгоритм ATCA ATATGAACTGAGATCAATсуббота, 6 октября 12 г.
  6. 6. Наивный алгоритм ATCA ATATGAACTGAGATCAATсуббота, 6 октября 12 г.
  7. 7. Наивный алгоритм ATCA ATATGAACTGAGATCAATсуббота, 6 октября 12 г.
  8. 8. Наивный алгоритм ATCA ATATGAACTGAGATCAAT O(NM)суббота, 6 октября 12 г.
  9. 9. Чуть посложнее Кнут-Моррис-Пратт: O(N+M) Бойер-Мурр: O(N+M)суббота, 6 октября 12 г.
  10. 10. Чуть посложнее Кнут-Моррис-Пратт: O(N+M) Бойер-Мурр: O(N+M) Быстрее?суббота, 6 октября 12 г.
  11. 11. Новая задача Дано: текст T шаблон P Можно: предварительно обработать Т Найти: позиции вхождения P в Tсуббота, 6 октября 12 г.
  12. 12. Хэш-таблица K-мер — слово длины K Алфавит {A, C, G, T} → {0, 1, 2, 3}суббота, 6 октября 12 г.
  13. 13. Хэш-таблица K-мер — слово длины K Алфавит {A, C, G, T} → {0, 1, 2, 3} hash(10-мер) = s0 * 49 + s1 * 48 + ... + s9 * 40суббота, 6 октября 12 г.
  14. 14. Хэш-таблица K-мер — слово длины K Алфавит {A, C, G, T} → {0, 1, 2, 3} hash(10-мер) = s0 * 49 + s1 * 48 + ... + s9 * 40 Максимальное значение hash? Минимальное значение hash?суббота, 6 октября 12 г.
  15. 15. Хэш-таблицасуббота, 6 октября 12 г.
  16. 16. Хэш-таблица O(M)суббота, 6 октября 12 г.
  17. 17. Бор (Trie) A IN THERE IS THE TAVERN TOWNсуббота, 6 октября 12 г.
  18. 18. Бор (Trie)суббота, 6 октября 12 г.
  19. 19. Суффиксное деревосуббота, 6 октября 12 г.
  20. 20. Суффиксное деревосуббота, 6 октября 12 г.
  21. 21. Суффиксное дерево O(M)суббота, 6 октября 12 г.
  22. 22. Суффиксный массивсуббота, 6 октября 12 г.
  23. 23. Суффиксный массив O(MlogN)суббота, 6 октября 12 г.
  24. 24. Поиск с ошибками Дано: текст T шаблон P целое число K Найти: позиции вхождения P в T с максимум К ошибками (несовпадениями)суббота, 6 октября 12 г.
  25. 25. Решение Разобьём шаблон на K+1 фрагментов. Одна из подстрок должна встречается в тексте точно.суббота, 6 октября 12 г.
  26. 26. Решение Разобьём шаблон на K+1 фрагментов. Один из фрагментов должен встречается в тексте точно.суббота, 6 октября 12 г.
  27. 27. Решение Найдём вхождения всех K+1 фрагментов с помощью любого точного алгоритма. Расширим все вхождения и проверим количество ошибок.суббота, 6 октября 12 г.
  28. 28. Решение Найдём вхождения всех K+1 фрагментов с помощью любого точного алгоритма. Расширим все вхождения и проверим количество ошибок.суббота, 6 октября 12 г.
  29. 29. Сложность Найти фрагменты: O(K • (N + M/K)) = O(KN + M) O(N + K • M/K) = O(N + M) Проверить одно вхождение: O(M) Чем больше K, тем больше ложных вхождений нам проверять...суббота, 6 октября 12 г.
  30. 30. BLAST Basic Local Alignment Search Tool (самая цитируемая статья 1990х) http://blast.ncbi.nlm.nih.govсуббота, 6 октября 12 г.
  31. 31. BLASTсуббота, 6 октября 12 г.
  32. 32. BLAST Sequences producing significant alignments: Score E (bits) Value gi|18858329|ref|NP_571095.1| ba1 globin [Danio rerio] >gi|147757... 171 3e-44 gi|18858331|ref|NP_571096.1| ba2 globin; SI:dZ118J2.3 [Danio rer... 170 7e-44 gi|37606100|emb|CAE48992.1| SI:bY187G17.6 (novel beta globin) [D... 170 7e-44 gi|31419195|gb|AAH53176.1| Ba1 protein [Danio rerio] 168 3e-43 ALIGNMENTS >gi|18858329|ref|NP_571095.1| ba1 globin [Danio rerio] Length = 148 Score = 171 bits (434), Expect = 3e-44 Identities = 76/148 (51%), Positives = 106/148 (71%), Gaps = 1/148 (0%) Query: 1 MVHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPK 60 MV T E++A+ LWGK+N+DE+G +AL R L+VYPWTQR+F +FG+LS+P A+MGNPK Sbjct: 1 MVEWTDAERTAILGLWGKLNIDEIGPQALSRCLIVYPWTQRYFATFGNLSSPAAIMGNPK 60 Query: 61 VKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFG 120 V AHG+ V+G + ++DN+K T+A LS +H +KLHVDP+NFRLL + + A FGсуббота, 6 октября 12 г.
  33. 33. Сжатые структуры FM-index = BWT + Suffix Arrayсуббота, 6 октября 12 г.
  34. 34. Что мы узнали • Поиск подстроки в строке • Таблица К-меров • Суффиксное дерево, массив • BLASTсуббота, 6 октября 12 г.
  35. 35. Домашнее задание http://rosalind.info • SUFF • SUBS • MREP http://rosalind.info/classes/enroll/ 171da3d314a0b07e00883287cd2b6ddeeeba225b/суббота, 6 октября 12 г.

×