A-Walk-on-the-W-Side

794 views

Published on

Presentation from BioComp-2010 on applying the W-curve and TSP to generating clinically useful clades for analysis of HIV-1 immune response.

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
794
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
13
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

A-Walk-on-the-W-Side

  1. 1. Taking a walk on the W-side: Comparing Epitopes on HIV-1 with the W-curve & TSP.   Douglas J. Cork1,2,4, Steven Lembark3, Bruce K. Brown1,4, Victoria  R. Polonis1,4, Jerome Kim1,4, Nelson L. Michael5 US Military HIV Research Program (MHRP)/Henry Jackson  Foundation(HJF)1, Rockville, MD., Illinois Institute of Technology2,  Chicago, IL., Workhorse Computing3, Woodhaven, NY., Walter Reed  Army Institute For Research4, Rockville, MD., Walter Reed Army  Institute for Research, Washington, DC5
  2. 2. Statistically, HIV­1 is a problem. ● One of the major problems in studying HIV­1 is  the apparent randomness of clinical response. ● Tests using clades based on genome sequences  show no correlation with immune response. ● Part of the answer may be clades based on  smaller, clinically­specific sequences. ● HIV­1 mutates 10,000 times faster than people. ● Existing clades end up including too much white  noise to correlate well with anything.
  3. 3. The Structure of HIV­1  ● gp120 is the  primary focus  for immune  studies. ● gp120 and  gp41 make up  the envelope  protein, gp160.
  4. 4. Standard Clades vs. Neutralization Data ● Standard clades of HIV­1 are based on  phylogenetic trees of the genome. ● They do not correlate well with neutralization data. ● Between­ and within­clade have similar variability. ● Antibody and Cell studies have low correlation for  within­clade results. ● Lack of a correlation prevents developing any  broadly neutralizing treatments. ● Today we have to sequence the virus to treat it.
  5. 5. Example: Cross­clade neutralization shows no  useful pattern in Peripheral Blood Mononuclear  Cell or Pseudovirus Assay studies. ● Bub ble  plot. ● No  real  relati onsh ip.
  6. 6. Neutralization  Heat Map ● Distribution of  response to  antibody pools  lacks any  correlation with  the standard  clades.
  7. 7. HIV­1 Genetics Complicate  Analysis ● Genes and proteins are normally reported with  respect to a single strain, HXB2. ● Hard to compare local features between strains. ● Need to re­discover them for each study. ● Neutralization data are specific to gp120. ● Variable regions in gp120 leave corresponding  locations in different samples off by 10's of bases. ● Antibody binding sites (epitopes) are only a few  bases long, with a majority in the variable regions.
  8. 8. Another approach: W­curves ● The W­curve is based on chaos and game  theory. ● It abstracts a sequence of DNA into a three­ dimensional structure. ● Originally designed for visualization, we have now  adapted it for machine comparison. ● Geometric analysis of the curves allows for  piecewise comparison of the sequences.
  9. 9. The W­curve ● Start with a square at the origin and a discrete  Z­axis matching the sequence base numbers. ● Each point moves halfway towards the corner  for the next base.
  10. 10. ● All curves  start at  (0,0,0). ● The curve  (blue)  moves half  way towards  “C” then “G”  (red lines).
  11. 11. Autoregression ● Converge by  base 7 after a  SNP at base­3. ● Convergence  is quick even  after large  indels.
  12. 12. Handling Gaps ● Curves converge as SNP's do but with a phase  shift.
  13. 13. Scoring Curves ● Approximating the  distance smooths over  SNP's. ● Smaller angles reduce  difference, large  angles add them.
  14. 14. Needle in a Haystack: CD4 Epitope ● The CD4 epitopes occupy only a few, widely  dispersed locations on gp120. ● Locating portions of the discontinuous epitope  is difficult. ● Variable regions between them change the  locations between samples. ● Portions of the epitope within the variable region  can be hidden by nearby changes.
  15. 15. Analyzing the 3D Structure ● The advantage to W­curves is that even small  features of the gene generate unique geometry. ● Features are easier to identify in 3D than the 1D  CATG­strings. ● By first locating large­scale features, we can  search for smaller ones more easily. ● First align extreme points on the curves. ● Then compare regions between them. ● With a library of fragments, we pick the best match.
  16. 16. W­curve Algorithm & Serial Comparison ● Large­scale features guide the search for  smaller pieces. ● Conserved regions anchor search. ● After aligning 'peaks' in the curves, we align smaller  and less discriminating features. ● A library of W­curve fragments finds best fit with  multiple samples. ● Repeatable process allows examining and  scoring large numbers of finer features.
  17. 17. W­curves of HXB2 genome and gp120 ● The curve for HXB2 illustrates the most  important features of W­curves. ● Looking at each section of the W­curve you'll notice  that each area is different from the others. ● This is what allows us to locate small features: it is  easier to discern them in 3D than a character string. ● This figure also highlights the location of gp120.
  18. 18. A detailed view of gp120 ● The next slide shows the first portion of HXB2's  env gene: gp120. ● Again, notice that each portion of the curve is  distinct from the others.  ● The different conserved (C) and variable (V)  regions are marked across the bottom of the  image.
  19. 19. The CD4 epitope in gp120 ● This is where the W­curve really becomes  useful: isolating the epitope locations within  gp120. ● The highlighted areas show the epitope  locations with an additional 3­bases of  conformational region before and after (which  combines a few of the regions). ● Note that the epitope is dispersed and lives  largely in the variable regions.
  20. 20. Clustering With the TSP ● Solutions to the Traveling Salesman Problem  can be used to cluster genes. ● The shortest path clusters more­similar sequences. ● The difficulty is in getting clades out of the TSP. ● One approach uses dummy cities with small  distances to all other cities. ● Dummys end up in the inter­cluster regions. ● This approach has proven fast & repeatable.
  21. 21. Tour­0 defines the colors for others.
  22. 22. Clades start to break down in gp41
  23. 23. C5 needs more groups.
  24. 24. Clades break down completely in V4
  25. 25. Further Work on Clusters ● Detection. ● Find algorithm for repeatably assigning the number  of dummy cities. ● Comparison. ● Automate detecting “similar” clusters. ● Time­series analysis. ● Watch sample groups for new members. ● Track evolution of drug resistance in clinical trial  groups, individual patients.
  26. 26. Ongoing Research ● Our goal is to correlate neutralization outcomes. ● Compare small regions near the epitopes. ● Find DNA that clusters similarly to neutralization  data. ● DNA clusters that match the Neutralization data  are “clinical” clades. ● Biggest issue will be deciding what “similar” is. ● Probably a good application for Fuzzy Logic.
  27. 27. Acknowledgments ● Thanks to the authors of Brown, et al, study. All of the work we've shown you was done on a  computer. Without fieldwork and wet labs, it would  be empty. Next time you sit down to crunch some  numbers, stop and picture for a moment the  process of acquiring it. You'll get a whole new  appreciation for your work.

×