Validation of Identity and Ancestry
SNP Panels for the Ion PGM™
Christopher Phillips, Carla Santos, Maria de la Puente,
Manuel Fondevila, Ángel Carracedo, Maviky Lareu
Forensic Genetics Unit,
University of Santiago de Compostela
Validation of Identity and Ancestry
SNP Panels for the Ion PGM™
Christopher Phillips, Carla Santos, Maria de la Puente,
Manuel Fondevila, Ángel Carracedo, Maviky Lareu
Forensic Genetics Unit,
University of Santiago de Compostela
Managing Genetic Ancestry at Scale with Neo4j and Kafka - StampedeCon 2015StampedeCon
At the StampedeCon 2015 Big Data Conference: The global Monsanto R&D pipeline produces millions of new plant populations every year; each which contributes to a dataset of genetic ancestry spanning several decades. Historically the constraints of modeling and processing this data within an RDBMS has made drawing inferences from this dataset complex and computationally infeasible at large scale. Fortunately, the genetic history of any plant population forms a naturally occurring directed acyclic graph, a property that has allowed us to utilize graph theory to re-imagine how ancestral lineage data is modeled, stored, and queried.
In this talk we present our solutions to these problems, as realized using a graph-based approach within Neo4j. We will discuss our learnings around using Neo4j in a production setting that includes transactional and high-throughput computation, including how we transitioned from recursive JOIN queries to using Cypher and the Neo4j traversal framework to take full advantage of index-free adjacency. Our approach to polyglot persistence will be discussed via our use of a distributed commit log, Apache Kafka, to feed our graph store from sources of live transactional data. Finally, we will touch upon how we are using these technologies to annotate our genetic ancestry dataset with molecular genomics data in order to build an pipeline-scale genotype imputation platform with core algorithms built using Apache Spark.
Rafał Myśliński & Kamil Natil, 5 powodów, które zmieniły 1,5 milionowy i niedochodowy profil Suchara Codziennego w zyskowny biznes, I ♥ Social Media, 2.03.2017
This is an overview of a presentation that I delivered for David Allen's GTD Connect community. It introduces the concept of information mapping, reviews the history of visual thinking, provides the basic steps & guidelines to create a mind map, explains the differences between mapping by hand and software, and concludes with 10 ways to apply mapping to GTD and beyond to increase your overall productivity and effectiveness.
Single Nucleotide Polymorphism Analysis
Predictive Analytics and Data Science Conference May 27-28
Asst. Prof. Vitara Pungpapong, Ph.D.
Department of Statistics
Faculty of Commerce and Accountancy
Chulalongkorn University
Sčítání lidu neboli census obsahuje řadu užitečných informací využitelných pro genealogický výzkum. Víte, jaké údaje obsahuje? Kde je najdete? A že mnoho sčítacích operátů je již přístupných na internetu?
Další díl o sčítání lidu je zaměřen na západní Čechy.
Sledujte mě také na
www.lenkaperemska.cz
https://www.facebook.com/rodokmenprofi/?ref=bookmarks
Sčítání lidu neboli census obsahuje řadu užitečných informací využitelných pro genealogický výzkum. Víte, jaké údaje obsahuje? Kde je najdete? A že mnoho sčítacích operátů je již přístupných na internetu?
Další díl o sčítání lidu je zaměřen na jižní Čechy.
Zjistili jste, že matriky, které potřebujete, nejsou dosud digitalizované? Chcete navštívit Státní oblastní archiv v Praze (SOA Praha), ale nemáte tušení, jak to v badatelně funguje?
Pojeďte se mnou! Během jedné cesty na Chodov jsem si vzala s sebou kameru a se svolením natočila vše potřebné k tomu, abyste se v archivu neztratili.
Jak postupovat, pokud se rozhodnete pátrat po svém rodokmenu? Kde a jak začít? Jaké údaje naleznete v rodném listě a jakým způsobem komunikovat s matričními úřady? A co je vlastně ten stále skloňovaný Zákon o matrikách? Druhá část seriálu Jak sestavit rodokmen se věnuje právě těmto tématům.
Používáte genealogické programy? A víte, k čemu vlastně slouží? První video o způsobu zaznamenávání nalezených dat, po kterém bude následovat tutorial k programu Ancestry.
Managing Genetic Ancestry at Scale with Neo4j and Kafka - StampedeCon 2015StampedeCon
At the StampedeCon 2015 Big Data Conference: The global Monsanto R&D pipeline produces millions of new plant populations every year; each which contributes to a dataset of genetic ancestry spanning several decades. Historically the constraints of modeling and processing this data within an RDBMS has made drawing inferences from this dataset complex and computationally infeasible at large scale. Fortunately, the genetic history of any plant population forms a naturally occurring directed acyclic graph, a property that has allowed us to utilize graph theory to re-imagine how ancestral lineage data is modeled, stored, and queried.
In this talk we present our solutions to these problems, as realized using a graph-based approach within Neo4j. We will discuss our learnings around using Neo4j in a production setting that includes transactional and high-throughput computation, including how we transitioned from recursive JOIN queries to using Cypher and the Neo4j traversal framework to take full advantage of index-free adjacency. Our approach to polyglot persistence will be discussed via our use of a distributed commit log, Apache Kafka, to feed our graph store from sources of live transactional data. Finally, we will touch upon how we are using these technologies to annotate our genetic ancestry dataset with molecular genomics data in order to build an pipeline-scale genotype imputation platform with core algorithms built using Apache Spark.
Rafał Myśliński & Kamil Natil, 5 powodów, które zmieniły 1,5 milionowy i niedochodowy profil Suchara Codziennego w zyskowny biznes, I ♥ Social Media, 2.03.2017
This is an overview of a presentation that I delivered for David Allen's GTD Connect community. It introduces the concept of information mapping, reviews the history of visual thinking, provides the basic steps & guidelines to create a mind map, explains the differences between mapping by hand and software, and concludes with 10 ways to apply mapping to GTD and beyond to increase your overall productivity and effectiveness.
Single Nucleotide Polymorphism Analysis
Predictive Analytics and Data Science Conference May 27-28
Asst. Prof. Vitara Pungpapong, Ph.D.
Department of Statistics
Faculty of Commerce and Accountancy
Chulalongkorn University
Sčítání lidu neboli census obsahuje řadu užitečných informací využitelných pro genealogický výzkum. Víte, jaké údaje obsahuje? Kde je najdete? A že mnoho sčítacích operátů je již přístupných na internetu?
Další díl o sčítání lidu je zaměřen na západní Čechy.
Sledujte mě také na
www.lenkaperemska.cz
https://www.facebook.com/rodokmenprofi/?ref=bookmarks
Sčítání lidu neboli census obsahuje řadu užitečných informací využitelných pro genealogický výzkum. Víte, jaké údaje obsahuje? Kde je najdete? A že mnoho sčítacích operátů je již přístupných na internetu?
Další díl o sčítání lidu je zaměřen na jižní Čechy.
Zjistili jste, že matriky, které potřebujete, nejsou dosud digitalizované? Chcete navštívit Státní oblastní archiv v Praze (SOA Praha), ale nemáte tušení, jak to v badatelně funguje?
Pojeďte se mnou! Během jedné cesty na Chodov jsem si vzala s sebou kameru a se svolením natočila vše potřebné k tomu, abyste se v archivu neztratili.
Jak postupovat, pokud se rozhodnete pátrat po svém rodokmenu? Kde a jak začít? Jaké údaje naleznete v rodném listě a jakým způsobem komunikovat s matričními úřady? A co je vlastně ten stále skloňovaný Zákon o matrikách? Druhá část seriálu Jak sestavit rodokmen se věnuje právě těmto tématům.
Používáte genealogické programy? A víte, k čemu vlastně slouží? První video o způsobu zaznamenávání nalezených dat, po kterém bude následovat tutorial k programu Ancestry.