Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Petasky bda-2013-medernach

200 views

Published on

BDA 2013 Presentation (Petasky workshop)

Published in: Science
  • Be the first to comment

  • Be the first to like this

Petasky bda-2013-medernach

  1. 1. État d’avancement Petasky 2013 Workshop Petasky, BDA 2013 E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 1 / 18
  2. 2. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 2 / 18
  3. 3. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 3 / 18
  4. 4. LSST: Gestion de Données Astrophysiques I LSST: Acquisition de données astrophysiques I Explosion de la taille des données I ~ 100 Pb d’images I ~ 6 Pb de catalogues I ~ 100 tables Taille des tables. Table Taille Lignes Colonnes Object 109 TB 3:8 1010 470 Source 3.6 PB 5:0 1012 125 ForcedSource 1.1 PB 3:2 1013 7 CCDExposure 0.6 TB 1:7 1010 45 I Comment interroger efficacement ces données ? E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 4 / 18
  5. 5. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 5 / 18
  6. 6. Architecture de Qserv Orchestration de bases de données. E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 6 / 18
  7. 7. Principe de Fonctionnement Découpage géometrique en “chunks” (ou “shards”). E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 7 / 18
  8. 8. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 8 / 18
  9. 9. Contexte I Test sur 300 noeuds au CC-IN2P3 pendant l’été 2013 I Par machine: 120G disque, 16G de RAM I 15 TB de données au total, ~50G de données par noeud I Partitionnement : 3000 chunks, de 9 à 11 chunks par noeud I Nombre d’objets: 0.4 milliards I Nombre de sources: 14 milliards E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 9 / 18
  10. 10. Résultats I SELECT * FROM Object WHERE objectId = id Temps: 1.1s I SELECT s.ra, s.decl FROM Object o JOIN Source s USING (objectId) WHERE o.objectId = id AND o.latestObsTime = s.taiMidPoint Temps: 11.2s I SELECT objectId FROM Source JOIN Object USING(objectId) WHERE qserv_areaspec_box(1,3,2,4) Temps: 9 min 42.9 sec I SELECT COUNT(*) FROM Object o1, Object o2 WHERE qserv_areaspec_box(-5,-5,5,5) AND scisql_angSep(o1.ra_PS, o1.decl_PS, o2.ra_PS, o2.decl_PS) 0.1 Temps: 4 min 50 sec E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 10 / 18
  11. 11. Résultats (suite) SELECT COUNT(*) FROM Object WHERE gFlux_PS1e-25 ; Passage à l’échelle. E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 11 / 18
  12. 12. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 12 / 18
  13. 13. Objectifs Module réutilisable dans plusieurs projets (QServ, Petasky, . . .) SQL AST Représentation intermédiaire de requêtes SQL (texte brut) en une structure “Abstract Syntax Tree” (AST) AST Traduction de l’AST E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 13 / 18
  14. 14. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 14 / 18
  15. 15. Avantages Avantages I Utiliser d’autres bases de données I Exemple: traduction des requêtes pour NoSQL I Utiliser d’autres librairies de géométrie (avec différentes API) I Transformer ou adapter les requêtes I Exemple: modification du schéma I Possibilité d’extension de SQL comme ADQL http://www.ivoa.net/documents/latest/ADQL.html E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 15 / 18
  16. 16. Plan 1 Qserv Gestion de Données Astrophysiques Architecture et Principe de Fonctionnement Résultats sur 300 Noeuds 2 Réécriture de requêtes SQL Objectifs Avantages État actuel E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 16 / 18
  17. 17. État actuel I Déclaration de la BNF comme une extension de Scheme (define SQL (BNF-sequence SELECT (BNF-optional FROM) (BNF-optional WHERE) (BNF-optional GROUP-BY) (BNF-optional ORDER-BY) (BNF-optional LIMIT) (BNF-optional (BNF-string ;)))) I Parser SQL terminé (Ok sur les requêtes standards LSST) SELECT DISTINCT o1.objectId, o1.ra, o1.decl, o2.iauId FROM Object o1, Object o2 WHERE ABS(o2.ra - o1.ra ) o2.raRange/(2*COS(RADIANS(o1.decl))) AND ABS(o2.decl - o1.decl) o2.declRange/2 AND ( SELECT COUNT(o3.objectId) FROM Object o3 WHERE o1.objectId o3.objectId AND ABS(o1.ra - o3.ra ) 0.1/COS(RADIANS(o3.decl)) AND ABS(o1.decl - o3.decl) 0.1 ) 10000; 16 ms real time I Définition de la structure de l’AST en cours I Besoin de références sur la réécriture de requêtes E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 17 / 18
  18. 18. Merci E. Medernach (IN2P3, CNRS) Petasky 2013 BDA 2013 18 / 18

×