Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

on

  • 2,264 views

Comment le métier d’OPS a changé avec le cloud ? A quoi sert un admin quand toute l’infrastructure, middlewares compris, est en self-service ? ...

Comment le métier d’OPS a changé avec le cloud ? A quoi sert un admin quand toute l’infrastructure, middlewares compris, est en self-service ?

Raphael Ferreira, CEO et fondateur de http://eNovance, racontera le quotidien d’un admin au pays de storage-as-a-service, linux-as-a-service, mysql-as-a-service et autres tomcat-as-a-service.

La vidéo de la présentation est disponible ici : http://vimeo.com/43883897

Le Xebia Cloud Day 2012 est une conférence gratuite dédiée au Cloud Computing focalisée sur l'écosystème Java.
http://blog.xebia.fr/22-mai-2012-cloud-day-chez-xebia/

Statistics

Views

Total Views
2,264
Views on SlideShare
1,746
Embed Views
518

Actions

Likes
2
Downloads
54
Comments
0

13 Embeds 518

http://blog.xebia.fr 428
http://webcache.googleusercontent.com 17
http://flavors.me 14
http://fr.flavors.me 11
http://127.0.0.1 9
http://pt.flavors.me 9
http://www.enovance.com 8
http://www-ig-opensocial.googleusercontent.com 6
http://de.flavors.me 5
http://www.newsblur.com 3
http://jp.flavors.me 3
http://es.flavors.me 3
http://www.bonvote.com 2
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider Presentation Transcript

  • 1. Le métier d’Ops sur AWS Raphaël Ferreira - CoFounder @ enovance 22 mai 2012 1mardi 12 juin 12
  • 2. Nouvelle génération de services d’Hébergement & d’Infogérance Infrastructures Cloud Open Source OpenStack, Puppet, Stockage Distribué Ceph, Multi-Cloud Management 24x7x365 eNoCloud, AWS Partner, RackspaceCloud Partner, Peer1 Partner Amélioration de l’expérience utilisateurs Haute Performance, Haute Disponibilité, Agrégation de Cloud & CDN, Monitoring Performance Web, Mobile & Big Data Elasticité, Réactivité, Distribution internationale, Performance, Résilience 2mardi 12 juin 12
  • 3. Expertise 3mardi 12 juin 12
  • 4. Paris & Montreal • Equipes bilingues Anglais - Français • Maintiens en conditions opérationnelles : 24x7x365 • Exploitation & Intégration : 09h00 - 01h00 • Effectifs : 25 personnes (2/3 techniques) 4mardi 12 juin 12
  • 5. Certifications Organisation, Process & Méthodologie ITIL V3, ISO 9001-2008, ISO 20000-1 OSEO Innovation, Jeune Entreprise Innovante, Innovation, Recherche & Développement Labellisé Systematic Environnement ISO 14000 Santé et Sécurité au travail OHSAS 18001 ISO 27001, ISO 9001, ISO 14001, OHSAS Datacenters 18001, PCI-DSS 5mardi 12 juin 12
  • 6. Références Weekendesk : hébergement et infogérance de la plateforme eCommerce et agrégation de CDN Kreactive : hébergement d’applications mobiles et facebook à plus de 4000 requêtes simultanées Streamlike : diffusion des vidéos Louis Vuitton, PSA, Alston... dans le monde entier Motricity : Datacenter européen du groupe pour la gestion des régies publicitaires et applications mobiles de Nokia, TF1, Canal Plus, Bouygues Telecom.... LeGuide.com : Accélération des performances du premier comparateur de prix en Europe Total Immersion : Plateforme de réalité augmentée sur AWS à destination de Ray Ban, Repsol, Afflelou... 6mardi 12 juin 12
  • 7. Save The Date Jeudi 31 Mai OpenStack in Action 2 Production Ready Paris Eurosite République eNoCloud : Lancement Officiel First OpenStack Public Cloud Paris Equinix & Telecity 3 7mardi 12 juin 12
  • 8. Le métier d’Ops sur le Cloud Retour d’expérience sur un apprentissage continu, les difficultés rencontrées et les questions posées 8mardi 12 juin 12
  • 9. Ops 2.0 We Design, Build and Run... Private Clouds Public Clouds On-premise Hébergé OpenStack Public Cloud OpenStack Starter Pack AWS Cloud EC2 OpenStack Private Cloud Rackspace Cloud + Automatisation - Monitoring - Sauvegardes - Haute Performance & Haute Disponibilité - Sécurité 9mardi 12 juin 12
  • 10. Motivations Plateforme Plateforme Traditionnelle Cloud Elasticité - + Réactivité - Délais de mise en oeuvre - + Agilité - + Maîtrise de la performance + - Disponibilité = = Adaptations - Montée en compétence + - Investissement initial - + Coût d’exploitation = = 10mardi 12 juin 12
  • 11. Dans les grandes lignes Aspects Techniques + Grande souplesse d’usage : démarrage et arrêt d’instances à volonté + APIs et Dashboard offrent un contrôle simple de l’infrastructure + Possibilité d’automatiser le provisioning et la gestion de l’infrastructure grâce à une abstraction forte des différentes ressources + Ressources quasi-illimitées - Opacité de l’infrastructure sous jacente - Adapter son besoin à l’infrastructure cloud et pas l’inverse - Impossibilité de sélectionner des composants hardware spécifiques - Impossibilité de mettre en oeuvre une interconnexion réseau spécifique 11mardi 12 juin 12
  • 12. Dans les grandes lignes Aspects Financiers + Pas d’investissement initial + Coûts variables s’adaptant à la charge et pouvant donc varier en fonction de l’audience ou des revenus = Il existe en revanche des coûts incompressibles qui ne changent pas : Redondance des équipements Infogérance applicative et astreintes Outils de gestion d’infrastructures : monitoring, logs, sauvegardes, .... - Complexité dans prévision des coûts - Vigilance accrue pour la maîtrise des coûts 12mardi 12 juin 12
  • 13. Vocabulaire spécifique Plateforme Plateforme Traditionnelle Cloud Datacenter, Baie, Rack Région, AZ Serveur Instance EC2 Stockage VM, Stockage partagé ou mutualisé Stockage éphémère, EBS, S3 Ferme de serveurs frontaux Auto-Scalling Group Répartiteur de charge ELB Serveur de base de données RDS Plateforme de supervision CloudWatch Alertes et Notifications Simple Notification Service 13mardi 12 juin 12
  • 14. Spécificités et limitations Des spécificités qui imposent de revoir les process et les habitudes • Gestion des limitations : nombre d’IP, nombre d’instances, nombre de loadbalancer.... • Adresses IP Privées flottantes • Préchauffage des ELB • .... Points souvent non bloquants mais apprentissage complexe 14mardi 12 juin 12
  • 15. Le métier d’Ops Les bases du métier d’Ops • Plomberie : Rack, Cables et Tournevis • Installation, Déploiement, Configuration • Supervision & Monitoring • Sauvegardes • Maintiens en Conditions Opérationnelles • Exploitation courante & Intégration • Sécurité • Base documentaire / Référentiel Les évolutions • Exploiter les nouveaux outils proposer pour adapter automatique la plateforme à la charge • Modifier l’organisation et les profils de recrutement • Remonter dans les couches : orientation DevOps 15mardi 12 juin 12
  • 16. Plomberie Plateforme Plateforme Traditionnelle Cloud Mise en Baie, Câblage, Etiquetage... : 2 heures Start nouvelle instance : 5 mn Boot PXE AMI - Market Place Maitrise des caractéristiques hardware Opacité - Unité EC2 - Variabilité dans le temps Maitrise du réseau d’interconnexion Latences inter-machines / inter-zones non maitrisées (1Gbps, 10Gbps, IB....) Transfert de données sur Internet / Envoi des données par Connexion de supports Physiques en direct support physique Intégration de liens privés dédiés VPC / Direct Connect (limité) 16mardi 12 juin 12
  • 17. Déploiement & Configuration Administrateur système ou Architecte système ? • Implication en amont sur le design de l’architecture et l’adaptation des pratiques d’ingénierie logicielle. • Temps d’intégration plus longs pour mettre en place les dispositifs d’automatisations nécessaires puppet, auto-scalling.... Complexité du processus avant-vente • Design et dimensionnement complexes du fait de la non maîtrise de l’infrastructure • Prévisibilité et anticipation des coûts • PoC et Expérimentation souvent nécessaires pour les projets Legacy Eviter l’adhérence à l’infrastructure ou en maitriser les risques • Nombreuses fonctionnalités alléchantes : DynamoDB, ELB, RDS, CloudFormation, BeansTalk... • Attention à toujours bien maîtriser le processus de réversibilité ou en tout cas en avoir conscience 17mardi 12 juin 12
  • 18. Supervision Vers un Système Hybride AWS / Supervision Classique Supervision de l’Infrastructure & Supervision Applicative Nagios / Centreon ou équivalent (Zabbix...) Auto-Scalling Cloud Watch Alertes & Notifications Nagios / Centreon ou Simple Notification Service Pas de changement majeur sur le sujet, l’enjeu est critique : • Conserver une homogénéité des outils entre plateforme Cloud et plateforme traditionnelle • Maitriser finement les compteurs de supervision (Applicatifs, Bases de données, Scénario utilisateurs...) • Auto-déclarer les instances dans le monitoring 18mardi 12 juin 12
  • 19. Sauvegardes Plateforme Traditionnelle • Gestion d’une plateforme de sauvegardes sur disques ou sur bandes • Logiciel de backup type Amanda, Bacula, Dataprotector... • Déduplication • Gestion manuelle de l’archivage si bandes • Gestion de l’externalisation des données • Plan de backup sur mesure : Incrémental quotidien, Full hebdomadaire, Rétention 3 semaines Plateforme Cloud • Outils Amazon ‣ Snapshot des EBS : attention Snapshot n’est pas un backup ‣ Storage Gateway ‣ S3 • Solution Home Made ‣ Déploiement d’un logiciel de sauvegarde sur instance EC2 ‣ Gestion de backups sur mesure sur montage EBS ‣ Envoi des archives sur S3 19mardi 12 juin 12
  • 20. MCO dans le Cloud Remplacer au lieu de Réparer • Utilisation des AZ • Lancement et configuration d’instances automatisée : ‣ Images : AMI, MarketPlace, CloudFormation ‣ Gestion de la configuration : Puppet, Chef, CfEngine ‣ Versioning et déploiement du code : GIT, SVN, Capistrano Design for Failure • Plateforme traditionnelle : la HA est confiée à l’infrastructure • Plateforme AWS : la HA est confiée à l’application Complexité de diagnostic • Détection d’un incident applicatif : similaire à une plateforme traditionnelle si utilisation d’outils standards • Détection d’un incident infrastructure (réseau, serveur, datacenter) : peut être complexe si l’incident n’est pas un incident majeur 20mardi 12 juin 12
  • 21. Exploitation courante Les concepts clés de l’exploitation dans le Cloud : • Infrastructure As A Code : manipulation des ressources physiques via le code • Reproductibilité des actions rend le déploiement des services plus fiable • Centralisation des configurations (Puppet) permet une cohérence dans les déploiements et une meilleure gestion des évolutions • Rapprochement avec les équipes de développement : DevOps • Automatisation, Automatisation, Automatisation L’infogérance sur un périmètre mouvant doit s’adapter en proposant un modèle de tarification à l’usage (infogérance par heure et par instance) et auto-déclaratif en fonction de la taille du périmètre 21mardi 12 juin 12
  • 22. Sécurité Accès aux machines • Les méthodes restent les mêmes qu’en plateforme traditionnelle : SSH avec Clé • Dans notre cas, homogénéisation des plateformes via des paquets Debian maison intégrant nos certificats IAM : un sujet à part entière • Gestion des droits et de l’identité • Double Authentification • Agrégation Facturation Firewalling • Security Groups : Ouverture et Fermeture de ports en fonction d’IP Sources (pas de NAT) • Possibilité de gérer un service Firewall dans une instance : complexe du fait de la gestion des IP • Impossibilité de disposer d’un équipement dédié Des manques pouvant poser problème : • Pas de boitier de sécurité dédié • Pas de sonde anti-intrusion • Demande spécifique nécessaire pour réaliser un test d’intrusion • Pas de possibilité de mettre en oeuvre une liaison dédiée (hors gros projet) 22mardi 12 juin 12
  • 23. Réseau Gestion du réseau : des différences importantes • Réseau à plat - Pas de maîtrise sur les zones de sécurité (Vlan, Subnet...) • IP Publiques flottantes mais possibilité de réserver un nombre d’IP limité • IP Privées flottantes : difficulté pour les services d’administration • VPC permet de gérer un réseau privé mais il devient nécessaire de gérer soit même son routage • Pas de maitrise sur les latences et les performances réseaux Liens Privés et Sécurisés • Direct Connect offre une possibilité de lien dédié (réservé aux projets importants) • Possibilité de monter des tunnels VPN permanents via EC2 ou VPC pour sécuriser l’administration Loadbalancer • AWS offre un service clé en main : ELB • ELB offre une grande richesse fonctionnelle : Niveau 7, Terminaisons SSL, APIs.... • Avec des limitations : algorithme de répartition de charge, élasticité lors d’un Pic majeur • Il est également possible de gérer un service Zeus ou HA Proxy dans une instance, mais les IPs flottantes peuvent rendre la gestion complexe 23mardi 12 juin 12
  • 24. Base documentaire Des questions simples dans le monde du On Demand • Inventaire dynamique des instances actives ? • Connaissance des IPs affectées aux différentes instances ? • Spécifications hard et soft des instances actives (CMDB...) ? • Rédaction et suivi dynamique de la matrice des flux ? 24mardi 12 juin 12
  • 25. Performance Des points forts indéniables par rapport à une plateforme traditionnelle... • Accès à une puissance quasi-illimité en quelques minutes • Elasticité horizontale et verticale pour accompagner les montée en charge • Ressources disponibles sur tous les continents pour une distribution intelligente des traitements et des contenus ....Associés à des contraintes et limitations à prendre en compte • I/O Disques (notamment sur EBS - Tips : Raid 10 de volumes EBS) • Pas d’engagement sur les performances I/O sauf sur DynamoDB • Pose des problèmes en avant-vente et dimensionnement d’infrastructures • Variations de performance selon l’heure ou le jour Performance réseau • Entre les régions le trafic passe par internet comme ça peut être le cas entre 2 DC privés • Entre 2 AZ d’une même région les performances sont mieux maitrisées mais induisent encore une latence à prendre compte (exemple : Web sur AZ1 et SQL sur AZ2) 25mardi 12 juin 12
  • 26. SLA Engagements de Qualité de Service et Pénalités • Des engagements de disponibilité annuelle essentiellement (Durabilité S3) • Associés à des pénalités relativement faibles Il est nécessaire de compléter ce dispositif • Garantie Temps d’Intervention • Garantie Temps de Rétablissement • Engagements de Performance • Engagements Durée Maximale Perte de Données • Engagements sur le Traitement des Demandes : modification, restauration... 26mardi 12 juin 12
  • 27. Pour aller plus loin Automatiser , Automatiser, Automatiser : • Agent d’auto-déclaration des instances dans les outils d’administration (monitoring, backup, ticket, inventaire...) • Packager les outils d’administration pour sa distribution préférée • Utiliser des outils d’abstraction et de pilotage : RightScale, FOG Plateformes Hybrides • Liaison directe 1 Gbps entre DC eNovance et plateforme AWS • Le meilleur des 2 mondes : - Liens dédiés possibles avec le DC du client - Serveur Backoffice privés - Hardware sur-mesure I/O intensif - Elasticité et capacité de calcul illimité 27mardi 12 juin 12
  • 28. Use Case Type AZ2 AZ1 Puppet Master SVN (Capistrano) ELB Nagios Centron Frontaux Cacti / Munin Varnish / Nginx Serveurs d’application Peu de sollicitation disques Machines reproductibles / Jetables Base NoSQL (MongoDB...) Sollicitation Ram & CPU Elastictité horizontale recherchée Peu de sollicitation disques - Commit Asynchrones 28mardi 12 juin 12
  • 29. En synthèse L’administration système nécessite la même organisation Infogérance applicative, Astreinte, Supervision, Sauvegardes.... Mais doit évoluer pour profiter pleinement des promesses du Cloud Gestion automatisée de la configuration, Auto-Scalling, Compétence développement, Pricing élastique.... Tout en garantissant la réversibilité et l’homogénéité des outils en environnement hybride Limiter l’adhérence et utiliser des outils standards 29mardi 12 juin 12
  • 30. Q&R http://www.enovance.com Raphaël Ferreira T./ +33 1 49 70 99 72 http://twitter.com/enovance M./ r.ferreira@enovance.com 30mardi 12 juin 12