Le métier d’OPS sur le cloud raconté par un Amazon AWS Solution Provider

  • 1,780 views
Uploaded on

Comment le métier d’OPS a changé avec le cloud ? A quoi sert un admin quand toute l’infrastructure, middlewares compris, est en self-service ? …

Comment le métier d’OPS a changé avec le cloud ? A quoi sert un admin quand toute l’infrastructure, middlewares compris, est en self-service ?

Raphael Ferreira, CEO et fondateur de http://eNovance, racontera le quotidien d’un admin au pays de storage-as-a-service, linux-as-a-service, mysql-as-a-service et autres tomcat-as-a-service.

La vidéo de la présentation est disponible ici : http://vimeo.com/43883897

Le Xebia Cloud Day 2012 est une conférence gratuite dédiée au Cloud Computing focalisée sur l'écosystème Java.
http://blog.xebia.fr/22-mai-2012-cloud-day-chez-xebia/

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,780
On Slideshare
0
From Embeds
0
Number of Embeds
3

Actions

Shares
Downloads
55
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Le métier d’Ops sur AWS Raphaël Ferreira - CoFounder @ enovance 22 mai 2012 1mardi 12 juin 12
  • 2. Nouvelle génération de services d’Hébergement & d’Infogérance Infrastructures Cloud Open Source OpenStack, Puppet, Stockage Distribué Ceph, Multi-Cloud Management 24x7x365 eNoCloud, AWS Partner, RackspaceCloud Partner, Peer1 Partner Amélioration de l’expérience utilisateurs Haute Performance, Haute Disponibilité, Agrégation de Cloud & CDN, Monitoring Performance Web, Mobile & Big Data Elasticité, Réactivité, Distribution internationale, Performance, Résilience 2mardi 12 juin 12
  • 3. Expertise 3mardi 12 juin 12
  • 4. Paris & Montreal • Equipes bilingues Anglais - Français • Maintiens en conditions opérationnelles : 24x7x365 • Exploitation & Intégration : 09h00 - 01h00 • Effectifs : 25 personnes (2/3 techniques) 4mardi 12 juin 12
  • 5. Certifications Organisation, Process & Méthodologie ITIL V3, ISO 9001-2008, ISO 20000-1 OSEO Innovation, Jeune Entreprise Innovante, Innovation, Recherche & Développement Labellisé Systematic Environnement ISO 14000 Santé et Sécurité au travail OHSAS 18001 ISO 27001, ISO 9001, ISO 14001, OHSAS Datacenters 18001, PCI-DSS 5mardi 12 juin 12
  • 6. Références Weekendesk : hébergement et infogérance de la plateforme eCommerce et agrégation de CDN Kreactive : hébergement d’applications mobiles et facebook à plus de 4000 requêtes simultanées Streamlike : diffusion des vidéos Louis Vuitton, PSA, Alston... dans le monde entier Motricity : Datacenter européen du groupe pour la gestion des régies publicitaires et applications mobiles de Nokia, TF1, Canal Plus, Bouygues Telecom.... LeGuide.com : Accélération des performances du premier comparateur de prix en Europe Total Immersion : Plateforme de réalité augmentée sur AWS à destination de Ray Ban, Repsol, Afflelou... 6mardi 12 juin 12
  • 7. Save The Date Jeudi 31 Mai OpenStack in Action 2 Production Ready Paris Eurosite République eNoCloud : Lancement Officiel First OpenStack Public Cloud Paris Equinix & Telecity 3 7mardi 12 juin 12
  • 8. Le métier d’Ops sur le Cloud Retour d’expérience sur un apprentissage continu, les difficultés rencontrées et les questions posées 8mardi 12 juin 12
  • 9. Ops 2.0 We Design, Build and Run... Private Clouds Public Clouds On-premise Hébergé OpenStack Public Cloud OpenStack Starter Pack AWS Cloud EC2 OpenStack Private Cloud Rackspace Cloud + Automatisation - Monitoring - Sauvegardes - Haute Performance & Haute Disponibilité - Sécurité 9mardi 12 juin 12
  • 10. Motivations Plateforme Plateforme Traditionnelle Cloud Elasticité - + Réactivité - Délais de mise en oeuvre - + Agilité - + Maîtrise de la performance + - Disponibilité = = Adaptations - Montée en compétence + - Investissement initial - + Coût d’exploitation = = 10mardi 12 juin 12
  • 11. Dans les grandes lignes Aspects Techniques + Grande souplesse d’usage : démarrage et arrêt d’instances à volonté + APIs et Dashboard offrent un contrôle simple de l’infrastructure + Possibilité d’automatiser le provisioning et la gestion de l’infrastructure grâce à une abstraction forte des différentes ressources + Ressources quasi-illimitées - Opacité de l’infrastructure sous jacente - Adapter son besoin à l’infrastructure cloud et pas l’inverse - Impossibilité de sélectionner des composants hardware spécifiques - Impossibilité de mettre en oeuvre une interconnexion réseau spécifique 11mardi 12 juin 12
  • 12. Dans les grandes lignes Aspects Financiers + Pas d’investissement initial + Coûts variables s’adaptant à la charge et pouvant donc varier en fonction de l’audience ou des revenus = Il existe en revanche des coûts incompressibles qui ne changent pas : Redondance des équipements Infogérance applicative et astreintes Outils de gestion d’infrastructures : monitoring, logs, sauvegardes, .... - Complexité dans prévision des coûts - Vigilance accrue pour la maîtrise des coûts 12mardi 12 juin 12
  • 13. Vocabulaire spécifique Plateforme Plateforme Traditionnelle Cloud Datacenter, Baie, Rack Région, AZ Serveur Instance EC2 Stockage VM, Stockage partagé ou mutualisé Stockage éphémère, EBS, S3 Ferme de serveurs frontaux Auto-Scalling Group Répartiteur de charge ELB Serveur de base de données RDS Plateforme de supervision CloudWatch Alertes et Notifications Simple Notification Service 13mardi 12 juin 12
  • 14. Spécificités et limitations Des spécificités qui imposent de revoir les process et les habitudes • Gestion des limitations : nombre d’IP, nombre d’instances, nombre de loadbalancer.... • Adresses IP Privées flottantes • Préchauffage des ELB • .... Points souvent non bloquants mais apprentissage complexe 14mardi 12 juin 12
  • 15. Le métier d’Ops Les bases du métier d’Ops • Plomberie : Rack, Cables et Tournevis • Installation, Déploiement, Configuration • Supervision & Monitoring • Sauvegardes • Maintiens en Conditions Opérationnelles • Exploitation courante & Intégration • Sécurité • Base documentaire / Référentiel Les évolutions • Exploiter les nouveaux outils proposer pour adapter automatique la plateforme à la charge • Modifier l’organisation et les profils de recrutement • Remonter dans les couches : orientation DevOps 15mardi 12 juin 12
  • 16. Plomberie Plateforme Plateforme Traditionnelle Cloud Mise en Baie, Câblage, Etiquetage... : 2 heures Start nouvelle instance : 5 mn Boot PXE AMI - Market Place Maitrise des caractéristiques hardware Opacité - Unité EC2 - Variabilité dans le temps Maitrise du réseau d’interconnexion Latences inter-machines / inter-zones non maitrisées (1Gbps, 10Gbps, IB....) Transfert de données sur Internet / Envoi des données par Connexion de supports Physiques en direct support physique Intégration de liens privés dédiés VPC / Direct Connect (limité) 16mardi 12 juin 12
  • 17. Déploiement & Configuration Administrateur système ou Architecte système ? • Implication en amont sur le design de l’architecture et l’adaptation des pratiques d’ingénierie logicielle. • Temps d’intégration plus longs pour mettre en place les dispositifs d’automatisations nécessaires puppet, auto-scalling.... Complexité du processus avant-vente • Design et dimensionnement complexes du fait de la non maîtrise de l’infrastructure • Prévisibilité et anticipation des coûts • PoC et Expérimentation souvent nécessaires pour les projets Legacy Eviter l’adhérence à l’infrastructure ou en maitriser les risques • Nombreuses fonctionnalités alléchantes : DynamoDB, ELB, RDS, CloudFormation, BeansTalk... • Attention à toujours bien maîtriser le processus de réversibilité ou en tout cas en avoir conscience 17mardi 12 juin 12
  • 18. Supervision Vers un Système Hybride AWS / Supervision Classique Supervision de l’Infrastructure & Supervision Applicative Nagios / Centreon ou équivalent (Zabbix...) Auto-Scalling Cloud Watch Alertes & Notifications Nagios / Centreon ou Simple Notification Service Pas de changement majeur sur le sujet, l’enjeu est critique : • Conserver une homogénéité des outils entre plateforme Cloud et plateforme traditionnelle • Maitriser finement les compteurs de supervision (Applicatifs, Bases de données, Scénario utilisateurs...) • Auto-déclarer les instances dans le monitoring 18mardi 12 juin 12
  • 19. Sauvegardes Plateforme Traditionnelle • Gestion d’une plateforme de sauvegardes sur disques ou sur bandes • Logiciel de backup type Amanda, Bacula, Dataprotector... • Déduplication • Gestion manuelle de l’archivage si bandes • Gestion de l’externalisation des données • Plan de backup sur mesure : Incrémental quotidien, Full hebdomadaire, Rétention 3 semaines Plateforme Cloud • Outils Amazon ‣ Snapshot des EBS : attention Snapshot n’est pas un backup ‣ Storage Gateway ‣ S3 • Solution Home Made ‣ Déploiement d’un logiciel de sauvegarde sur instance EC2 ‣ Gestion de backups sur mesure sur montage EBS ‣ Envoi des archives sur S3 19mardi 12 juin 12
  • 20. MCO dans le Cloud Remplacer au lieu de Réparer • Utilisation des AZ • Lancement et configuration d’instances automatisée : ‣ Images : AMI, MarketPlace, CloudFormation ‣ Gestion de la configuration : Puppet, Chef, CfEngine ‣ Versioning et déploiement du code : GIT, SVN, Capistrano Design for Failure • Plateforme traditionnelle : la HA est confiée à l’infrastructure • Plateforme AWS : la HA est confiée à l’application Complexité de diagnostic • Détection d’un incident applicatif : similaire à une plateforme traditionnelle si utilisation d’outils standards • Détection d’un incident infrastructure (réseau, serveur, datacenter) : peut être complexe si l’incident n’est pas un incident majeur 20mardi 12 juin 12
  • 21. Exploitation courante Les concepts clés de l’exploitation dans le Cloud : • Infrastructure As A Code : manipulation des ressources physiques via le code • Reproductibilité des actions rend le déploiement des services plus fiable • Centralisation des configurations (Puppet) permet une cohérence dans les déploiements et une meilleure gestion des évolutions • Rapprochement avec les équipes de développement : DevOps • Automatisation, Automatisation, Automatisation L’infogérance sur un périmètre mouvant doit s’adapter en proposant un modèle de tarification à l’usage (infogérance par heure et par instance) et auto-déclaratif en fonction de la taille du périmètre 21mardi 12 juin 12
  • 22. Sécurité Accès aux machines • Les méthodes restent les mêmes qu’en plateforme traditionnelle : SSH avec Clé • Dans notre cas, homogénéisation des plateformes via des paquets Debian maison intégrant nos certificats IAM : un sujet à part entière • Gestion des droits et de l’identité • Double Authentification • Agrégation Facturation Firewalling • Security Groups : Ouverture et Fermeture de ports en fonction d’IP Sources (pas de NAT) • Possibilité de gérer un service Firewall dans une instance : complexe du fait de la gestion des IP • Impossibilité de disposer d’un équipement dédié Des manques pouvant poser problème : • Pas de boitier de sécurité dédié • Pas de sonde anti-intrusion • Demande spécifique nécessaire pour réaliser un test d’intrusion • Pas de possibilité de mettre en oeuvre une liaison dédiée (hors gros projet) 22mardi 12 juin 12
  • 23. Réseau Gestion du réseau : des différences importantes • Réseau à plat - Pas de maîtrise sur les zones de sécurité (Vlan, Subnet...) • IP Publiques flottantes mais possibilité de réserver un nombre d’IP limité • IP Privées flottantes : difficulté pour les services d’administration • VPC permet de gérer un réseau privé mais il devient nécessaire de gérer soit même son routage • Pas de maitrise sur les latences et les performances réseaux Liens Privés et Sécurisés • Direct Connect offre une possibilité de lien dédié (réservé aux projets importants) • Possibilité de monter des tunnels VPN permanents via EC2 ou VPC pour sécuriser l’administration Loadbalancer • AWS offre un service clé en main : ELB • ELB offre une grande richesse fonctionnelle : Niveau 7, Terminaisons SSL, APIs.... • Avec des limitations : algorithme de répartition de charge, élasticité lors d’un Pic majeur • Il est également possible de gérer un service Zeus ou HA Proxy dans une instance, mais les IPs flottantes peuvent rendre la gestion complexe 23mardi 12 juin 12
  • 24. Base documentaire Des questions simples dans le monde du On Demand • Inventaire dynamique des instances actives ? • Connaissance des IPs affectées aux différentes instances ? • Spécifications hard et soft des instances actives (CMDB...) ? • Rédaction et suivi dynamique de la matrice des flux ? 24mardi 12 juin 12
  • 25. Performance Des points forts indéniables par rapport à une plateforme traditionnelle... • Accès à une puissance quasi-illimité en quelques minutes • Elasticité horizontale et verticale pour accompagner les montée en charge • Ressources disponibles sur tous les continents pour une distribution intelligente des traitements et des contenus ....Associés à des contraintes et limitations à prendre en compte • I/O Disques (notamment sur EBS - Tips : Raid 10 de volumes EBS) • Pas d’engagement sur les performances I/O sauf sur DynamoDB • Pose des problèmes en avant-vente et dimensionnement d’infrastructures • Variations de performance selon l’heure ou le jour Performance réseau • Entre les régions le trafic passe par internet comme ça peut être le cas entre 2 DC privés • Entre 2 AZ d’une même région les performances sont mieux maitrisées mais induisent encore une latence à prendre compte (exemple : Web sur AZ1 et SQL sur AZ2) 25mardi 12 juin 12
  • 26. SLA Engagements de Qualité de Service et Pénalités • Des engagements de disponibilité annuelle essentiellement (Durabilité S3) • Associés à des pénalités relativement faibles Il est nécessaire de compléter ce dispositif • Garantie Temps d’Intervention • Garantie Temps de Rétablissement • Engagements de Performance • Engagements Durée Maximale Perte de Données • Engagements sur le Traitement des Demandes : modification, restauration... 26mardi 12 juin 12
  • 27. Pour aller plus loin Automatiser , Automatiser, Automatiser : • Agent d’auto-déclaration des instances dans les outils d’administration (monitoring, backup, ticket, inventaire...) • Packager les outils d’administration pour sa distribution préférée • Utiliser des outils d’abstraction et de pilotage : RightScale, FOG Plateformes Hybrides • Liaison directe 1 Gbps entre DC eNovance et plateforme AWS • Le meilleur des 2 mondes : - Liens dédiés possibles avec le DC du client - Serveur Backoffice privés - Hardware sur-mesure I/O intensif - Elasticité et capacité de calcul illimité 27mardi 12 juin 12
  • 28. Use Case Type AZ2 AZ1 Puppet Master SVN (Capistrano) ELB Nagios Centron Frontaux Cacti / Munin Varnish / Nginx Serveurs d’application Peu de sollicitation disques Machines reproductibles / Jetables Base NoSQL (MongoDB...) Sollicitation Ram & CPU Elastictité horizontale recherchée Peu de sollicitation disques - Commit Asynchrones 28mardi 12 juin 12
  • 29. En synthèse L’administration système nécessite la même organisation Infogérance applicative, Astreinte, Supervision, Sauvegardes.... Mais doit évoluer pour profiter pleinement des promesses du Cloud Gestion automatisée de la configuration, Auto-Scalling, Compétence développement, Pricing élastique.... Tout en garantissant la réversibilité et l’homogénéité des outils en environnement hybride Limiter l’adhérence et utiliser des outils standards 29mardi 12 juin 12
  • 30. Q&R http://www.enovance.com Raphaël Ferreira T./ +33 1 49 70 99 72 http://twitter.com/enovance M./ r.ferreira@enovance.com 30mardi 12 juin 12