Comment diminuer le coût des données inactives ?
 

Comment diminuer le coût des données inactives ?

on

  • 852 views

D’après toutes les études et analyses, le volume de données des entreprises croît à un rythme effréné. Les recherches Gartner de mars 2011 tablent sur un taux de croissance annuel cumulé de ...

D’après toutes les études et analyses, le volume de données des entreprises croît à un rythme effréné. Les recherches Gartner de mars 2011 tablent sur un taux de croissance annuel cumulé de 55% sur les 5 prochaines années. C’est-à-dire que les 11,8 millions de téraoctets vendus en 2010 devraient atteindre un volume de 107,5 millions 2015.

Statistics

Views

Total Views
852
Views on SlideShare
842
Embed Views
10

Actions

Likes
0
Downloads
6
Comments
0

1 Embed 10

http://www.zdnet.fr 10

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Comment diminuer le coût des données inactives ? Comment diminuer le coût des données inactives ? Document Transcript

  • Title: SGI-Active Archive  Language: French (fr) Proof No: B  Date: 06/05/11 L I V R E B L A N C Comment diminuer les coûts des données inactives ? En séparant sauvegarde et archivage afin d’optimiser vos infrastructures de stockage. Par Floyd Christofferson, SGI Mai 2011
  • Title: SGI-Active Archive  Language: French (fr) Proof No: B  Date: 06/05/11 LIVRE BLANC D’après toutes les études et analyses, le volume de données des entreprises croît à un rythme effréné. Les recherches Gartner de mars 2011 tablent sur un taux de croissance annuel cumulé de 55 % sur les 5 prochaines années. C’est-à-dire que les 11,8 millions de téraoctets vendus en 2010 devraient atteindre un volume de 107,5 millions en 2015. Ce taux de croissance ne prend pas en compte les disques intégrés aux ordinateurs portables ou de bureau. Il n’inclut pas non plus les disques susceptibles d’être utilisés dans une multitude d’autres appareils ou technologies. Cette croissance est liée à l’augmentation de l’infrastructure de stockage des entreprises, aux nouvelles applications centrées sur les fichiers, aux sauvegardes sur disques, aux besoins d’archivage ainsi qu’aux projets d’expansion de virtualisation de serveurs et de stations de travail. Gartner n’est pas le seul à faire cette prédiction. IDC, Frost and Sullivan et presque tous les responsables informatiques vont dans le même sens. La quantité de données explose de manière exponentielle et entraîne une croissance massive des infrastructures de stockage primaire et de sauvegarde. Un autre problème est lié à la multiplication des données et à la croissance de l’infrastructure : de plus en plus de fichiers encombrent des baies de disques toujours plus grandes alors que l’utilisation de ces fichiers n’augmente pas forcément au même rythme. Autrement dit, les usagers créent de plus en plus de fichiers, mais ils continuent de n’en utiliser que quelques-uns. Mon propre disque dur contient des dizaines de milliers de présentations, documents, photos, emails et autres, que je n’ai pour la plupart pas ouverts depuis des mois, voire des années. Pourtant, je veux qu’ils soient disponibles à tout moment, pour pouvoir y accéder lorsque j’en aurai besoin. Et à l’échelle d’une entreprise, le problème devient dramatique. En effet, on passe d’un souhait personnel (je veux que mes fichiers soient disponibles tout le temps) à une nécessité commerciale (mon entreprise doit accéder à ses données à tout moment). Recherches Dans une étude de 2008 réalisée par l’université de Californie, financée par la National Science Foundation, l’utilisation des charges de travail du système de fichiers du réseau d’un ensemble de stockage actif de 22 To utilisé par 1 500 employés intervenant dans les processus commerciaux et techniques a été analysée. Autrement dit, l’étude s’intéressait aux schémas d’utilisation pour les types de charges de travail en œuvre dans presque toutes les entreprises du monde. Qu’ont-ils découvert ? Les fichiers vivent plus longtemps que dans les études précédentes. Ils sont rarement rouverts. 95 % des fichiers sont ouverts moins de cinq fois. Plus de 60 % des réouvertures ont lieu dans la minute suivant la première ouverture. Plus de 76 % des fichiers ne sont jamais ouverts par plus d’un client et parmi les fichiers ouverts par des tiers, 90 % des données partagées ne sont que lues. Et enfin, la plupart des fichiers ne sont pas rouverts après leur fermeture. Ainsi, dans un environnement de 22 To, la plupart des fichiers stockés ne seront jamais rouverts ou modifiés. Pourtant, comme pour les fichiers de mon portable que je n’ai pas touchés depuis quelques années, les utilisateurs ont beaucoup de mal à déterminer quels fichiers supprimer ou retirer du stockage actif. Les infrastructures des disques des centres de données ne cessent donc de croître à une vitesse vertigineuse. À ce problème s’ajoute celui du coût de cette croissance, pas seulement celui lié à l’achat de nouvelles unités multidisques, mais celui de la sauvegarde de ces unités, de l’ajout d’espace supplémentaire dans le centre de données, de l’électricité et du refroidissement des centres de données pour des disques qui tournent continuellement mais ne sont presque jamais utilisés. Si l’on considère qu’en moyenne une unité de stockage sur disque consomme 62 euros par To de fonctionnement, ou 32 KWh par armoire, alors dans un système à 2 pétaoctets, les coûts énergétiques opérationnels s’élèvent à 129.000 euros en s’appuyant sur le coût énergétique moyen aux États-Unis, sans compter les frais liés à l’espace du centre de données ni au refroidissement. Alors oui, les utilisateurs peuvent à tout moment accéder aux données inactives. Mais à quel prix ? Comment diminuer les coûts des données inactives ? 2
  • Title: SGI-Active Archive  Language: French (fr) Proof No: B  Date: 06/05/11 LIVRE BLANC Données inactives stockées sur disque actif Cette solution est aussi simple que tentante. Créer une archive active où les données sont disponibles « en ligne » avec un accès rapide, où elles sont protégées pour une conservation à très long terme et où les coûts opérationnels sont extrêmement faibles. Si l’un de ces éléments est absent, alors les stratégies d’archivage ont tendance à tomber à plat. Le problème réside dans le fait que la plupart des solutions d’archive ne répondent qu’à une partie du problème. Lorsque la sauvegarde (protection des données actives) est confondue avec l’archivage (rétention des données inactives), le processus est paralysé. Les périodes de sauvegarde et de restauration deviennent impossibles à gérer étant donné qu’elles impliquent à la fois des données actives et inactives. Les données auxquelles les utilisateurs accèdent rarement deviennent difficiles à trouver. Les coûts opérationnels augmentent en flèche lorsque des disques de production additionnels sont nécessaires rien que pour suivre la croissance sans répit des données. Pire encore, la croissance excessive de données stockées sur les disques de production peut contribuer à la segmentation des données dans des baies incompatibles. La collaboration entre différents espaces est alors impossible ou, dans le meilleur des cas, devient un processus manuel entraînant des erreurs et des efforts inefficaces. Les utilisateurs traitent des fichiers mais sont obligés de travailler dans des systèmes de fichiers. L’objectif d’une stratégie de gestion des données proactive (une stratégie d’archive active) est de permettre aux utilisateurs de se concentrer sur leur travail sans perdre de temps ou d’énergie à la préparation préalable au travail. C’est ce que permet une approche comprenant des solutions d’archive active. Ainsi, les responsables informatiques disposent d’un moyen de maintenir l’accessibilité, des coûts abordables et la protection des données sans que les utilisateurs ne perdent de temps à en comprendre le fonctionnement, trouver où est le fichier ou quelles sont les étapes pour y accéder. Sauvegarde Débordement Disque de production Archives non gérées Concepts clés : faire la différence entre la sauvegarde et l’archive Pour résoudre les différents problèmes présentés ici, il convient d’adopter une approche intégrée de l’archivage et de la sauvegarde. Ainsi, l’accessibilité des données devient la priorité des utilisateurs tout en respectant les exigences de restriction des coûts et de protection des données des responsables informatiques. Le problème, c’est que la sauvegarde et l’archivage sont souvent confondus, pas forcément en termes de concept, mais dans la pratique quotidienne. Le processus se déroule souvent comme suit : au fil de la croissance des données, les unités de disques primaires ou de production se remplissent et doivent être étendues. Comme signalé précédemment, il s’agit typiquement d’un mélange de données actives avec des données plus anciennes, auxquelles les utilisateurs accèdent rarement. La sauvegarde est nécessaire afin de protéger les disques primaires et la croissance du volume de données entraîne directement l’accroissement des fenêtres de sauvegarde. Qu’il s’agisse d’une incapacité à réaliser les sauvegardes dans les plages horaires disponibles ou d’un encombrement de l’infrastructure de sauvegarde, les responsables informatiques n’ont souvent pas d’autre choix que de prendre les données excédentaires et de les placer dans une armoire comme « archives ». Autrement, ils devraient faire croître leur infrastructure. Le problème c’est que ces « archives » n’en sont pas vraiment et souvent, ne sont pas gérées. Les données à forte valeur sont mélangées à des données à faible valeur. Comment diminuer les coûts des données inactives ? 3 View slide
  • Title: SGI-Active Archive  Language: French (fr) Proof No: B  Date: 06/05/11 LIVRE BLANC En outre, lorsque des données d’archives sont tirées de données de sauvegarde, elles sont hasardeuses et incomplètes. Ces données, qui sont susceptibles d’avoir de la valeur, ne sont pas accessibles et bien souvent ne peuvent être récupérées qu’au prix d’efforts, temps et frais significatifs. Pire encore, cette approche signifie que l’environnement de sauvegarde doit continuellement croître afin de suivre l’expansion de l’environnement du disque de production. Cela entraîne une augmentation des coûts sans rien résoudre. C’est un problème courant dans des entreprises qui sont pourtant attentives à la production et à la protection de leurs données. C’est en raison du volume élevé de données et de la difficulté à faire la distinction entre les données à faible et forte valeur que de nombreux responsables informatiques n’ont guère d’autre choix que de tout garder, ce qui aggrave le problème. La solution consiste à créer une distinction claire entre la sauvegarde et l’archive et à séparer les besoins de protection des données de ceux de la conservation des données. Les stratégies de sauvegarde doivent concerner les données de production à court terme, afin de les prémunir contre des défaillances catastrophiques. Par leur nature, les stratégies d’archive ou de conservation des données concernent le long terme. La récupération après sinistre est toujours nécessaire pour ces données, mais n’a pas besoin de se faire dans la plage temporelle limitée requise dans le cas de la sauvegarde. Sauvegarde Archive Copie des données Déplacement des données Prend en charge l’exploitation et la récupération Prend en charge l’activité et le respect des normes Prend en charge la disponibilité Prend en charge l’efficacité opérationnelle Court terme par nature Long terme par nature En général, les données sont écrasées Les données sont sécurisées car ne doivent pas être écrasées Pas de pertinence historique Pour une information historique Pas de recherche simple Recherche simplewer_ ec. Créer une stratégie d’archive active Une archive active est une archive dans laquelle toutes les données sont toujours disponibles « en ligne ». Mais cela ne signifie pas que ces données occupent de coûteuses capacités du disque primaire. Dans le cas d’une archive active, « en ligne » signifie que les données sont disponibles dans un environnement immédiatement et aisément accessible aux utilisateurs, qui ne monopolise pas la puissance ou l’espace, et où les données sont protégées, pour une conservation très longue. En fait, une stratégie d’archive active bien appliquée réduit significativement les coûts globaux de stockage et de gestion des données tout en améliorant la performance et la capacité des utilisateurs à accéder à toutes les données. Avec une stratégie d’archive active, les coûts sont limités car il n’est pas nécessaire d’augmenter régulièrement le disque de production. Les données inactives ayant de la valeur sont déplacées dans un niveau de stockage d’archives qui, même s’il est « en ligne » et visible pour l’utilisateur, est typiquement dans un état de veille utilisant la technologie MAID qui met en sommeil les disques et supprime ainsi totalement la consommation énergétique de la baie. Ces archives, toujours disponibles, peuvent être gérées à l’aide de techniques de récupération très différentes, et à un coût minime par rapport aux coûts opérationnels des stockages conventionnels sur disques. Comment diminuer les coûts des données inactives ? 4 View slide
  • Title: SGI-Active Archive  Language: French (fr) Proof No: B  Date: 06/05/11 LIVRE BLANC Mais les données vivent là où elles sont les plus efficaces. En ligne, les données actives ne sont contenues que sur les unités de disque primaire. Les données rarement utilisées peuvent être déplacées (de manière programmée ou manuelle) vers un niveau d’archive où elles restent disponibles, mais dans un état protégé et peu coûteux. Puisque la croissance des données n’entraîne pas l’augmentation du disque de production, la sauvegarde de ces unités ne croît pas non plus à un rythme effréné. La sauvegarde est réservée aux seules données actives, limitant ainsi les coûts tout comme les délais de sauvegarde et de récupération. Mettre en place une archive active De nombreux outils peuvent être utilisés pour mettre en place une stratégie d’archive active. Ils diffèrent en fonction des industries, des utilisations et des flux des données. Le plus important dans la définition d’une stratégie consiste à adopter une approche proactive de la croissance des données, pour l’intégralité du système, en lieu et place d’une approche réactive impliquant d’ajouter toujours plus d’unités disques pour résoudre les problèmes à court terme. Comme nous l’avons vu, les solutions à court terme ne font qu’aggraver le problème tout en entraînant une augmentation des coûts et des risques. Quelques outils à prendre en compte : • Solution de gestion des données numériques : Pour déterminer si les données sont actives ou non, l’un des points clés réside dans la stratégie de classement mise en œuvre. Ce problème s’aggrave lorsque les données de production sont réparties dans plusieurs baies. Les solutions de gestion des données numériques telles que LiveArc™ de SGI permettent une indexation automatique des contenus de multiples façons au fil des créations et des modifications. Les utilisateurs peuvent rechercher des données et les administrateurs peuvent aisément établir des politiques visant à déterminer quelles sont les données qui doivent rester sur le disque de production et celles qui peuvent migrer vers un stockage de second ou troisième niveau. Un autre avantage clé d’une plateforme de gestion des données numériques telle que LiveArc est la possibilité de créer un lien entre divers espaces de noms, ou baies afin d’offrir une vue globale des besoins de l’ensemble du stockage, des données et des types de métadonnées. Ainsi, les responsables informatiques ont une maîtrise totale de leur environnement et peuvent modifier l’infrastructure sans affecter les utilisateurs. Ceux-ci n’ont pas besoin de se préoccuper de l’emplacement des données dans la hiérarchie de l’infrastructure de stockage car elles sont toujours visibles au travers de l’interface utilisateur. • Gestion hiérarchique du stockage (virtualisation des niveaux) : La virtualisation des niveaux de stockage par l’intermédiaire d’une solution de gestion hiérarchique du stockage telle que SGI DMF (Data Migration Facility) représente une autre pratique permettant de faciliter le développement d’une archive active. Avec DMF, de multiples niveaux de disque ou bande s’affichent comme un grand volume agrégé aux yeux des utilisateurs, même si les données sont en fait distribuées parmi divers types de stockage. Par exemple, le disque de production est en règle générale le disque le plus performant (et donc le plus coûteux), mais seule une fraction des données est active : des unités de disques coûteuses sont donc utilisées pour héberger des données inactives. Avec une solution HSM telle que DMF, le disque haute performance coûteux est lié à un disque de capacité « quasi en ligne », moins onéreux. On peut également y adjoindre une solution MAID pour mettre en sommeil les disques ou une bibliothèque de bandes. Comment diminuer les coûts des données inactives ? 5
  • Title: SGI-Active Archive  Language: French (fr) Proof No: B  Date: 06/05/11 LIVRE BLANC L’intérêt d’un tel système réside dans le fait que pour l’utilisateur, les données apparaissent continuellement en ligne, mais en réalité, même si les fichiers semblent être là où l’utilisateur les a placés dans le système, ils ont en fait migré vers un disque moins onéreux, permettant ainsi de réaliser de significatives économies en épargnant à l’utilisateur le souci de savoir où se trouvent ses données. Avec une solution comme DMF, les règles définissant le « quand » et le « où » les données doivent migrer, peuvent être fixées par des politiques, telles que le type de fichier, la taille du fichier, la dernière date d’ouverture, etc. En outre, puisque DMF peut gérer de multiples copies du même fichier, la sauvegarde est alors optimisée puisqu’elle ne concerne qu’une quantité bien plus limitée de données. • Stockage à faible consommation énergétique faisant appel à MAID (Massive Array of Idle Disks) : Une solution MAID est un autre outil utile dans la création d’une archive active à même de désactiver des pans entiers de la baie de disques tant que les données ne sont pas nécessaires. Cela permet une réduction significative des besoins énergétiques et de refroidissement du centre de données, à la manière des bibliothèques de bandes, mais avec l’avantage supplémentaire d’une performance accrue et d’une protection proactive des données. Les solutions SGI® COPAN™ 400 MAID et VTL sont les meilleures de cette catégorie, avec des options à très forte densité et faible consommation. Voir les autres libres blancs SGI sur la technologie MAID de COPAN. • ArcFiniti™ de SGI : ArcFiniti est une solution d’archive sur fichiers qui allie le meilleur de ces technologies pour la mise en place d’une politique d’archivage parfaitement intégrée et accessible sur le réseau. Rendez-vous sur http ://www.sgi.com/arcfiniti/ pour obtenir plus d’informations sur cette nouvelle plateforme novatrice grâce à qui les économies financières notables générées par l’archivage actif ont été démontrées à des centaines de clients dans le monde. Protéger vos données essentielles Une stratégie d’archive active nécessite de la planification et des outils, mais si elle est correctement mise en œuvre, elle peut entraîner une réduction significative des coûts globaux liés à la gestion d’un volume croissant de données. En outre, en séparant le disque de production des autres niveaux de stockage, les points uniques de défaillance sont pratiquement éliminés. Les composants individuels peuvent être mis à jour ou modifiés sans affecter l’utilisation globale pour les utilisateurs. L’extensibilité devient alors un atout et non plus un cauchemar. Siège Ventes et assistance internationales 46600 Landing Parkway Amérique du Nord +1 800 800 7441 Fremont, CA 94538 Amérique latine +55 11 5185 2860 tel 510.933.8300 Europe +44 118 912 7500 fax 408.321.0293 Asie Pacifique +61 2 9448 1463 www.sgi.com © 2011 SGI. SGI, ArcFiniti, COPAN et Rackable sont des marques déposées de Silicon Graphics International Corp. ou de ses filiales aux États-Unis et/ou dans d’autres pays. Toutes les autres marques déposées sont la propriété de leurs titulaires respectifs. 04042011 4299 Comment diminuer les coûts des données inactives ? 6