Comment Lustre apporte de la valeur ajoutée au HPC d’entreprise
By   |  December 17, 2015

Un nombre croissant d’industries nécessite une approche de calcul intensif HPC pour être en mesure d’explorer les quantités massives de données qu’ils collectent.

Dans le domaine de la génomique, par exemple, des chercheurs de l’Iowa State University travaillent avec des centaines de giga-octets pour l’étude d’un seul génome. Ces scientifiques, travaillant sur l’assemblage de séquences Zea Mays sont aux prises avec des génomes de plusieurs gigaoctets, mais ils doivent séquencer un génome unique 150 fois pour en obtenir des données fiables pour leurs recherches. Dans un autre exemple, pour les modèles climatiques utilisés dans la prévision du temps, les résolutions élevées des simulations d’aujourd’hui peuvent générer jusqu’à 100 téraoctets de données, selon le “Journal of Advances in Modeling Earth Systems ” rédigé par Michael F. Wehner. Les analyses de données sismiques haute résolution génèrent des ensembles de données incroyablement grands de plus de 100 téraoctets dans un seul fichier.

Une architecture évolutive pour des besoins hors norme
Très peu d’architectures de stockage au sein des systèmes d’information d’entreprise et des milieux universitaires sont en mesure de traiter de manière fiable d’aussi grands volumes de données dans un laps de temps raisonnable. La solution consiste généralement à déployer un système de gestion de fichiers parallélisé (PFS) capable de traiter des centaines de giga-octets à un débit de plusieurs téraoctets / seconde. La majorité des systèmes de fichiers parallèles déployés aujourd’hui sont Spectrum Scale d’IBM (anciennement General Parallel File System ou GPFS) et l’open source Lustre. Ces deux solutions représentent des modèles économiques diamétralement opposés pour les organisations qui cherchent à déployer une plate-forme de données à haute performance pour des ensembles de données extrêmement volumiques. Lustre est basé sur un modèle open source sous licence développée par la communauté et peut ajouter une valeur significative aux solutions de traitement de données haute performance.

PFS : un peu d’histoire
Spectrum Scale a été développé à IBM dans les années 1990 et fut commercialisé à la veille des années 2000. GPFS peut être déployé dans différents modes parallèles distribués et est utilisé en grandes applications commerciales et supercalculateurs. Spectrum Scale fut implémenté au départ sur les systèmes AIX d’IBM, mais a depuis été porté sur Linux et Windows Server.

L’architecture Lustre a commencé comme un projet académique à l’Université Carnegie Mellon à la fin des années 1990. Le système de fichiers a été développé sous l’initiative Accelerated Strategic Computing (ASCI) dans le cadre d’un projet financé par le Département américain de l’Énergie qui incluait Hewlett-Packard et Intel. L’ASCI a conduit à la création en 1996 du premier supercalculateur de classe Teraflop, l’ASCI Red Intel installé au Sandia National Labs. Aujourd’hui, le développement Lustre continue sous un modèle open source, avec les versions gérées par OpenSFS. Intel assure la majorité des contributions de code à Lustre, tout en ajoutant un ensemble de caractéristiques uniques en plusieurs versions estampillées Intel pour les déploiements d’entreprise et d’applications cloud computing.

Choisir un partenaire technologique pour une infrastructure efficace
Les solutions de stockage haute performance de classe Petascale d’aujourd’hui et Exascale de demain sont des systèmes complexes composés de dizaines de milliers de disques conventionnels ou flash. Ce sont des infrastructures qu’une entreprise ne déploiera pas seule, elle s’appuiera habituellement sur un partenaire ayant une expertise dans le logiciel, le matériel et les besoins d’ensemble pour s’assurer de l’évolutivité, de l’optimisation, de la configuration, de la mise en réseau, de la sauvegarde et de la reprise après sinistre de l’infrastructure mise en place. Et là réside l’une des décisions critiques auxquelles sont confrontées les entreprises dans la recherche de leurs solutions de traitement de données à haute performance. La première des options consiste à opter pour le modèle classique de licence à base de code source propriétaire fermé. La seconde option permet à l’entreprise d’élargir ses choix en optant pour la flexibilité d’une solution qui soit neutre vis-à-vis du matériel, ce qui lui laisse toute latitude pour choisir parmi une grande diversité de fabricants et de technologies, et d’un modèle de licence open source avec Lustre.

De nombreuses entreprises choisissent une solution propriétaire développée par des acteurs technologiques qui ont une solide réputation d’expertise et de fiabilité. Mais, dans le marché actuel, les ressources sont réduites et la concurrence féroce. Pour une entreprise, Se laisser le choix est fondamental pour profiter des économies permises par une technologie efficace, aboutie et rentable. Cela fait des années que les nouveaux entrants de l’entreprise dans des solutions de données de haute performance conçus autour de Lustre ont fait une percée importante sur le marché du stockage d’entreprise.

Il existe une large sélection de petits mais compétents intégrateurs à travers le monde qui ont développé des solutions de stockage avancées avec Lustre, tout en offrant un niveau de réponse instantanée à leurs clients. La plupart de ces intégrateurs font partie du programme de revendeur Lustre de Intel, lequel compte plus de 20 entreprises.

Ajouter de la valeur grâce à l’Open Source
L’open source a été le mode de développement de solutions d’entreprise et de logiciels performants pendant des décennies. Linux est l’un des héritiers naturels de l’open source, et Red Hat est le meilleur exemple d’ entreprise rentable créée autour de Linux qui fournit des services de classe entreprise avec ses propres offres développées autour d’un noyau Linux, tout en continuant à contribuer à l’arbre de développement de la communauté . D’autres sociétés comme Novell et leur distribution de SUSE Linux, ont suivi le même modèle.

Lorsque Lustre a intégré la communauté open source, plusieurs organisations ont commencé à former un groupe qui souhaitait l’intégrer dans une dynamique HPC, en démontrant l’incroyable potentiel pour les universités et les entreprises. Ce groupe a entamé des développements sur le modèle open source : contribuer au code, tout en offrant l’amélioration de produits et de soutien offerts dans le logiciel. Ce qui était positif du point de vue de l’entreprise, parce que les responsables informatiques voulaient l’assurance du support et de la pérennité de Lustre avant de s’engager.

«Intel est le leader incontesté dans le projet Open Source Lustre» affirme Brent Gorda, directeur général de la division des données haute performance (HPDD) d’Intel, le groupe responsable de Lustre. “Nous sommes les principaux contributeurs au code Lustre et disposons du plus grand bassin d’experts Lustre de la communauté. Développée sur la base de la version open source de Lustre, nous proposons des versions de classe entreprise et adaptées au cloud computing avec des améliorations logicielles et services de classe entreprise. De cette façon, nous ajoutons de la valeur à l’open source Lustre et aidons les projets HPC commerciaux à exploiter le système de fichiers parallélisé le plus évolutif et rapide de la planète »

Selon Gorda, Lustre élimine le verrouillage technologique et donne plus de choix aux clients. Si les entreprises choisissent de s’appuyer sur un partenaire technologique pour leurs solutions de données hautes performances, elles peuvent lancer des appels d’offre auprès d’un nombre important de fournisseurs pour sourcer la technologie matérielle optimale au meilleur coût et utiliser Lustre pour la partie logicielle. De cette façon, ils évitent les frais et conditions de licence souvent abruptes et changeantes qui vont de pair avec les solutions propriétaires, tout en obtenant l’expertise et le support dont ils ont besoin.

Quelques exemples d’infrastructures Lustre
Lustre est le système de fichiers de haute performance choisi par de nombreuses installations d’envergure comme le supercalculateur Sequoia du Lawrence Livermore National Laboratory. Basé au San Diego Computing Center (SDSC) à l’Université de Californie, Data Oasis est un cluster de stockage Lustre capable de monter jusqu’à 12 PB (pétaoctets) de capacité avec des débits soutenus de plus de 200 gigaoctets / seconde et avec 10.000 utilisateurs simultanés. Conçu et déployé par Aeon Computing ce système composé de 72 noeuds est relié à des clusters SDSC Trestles, Gordon, TSCC et Comet. L’assurance de débits constants de Data Oasis signifie que les chercheurs peuvent récupérer ou stocker 240 To de données en une vingtaine de minutes à peine. Au début de cette année, Data Oasis a commencé à subir d’importantes améliorations, notamment l’intégration de ZFS, un système de fichiers conçu à l’origine par Sun Microsystems et couplé à une nouvelle configuration de serveur matériel en vertu d’un partenariat entre SDSC, Aeon Computing, et Intel.

Faire bouger les lignes
Au croisement de l’Open Source, des solutions haute performance et d’infrastructures de stockage de données évolutives, les offres Lustre d’aujourd’hui bénéficient des améliorations et du support d’Intel, et représentent une alternative valable aux solutions propriétaires. Ainsi, Lustre a permis de faire bouger les lignes pour les systèmes de stockage de données haute performance dans le monde universitaire et de l’entreprise HPC. Et Lustre continue de subir des améliorations critiques souhaitées par les entreprise et développées avec la communauté.

Les offres d’Intel comptent Intel Enterprise Edition pour Lustre, Intel Cloud Edition pour Lustre, et Intel Foundation Edition pour Lustre. Chacun est conçu pour répondre aux besoins spécifiques du marché. L’Enterprise Edition regroupe les outils et les fonctionnalités de la dernière version Lustre. Il est facile à déployer et élargit considérablement le nombre de serveurs de métadonnées, améliore la fiabilité, inclut la gestion hiérarchique du stockage, et peut être interfacée avec les workloads Hadoop. Le support est disponible directement et via les partenaires Intel. La Cloud Edition, disponible sur la place de marché Amazon Web Services, permet aux clients de déployer un système de fichiers parallélisé en quelques minutes pour les applications que les entreprises clientes souhaitent exécuter sur Elastic Compute Cloud d’Amazon (EC2). Cette approche open source de la communauté Lustre et des entreprises ajoutent une valeur considérable aux clients nécessitant des solutions de stockage haute performance.

A propos de l’auteur
Ken Strandberg est un rédacteur technique. Il écrit des articles, des livres blancs et anime des séminaires et des formations Web, réalise des vidéos et des scripts d’animation et de marketing technique pour les entreprises émergentes, les entreprises du Fortune 100, et les sociétés multi-nationales. Les domaines de prédilection de M. Strandberg couvrent le logiciel, le secteur du HPC, les technologies industrielles, le Design Automation, le réseau, les technologies médicales, les semiconducteurs et les télécoms.

© HPC Today 2019 - All rights reserved.

Thank you for reading HPC Today.

Express poll

Do you use multi-screen
visualization technologies?

Industry news

Brands / Products index