HPC Today | Verbatim : Marc Simon – Directeur Technique, SGI France

Verbatim : Marc Simon – Directeur Technique, SGI France

By Alex Roussel | September 14, 2013

Une heure avec Marc Simon, Directeur technique, SGI France.
Propos recueillis par Alex Roussel.

HPC Today : SGI et Total ont récemment défrayé la chronique HPC en annonçant la mise en production prochaine de Pangea, le calculateur privé officiellement le plus puissant au monde. Quelles étaient les spécificités et les contraintes de l’appel d’offres ?

Marc Simon : Total souhaitait augmenter ses capacités en termes de performance. Quand Total parle de performance, c’est de performance applicative sur son propre code qu’il s’agit. Le processus a donc consisté, d’une part, à ce que Total établisse des niveaux minimum à atteindre, et d’autre part à ce que nous obtenions ces niveaux à partir de codes applicatifs fournis. De cela, on a déduit la taille de la machine. C’est l’une des particularités les plus intéressantes de Total : ne pas travailler sur des performances crêtes théoriques mais réellement sur des codes maison. Total dispose des compétences internes pour développer ses propres applications, principalement dans les domaines de la sismique et de la simulation de réservoirs. Ce sont ces codes-là qui ont servi d’étalon de configuration. Cette approche nous a laissé une très grande latitude pour travailler sur l’optimisation et au final obtenir la configuration la plus efficace possible. Pour vous donner quelques chiffres, Pangea, c’est 6 912 nœuds de calcul, soit 13 824 processeurs Intel Xeon Sandy Bridge, des E5 de la série 2600 cadencés à 2,6 GHz. Ca représente un total de 110 592 cœurs de calcul. En termes de stockage, on a un peu plus de 8 Po scratch attachés directement au calculateur. Côté compétition, on était en face des acteurs habituels, notamment IBM, Bull et HP – les équipes que l’on a l’habitude de rencontrer sur tous les gros appels d’offres.

Outre le niveau de performance requis, quelles étaient les contraintes liées au datacentre de Pau et à l’alimentation électrique du calculateur ?

Parmi les autres particularités de cet appel d’offres, il y avait effectivement de fortes contraintes environnementales. La taille de la salle machine étant limitée, on devait prévoir une extension pour un doublement de la puissance de la plateforme. C’était une contrainte assez forte, de même que la puissance électrique, avec un maximum de 3 MW à respecter pour la totalité de la puissance informatique, stockage compris. Ces contraintes fortes ont éliminé un certain nombre de candidats, car ils n’avaient pas la densité nécessaire pour pouvoir s’intégrer à la salle en question. Autre point important de l’appel d’offres : à la fourniture de l’infrastructure devait s’ajouter la capacité humaine à superviser et gérer la totalité des systèmes HPC en place à Pau. C’est une offre de service associé non négligeable, qui correspond à la mise en place d’un guichet unique pour tous les aspects HPC de Total et s’étend au-delà de Pangea – et de l’ancien système Rostand – pour couvrir également des systèmes qui ne sont pas d’origine SGI.

Pour revenir sur la phase dimensionnement de la machine et benchmarking, que vous a fourni Total pour les tests ?

Total nous a livré des codes accompagnés de vrais jeux de données, correspondants à des études réelles. Un bloc de test, composé du code et des données, représente environ 4 téraoctets. Il y avait une demi-douzaine de codes différents avec des objectifs à tenir sur chacun. L’un d’eux, le RTM (Reverse Time Migration), était prioritaire. C’est un code critique pour Total et plus globalement pour l’ensemble du secteur pétrolier. Pour mémoire, il s’agit d’une méthode générique d’analyse sismique. Très vite, la question s’est posée de savoir si nous testerions ces codes sur des CPU généralistes uniquement ou si nous allions utiliser des accélérateurs, sachant que plusieurs de ces codes existaient déjà en version GPU. On avait toute liberté à ce niveau ; d’ailleurs, un de nos concurrents a répondu avec une version full-GPU. C’était le seul moyen pour eux d’être suffisamment dense pour tenir dans la salle et répondre aux exigences de performance évoquées précédemment. La salle complète peut accueillir entre 100 et 120 racks. Avec notre solution, on en remplit 48, alors que la plupart de nos concurrents étaient dans les 100. Et donc, pour 48 racks de calcul, on arrive à un total de 2,3 Pétaflops crête. Le LINPack, publié en juin est à 2,1 Pflops, ce qui montre un ratio entre pic théorique et pic LINPack soutenu assez satisfaisant.

Comment expliquez vous cette différence de densité entre votre offre et celles de vos concurrents ?

La machine a été conçue par rapport à une puissance applicative et un nombre typique de jobs à tourner par jour. On en est arrivé à une solution construite autour de notre machine ICE-X dans une configuration cellulaire que l’on appelle M-Cell, configuration qui nous permet d’être extrêmement dense. Dans cette architecture, chaque rack de calcul fournit 48 Tflops. En gros, on réunit dans un rack deux fois la densité que l’on peut obtenir d’un rack traditionnel. Il ne s’agit pas de racks standards, car notre système M-Cell a pour particularité de confiner l’air qui circule à l’intérieur des armoires dans une cellule complètement contenue, en ne rejetant aucun air chaud dans le datacentre. Grâce à notre système de refroidissement liquide, on peut fonctionner avec des températures d’échange relativement élevées. Total a voulu des températures de fonctionnement situées entre 25° et 30°, ce qui permet de s’appuyer sur des chaînes de refroidissement beaucoup plus efficaces que ce qui était déjà en place. Pour info, les calculateurs SGI ICE fonctionnent avec des températures d’eau de l’ordre d’une dizaine de degrés. Ca coûte beaucoup moins cher en énergie et, au final, la consommation de la solution complète, stockage inclus, est inférieure à 2,3 MW, là où Total nous laissait aller jusqu’à 3 MW. Or, comme vous le savez, l’efficacité du refroidissement est un aspect important de la consommation globale…

Vous n’avez donc eu recours ni aux accélérateurs Intel ni aux GPU dans la configuration actuelle. C’est quelque chose qui pourrait évoluer sur les prochains upgrades prévus ?

Ni les accélérateurs x86, ni les accélérateurs GPU n’ont été retenus pour cette première phase, mais il n’est pas dit que ce soit encore le cas sur les prochaines. Ca fait partie des études en cours sur l’évolution du calculateur à moyen terme, sachant que les prochaines configurations ne sont pas encore gelées. On a une première évolution prévue d’ici 12-18 mois et, en fonction des technologies disponibles, on proposera telle ou telle solution. Seront évalués les CPU du moment, les accélérateurs Intel et les GPU NVIDIA. Ce sont des projets d’étude qui sont menés avec les supports des trois fournisseurs concernés. On connaît les roadmaps de chacun, on connaît les targets, mais Total s’intéresse surtout à la performance applicative. Or, il est difficile de parier aujourd’hui sur la performance applicative que l’on pourra obtenir avec les prochaines générations de composants. Donc, pour l’instant, tout reste ouvert. SGI a la particularité de pouvoir proposer un mix de ces technologies au sein d’une même machine ICE X. Notre meilleur exemple sur ce plan, c’est notre client historique : la NASA. Ils ont fait l’acquisition d’une première version d’ICE, en 2007. C’était le début de la machine Pleiades et, depuis 2007, ils upgradent cette machine 2 fois par an. On est justement en train d’installer chez eux la toute dernière version ICE X. C’est la sixième génération qu’ils voient arriver dans leur datacenter – une machine à laquelle on peut ajouter de la puissance de calcul sans arrêter la production en cours.

SGI est aujourd’hui OEM Intel sur les processeurs, au même titre que Bull, Cray ou même des constructeurs généralistes comme Dell et HP. Quels sont vos principaux différenciateurs ?

Pour Intel, on est epsilonesques comparés à HP, IBM ou Dell. On ne fait pas du tout les mêmes volumes qu’eux. Ce qui nous pose très clairement problème quand on est face à ces grands qui ont des coûts d’acquisition très différents des nôtres, mais on se bat avec nos armes. C’est-à-dire principalement notre savoir-faire. Aujourd’hui, dans le monde HPC et plus largement Technical Computing, si vous ne répondez pas avec du x86, principalement de l’Intel, du Linux et de l’interconnect standard, se placer est très difficile. La différenciation ne se fait pas sur les composants de base, elle se fait sur l’efficacité de leur intégration à grande échelle. S’agissant de performances pures, on est toujours parmi les plus efficaces, y compris sur de très grosses configurations, comme vous pouvez le voir dans le TOP500. On détient aussi quelques records comme le SPEC MPI2007 – un benchmark standard sur lequel l’ICE est seul à offrir ce niveau de compétitivité. En termes d’efficacité énergétique, les deux machines Total (car Pangea a une petite sœur à Houston, Texas) sont en tête des calculateurs généralistes du Green500. Cela signifie que des machines utilisant du Xeon standard et du Linux standard peuvent être très, très efficaces énergétiquement. Il y a aussi notre savoir-faire dans l’intégration des systèmes de cooling innovants. Quand nos clients font évoluer les machines, la facture énergétique devient critique pour eux.

Mais à processeur égal, comment atteindre une densité plus élevée ?

On fait pas mal de co-engineering avec Intel sur notre gamme UV. C’est une plateforme unique sur le marché : elle utilise des composants standards Intel, mais pousse leur scalabilité, c’est-à-dire le nombre de composants que l’on est capable de mettre au sein d’une seule et même machine, bien plus haut que le design standard Intel. Aujourd’hui, avec les Sandy Bridge, le modèle permet de monter jusqu’à 4 sockets. Nous sommes les seuls à pouvoir fournir du Sandy Bridge jusqu’à 256 sockets. On développe nos composants depuis 1996, ce qui a fait de nous les premiers à proposer des calculateurs CC-NUMA, c’est-à-dire des architectures à mémoire partagée, pour un large nombre de processeurs. A l’époque, cette architecture était 100 % propriétaire en termes d’interconnect , d’operating system, de processeurs MIPS. Aujourd’hui, c’est beaucoup plus ouvert, avec du CPU Xeon standard, du Linux standard SUSE ou Red Hat, et de l’interconnect où, si le protocole est propriétaire, les cartes physiques sont des InfiniBand.

Votre catalogue propose des configurations à base d’accélérateurs x86 ou GPU, au choix du client. Pourquoi cet œcuménisme ?

On n’a pas à dire que l’un est meilleur que l’autre. C’est une hérésie. Il y a des domaines dans lesquels on préférera proposer du GPU, d’autres domaines où on préférera proposer du Phi. On se doit d’être, de ce côté-là, le plus ouvert possible par rapport aux attentes des clients. La machine de la NASA est un exemple, celle de Total en est un autre, mais toutes nos configurations présentes au TOP500 font de la “vraie science”. Regardez, on vient d’arrêter la première machine pétaflopique, Roadrunner, qui était installée au laboratoire américain de Los Alamos. Cette machine IBM était construite à base d’accélérateurs Cell (c’est d’ailleurs à peu près la seule). Roadrunner a été conçu pour être la première machine pétaflopique, point ! Les efforts d’optimisation sur les codes étaient tels que ça n’a pas servi à grand-chose derrière. Chez SGI, ce n’est pas l’optique. Roadrunner a été arrêté et démantelé alors la machine de la NASA date de la même époque et continue d’être upgradée. Elle est toujours plus productive et constitue pour les opérateurs un environnement qui s’améliore au fil du temps, dans une réelle continuité.

Quelles sont les dates clés de la roadmap SGI dans les mois à venir ?

Nous avons trois grandes gammes de serveurs : la gamme UV à mémoire partagée, les clusters ICE X orientés HPC et calculs parallèles, et la série Rackable, plus orientée Web et Big Data. Sur cette dernière, nous allons faire une annonce importante le mois prochain, avec la création d’une nouvelle gamme basée sur le succès rencontré depuis 18 mois. En fait, les serveurs Rackable étaient produits principalement pour trois gros clients américains. Très bientôt, ils vont former une gamme complète, qui va nous permettre de proposer une offre complémentaire et différenciée dans ces domaines en forte croissance.

Quels sont ces trois clients ?

Ce n’est pas un secret : pour le Web, on travaille beaucoup avec Amazon, Microsoft et Yahoo. Côté Big Data, SGI est pas mal implanté dans certaines agences gouvernementales américaines. Je ne peux pas donner beaucoup de détails, mais ce sont des gammes de machines qui sont en production chez nous depuis plus d’un an et qui correspondent à des besoins que l’on voit aujourd’hui croître un peu partout, surtout sur le marché Technical Computing élargi, qui intègre désormais certains besoins de type Big Data.

Le Big Data est-il déjà un marché significatif pour SGI ? Quelle est la pertinence de la marque sur ce marché où l’on a encore souvent recours à du serveur banalisé ?

Si on regarde aujourd’hui ce qui est fait en Europe sur Hadoop, c’est extrêmement light : quelques dizaines de serveurs, des proofs of concept, des phases 0 ou 1 de projets. C’est du serveur et du cluster lambda. L’expérience que l’on a aux Etats-Unis, notamment au niveau gouvernemental, c’est des déploiements de plusieurs milliers de nœuds, qui nécessitent une infrastructure matérielle, une intégration réseau et une infrastructure logicielle différentes. Ce que l’on voit avec les architectures Big Data de type Hadoop, c’est une adéquation parfaite avec le monde HPC traditionnel. Les infrastructures qu’on développe depuis des années pour le HPC vont correspondre de plus en plus au monde Big Data avec l’augmentation des volumes de données et des tailles de projets analytiques en mode distribué. L’autre aspect du Big Data sur lequel on a une vraie valeur ajoutée, c’est la performance. Le terme “Big Data” ne recouvre pas uniquement Hadoop et le traitement de larges volumétries. Il y a aussi un problème de rapidité, avec des données filtrées en temps réel, des flux Internet, satellitaires, etc. De plus en plus de clients ont aussi des besoins d’analyses de graphes, qui conditionnent la découverte de connaissances. Pour cela, rien ne vaut les architectures à mémoire partagée où la totalité des données est montée en mémoire. Là, on peut mettre en œuvre des processus très simples et extrêmement efficaces. C’est une fois les éléments remarquables identifiés que l’on peut traiter les données via Hadoop. On est vraiment à la croisée des chemins en termes d’architectures, d’infrastructures et d’évolution de ce marché Big Data qui est encore essentiellement un marché logiciel. Sur le nombre de nœuds Hadoop installés dans le monde aujourd’hui, selon un cabinet américain, SGI détient 8 % du total alors que sur le marché des serveurs généralistes, on est plutôt dans les dixièmes de pourcents… Très clairement, les déploiements Hadoop à grande échelle tels qu’on va les voir en Europe nous permettrons de pérenniser nos infrastructures.

Quels sont les marchés les plus dynamiques au niveau mondial pour SGI ?

L’académique et la recherche restent un axe important, mais le marché le plus dynamique est celui des sciences de la vie. Beaucoup de choses se passent dans ce domaine – et cela pas uniquement dans le domaine du calcul. Le stockage, également, est concerné. C’est un marché très dynamique pour nous, d’autant que notre UV 2000 répond bien aux contraintes de la plupart des appels d’offre. Aux Etats-Unis, le Big Data est quelque chose qui est bien amorcé…

IDC montre que si le marché des grands calculateur est très dynamique avec plus de 25 % de croissance, c’est loin d’être le cas des calculateurs de taille intermédiaire. Est-ce également le cas pour SGI ?

Oui, c’est quelque chose qu’on observe depuis quelque temps déjà. Deux phénomènes l’expliquent. Pour prendre l’exemple de la France, il y a le fait que beaucoup d’investissement ont été faits au niveau des grands centres nationaux, et qu’il faut utiliser ces machines-là en priorité. Un certain nombre de laboratoires sont encouragés à ne plus faire d’acquisitions locales et à se tourner vers les centres de type T1. C’est le cas au sein du CEA par exemple. Toutes les entités sont invitées à exploiter les ressources centrales même si ce n’est ni plus simple ni plus performant. Quand vous êtes à l’autre bout de la France et qu’il vous faut travailler sur des téraoctets de données, le temps de calcul devient négligeable par rapports aux temps de transfert réseau. Autre phénomène, pour beaucoup d’industriels français, les moyens de calculs sont considérés au même titre que les moyens IT généraux. Or, ce qu’on demande aujourd’hui à un DSI, c’est de réduire les coûts. Quand je discute avec mes collègues ingénieurs automobiles américains ou allemands, chez qui le phénomène est encore plus flagrant, je vois que, pour eux, le calcul, la modélisation et la simulation font partie de la branche produit, du métier. Pour produire une nouvelle plateforme automobile, ils ont besoin de simulation et la simulation est chez eux. Ils considèrent que l’investissement fait sur ces moyens de calcul est quelque chose qui va donner plus de valeur à leur produit. Cet investissement n’est donc pas géré par l’IT traditionnelle. C’est une autre approche, qui explique peut-être les différences que l’on constate entre les automobiles françaises et allemandes. Si les constructeurs français veulent pouvoir se comparer aux constructeurs allemands, s’ils veulent changer de segment, peut-être vont-ils devoir changer d’approche au niveau développement produit… Aujourd’hui, leurs investissements HPC ont pris des ordres de grandeurs de retard par rapport à ce que font certains constructeurs européens.

Le premier supercalculateur exaflopique sera-t-il estampillé SGI ?

C’est difficile à dire, mais ce n’est pas quelque chose que l’on cible spécifiquement. Comme je vous l’ai dit, on cherche plutôt à fournir des centaines de machines à 100 Pétaflops qu’une seule machine exaflopique. Cela correspond plus à une utilisation en production avec des impératifs en retour sur investissement. On sait très bien qu’avec le budget de consommation électrique d’une année du premier calculateur exa, vous pourrez acquérir un calculateur de 10 Pétaflops… Cela ne veut pas dire qu’on n’est pas impliqués, au contraire. SGI contribue à beaucoup de projets de recherche. On est actuellement dans des appels d’offres des grands labos américains pour des machines pré-exaflopiques, des machines aux alentours de 300 Pflops prévues pour 2016. Des configurations qui nous rapprocheront réellement de l’exascale, dont la plupart des roadmaps montrent qu’on y atteindra d’ici la fin de la décennie…