10^18 : Bull ambitieux sur l’extreme computing

By Frédéric Milliot | March 09, 2015

1000 petaflops pour 2020 ? Chiche !

S’il est très proche temporellement, l’avenir dont on parle semble pour autant bien éloigné technologiquement. L’exascale, la prochaine génération de supercalculateurs, est attendue pour 2020, c’est-à-dire dans moins de cinq petites années. Or, cette génération est conçue pour être environ 1 000 fois plus « puissante » que la génération actuellement en service, dont le fleuron officiel – baptisé Tianhe-2 et localisé chez nos amis chinois – est chronométré à environ 36 petaflops. La barre est donc placée très haut.

Un petaflops, c’est 10 puissance 15 opérations par seconde. Le passage à l’échelle, lui, amène ce chiffre à 10 puissance 18 (d’où le nom de code du Bull Exascale Program), soit un milliard de milliards d’opération par seconde. Mais l’exascale, outre l’exaflops, c’est aussi l’exabyte, c’est-à-dire une capacité de stockage que personne – à notre connaissance – n’a atteint à ce jour. Ces deux défis majeurs, seul un nombre très restreint de fabricants disposent du savoir-faire pour les relever. C’est le cas de Bull, seul représentant européen dans cette cour des grands, qui promet pour le tout début de la prochaine décennie une machine exaflopique d’ores et déjà baptisée Sequana.

La puissance pure n’est pas le problème

Pour y parvenir, pour répondre à la convergence entre calcul intensif et Big Data, les obstacles techniques ne manquent pas. Concernant l’architecture informatique de la machine, on sait déjà qu’elle sera constituée des prochains serveurs bullx S6000 à très haute capacité mémoire. Ces serveurs clusterisés à base d’accélérateurs MIC ou GPU constitueront une topologie massivement parallèle, avec probablement des mécanismes de redondance matérielle capables d’offrir une tolérance aux pannes en rapport avec la densité électronique du système.

Mais, serait-on tenté de dire, cette dimension-là est finalement la moins complexe à réaliser. Car une fois un tel cluster assemblé, il faut pouvoir le programmer – chose dont on serait incapable aujourd’hui. Des dizaines de laboratoires de par le monde y travaillent, à partir d’approches différentes mais dont l’objectif commun est de proposer à la communauté des paradigmes de développement capables de paralléliser finement les applications. A une telle échelle, c’est l’ensemble de la pile logicielle qui doit être repensée, des couches les plus basses jusqu’aux langages de haut niveau dont l’objectif est de permettre aux scientifiques de formaliser leurs problèmes. Dans ce domaine également, Bull a annoncé une solution. Baptisée bullx Supercomputer Suite, elle bénéficiera de l’expérience de la marque dans le domaine, et des acquis réalisés au Bull Center for Excellence in Parallel Programming.

Oublier certains standards

Quel que soit le paradigme final, on sait qu’il capitalisera sur des bibliothèques existantes telles que MPI (Message Passing Interface) et PGAS (Partitioned Global Address Space). Or, ces composants logiciels dépendent fortement de la rapidité des échanges matériels inter- et intra-nœuds. Pour pallier ce problème, Bull rejoint le petit nombre des industriels ayant décidé de concevoir leur propre interconnect à haute performance. BXI, tel est son nom, sera-t-il 100 % électronique ou partiellement optique ? Il est encore trop tôt pour le dire, mais ses spécifications sont prometteuses : mappage direct aux bibliothèques précitées (ce qui libère le CPU de toute tâche d’ordonnancement), QoS intégrée, routage dynamique et détection d’erreurs de bout en bout… Il n’en faudra pas moins pour tenir les millions de cœurs de Sequana à peine charge.

Enfin, et c’est peut-être là que réside la difficulté aujourd’hui la plus délicate, Sequana devra afficher une efficacité énergétique très supérieure à ce qui se fait de mieux aujourd’hui. Dans la communauté, on considère qu’un calculateur de classe exa, pour être réellement exploitable, ne devra pas consommer plus de 20 MW. Sur les bases technologiques actuelles, on en est encore très très loin. La technologie de refroidissement maison dite DLC pour Direct Liquid Cooling, qui utilise de l’eau à température ambiante et ne nécessite donc pas d’équipements de réfrigération, y contribuera certainement. Mais d’autres technologies de rupture, matérielles et logicielles, devront apparaître d’ici 2020 pour que l’objectif soit tenu.