Verbatim : Jack Wells, Director of Science – Oak Ridge LCF
By   |  February 12, 2014

Selon vous, en quoi Titan contribue-t-il à l’innovation et à la compétitivité des Etats-Unis ?

Notre programme d’accès à Titan contribue d’une manière certaine à l’innovation et à la compétitivité nationale. Notre centre et nos équipements jouent un peu le rôle d’aimant pour les talents scientifiques, mathématiques et informatiques du monde entier. Nous pensons qu’attirer ces personnes remarquables au sein de notre laboratoire contribue à la compétitivité du pays. Ce talent est clairement à la base de toute innovation majeure.

Cette expertise de niveau mondial combinée à des calculateurs très puissants motive aussi des projets de recherche ambitieux. Elle attire à nous les défis scientifiques et les problèmes d’ingénierie les plus importants. Cette excellence est indubitablement bénéfique à notre développement national.

Le supercalculateur chinois Tianhe-2 a conservé sa première place au dernier Top500. Comment voyez-vous évoluer la compétition entre la Chine et les Etats-Unis au cours des cinq prochaines années ? Diriez-vous à ce propos que l’émulation est une bonne chose ?

C’est la stratégie de notre centre, affirmée par la mission du programme d’équipement du DoE, que de rester leader mondial dans les sciences et l’ingénierie informatiques. C’est notre axe de développement depuis plus de vingt ans et nos équipes sont totalement engagées à ce que cela soit encore le cas demain. Mais soyons clairs : figurer en haut du Top500 reflète le fait que nous avons effectivement pu fournir à nos utilisateurs un calculateur d’une certaine puissance, une puissance en rapport avec nos objectifs scientifiques. C’est une mesure du succès de notre mission, mais ce n’est la mesure ultime. Cela étant, l’intérêt que suscitent les classements nous donne, à nous et aux centres de calcul du monde entier, l’opportunité de communiquer sur l’impact de nos travaux. Les gens sont intéressés par ce que nous faisons sur cette complexe et fascinante machine, et le Top500 nous permet de faire passer le message.

D’un autre côté, les centres de calcul chinois ont fait des progrès considérables, comme en atteste le fait que Tianhe-2 occupe toujours la première place du Top500. Il est clair pour moi que nos amis chinois ont de réelles ambitions de leadership en calcul intensif. Je m’attends donc à de nombreuses réussites de leur part en science et en ingénierie. Et c’est tant mieux car cette compétition est en soi très constructive, ne serait-ce que parce qu’elle permet de jauger les progrès que nous accomplissons respectivement.

Chacun l’a bien compris et, de ce fait, il faut souhaiter plus de coopération entre les nations les plus actives, en particulier dans les sciences appliquées. Prenez par exemple le projet ITER, dont la Chine, les Etats-Unis et d’autres pays sont pleinement partenaires. C’est une entreprise considérable. La collaboration d’ingénieurs et de physiciens en plasma du monde entier est indispensable pour que soient résolus les différents défis opérationnels sur site et que soient formalisés les phénomènes observés. Et justement, des équipes internationales spécialisées en fusion nucléaire utilisent à la fois Titan et le calculateur chinois. C’est tout à fait sain de voir que les mêmes types de problèmes sont simulés sur différentes machines, c’est porteur de nombreux enseignements, à la fois sur les codes et sur les problèmes scientifiques étudiés. Vous savez, nous avons une certaine vision sur l’importance de la dimension informatique. Nous pensons qu’exceller dans ce domaine signifie exceller scientifiquement. Aujourd’hui, la Chine partage cette vision et, personnellement, je ne peux que m’en réjouir.

La puissance de Tianhe-2 représente environ deux fois celle de Titan en termes de performance brute. A votre avis, qui atteindra l’exascale le premier – de façon durable ? Et voyez-vous cela arriver en 2020 ?

Etant donné le volontarisme des Chinois et leur position dans le Top500, je pense qu’ils sont en bonne position pour parvenir les premiers à l’exascale. Et de façon pragmatique, oui, je pense que cela peut arriver dès 2020. Cela étant dit, il reste encore pas mal de problèmes à résoudre et, outre le travail, atteindre cet objectif dépendra des investissements qu’on lui accorde.

OLCF-4, le prochain système pré-exascale de l’ORNL, cible 100 à 200 Pflops. Quels défis matériels et logiciels allez-vous devoir résoudre pour ce projet ?

Il y a deux défis très importants dans le projet OLCF-4. Le premier est la taille du système avec le nombre de cœurs de calcul à gérer et le parallélisme extrême qui doit être identifié et explicité dans nos codes. Ce sont typiquement les mêmes défis matériels et logiciels que ceux que nous avons eu à relever pour Titan – mais en plus importants. Le deuxième défi concerne la résilience du système : comment, avec un tel nombre de composants, concevoir un système qui résiste aux défaillances matérielles ?

Ce système aura-t-il lui aussi une architecture hybride à base de GPU ?

C’est une des grandes questions du projet et nous y réfléchissons beaucoup. Mais je ne peux rien vous dire de concret pour l’instant dans la mesure où ces décisions d’architecture ne seront prises qu’au courant de cette année.

Va-t-il s’agir, comme pour Titan, d’une mise à niveau ou allez-vous construire un tout nouveau système ?

OLCF-4 sera une toute nouvelle machine. Nous sommes arrivés au bout du chemin avec les infrastructures Jaguar et Titan. Nous disposons d’une toute nouvelle salle pour préparer et monter OLCF-4 pendant que nous continuerons d’opérer Titan. Il s’agit donc d’un appel d’offre ouvert à la concurrence.

OLCF-4 sera-t-il comme OLCF-3 un projet sur le long terme ? Allez-vous conserver les même fournisseurs pour les projets OLCF-4 et OLCF-5 ?

C’est notre souhait. Notre intention est de mettre en place un nouveau partenariat, à long terme, qui aura pour avantage d’assurer à nos utilisateurs une certaine cohérence face à l’imminence de changements technologiques très importants. Certains aspects de Titan restent aujourd’hui tout à fait cohérents avec les architectures dont nous disposions il y a dix ans. Mais les conditions technologiques sont maintenant réunies pour que de nouvelles tendances technologiques s’affirment durablement. Le paysage HPC a tellement évolué ces dernières années. Il faut s’attendre à des jours nouveaux…

Restons un instant sur ce sujet. Difficile de dire comment l’architecture des processeurs va évoluer à moyen terme, d’identifier les tendances les plus susceptibles de prendre le dessus. Quelle est votre vision sur cette question très polémique ? Et comment anticipez-vous cette évolution au regard de la portabilité des applications ?

Il est certain que de vraies incertitudes demeurent quant aux détails des futures architectures processeurs, notamment au vu des développements matériels actuels, mais certaines tendances subsisteront probablement. Je pense notamment que la complexité des nœuds en termes d’hétérogénéité va croître plus rapidement que le nombre de nœuds dans les machines. En ce qui concerne le logiciel, le préalable à tout développement – au sens large – est d’identifier explicitement tous les niveaux de parallélisme disponibles dans nos algorithmes. C’est à cette seule condition que nous pourrons les projeter de façon adéquate sur les architectures matérielles dont nous disposerons.

Pensez-vous possible d’accroître encore le niveau de parallélisme des applications ?

C’est une question que nous avons posée à de nombreux utilisateurs pour préparer notre dernier rapport sur les requis applicatifs. Dans le contexte d’une machine de 100 à 200 Pflops, où est le parallélisme, comment l’exprimer, et pour résoudre quels problèmes ? La majorité des scientifiques interrogés, pas tous, a répondu qu’un certain nombre de niveaux de parallélisme restait à exprimer dans les codes. C’est donc un résultat encourageant. Mais ce n’est qu’après avoir défini une architecture matérielle cible que l’on peut se concentrer sur la projection du parallélisme logiciel.

L’efficacité énergétique est un des principaux obstacles sur la voie du passage à l’échelle. Considérez-vous que la programmabilité de millions de cœurs – quelle que soit leur nature – soit un défi d’égale importance ?

Si l’efficacité énergétique est avant tout un problème de conception matérielle, elle a aussi des conséquences significatives sur la programmation des machines. L’un des éléments clés dans la conception logicielle de demain concerne le placement des données, parce que c’est leur déplacement qui coûte le plus cher en énergie. Aujourd’hui, calculer est quasiment gratuit, dès lors que les données sont dans les registres ; en soi, le processus de calcul est somme toute assez efficace énergétiquement. Autrefois, on tenait compte du placement des données pour des questions de performances ; aujourd’hui, on doit le faire aussi pour des questions de consommation électrique. Concevoir et utiliser des systèmes comprenant des millions de cœurs est donc en grande partie un problème d’économie des données, plus peut-être que de programmabilité au sens strict.

Pensez-vous que les calculateurs passeront à l’échelle à partir des technologies actuelles ou envisagez-vous des ruptures technologiques majeures ? Si oui, lesquelles ?

Cela dépend de ce que vous entendez par “ruptures technologiques majeures”. Il est clair qu’il reste pas mal de travail à faire, en recherche et en ingénierie, pour passer la consommation électrique à l’échelle et résoudre les problèmes de résilience et de programmabilité. Mais en même temps, les technologies actuelles suffisent pour construire des systèmes pré-exaflopique préfigurant l’exascale. Prenez le projet OLCF-4 que nous avons évoqué : nous n’aurons besoin d’aucune rupture technologique majeure pour livrer la machine en 2017…

Navigation

<123>

© HPC Today 2024 - All rights reserved.

Thank you for reading HPC Today.

Express poll

Do you use multi-screen
visualization technologies?

Industry news

Brands / Products index