Verbatim : Jack Wells, Director of Science – Oak Ridge LCF
By   |  February 12, 2014

Comment est organisé le support de Titan en termes d’expertise et d’outils logiciels ?

D’abord, nous avons le Scientific Computing Group, une équipe d’informaticiens de haut niveau qui travaillent en collaboration avec les scientifiques pour leur apporter toutes les connaissances requises sur l’architecture de Titan en rapport avec la discipline concernée. Les expertises dont nous parlons couvrent un large éventail de domaines tels que l’astrophysique, la biophysique, le nucléaire, la chimie, la climatologie, les sciences de la matière, les mathématiques, la visualisation, etc. Ce modèle d’organisation, créé dès la mise en place de nos installations il y a dix ans, commence à se généraliser dans les centres de calcul aux Etats-Unis. Si nous voulons que nos utilisateurs puissent tirer le maximum de la complexité de nos machines, nous nous devons de leur offrir ce type de support avancé.

Nous avons aussi un autre groupe – User Assistance and Outreach – qui prend en charge un panel de tâches plus communes : création de comptes utilisateurs, gestion du support de premier niveau, tri des requêtes, création des pages Internet et de portails, création et animation des formations (introduction au calcul intensif, aux accélérateurs, etc.), à quoi s’ajoutent toutes les tâches de communication et de sensibilisation. Et, cela va sans dire, les deux groupes travaillent main dans la main.

Pour ce qui est de l’aspect logiciel, OLCF essaye d’offrir à ses utilisateurs l’environnement le plus complet possible, que les outils soient disponibles en open source ou qu’ils soient propriétaires. Dans ce dernier cas, nous travaillons étroitement avec les éditeurs pour garantir à chacun un niveau de support approprié aux spécificités de Titan et à l’échelle des jobs qui lui sont confiés.

Plus globalement, nous avons aussi un groupe dédié aux outils et environnements de programmation, dont le périmètre couvre l’ensemble de nos installations, et un groupe de recherche avancées en sciences informatiques qui appartient à la division Computer Science and Mathematics. Les membres de ces groupes participent activement aux standards OpenACC, OpenMP et MPI, pour les faire avancer et pousser leurs implémentations à répondre aux besoins de nos utilisateurs. Nous travaillons par exemple sur l’amélioration des algorithmes de communications collectées, sur la résilience aux pannes électriques dans MPI et sur d’autres techniques qui permettent de faciliter le portage de nos codes sur les nouvelles plateformes comme Titan et les suivantes.

 

Enfin, dans le cadre du budget de Titan, nous avons des partenariats avec plusieurs éditeurs clés pour le développement d’outils logiciels capables de travailler à son échelle et de tirer le maximum de sa nature hétérogène. C’est le cas notamment d’Allinea pour le débogueur DDT, de l’Université Technique de Dresde pour la suite de traçage et de profilage Vampir, et plus récemment de CAPS Entreprise pour les compilateurs OpenACC.

Quatre des six finalistes au prix Gordon Bell de SC13 ont utilisé Titan pour réaliser leurs simulations. Pouvez-vous nous présenter une ou deux avancées scientifiques rendues possibles par l’utilisation de Titan ?

Excellente question car, au final, ce qui compte c’est ce que nous faisons avec cette machine… Et donc, il y a ce premier papier sur la supraconductivité présenté par une équipe helvético-américaine, Peter Staar de l’ETH Zurich, Thomas Maier and Thomas Schulthess de l’ORNL. Du point de vue scientifique, l’équipe a résolu de manière totalement convergente l’hypermodèle simple bande bidimensionnel. Ils ont pu démontrer que ce modèle reproduisait correctement le diagramme de phase de la supraconductivité à haute température des cuprates, ces supraconducteurs contenant du cuivre. Ces modèles furent proposés pour les supraconducteurs High-Tc dès 1987, soit un an après leur découverte, et des milliers de papiers ont été écrits sur ce sujet depuis. Pour réussir à faire converger une solution, ils ont utilisé un nouvel algorithme numérique extrêmement efficace, et qui s’est révélé passer parfaitement à l’échelle sur Titan. Par rapport à une machine contenant uniquement des CPU comme le Cray XE6, la solution est atteinte en six fois moins de temps et avec une dépense énergétique environ sept fois moindre. C’est pour nous une réussite remarquable d’autant qu’il restait de la puissance disponible, les calculs n’ayant mobilisé que 15 Pflops.

La deuxième recherche que je voudrais citer est un projet dirigé par Masako Yamada, chercheuse chez General Electric (GE) Global Research. GE réalise des études pour comprendre comment les gouttes d’eau gèlent sur la surface des lames des éoliennes placées en conditions climatiques difficiles. Dans ce cadre, l’objectif de Mme Yamada était d’identifier les mécanismes moléculaires qui déterminent le gel de ces gouttes d’eau. En collaboration avec Mike Brown [Ndlr : de l’ORNL], elle a pu réaliser une série de simulations de dynamique moléculaire en faisant varier différents paramètres du phénomène. Ces simulations, les plus importantes et les plus longues jamais réalisées, ont pu reproduire avec succès les résultats expérimentaux. GE utilise maintenant ces simulations, sur Titan, pour apporter des solutions concrètes au problème. Pour ce travail, Masako Yamada a reçu un IDC HPC Innovation Award.

ORNL tisse d’importants partenariats avec l’industrie (Boeing, Ford, etc.). Combien de ressources et de temps de calcul sur Titan ces programmes mobilisent-ils ?

Notre programme de partenariat industriel n’assigne pas spécifiquement de temps de calcul aux projets industriels. Nous nous efforçons de veiller à ce qu’ils bénéficient des meilleures conditions d’accès possibles à la machine en fonction de leurs besoins. Ces conditions d’accès découlent de trois programmes – les mêmes que ceux qui régissent nos partenariats avec les autres universités et laboratoires.

Le premier de ces programmes, INCITE (Innovative and Novel Computational Impact on Theory and Experiment), est géré en coopération avec Argonne. Il représente 60 % du temps alloué sur Titan. Le second programme, ALCC (ASCR Leadership Computing Challenge), est géré par notre sponsor à Washington. Il représente 30 % du temps de calcul. Les 10 % restant sont alloués via le Director’s Discretionary Program que nous gérons en interne. C’est d’ailleurs moi-même, pour ne rien vous cacher, qui en préside le comité exécutif. INCITE et ALCC lancent des appels à projets tous les ans pour des travaux qui démarrent en janvier et en juillet respectivement. Notre programme interne, quant à lui, accepte des projets tout au long de l’année.

Ce programme interne – dont des équivalents existent aujourd’hui dans nombre de centres de calcul internationaux – remplit trois missions. D’abord, il permet aux candidats des programmes INCITE et ALCC d’obtenir des résultats préliminaires afin de mieux candidater (ces deux programmes sont très disputés, ils sont généralement deux à trois fois sursouscrits). Il est également conçu pour initier les académiques et les industriels à l’utilisation de nos ressources. Enfin, il nous sert à gérer un certain nombre de priorités internes. Dans tous les cas, pour l’accès aux capacités de calcul du centre, nos propres chercheurs sont sur un pied d’égalité par rapport aux autres scientifiques – qu’ils soient américains ou non. Je tenais à le préciser !

Navigation

<123>

© HPC Today 2024 - All rights reserved.

Thank you for reading HPC Today.

Express poll

Do you use multi-screen
visualization technologies?

Industry news

Brands / Products index