Verbatim : Dan Stanzione, Acting Director, Texas Advanced Computing Center

By Stéphane Bihan | June 23, 2014

A l’ordre du jour :
• D’un centre informatique local à un centre de calcul de classe mondiale : l’histoire de TACC
• L’ambition de TACC dans le Big Data
• Retours d’expériences sur l’architecture Xeon Phi de Stampede
• Une vision particulière des prochaines machines exascale

Propos recueillis par Stéphane Bihan

M. Stanzione, en une grosse dizaine d’année, TACC a évolué d’un centre de calcul local à un centre de supercalcul de classe internationale. Comment cela a été possible ? Et plus généralement, quelle est l’histoire de TACC ?

TACC a été créé en juin 2001, il y a près de treize ans maintenant. Durant cette période, nous nous sommes évidemment beaucoup développés. Nous avons aujourd’hui dix fois plus de personnel et environ un million de fois plus de puissance de calcul. Le parcours pour parvenir à cette taille n’a évidemment pas été simple mais nous avons eu de la chance, notamment lorsque les agences de financement américaines ont augmenté leurs fonds dédiés au HPC en 2006. Nos pouvoirs publics désiraient investir dans des systèmes de plus grande ampleur…

Il faut savoir que nous sommes financés majoritairement par la National Science Foundation (NSF), qui sponsorise d’ailleurs la plupart des supercalculateurs universitaires. Les opportunités de financement sont plus importantes avec le DoE (Department of Energy) au travers des laboratoires nationaux mais, du côté académique, c’est la NSF qui gouverne. Et donc, en 2006, un vaste programme pour le développement du calcul extrême (Extreme computing) a été lancé. Nous avons participé à ce programme avec une stratégie ambitieuse, avec pour principal objectif de développer le centre. Ce qui nous a notamment propulsés en avant, c’est le financement de notre système Ranger. A partir de notre proposition initiale en 2006, il a fallu moins de deux ans pour le mettre en production. A cette époque, Ranger était le quatrième système le plus puissant au monde, et le plus important dédié à l’Open Science. C’est ce bond en avant qui nous a vraiment positionnés parmi les centres leader. Nous avions la volonté, un plan très agressif (au bon sens du terme) et d’excellents partenaires qui souhaitaient déployer de nouvelles technologies susceptibles de nous donner un avantage pour ainsi dire “compétitif”. Ce travail acharné et cette ambition combinés à une conjoncture favorable et à un peu de chance, c’est ça l’histoire de TACC.

Pourquoi la NSF a-t-elle choisi TACC ?

C’était une procédure d’appels concurrentielle. Notre proposition a été jugée la meilleure pour un certain nombre de raisons, l’une étant que nous avions trouvé les bons partenaires à cette époque en utilisant des processeurs AMD. Sun a également été décisif dans la fourniture de ressources HPC. Nous avons travaillé avec Andy Bechtolsheim pour créer une plateforme réellement nouvelle. Nous avons osé prendre quelques risques, en partenariat avec notre fournisseur, pour mettre au point cette stratégie innovante. Nous souhaitions proposer non seulement de la puissance de calcul mais aussi du support et de la formation. Cette dimension particulière, découlant de notre expérience dans la collaboration avec les utilisateurs, a été déterminante pour le passage de TACC au niveau supérieur.

Après le départ de Jay Boisseau en janvier dernier, vous avez pris le poste de directeur par intérim du TACC. Quelles sont vos ambitions pour le centre ?

Avant de prendre la succession de Jay en janvier dernier, j’ai été son directeur adjoint durant cinq ans. Jay a énormément fait pour développer TACC. Il en a été la force motrice durant les douze années où il l’a dirigé. Grâce à lui, nous sommes aujourd’hui prêts à continuer notre développement dans un certain nombre de directions.

Nous devons tout d’abord affirmer notre position de leader dans le domaine du HPC avec la NSF. Cela commence par l’extension des domaines sur lesquels nous travaillons, avec notamment des activités scientifiques et techniques plus orientées données. Notre prochain système, Wrangler, sera d’ailleurs dimensionné pour les applications data intensive. Nous prévoyons sa mise en production pour janvier 2015, avec comme objectif la possibilité d’intervenir sur des domaines scientifiques plus larges.

Nous cherchons également à diversifier nos collaborations avec d’autres agences de recherche. TACC est ainsi de plus en plus impliqué dans des projets liés aux micro-sciences et à la santé. Dans cette optique, nous nous sommes mis en conformité avec les différents règlements relatifs aux données personnelles en matière de santé. Il a fallu notamment implémenter différents niveaux de gestion des données privées et de l’Open Data scientifique provenant du DoE. Pour résumer, les années qui viennent vont nous permettre de continuer à développer des partenariats avec d’autres agences de recherches et de nouvelles technologies centrées sur le Big Data.

TACC est principalement financé par la NSF alors qu’ORNL, par exemple, est financé par le DoE. Quelles sont les principales différences en termes de mission entre ces deux centres ? S’agit-il essentiellement de sciences différentes ?

Les sciences sont pour partie différentes mais les missions le sont aussi. Le DoE est une agence fédérale spécifique. Il assure plusieurs mandats mais sa mission principale est de sécuriser et d’améliorer les sources d’énergie. Concrètement, il existe deux types d’administrations au sein du DoE, dont une, la NNSA (National Nuclear Security Administration), gère les centres de Los Alamos et de Sandia en plus d’autres laboratoires liés à l’énergie. Bien qu’ils interviennent dans des domaines scientifiques différents, ces laboratoires travaillent essentiellement sur les nouvelles sources d’énergie. D’un autre côté, la NSF a un objectif plus large de développement des sciences, de l’ingénierie et de la technologie. La NSF finance des infrastructures qui soutiennent non seulement ses propres initiatives mais aussi celles d’autres organismes américains dans la santé, la production alimentaire, etc. Nos utilisateurs sont majoritairement issus de la communauté universitaire tandis que les laboratoires du DoE ne fournissent de service qu’aux gens du DoE. La portée de leurs travaux ne dépasse par la mission fixée au DoE.

Cela dit, le DoE s’est beaucoup engagé dans le calcul intensif ces dernières années. Ses installations figurent parmi les plus importantes au monde même si, par vocation, elles ne sont généralement pas “ouvertes”. Ces systèmes supportent les travaux d’une dizaine de groupes d’utilisateurs tandis que nous supportons quelques milliers de groupes d’utilisateurs dans tout le pays et dans le monde entier via nos partenaires. Nous supportons des projets scientifiques ouverts dont les résultats sont rendus publics partout dans le monde.

Pouvez-vous décrire brièvement l’organisation de TACC?

TACC est organisé en huit groupes ou départements : le groupe Advanced Systems gère les opérations courantes et le déploiement de nos infrastructures matérielles ainsi que leur maintenance. Ils sont aidés par le groupe High Performance Computing qui est en charge des applications, de la mise à l’échelle des algorithmes, c’est-à-dire de problématiques du type “comment adapter un code pour l’exécuter sur 500 000 cœurs de processeurs ?” ou “comment adapter un code pour l’exécuter sur Xeon Phi ?”. Les personnes de ce groupe sont pour la plupart soit des docteurs, soit des ingénieurs en informatique. Nous avons également un groupe Visualization qui se focalise sur les données que nous produisons, c’est-à-dire comment les visualiser, comment les interpréter d’un point de vue à la fois scientifique mais aussi grand public. Ils étudient également les interfaces homme-machine, la façon dont on interagit avec les données. Au-delà des applications, nous avons aussi un groupe Advanced Computing Interfaces qui s’intéresse aux portails Web, aux API et aux interfaces de programmation, notamment celles qui permettent aux utilisateurs de s’affranchir des lignes de commande dans l’utilisation des systèmes HPC. Voilà nos quatre départements technologiques.

D’autre part, compte tenu de l’importance croissante des projets liés aux sciences de la vie – domaine qui utilise le calcul de façons différentes et n’a pas notre tradition de codes C++ ou FORTRAN – nous avons créé le groupe Life Sciences Computing, qui se concentre exclusivement sur ces nouveaux utilisateurs et sur leurs méthodologies. Ce groupe maintient un large parc d’applications dans les domaines de la phylogénétique, de la chimie informatique, de la génomique, de la génétique et de la bio-informatique. Ensuite, le département User Services est en charge des formations aux utilisateurs, de l’allocation des ressources, de l’éducation et de la gestion de projets. Enfin, les Operations and Administration Centers couvrent pratiquement tout le reste.

<1 2 3 >

Navigation