HPC Today | Verbatim : Cédric Oehmichen

Verbatim : Cédric Oehmichen – AMD Europe

By Frédéric Milliot | March 01, 2013

Rendez-vous avec Cedric Oemichen,
Responsable de la distribution AMD FirePro pour l’Europe

Propos recueillis par Frédéric MILLIOT

HPC Today : 2012 a été une année faste pour AMD dans le domaine HPC, avec notamment la mise en service de SANAM, n°2 du Green500 et de Titan, n° 1 du Top500, qui fait notre couverture. Quel a été la valeur ajoutée d’AMD dans ces deux projets ?

Cédric Oehmichen : Pour SANAM, nos nouveaux accélérateurs GPU S10000 offraient au client le meilleur ratio performance / Watt. Ils garantissaient également la plus haute densité serveur puisqu’ils sont bi-GPU. De plus, le client avait déjà fait le choix d’OpenCL pour ses applicatifs, de sorte que le déploiement du calculateur n’impliquait pas – ou très très peu – de portage. Pour Titan, le choix des CPU AMD s’est fait principalement sur des questions de coût. Avec dans les deux cas une collaboration très étroite entre nos ingénieurs et ceux des projets concernés, bien avant les phases de démarrage technique. Cette proximité, très appréciée par nos clients, est un élément déterminant de notre valeur ajoutée.

Selon vous, pourquoi dans ces deux cas les architectes n’ont pas privilégié une solution AMD de bout en bout – CPUs + GPUs ?

Concernant SANAM, au moment du choix des CPU, les serveurs AMD étaient encore en phase de validation technique. Concernant Titan, le client souhaitait pouvoir exécuter ses codes sources propriétaires CUDA. Cela dit, la question est pertinente. En fait, le succès de ces deux projets devrait déboucher prochainement sur le déploiement de grosses solutions « full-AMD ». Ces affaires étant en cours de négociation, vous comprendrez que je ne cite pas de noms…

La nouvelle famille d’accélérateurs AMD FirePro S10000 est segmentée en deux gammes : Server et Workstation. Quelles sont leurs différences ?

Deux différences majeures. D’une part, la version serveur est refroidie passivement, tandis que la version station de travail dispose de ventilateurs. D’autre part, la version serveur dispose d’une seule sortie graphique, sur laquelle on peut connecter jusqu’à six affichages DisplayPort 1.2. Sur les versions Workstation, on dispose de 6 sorties physiques mini-DP, grâce auxquelles on monte à des résolutions de 16K x 16K. Pour le client, le bénéfice est considérable, d’autant qu’avec notre technologie EyeFinity, l’OS ne voit qu’un seul écran. Dois-je rappeler que chez NVIDIA, par exemple, il faut deux cartes pour bénéficier de l’accélération GPU et de la visualisation multi-moniteurs ?

AMD insiste beaucoup sur le fait que S10000 bénéficie de l’architecture Graphics Core Next (GCN). En quoi cette architecture est-elle si innovante ?

Avec GCN, l’innovation est partout. A commencer par l’amélioration très significative de l’efficacité énergétique. Les S10000, bi-GPU, offrent un TDP de 187,5 W / GPU, de très loin le meilleur du marché. De plus, elles se mettent en veille quasi-complètement lorsqu’elles ne sont pas sollicitées, avec une consommation inférieure à 5 % du mode normal. Côté performances, outre le chiffre record de 3,94 Gflops par Watt (1,48 Tflops au total), elles peuvent s’overclocker ponctuellement si l’application le nécessite, de façon automatique ou programmée (c’est alors le développeur qui contrôle). Je précise également qu’elles sont compatibles PCIe 3.0, ce qui signifie des taux de transfert de 8 GT/s au lieu des 5 GT/s de PCIe 2.0. Mais le plus déterminant, concernant GCN, c’est la possibilité offerte à l’utilisateur de lancer deux tâches de calcul et une tâche de visualisation simultanément. Sans perte de puissance. Quelle que soit l’application, le driver optimise le rendement des unités scalaires et vectorielles qui travaillent en parallèle. Comme je vous le disais, chez NVIDIA, il faut au minimum deux cartes pour faire la même chose (et encore, en mono-GPU), avec la complexité et le coût que cela induit… C’est assez emblématique de la grande différence entre NVIDIA et AMD, la même différence qu’il existe entre faire savoir et savoir-faire…

Justement, restons sur NVIDIA. Votre concurrent a depuis longtemps choisi d’exposer une API – CUDA – permettant l’optimisation des codes sources pour ses propres accélérateurs. Ce choix stratégique ne semble pas avoir été le vôtre. Pourquoi ?

Parce qu’AMD a toujours fait le choix de solutions non propriétaires. En l’occurrence, celui d’OpenCL, qui émane d’un consortium mondial regroupant les plus grands acteurs du matériel et du logiciel. OpenCL est une technologie ouverte mais elle est également très flexible. En cas de changement d’infrastructure, l’effort de portage se réduit au strict minimum puisque les routines de calcul peuvent être envoyées soit vers le CPU, soit vers le GPU. Avec CUDA, c’est GPU NVIDIA, un point c’est tout.

Une des grandes tendances de SC12 était le «low-power HPC» : Samsung avec son SoC Exynos 5 (choisi pour le projet Européen Mont-Blanc), Ti avec ses DSP multicores… Quelle est aujourd’hui la stratégie d’AMD dans ce domaine ?

Notre stratégie est d’offrir de la valeur ajoutée dans tous les segments de marché où nous sommes présents. Pour le HPC classique, notre valeur ajoutée, c’est l’architecture GCN, qu’on vient d’évoquer. Pour le « low-power HPC », ce seront des APU [NDLR : processeurs intégrant CPU et GPU] multi-cœurs combinant GPU GCN et CPU ARM-64 ou x86-64. Souvenez-vous, il y a quelques années, de l’acquisition d’ATI par AMD. Cette opération fait de nous le seul fondeur au monde à maîtriser les deux univers. Concentrer CPU et GPU dans même chipset, c’est éviter le goulet d’étranglement du fond de panier. Les échanges se limitant aux aller-retours entre APU et mémoire système, les latences de transport sont évitées.

Cette tendance, ainsi que l’arrivée prochaine de serveurs ATOM, confirment-elles que les différences entre processeurs classiques et mobiles s’estompent ?

Effectivement, elles tendent à s’estomper, ce qui va ouvrir la porte à une offre plus large et plus universelle. Par ailleurs, le power range va changer, notamment pour le HPC qui demande toujours plus de performances par Watt. Là encore, tout indique que l’APU sera la voie. En tous cas, l’industrie s’en rapproche progressivement. C’est ce que nous disions tout à l’heure : aujourd’hui, les accélérateurs AMD réunissent les fonctions de calcul et d’affichage ; demain, CPU et accélérateur GPU seront intégrés dans un module unique, bien moins coûteux qu’une solution duelle. On pourra donc en embarquer de plus en plus dans des systèmes qui offriront, à consommation d’énergie moindre, des champs d’application beaucoup plus larges.

A quel horizon voyez-vous leur unification ?

2014-2015. Pour nous, la première étape vers l’APU serveur, ce sont nos APU Workstation.

A côté des processeurs de calcul, la communauté HPC demande de plus en plus ouvertement des « data processors » dédiés à l’accélération du traitement des données. Comment percevez-vous cette attente et comment AMD compte-t-elle y réagir ?

Cette demande a du sens. Elle traduit un besoin d’efficacité que la seule optimisation des calculs ne comble pas totalement. Vous l’avez compris, je pense, la vision d’AMD est l’avènement des APU multi-cœurs et multi-usages, sachant que la présence d’un GPU dans l’APU permet de paralléliser massivement tout ce qui peut l’être. Mais on travaille aussi sur d’autres pistes, complémentaires de l’approche APU, pour améliorer plus spécifiquement le traitement des gros volumes de données notamment HPC. Ces projets stratégiques, qui ne passent pas nécessairement par un processeur dédié, AMD les dévoilera cette année. Avec pour objectif l’accélération du data processing dans une fourchette allant de 200 à 500 % !

Autre grand sujet de buzz, le HPC en mode Cloud. Quel avenir concret lui prédisez-vous compte tenu du problème de la sécurité des données hors périmètre interne de l’entreprise ?

Pour nous, le HPC en mode cloud a un bel avenir devant lui. Concernant la sécurisation des données, les solutions concrètes existent. Un cloud privé, passant par un VPN ou mieux encore un LAN ou un WAN privé, permet d’étanchéifier complètement les échanges. Avec au final les avantages évidents du cloud que sont la mutualisation des calculs, la protection du stockage, etc.

Et pour ce qui est de la difficulté à trouver un modèle de tarification pour la location des applications ?

Sur ce point, AMD a la solution. Nous sommes d’ailleurs les seuls, à mon humble avis. Pour bien comprendre, il faut voir le HPC en mode cloud comme une plateforme de visualisation déportée. Nous avons un cluster de démonstration, à Colombes, sur lequel on peut faire tourner des modèles Catia avec des millions de polygones depuis tout type de terminal, jusqu’à un simple iPhone. Rendez-vous compte, un téléphone ! Cette solution démontre que tout ce qui peut être réalisé sur une station professionnelle, AMD l’offre en VDI (Virtual Desktop Infrastructure). Sans contrainte de dimensionnement ni de performance, ce qui n’est pas le cas de nos concurrents. Bref. Conséquence de cela, le poste client, dans un contexte HPC cloud, n’a plus d’importance. Un ingénieur peut passer par un « client zéro » (PC standard, notebook, tablette…) pour lancer des calculs massivement parallèles et continuer à travailler en même temps – sans plantages, sans downtime. Même les débits réseau n’ont plus besoin d’être top. Là où il fallait auparavant des liaisons à 2 Mo par client, des cartes graphiques comme notre RG220, qui intègrent des ports Ethernet avec compression hard à la volée, réduisent considérablement les pré-requis en bande passante. D’où une nouvelle approche, sur laquelle AMD France s’est beaucoup impliquée, celle du WaaS (Workstation as a Service). Le WaaS, c’est une équation simple : 1 GPU = 1 VM = 1 licence. Ce qui résout, entre autres, le problème de la tarification des applications louées que vous évoquiez.

OK, admettons que je sois séduit par le WaaS. Puis-je en profiter immédiatement ?

Oui, cette solution est non seulement universelle mais elle est disponible tout de suite. Nous avons créé un écosystème – incluant Dell et Carri Systems pour le matériel, Néo Télécoms pour l’hébergement – grâce auquel on sait fournir clé en main une plateforme non propriétaire à un coût très intéressant. Pour la dimensionner, il nous suffit de connaître le temps / homme dont le client a besoin. Par exemple, 25 VM pour un effectif de 40 ingénieurs.

A SC12, une rumeur entre beaucoup d’autres laissait entendre qu’AMD pourrait faire l’objet d’un rachat. Parmi les noms cités, celui de Qualcomm revenait souvent. Info ou intox ?

(Rires) Intox, clairement. AMD a évidemment communiqué là-dessus, en rappelant qu’elle n’est pas à vendre, ni dans sa globalité, ni par appartements. Vous savez, ce sont des choses que l’on entend régulièrement, à propos d’AMD comme de beaucoup d’autres acteurs de l’industrie, et que l’on entendra encore longtemps…