INTERVIEW: Laurent Ridoux, Vice-président en charge du Big Data chez HP France

By The Editorial Team | November 09, 2015

Laurent Ridoux, Vice-président en charge du Big Data chez HP France

HPC Review : Selon vous, quelle est la réalité du Big Data en France et dans le monde? Et quelles sont les grandes tendances que vous avez identifiées?

Laurent Ridoux: On fait aujourd’hui face à la problématique de l’augmentation nette de la volumétrie des données, et on commence à voir beaucoup de cas d’usage où des clients exploitent des masses d’informations très importantes. Mais ce n’est pas la majorité des cas. La réalité, c’est plutôt de comprendre comment on est capable de faire des usages analytiques des données à disposition, des usages plus poussés pour un coût qui est acceptable, rentable. Il y a une vraie réalité de ce marché en dehors de la France : on a de plus en plus de cas d’usage qui sont en train d’émerger, tous secteurs métier confondus, dans le retail, dans la santé, dans les processus industriels, dans les objets connectés… Manifestement, le monde anglo-saxon a deux bonnes années d’avance sur nous. Traditionnellement, ils ont toujours une telle avance, mais là, en plus, ils ont beaucoup moins de scrupules à utiliser les données. Certes, il y a les grands acteurs du type de Google ou Facebook mais, au-delà de ça, il n’y a pas du tout les mêmes freins en termes de protection des données. Quand je regarde les clients français, il y a clairement une vraie frilosité à utiliser potentiellement cette donnée compte tenu du cadre réglementaire. Cela constitue un frein au développement des cas d’usage sur le marché français. Nous voilà en quelque sorte dans la troisième vague. Si l’on regarde ce que les clients nous demandaient il y a deux ou trois ans seulement, on s’adressait aux directions informatiques, et la question était « expliquez-nous ce que ça fait, comment ça marche, ce que ça apporte… », « Qu’est-ce que c’est qu’une assistance parallèle? Qu’est-ce que Hadoop ? Qu’est-ce que le « in-memory », les bases verticales ? Pourquoi c’est plus puissant, plus rapide ? Démontrez-nous que, techniquement, ça a un sens et que ce sont des, technologies fiables… » Quand ils ont été convaincus, il a fallu montrer à quoi servaient concrètement les technologies. « Venez nous aider à trouver et à vendre des use cases à nos clients qui sont les directions métier », nous demandait-on. Au départ, on évangélisait les directions IT ; par la suite, on évangélisait plutôt les directions métier. Un immense marché en a émergé. « Puisqu’on a été convaincus de cette technologie, nous disaient les clients, on va songer à faire évoluer notre Business Intelligence (BI) traditionnel vers ces outils. On va entamer de gros projets de migration, on va s’équiper de plates-formes Big Data, avec de l’analyse plus performante, pour améliorer la performance de certaines parties de nos plates-formes BI. » Dans certains cas, il s’agissait de commencer à mettre en place une plate-forme avec pour objectif de baisser lescoûts d’exploitation d’une BI tout en améliorant ses performances. Cette attitude a constitué l’essentiel du marché. Et puis, on a eu quelques « early adopters » qui ont investi sur des clusters Big Data. Ce qui a émergé notamment, c’est l’appétence de voir ce qu’il était possible avec Hadoop, ainsi qu’en matière de stockage et de plate-forme de base pour servir des outils de virtualisation ou les alimenter au niveau de l’analytique. Quelques grands comptes ont lancé des programmes analytiques sur des clusters Hadoop.

HPCR: Mener un projet Big Data, c’est réfléchir en amont aux problématiques de stockage, de traitement et d’analyse des données. Quelle est l’offre actuelle? Quels sont les usages typiques?

LR: En 2014, on observe les premiers grands cas d’usage. Pour la première fois, les directions métier ont réfléchi à la manière dont elles pouvaient exploiter cette technologie. La santé ou l’automobile, par exemple, ont des cas d’usage où la donnée est embarquée dans l’offre de l’entreprise vers le client final, plutôt axé grande consommation. Ces secteurs voient dans quelle mesure on peut utiliser cette donnée pour amener un service au client. La voiture connectée, par exemple, est un domaine encore très jeune. Typiquement, un constructeur récupère toutes les informations liées au fonctionnement d’un modèle de voiture pour proposer de la maintenance à son client. Selon sa façon de conduire, il lui propose des interventions dans son réseau de concessionnaires. C’est purement dans l’intérêt du client automobile, le constructeur comprend mieux l’usage du propriétaire de la voiture. Ensuite, il peut marketer le tarif d’entretien de son véhicule afin de le pousser à se rendre dans un réseau concessionnaire plutôt qu’un réseau indépendant. On va réfléchir dans le même laps de temps à ce qu’on peut proposer au client avec les données que l’on collecte. Peut-on remonter au constructeur des informations sur sa façon de conduire ? Peut-on lui remonter des conseils sur la façon dont il pourrait gagner du temps sur des trajets ou diminuer sa consommation. Et peut-on transformer ça sous forme de jeu ? Il y a un cadre qui commence à émerger, c’est la « gamification ». On va chercher à créer des communautés, régionales par exemple, afin de dire aux clients que « dans la région, ils se situent à tel niveau ; vous êtes moyen sur la consommation, mais vous aller jouer à vous améliorer sur certains critères ». On peut également proposer des cadeaux ou des bonus en fonction de la façon de conduire. Sur le secteur des médicaments, on cherche à adapter le traitement en fonction de vos caractéristiques et de vos données biométriques. Plutôt que de vous faire prendre un traitement massif, qui a nécessairement des conséquences collatérales, on cible mieux la prise de traitement en fonction de données que l’on exploite. On cible le traitement par rapport à des données que l’on capte précisément sur vous. Par ailleurs, on agrège l’ensemble de ces données, entre tous les traitements, à titre individuel ou de façon clinique en hôpital, pour sortir un analytique et essayer de comprendre pourquoi le traitement est plus efficace selon certains types de population ou selon une certain façon de le prendre. Plutôt que de se poser la question de savoir comment vendre un produit, on entre dans une forme de relation de « partenariat » avec son client. On lui demande de nous décrire son projet d’achat, et avec les limites de son budget, on lui propose différents profils de consommation. On pousse le produit qu’il achète, ou à partir des articles qu’il achète, on lui explique comment il se situe par rapport au profil qu’il s’est fixé. On est dans la vente de nouveaux services. L’autre aspect est l’amélioration des processus internes. Pour les applications industrielles, à partir des données compulsées par les équipements industriels, quels usages puis-je en faire ? Comment améliorer ma qualité de fabrication, comment mieux anticiper les pannes ? Dans quelle mesure puis-je exploiter ces données pour faire baisser le coût d’intervention et le coût de maintenance ?

Au niveau du marketing, on vit pleinement de plate-forme digitale marketing. On avait déjà le CRM qui regroupait le canal force de vente, le canal call center, le canal Web. On avait déjà les canaux sur les réseaux de distributeurs, avec les concessions en automobile ou les points de vente dans les réseaux. Et un nouveau canal est apparu : les réseaux sociaux. Par ailleurs, un nouveau device a changé la donne : les mobiles. Ceux-ci fournissent une nouvelle source d’informations, qu’on ne savait pas intégrer et exploiter jusqu’à présent. Tout l’enjeu est d’intégrer ces canaux d’informations dans une plate-forme marketing, pour mieux servir et comprendre ses clients, pour mieux les classer en termes de population et, derrière, pour mieux classer ses campagnes marketing ou ses campagnes de contact vers le client, quel que soit le média. Le média Web et le média réseau social ont un intérêt par ailleurs : mesurer assez rapidement l’efficacité de la campagne. Dans le cas du parcours de pages Web, on peut voir immédiatement l’efficacité du suivi, selon les objectifs que l’on associe à la campagne Web (la vente, le clic, la prise de rendez-vous, la configuration de produits, les services…), en mesurant l’efficacité des pages. Et donc, en bout de chaîne, comprendre pourquoi ça a été efficace ou pas, et par conséquent, améliorer ce parcours. Si on est sur les réseaux sociaux, on peut, quasiment en temps réel, mesurer le sentiment sur les actions que l’on fait avec ces réseaux. En ça, ils sont intéressants : on a une boucle de retour que l’on peut exploiter pour améliorer le contact. Il y a tous ces cas d’usages.

HPCR: Comment l’offre HP s’adresse à tous ces cas d’usage?

LR: On a agrégé et intégré notre approche Big Data autour d’une plate-forme, un framework, qui s’appelle HAVEn. H pour Hadoop, A pour Autonomy, V pour Vertica, E pour Enterprise Security et n pour toutes déclinaisons que l’on peut faire. Cette plate-forme n’a pas vocation obligatoirement à être délivrée de façon intégrée. On peut prendre de façon séparée chacun de ses composants. Elle peut être fournie soit installée chez le client, soit à notre service. Elle est disponible pour mener des pilotes Big Data dans notre solution center de Grenoble. Elle a vocation à traiter 100 % des use cases Big Data. L’Autonomy et le Hadoop vont permettre de traiter les use cases non structurés. Vertica va, lui, traiter les use cases structurés. La partie Enterprise Security est, elle, là pour traiter tous les cas qui relèvent du log management et donc les cas machine to machine. Quand on a une plate-forme analytique, il faut pouvoir sourcer les données. Pour cela, il faut un ou plusieurs ETL et des silos de données chez le client. Quand on a toutes ces sources, il faut pouvoir stocker massivement les données. Et pour les stocker dans notre plate-forme, on utilise Hadoop. Cela nous permet d’agréger et de stocker des données de toute nature et de toute source.

Données non structurées et manipulations statistiques
Pour les données non structurées, il faut faire de la manipulation statistique dessus. Si on n’a pas besoin de temps réel, on peut le faire avec Hadoop et les bibliothèques d’outils qui sont dessus. Mais s’il faut plus d’interprétation et plus de classification dans ces données pour amener une forme de structure, alors on va chercher Autonomy, et notamment un élément central d’Autonomy qui s’appelle Idol. C’est un outil d’indexation intelligent, avec une intelligence statistique. C’est un moteur qui sait interpréter le contenu de l’objet (du texte, de l’image, de la vidéo, ou encore de la voix en utilisant des facteurs de modélisation) de façon statistique, donc non sémantique, non dépendant d’une langue ou d’une grammaire ou d’un dictionnaire. Au fur et à mesure qu’il indexe les mots ou les concepts et qu’il voit les relations qu’il y a autour des mots et concepts, il comprend statistiquement.

Exemple : si on prend le mot table, ça distingue qu’il y a un concept table associé à des espaces, à des chaises, à des pièces, etc. Et le mot table associé à de l’informatique, à des ordinateurs, donc qu’on parle de deux choses différentes. Donc ça va être interpréter et traiter ce mot « table » différemment. Il y a beaucoup d’applications, et en particulier celle de structurer de façon plus intelligente l’information non structurée. En matière d’analytique, on doit faire un traitement structuré de l’information non structurée. Venir intégrer ces éléments dans les BI traditonnels, venir enrichir les dashboards, les tableaux de bord de Business Intelligence traditionnelle. On peut aussi aller vers des traitements beaucoup plus poussés de l’interprétation, faire de la comparaison… On a un cas d’usage fait très récemment pour un chimiste Européen. Il s’agit de prendre l’image satellite, de comparer ces images satellite à des banques d’images de référence qui identifient, selon la nature de l’image, la maladie et son stade d’avancement (on est donc dans du traitement non structuré). Selon la localisation du champ, selon les données visuelles, les données de vectorologie, on applique des modèles qui vont prévenir quelle est l’évolution de la maladie, on va solliciter le propriétaire ou les groupes propriétaires de ces champs pour leur dire « votre champ est malade, on a le traitement, est-ce que ça vous intéresse ? ». Cas typique d’association cas structurés et cas non structurés.

Une plate-forme dédiée solutions métier
Cas d’usage avec Enterprise Security : l’objectif de la plate-forme HAVEn est aussi de servir de plate-forme pour décliner un certain nombre de solutions métier dédiées. On a une technique qui est sortie l’année dernière, qui s’appelle Ops Analytics. L’objet de cette déclinaison est d’amener de la performance et de la pertinence dans l’exploitation des Data Centers. Sans rentrer dans le détail, il s’agit de récupérer les logs de tous les serveurs et tous les réseaux sur site. Vertica prend le relais en cas d’incident pour faire un débogage optimisé, pour aider l’administrateur en charge de la panne à comprendre quels sont les logs susceptibles d’expliquer ces incidents, en prenant en compte également la topographie de ce serveur dans le Data Center global. On tend vers de l’enrichissement prédictif, c’est-à-dire compte tenu du remplissage sur les pannes, quand une panne de cause profonde se présente à nouveau, qu’on puisse revenir très vite à l’état initial. On est dans un cas d’usage de machine to machine et de l’analytique Vertica. Une autre déclinaison dans le marketing depuis le début s’appelle Digital Marketing Hub BMH. L’objet est de servir de plate-forme marketing digitale : récupérer toutes les informations qu’on a sur les clients, faire une segmentation de ces informations (toutes sources confondues), piloter certaines boucles retour, comme avec les pages Web ou avec les réseaux sociaux… La plate-forme HAVEn a pour objectif de permettre de traiter 100% des cas d’usage. Pas obligatoirement modélitiques. Elle n’est pas vendue dans la globalité. Chaque composant a des connecteurs avec des autres composants qui sont bidirectionnels. On l’utilise pour faire des pilotes en France, pour décliner les verticaux analytiques métier que l’on sort mois après mois pour servir des cas d’usage précis pour nos clients. La plate-forme est indépendante du hardware.

Vertica, une offre gratuite jusqu’à un Téra-octet de données
Vertica est la solution analytique qui a été choisie par Facebook l’année dernière. Facebook a benchmarké un ensemble de solutions. Vertica a un très bel optimum en termes de performance, en termes de capacités analytiques et en termes de prix. Une solution aura à peu près la même performance que Vertica, mais qui est sur du hardware propriétaire et qui va être beaucoup plus chère. C’est une très belle solution. Vertica est gratuit en dessous d’un téra enregistré sur la base de données. On a des offres hardware pour tous les composants HAVEn et pour nos partenaires, Microsoft et SAP notamment. pour un projet analytique, on a besoin d’une plate-forme. Une plate-forme, c’est du hardware et du software. Il vous faut une compétence technique pour administrer cette plate-forme. Il vous faut une personne qui sait manipuler les données sous un angle statistique, quelle que soit la donnée (texte, audio, vidéo, image, etc.). Il vous faut ces compétences. Il faut aussi une personne chez le client qui sait interpréter la donnée, qui sait donner un sens à cette donnée. Nous, on amène l’ensemble de tous ces composants : la plate-forme hardware, la plate-forme software, les compétences techniques pour l’exploiter… Les gens du métier viennent du client. Le hardware et le software sont indépendants. Nous pouvons définir quatre domaines stratégiques : le Cloud, le Big Data, la sécurité et la mobilité. On est sur une stratégie ouverte, hybride, qui a la volonté de séduire le client parce qu’on a pas l’intention de faire en sorte que le client soit pieds et poings liés avec nos solutions. Le client a le choix. Une fois qu’il a opté pour un composant de notre solution, il n’est pas obligé de prendre l’ensemble de la suite. Une tendance est d’imaginer le Big Data avec des infrastructures immenses. Mais il n’est pas nécessaire d’avoir des budgets immenses pour mettre en place ces solutions. On commence à être sur une BI significatif à partir de 40 téra. La révolution est l’analytique. L’analytique se passe pour certaines structures en dessous du téra et en moyenne entre 5 et 15 téra. On n’est pas sur des volumétries gigantesques. Nous, on met en avant nos références où on a des volumétries au-delà du pétaoctet, puisqu’on peut démontrer notre savoir-faire dans ce domaine en termes de performance, en termes d’analytique et en termes de capacité à accompagner le client dans l’augmentation de la volumétrie de données d’un point de vue hardware, software et services.

Retour sur investissement et analyse prédictive
On s’imagine qu’il faut être dans le péta ou dans les centaines de téra pour aller chercher cette technologie, alors que ce n’est absolument pas le cas. C’est une question de retour sur investissement. le traitement de la donnée, qu’est-ce que ça me coûte ? Qu’est-ce que me coûte le BI traditionnel et quel est le niveau de performance que j’ai pour faire mes analyses actuelles ? Qu’est-ce que ça me coûterait de faire ce BI via les nouvelles technologies ? Par rapport aux volumétries existantes : est-ce le même prix ou est-ce moins cher ? Est-ce que ce sera plus performant ? Est-ce que ça va me permettre d’étendre la richesse de mes analyses ? Si on veut passer du reporting au prédictif, il faut avoir un certain historique de données. Dès lors que l’on veut avoir un historique des données, il gère vers le haut la volumétrie et il faut pouvoir absorber la puissance de traitement. On rentre dans le monde du prédictif : en temps réel ou temps de retail, selon le cas d’usage. Dans le retail, on s’interroge sur l’assortiment des produits entre eux. On s’aperçoit dans les magasins que les clients qui achètent une certaine robe ont tendance également à acheter un certain modèle de chaussures. Si on répercute l’information très vite à l’ensemble des magasins, ils vont physiquement, dans le magasin, rapprocher la paire de chaussure de la robe en question, pour faire du cross-selling. C’est mouliné en central suffisamment rapidement pour que l’information redescende aux magasins dans la journée pour qu’ils puissent réagencer les produits. Ces traitements, autrefois, avec des technologies traditionnelles, prenaient quatre à cinq heures. Il s’agissait de patches de nuit. Maintenant, les traitements prennent moins d’une minute. On répercute l’information presque en temps réel. Mais pour ça, il faut que ce soit possible techniquement, à un coût raisonnable et donc rentable. Bref, qu’il y ait un impact soit sur les ventes, soit sur le service, soit sur la performance de l’entreprise. On n’y est pas encore, mais on commence à entrer dans une ère de maturité. Là où je suis assez bluffé, c’est que, quand on a la possibilité d’exploiter les données, on a des taux de transformation surprenants.

Exemple : le taux d’efficacité des campagnes Web est inférieur à 1%. Quand on a un bandeau publicitaire sur une page Web, à peu près un internaute sur 100 va cliquer dessus. C’est à peu près le ratio. Un test a été mené sur la voiture connectée par un constructeur automobile. Pour une campagne marketing ciblée sur la maintenance dans les réseaux concessionnaires, on a eu 40% de taux de transformation. C’est phénoménal ! Le constructeur ne l’a pas fait avec l’aide d’HP. Il l’a fait lui-même, au niveau analytique. J’ai été très surpris par ce résultat. Quand on sait bien cibler, on a des résultats tangibles. Et je vous passe les cas d’usage des objets connectés, où là c’est encore plus simple en termes de ROI : on amène de l’efficacité opérationnelle, on supprime les intermédiaires et on délivre un nouveau service.

Par ailleurs, ce qui est important c’est que les clients peuvent « jouer » avec cette solution. On peut les accueillir à Grenoble pour faire des pilotes. On le fait dans des conditions de sécurité très encadrées. Un des freins, qui conditionne le modèle de vente de ces solutions, c’est la sensibilité de la donnée. Si la donnée n’est pas sensible, je pense qu’une majorité du marché va aller vers Adobe Services, notamment pour toutes les données externes à l’entreprise (réseaux sociaux…). Par contre, si la donnée est très sensible, on restera probablement sur les plates-formes internes à l’entreprise, qui peuvent être délivrées dans des Clouds internes ou des Clouds virtuels, mais ça restera dans l’entreprise.

Un PoC en 4 à 12 semaines
Nous avons déjà mené des pilotes sur des données extrêmement sensibles. On sait gérer tout type de protocole d’accueil. Par exemple, les données sont cryptées, elles sont chargées sur les serveurs, la solution utilisateur est sur un réseau indépendant, pas sur un réseau HUV, le système de décryptage et la clé de décryptage arrivent séparément. C’est mutualisé. Le PoC (Proof of Concept, autrement dit « validation de la faisabilité ») est mené et ensuite le résultat obtenu, les données vont être écrasées, et les disques reformatés. A quatre reprises !

Le paradoxe est le suivant : techniquement, le PoC prend une semaine à être mis au point, et le mener, entre 4 et 8 semaines (jusqu’à 12 semaines selon la complexité du PoC). Par contre, tout l’encadrement de sécurité peut prendre plus de temps. Parce que ça demande des audits du client. Il y a un cadre contractuel autour de ça. Pour des données très sensibles, le client a besoin d’avoir des assurances très fortes. Et ces assurances, nous pouvons lui offrir.