Le Big Data : une révolution pour l’édition scientifique !
By   |  August 15, 2015

Olivier Dumon, Managing Director of Academic and Government Markets, chez Elsevier

Si la diffusion de travaux de recherche de qualité sera toujours la vocation principale de l’édition scientifique, afin de faire reculer les frontières du savoir et des progrès humains, la croissance du volume des informations et la convergence des technologies ont radicalement modifié la façon dont nous publions ces travaux.

La recherche scientifique génère et publie de larges volumes de données depuis plus de 150 ans. Les éditeurs scientifiques ont filtré, conservé et publié ces données dans des revues traditionnelles révisées par des pairs et envoyées aux bibliothèques universitaires du monde entier. Les chercheurs en quête de contenu fondamental restaient des heures dans une bibliothèque à passer au crible des centaines de page de données scientifiques recommandées par leurs pairs, pour devoir ensuite en extraire les points importants à partager avec leurs confrères. Ils menaient leurs recherches de manière linéaire.

La numérisation des documents a rendu les documents imprimés disponibles sous format électronique au début des années 70, mais c’est le développement d’Internet qui a véritablement libéré le flux des informations. Combinée à la puissance des moteurs de recherche, cette formidable avancée technologique a déterminé la manière dont le monde actuel, et les chercheurs, cherchent désormais les informations.

Soudainement, Internet a ouvert les vannes à un déluge d’informations qui continue à croître à un rythme sans précédent. Dans sa dernière étude sur l’univers numérique, IDC prévoit que le volume de l’univers numérique va doubler tous les deux ans et décupler d’ici à 2020, passant de 4400 milliards de giga-octets à 44.000 milliards. Pour vous donner une idée de l’échelle, si chaque octet de données mesurait un pouce (2,5 cm), cela représenterait un million d’allers-retours entre la Terre et Pluton.

On sait peu de choses sur la croissance du volume des informations dans la recherche scientifique, mais des statistiques basées sur notre base de données Scopus montrent que la production scientifique a augmenté de 100% entre 1996 et 2014. Un blog dans la revue scientifique Nature a cité une recherche indiquant que la production scientifique mondiale double de volume tous les neuf ans. Mais ces chiffres ne reflètent pas la véritable croissance du volume de données et constituent un moyen plutôt simpliste d’analyser la situation.

A l’ère du numérique, les articles de recherche ne se limitent pas à des textes. Le croisement d’Internet avec des appareils numériques contribue à l’explosion de la taille des fichiers, parallèlement à celle des sources d’informations. Les données des recherches incluent désormais les médias sociaux, les images, les fichiers audio et vidéo ainsi que les données de crowdsourcing. Des fichiers énormes (les graphes sismiques peuvent peser 5 téraoctets par fichier) côtoient une nuée de petits fichiers (courriers électroniques, publications dans les médias sociaux, etc.) et contiennent des données potentiellement précieuses lorsqu’elles sont traitées avec d’autres sources d’informations pertinentes et adéquates.

Par nature, la recherche scientifique s’auto-perpétue. Au travers d’essais, d’expériences et d’hypothèses, les chercheurs génèrent des masses de données dans le sillage de leurs recherches, et ces données sont ensuite utilisées et citées dans d’autres travaux de recherche. Mais que se passe-t-il lorsque des applications sont utilisées pour le réseautage social, la fouille de textes, le partage, les analyses collaboratives et prédictives ? Les données d’origine trouvent une seconde vie, et favorisent une nouvelle croissance du volume des informations.

Cette avalanche d’informations nécessitait de puissants outils de gestion et d’analyse des données, capables d’extraire des corrélations à partir de données à la fois statiques et dynamiques, qui ont donné naissance au Big Data. Gérés de manière stratégique, le Big Data délivre de précieuses informations jusqu’alors inconnues, suggérant de nouvelles idées qui aboutissent à de nouvelles découvertes, alimentant ainsi le cycle de la recherche scientifique.

L’utilité du Big Data pour l’édition scientifique
Les éditeurs de solutions d’information numériques comme Elsevier compilent de vastes bases de données issues de la recherche scientifique, technique et médicale de grande qualité, recueillies, conservées, agrégées, diffusées et publiées depuis plus d’un siècle. Des dizaines de millions de points de données sont traités chaque jour, pendant que les scientifiques recherchent, consultent, téléchargent et interagissent avec nos publications sur la plate-forme ScienceDirect.

Avec les transformations radicales apportées par l’ère numérique, notre rôle d’éditeur scientifique s’est étoffé. La convergence du cloud computing, du Big Data et du réseautage social a créé de nouvelles attentes, possibilités et opportunités pour les éditeurs comme pour la communauté scientifique.

Si la fourniture de contenu de grande qualité reste primordiale, elle n’est plus suffisante. Notre métier ne s’arrête pas, mais commence, à la publication d’articles dans des revues. Nous devons aujourd’hui tirer profit des “applications Big Data” pour apporter de la valeur ajoutée à ce contenu et développer des outils et solutions plus performants et plus rapides. Une partie importante du rôle d’éditeur consiste désormais à fournir le bon contenu au bon public, dans le bon contexte, au moment où il en a besoin et de la manière dont il le souhaite.

C’est la raison pour laquelle Elsevier a adopté des nouvelles technologies permettant de bâtir l’infrastructure numérique nécessaire pour gérer efficacement et faciliter la recherche scientifique. Grâce au Big Data, de nouveaux outils de saisie, de recherche, de découverte et d’analyse permettent désormais d’obtenir une vision d’ensemble à partir d’ensembles de données non structurées. Il incombe désormais à l’édition scientifique d’aider les chercheurs à trouver rapidement des données pertinentes au moyen d’outils de collecte intelligents, de listes de lectures recommandées et de banques de données offrant une grande variété d’applications de tri et de recherche.

Ceci étant dit, le rôle de l’édition scientifique ne consiste pas uniquement à répondre aux attentes de nos clients, mais également à anticiper leurs besoins. Aujourd’hui, Elsevier est en mesure de recommander à des chercheurs des articles qui seraient sans doute restés méconnus sans cela. Grâce à l’analyse prédictive du Big Data, nous avons désormais la capacité de jouer le rôle d’intermédiaire, en recommandant et en promouvant des recherches pertinentes ainsi que des informations annexes, issues d’un vaste éventail de ressources à travers le monde.

Elsevier utilise également les applications Big Data pour favoriser l’innovation dans la recherche scientifique dans les domaines suivants :

1. Contenu enrichi : nous réinventons l’article de recherche en ajoutant des fonctionnalités améliorées au contenu statique avec notre Article du Futur, qui offre une expérience de lecture dynamique et interactive en incorporant des fichiers audio balisés et consultables en ligne, des vidéos, des images et chiffres interactifs, des cartes intégrées, des tableaux téléchargeables ainsi que des capacités de partage.

2. Réutilisation du contenu : la réutilisation de contenu permet aux utilisateurs d’interagir avec le contenu d’une manière entièrement nouvelle et instructive.  La fouille de textes et de données (TDM) est un exemple de réutilisation du contenu. Nous proposons des interfaces de programmation des applications (API) permettant aux chercheurs d’étudier les tendances qui se dégagent d’importantes bases de données et de procéder à des analyses à partir de ces corrélations.  

3. Solutions de personnalisation du contenu : le contenu personnalisé aide les chercheurs à trouver plus rapidement ce qu’ils recherchent en fournissant non seulement des informations, mais également des réponses. Nous créons des solutions numériques qui exploitent le Big Data et permettent aux chercheurs de faire des découvertes factuelles à partir de données massives, avec une facilité jusqu’alors inconvevable.

4. Partage de contenu : la collaboration est un moyen indispensable et largement reconnu d’accroître la productivité des recherches. Nous favorisons cette collaboration avec notre plate-forme de gestion des recherches et de réseautage social en mode cloud, Mendeley, qui permet à un chercheur basé en Chine de collaborer avec un confrère à Genève, ou de partager un article avec un partenaire au Brésil.

Comme pour toute nouvelle technologie, nous ignorons encore tout ce qui peut être accompli avec le Big Data. Nous avons une certitude : le Big Data est profondément enraciné dans les processus d’édition scientifiques et les transforment dans le but de favoriser de nouvelles découvertes et de faire progresser la recherche scientifique.

© HPC Today 2019 - All rights reserved.

Thank you for reading HPC Today.

Express poll

Do you use multi-screen
visualization technologies?

Industry news

Brands / Products index