De l’astrophysique au Machine Learning : itinéraire d’un Data Scientist

De l’astrophysique au Machine Learning : itinéraire d’un Data Scientist

Après avoir travaillé dans le monde entier comme astrophysicien et professeur d’université, Sébastien Foucaud s’est frayé un chemin dans le monde des technologies du Data Analytics, du Machine Learning et du Big Data. Il est actuellement responsable de la Data Science chez Scout 24, un portail immobilier et automobile, où il gère les projets de Data Science qui dictent le développement des produits. Il a pris le temps de partager avec nous sa vaste expérience de l’exploitation des données, aussi bien dans le domaine de l’astrophysique que du Digital Analytics avec AT Internet. Dans cet article, découvrez en quoi le Machine Learning peut aider les entreprises et profitez de conseils précieux si vous vous lancez dans le métier de Data Scientist. Voyez enfin comment, selon Sébastien, ce domaine est amené à évoluer.

 

Votre parcours est pour le moins atypique. Comment votre travail d’astrophysicien vous a conduit au métier de Data Scientist ?

À l’âge de 7 ans, j’ai eu mon premier télescope et j’ai décidé de devenir astronome. L’astrophysique est un domaine très analytique ; je ne le voyais pas sous cet angle à l’époque, mais cette dimension a pris une grande importance dans mon travail actuel.

Après avoir obtenu mon doctorat en astrophysique à l’université de Provence Aix-Marseille I, j’ai passé plusieurs années à recueillir des données avec des télescopes et à développer des logiciels permettant d’extraire automatiquement ces informations.

En 2005, j’ai mené un projet à l’université de Nottingham autour d’un télescope à Hawaï qui générait 100 téraoctets de données par nuit. Nous avons développé des technologies pour extraire des informations du flux d’images produit par ce télescope, transférer ces données dans une base de données en Écosse et les mettre à jour automatiquement. Notre objectif était de traiter en temps réel les données obtenues la nuit. Nous avons rassemblé des quantités considérables de données dans la base de données, mais la majeure partie restait inexploitée : en effet, les technologies disponibles à l’époque n’étaient pas suffisantes pour traiter de tels volumes.

La possibilité d’exploiter des données en masse faisait partie des problèmes auxquels je voulais m’attaquer. Les projets d’astrophysique étant souvent financés par l’État, les données sont accessibles à tous, et en grandes quantités. D’ailleurs, il n’est même pas nécessaire de toucher à nouveau à un télescope, car les données ont déjà été recueillies et sont stockées quelque part. Je me suis donc penché sur la question suivante : comment utiliser la technologie pour reprendre l’exploitation de ces bases de données déjà constituées ?

C’est ainsi que je me suis lancé dans l’informatique et que j’ai été confronté pour la première fois à Hadoop. Mon objectif était de réunir toutes ces informations au même endroit, d’effectuer des analyses, d’exploiter des dizaines de milliards d’entrées simultanément et d’y appliquer des techniques de Data Science.

J’ai passé 4 ans à Taïwan en tant que professeur d’université ; là-bas, j’ai pu mettre en place un centre de données d’astronomie. Les données étaient viables et nous pouvions calculer des statistiques simples (comme des moyennes ou des médianes) sur des dizaines de milliards de points de données, ce qui n’était pas possible auparavant. En ayant accès à un ensemble de données aussi solide d’un point de vue statistique, nous avons pu commencer à nous demander comment utiliser le Machine Learning pour classifier les objets et en déduire des connaissances, comme la distance des galaxies par exemple.

J’ai ensuite été professeur à Shanghai pendant 2 ans, période au cours de laquelle j’ai contribué à élaborer un centre de données du même genre, mais d’une envergure encore plus grande. C’est à peu près à cette époque que mes ambitions professionnelles ont évolué. Je voulais passer de l’astrophysique à la Data Science appliquée au développement de produits : c’est-à-dire utiliser les données pour aider les décideurs et organisations à atteindre leurs objectifs, quels qu’ils soient, avec plus d’efficacité.

Sur quels types de projets de Data Science et de Machine Learning avez-vous travaillé ?

Après avoir quitté la Chine et le monde universitaire, j’ai déménagé à Berlin pour rejoindre une start-up spécialisée dans le prêt entre particuliers en tant que responsable de la Data Science : j’avais pour mission d’accélérer le business grâce à la Data Science et au Machine Learning, et notamment en termes de gestion et d’appréciation du risque. Par exemple, quand quelqu’un veut emprunter de l’argent, comment évaluer le risque associé au prêt ?

La réponse à cette question a beaucoup en commun avec la mesure de la distance des galaxies : c’est un problème de classification. On crée un modèle à partir de données antérieures et on les classe dans différentes « cases » (qui représentent différents niveaux de risque ou bien des galaxies de différentes couleurs…). Il s’agit dans les deux cas de classification basée sur des informations existantes.

J’ai ensuite intégré OLX Group, un réseau mondial de plateformes de petites annonces, au sein duquel j’ai constitué une équipe de Data Scientists, de Data Analysts et de Data Engineers. Notre travail consistait à utiliser les données pour résoudre les problèmes de l’entreprise, notamment pour automatiser la modération des petites annonces, à raison de 2 millions d’offres par jour. Là encore, nous avons apporté une solution par la classification : nous disposions d’une multitude de données sur des annonces approuvées manuellement par des conseillers du service client, que nous avons utilisées pour créer des modèles de modération automatique.

Au cours de ma mission chez OLX, j’ai aussi travaillé sur des projets liés au contenus des annonces : amélioration de l’exploitation des textes et des images dans les offres, classification des images en fonction de leur qualité pour améliorer l’expérience utilisateur et reconnaissance et extraction automatiques de caractéristiques des images. C’est d’ailleurs à cette époque j’ai commencé à exploiter les données Digital Analytics d’AT Internet, sur lesquelles étaient basés toutes nos principaux KPIs.

Quels types de projets menez-vous dans votre poste actuel ? Et comment vos équipes sont constituées ?

Chez Scout24, je dirige des équipes transversales d’environ 10 Data Scientists et 20 Data Engineers, qui travaillent dans un environnement lean et très agile. Nos Data Engineers se concentrent sur l’empilage des données, tandis que nos Data Scientists, beaucoup plus proches de la dimension commerciale, utilisent le Machine Learning pour développer des produits capables d’améliorer la valeur ajoutée de la société pour les utilisateurs. L’entreprise s’appuie énormément sur les technologies et a compris que ce sont les données qui font sa force. C’est pourquoi nous consolidons l’équipe de Data Science, lentement mais sûrement.

Parmi nos principaux projets figure un moteur de recommandations, lancé fin 2016. Il fonctionne de deux façons : par similitude entre utilisateurs (recommandation d’offres en fonction de ce que d’autres ont consulté : « les utilisateurs qui ont consulté cette annonce pour un appartement ont également consulté telles autres annonces ») et par similitude entre caractéristiques (recommandation d’offres présentant des caractéristiques communes : « vous recherchez une voiture automatique bleue 4 portes, voici d’autres offres de voitures automatiques bleues 4 portes »). Nous travaillons également sur la détection automatique d’images et de caractéristiques sur les photos : s’agit-il, par exemple, d’une Audi ou d’une BMW ? d’une cuisine ou d’une salle de bain ?

Quelles sont les répercussions de ce projet sur le business ?

Nous avons obtenu d’excellents résultats avec le moteur de recommandations : un taux de clics multiplié par 6 par rapport à une recherche normale. En d’autres termes, nos clients doivent parcourir 50 offres pour trouver ce qu’ils cherchent avec la recherche standard, contre seulement 8 annonces recommandées sinon ! Par ailleurs, seules 30 % des recommandations se recoupent avec des offres déjà consultées, ce qui signifie que 70 % d’entre elles sont de nouvelles annonces que nous leur permettons de découvrir.

Quelles sont les erreurs les plus courantes des entreprises dans le cadre d’initiatives de Data Science ?

De nombreuses sociétés mettent la charrue avant les bœufs : elles étendent considérablement leurs infrastructure, investissent lourdement en clusters et en serveurs (sur site ou dans le cloud) pour recueillir des données, engagent des Data Scientists… avant même de savoir précisément ce qu’elles veulent obtenir. Au final, elles se rendent malheureusement compte que le Data Scientist ne peut tout simplement pas résoudre leurs problèmes !

Les entreprises doivent commencer par fixer leurs objectifs et identifier les problématiques métier à résoudre. Il leur faut ensuite déterminer si elles disposent déjà des données nécessaires et, si ce n’est pas le cas, trouver le moyen de les acquérir. Puis elles doivent rassembler les données sur un emplacement exploitable (en général dans le cloud), définir les types de compétences en Data Science les plus adaptés pour apporter une solution à ces problèmes précis et enfin trouver un Data Scientist qui fait l’affaire. C’est pourquoi il est essentiel de faire équipe avec un bon Data Strategist et un fournisseur de données de qualité.

Je travaille actuellement comme conseiller auprès d’une start-up (certace) qui met en lien des Data Scientists très qualifiés avec des projets d’entreprises du Fortune 500 ou du Fortune 1000. Le modèle freelance est souvent privilégié par les Data Scientists, qui ne sont pas forcément intéressés par une entreprise en particulier, mais plutôt par certains types de projets. Cette approche est tout aussi avantageuse pour les sociétés, qui ont la possibilité de travailler avec des Data Scientists spécialisés avec les compétences requises pour le projet sans avoir besoin de mettre en place leur propre équipe en interne.

L’appellation de « Data Scientist » peut être assez large. Quel genre de Data Scientist êtes-vous ?

Je me considère comme un « Data Strategist », c’est-à-dire quelqu’un qui comprend les besoins métier et qui est capable de les traduire en un système puis d’utiliser la Data Science pour apporter une solution à l’entreprise.
Il y a effectivement plusieurs types de « Data Scientists » :
• les analystes focalisés sur les résultats du business qui utilisent Python ou Scala pour extraire des informations et les transformer en analyses utiles à l’entreprise à l’aide d’une boîte à outils de Machine Learning.
• les Data Scientists développeurs qui savent exploiter le Machine Learning ainsi que des technologies avancées pour développer des produits évolutifs sur la plateforme.

Ce sont deux types de profils fondamentalement différents : l’un penche franchement du côté de l’analyse et a une bonne perception de la dimension commerciale de l’entreprise, tandis que l’autre est un ingénieur qui possède un solide bagage en développement.

En revanche, ils ont en commun une certaine compréhension de la stratégie de l’entreprise, à des degrés différents. Bien sûr, tout le monde n’a pas besoin d’avoir un MBA, mais, pour être efficace dans un contexte commercial, un Data Scientist doit être en mesure de peser sur les performances de l’entreprise.

D’après vous, quelles sont les compétences nécessaires et le parcours idéal d’un Data Scientist pour réussir ?

Il n’y a pas de chemin tout tracé ; de nombreux professionnels, d’horizons et de formations divers, deviennent Data Scientists. En ce qui me concerne, j’ai un très bon bagage en statistique, ce qui à mon avis est essentiel. Pourquoi ? En tant que Data Scientist, il est impératif de comprendre quelles données peuvent être exploitées et de savoir si le jeu de données est suffisamment viable (assez volumineux, sans biais, etc.) pour fournir toutes les informations nécessaires à la résolution du problème. Les statistiques sont assurément au cœur de tout cela.

Je dirais qu’il est également important d’avoir une compréhension générale des flux de données. Même si je ne code pas directement, j’ai une solide connaissance technique des algorithmes et de leur fonctionnement. Je comprends également l’architecture et l’infrastructure sur lesquelles ils reposent, en particulier avec Spark.

Quels conseils donneriez-vous à un Data Scientist en devenir ?

Tout d’abord, savoir si vous souhaitez mettre vos connaissances au service d’une entreprise, ou si vous voulez travailler exclusivement pour la recherche.

Faites un stage : il y a de nombreuses offres en Data Science. Prenez le temps de trouver ce qui vous plaît. Vous vous spécialiserez peut-être au cours de votre carrière, mais au départ, dans vos premiers postes, l’objectif est de savoir ce que vous aimez.

Ne vous fermez pas de portes en vous concentrant exclusivement sur un langage en particulier. Si vous vous sentez à l’aise avec Python, l’entreprise devra s’adapter à Python. Si vous travaillez avec R, elle s’y pliera également. Évitez de vous enfermer dans une technologie plutôt qu’une autre… de toute façon, plus rien de tout cela n’aura d’importance dans 5 ans puisque les choses auront évolué et vous devrez apprendre le dernier langage du moment !

Les Data Scientists sont toujours focalisés sur les technologies et les algorithmes ; cependant, je recommande de rechercher la valeur business de votre travail et de comprendre son impact sur l’entreprise. C’est ce qui fera la différence entre un bon Data Scientist et un bon Data Scientist embauché !

Que préférez-vous dans votre métier ? Qu’est-ce qui vous motive ?

Ce que je préfère, c’est développer des produits et résoudre les problèmes des entreprises, d’un point de vue stratégique. Je suis très intéressé par l’élargissement des applications de la Data Science à d’autres domaines et activités que les secteurs du numérique, de l’e-commerce et des petites annonces. Ma motivation est d’aider les sociétés à comprendre ce qu’elles veulent obtenir, puis d’y parvenir avec des données adaptées, le bon code et les Data Scientists les plus talentueux.

Selon vous, comment la Data Science et le Machine Learning vont-ils évoluer dans les prochaines années ?

Au niveau mondial, on se dirige de plus en plus vers le cloud, et notre capacité à résoudre les problèmes augmente : les clusters coûtent moins cher et sont plus puissants, les flux de données sont possibles à grande échelle. C’est un bon point de départ, qui ne peut que s’améliorer au fil du temps.
Pour moi, les technologies ne connaîtront pas une accélération brutale ; au contraire, le Machine Learning prendra de l’ampleur et se développera dans de nouveaux champs d’application. Il a atteint un tel stade de maturité qu’il peut actuellement toucher tous types de domaines.

J’imagine donc que la Data Science sera utilisée et adoptée dans des secteurs qui lui étaient fermés auparavant. La technologie blockchain, la réalité augmentée, la réalité virtuelle, la reconnaissance vocale et les réseaux neuronaux auront tous un impact au cours des dix prochaines années.

Et la grande question : les machines vont-elles nous remplacer ?

Nous sommes amenés à entrer dans une relation d’interdépendance de plus en plus forte avec les machines, qui gagnent en capacité d’adaptation. Si l’on regarde la façon dont nous résolvons actuellement les problèmes avec l’intelligence artificielle et le Machine Learning, tout est affaire d’optimisation : être plus efficace, gagner plus d’argent. Généralisons cette tendance en l’étendant à tout ce qui nous entoure : combien de temps les machines mettront-elles à se rendre compte que les humains représentent en fait le goulet d’étranglement de ces optimisations ? [rires] Il ne faut pas avoir peur de tout cela car nous pouvons utiliser ces technologies à notre avantage dans l’intérêt de l’« humanité augmentée »… pour nous améliorer nous-mêmes, de façon à ne jamais être remplacés.

Un grand merci à Sébastien Foucaud d’avoir partagé son expérience avec nous ! Vous pouvez le contacter chez SBSF Consultancy. Revenez consulter le blog dans les semaines qui viennent pour découvrir d’autres entretiens sur la Data Science avec Sébastien !

Ces articles pourraient aussi vous intéresser :

Envoyer un commentaire

Loading Facebook Comments ...