Data Science and Analytics interview

Le digital analytics alimente de nombreux projets Data Science, et inversement. Les fonctionnalités issues du Machine Learning et de l’IA font leur apparition dans les solutions Web analytics : prédictions, ciblage, nouveaux services,… Dans une publication récente, Gartner parle d’ailleurs d’Analytics augmenté comme tendance et priorité n°1 des CDO pour 2020. Pour nous parler Data Science et Analytics, nous avons interrogé Jérémie Bureau, Data Scientist et responsable de l’équipe Data Science chez AT Internet. Interview.

Comment devient-on Data Scientist ?

Nombreux sont les parcours qui mènent au métier de Data Scientist. On trouve des filières de niveau bac+5 à bac+8 dans les universités et dans les écoles d’ingénieurs. Des écoles privées spécialisées commencent à émerger tant la demande sur le marché du travail est importante. Pour ma part, j’ai suivi des études de mathématiques appliquées à l’université de Bordeaux, puis enchaîné sur un doctorat de mathématiques et statistiques à l’université de Toulouse. Cette thèse a été réalisée en convention CIFRE : j’ai été salarié d’une startup en tant qu’ingénieur R&D pendant mes trois années de doctorat. Mon sujet de thèse traitait de la fiabilité des systèmes de géolocalisation dans un contexte aéronautique. J’ai eu ensuite diverses expériences pros dans les domaines de la santé, de l’emploi et du digital.

En quoi la Data Science appliquée à une solution analytique en mode saas est-elle spécifique ?

Lorsque l’on travaille sur des problématiques nécessitant de traiter de la data, avant de parler de modèles prédictifs ou de machine learning, on va principalement avoir besoin de deux prérequis pour extraire de l’information qui soit activable et à valeur ajoutée : collecter un volume suffisant de données, représentatives de la population que l’on souhaite étudier. La grande diversité des sites web clients d’AT Internet permettent d’avoir ces deux conditions satisfaites, c’est une grande chance !

Cependant, chaque site aura des propriétés particulières en fonction de son secteur de métier. Ces spécificités peuvent être très marquées et très différentes d’un secteur à l’autre. Exemples : site e-commerce, média, annonceur, banque, site institutionnel.

L’équipe Data Science doit fournir des outils qui s’adressent à tous nos clients dans le but d’optimiser leur stratégie marketing. Construits à partir d’algorithmes et de modèles mathématiques, ces outils doivent permettre de décrire et de prédire le comportement des internautes.

Exemple : méthode de segmentation des internautes pour identifier les utilisateurs qui achètent le plus ou au contraire ceux qui ont une forte probabilité de churn (désinscription ou non retour sur un site). Il est souvent question d’arbitrer entre un modèle généraliste aux performances correctes en moyenne sur l’ensemble des sites clients ou un modèle spécifique pour une catégorie de sites semblables.

Comment et pourquoi la Data Science est aujourd’hui utile aux Web analysts ?

La Data Science est aujourd’hui capable d’apporter des outils descriptifs, prédictifs et même prescriptifs, afin de faciliter le travail quotidien des analystes. Il existe beaucoup de métriques à monitorer et à comprendre pour en tirer une info utile. Et il n’est pas raisonnable (et humain !) de vouloir suivre manuellement cette multitude de métriques. Une des applications du machine learning pour accompagner les analystes est de proposer un service de détection automatique d’anomalie. Le principe est de capturer sur l’évolution temporelle des métriques des fluctuations suspectes voire anormales. Nos équipes travaillent actuellement sur des analyses permettant d’expliquer les causes probables de ces anomalies. Par exemple : si un robot passe sur un site et provoque un pic significatif de trafic, une anomalie est détectée sur le nombre de pages vues. On souhaite accompagner l’analyste dans son travail d’investigation en explorant automatiquement un ensemble de dimensions (source, device, browser, etc.). Notre module d’analyse de causalité permettra de conclure que cette anomalie a été provoquée par une hausse anormale de trafic sur le segment trafic direct au canada sur la version de chrome 55. Ce genre d’outil doit permettre de délivrer une première analyse et de mieux comprendre les comportements pour anticiper et mettre en place des actions ou stratégies qui s’imposent. 

Anomaly Detection Analytics Suite 2 AT Internet
Figure 1 : détection d’anomalies dans l’Analytics Suite 2 – AT Internet 2019

Autre cas d’usage, la segmentation RFM. Il s’agit d’un clustering (segmentation) des clients en fonction de leur habitudes d’achat pour optimiser une stratégie marketing. Les transactions des clients sont analysées selon trois critères : Date du dernier achat (Récence), Fréquence sur une période donnée, Montant (cumul sur cette période). Des méthodes de scoring permettent de créer ces fameux segments de clients. Exemples de catégorie : les Stars qui achètent beaucoup, et qui ont acheté il y a peu de temps, ou les Endormis qui présentent un score de récence mauvais. Chez AT Internet, nous avons décidé d’intégrer une fonctionnalité de clustering RFM automatique : l’idée est d’utiliser une analyse sans configuration préalable, qui va s’adapter automatiquement au contexte client et notamment à la saisonnalité. Et à cela, des éléments de prédiction sont rajoutés et intégrés dans un ensemble de représentations graphiques adaptées. Nos équipes adaptent actuellement les mêmes méthodologies de segmentation mais sur des métriques liées à l’engagement plutôt qu’aux achats pour ainsi ouvrir ces fonctionnalités aux sites non transactionnels.

Clustering RFM Analytics Suite 2
Figure 2 : clustering RFM dans l’Analytics Suite 2 – AT Internet 2019

Quels sont les challenges de l’équipe Data Science chez AT Internet

D’abord la construction d’une roadmap Data science en adéquation avec les besoins de nos utilisateurs. Notre priorité est d’être attentif et à l’écoute. D’un point de vue organisationnel, notre équipe s’intègre aujourd’hui dans un environnement de développement de haut niveau. Cela passe par la mise en place d’un workflow alliant d’importants travaux de R&D, des phases d’industrialisation et d’optimisation continue de nos modèles.

Data Science Workflow at AT Internet in 2019
Figure 3 : Data Science Workflow – AT Internet 2019

Chaque membre de l’équipe doit aujourd’hui être capable d’adresser des problématiques de modélisation comme d’industrialisation. Les technologies et outils manipulés par l’équipe sont très variés : Python, R, Shiny, Scala, Spark, Elastic Search, Kibana, Snowflake, AWS, Kubernetes, Jenkins, Git, etc. L’autre enjeu fort est de veiller à ce que le socle de compétences de l’équipe progresse uniformément pour tous. Pour cela, on travaille avec des plateformes telles que DataCamp ou encore Kaggle.

Le mot de la fin ?

Rester toujours en éveil et à l’écoute, avec la soif de découvrir et d’apprendre : « Data Science is driven by curiosity ».

Author

Responsable éditorial. Bernard est en charge de la stratégie de contenus pour AT Internet. Il possède une expérience de 10 ans dans le domaine du Content Marketing. Ses sujets de prédilection : le data marketing, les stratégies d'Inbound, la communication éditoriale web et les digital analytics.

Comments are closed.