Data-Scientist-Thibault-Ryden

Laut einer Studie von NewVantage Partners ist Big Data inzwischen bei den Fortune 1000-Unternehmen angekommen: Bei der Mehrheit der untersuchten Firmen (63 %) läuft mindestens eine Big Data-Initiative und von denen wiederum halten 70 % Big Data für „kritisch“ für ihren Erfolg.

Moderne Unternehmen haben erkannt welch enormes Potential darin steckt große Datenmengen aus verschiedenen Quellen zusammenzubringen, sie zu vergleichen und bis ins Detail zu untersuchen. Was sind die Anwendungsbeispiele für Big Data-Projekte? Wie können Analytics-Rohdaten in Data Science-Initiativen verwendet werden? Was sind die besten Technologien für den Aufbau eines Data Lake und den Umgang mit Big Data?

Um ein paar Insiderinformationen darüber zu bekommen, was eine Fortune Global 500-Firma mit Big Data anstellt, haben wir uns mit Thibaud Ryden, einem Data Scientist bei der multinationalen Versicherungsgruppe AXA zusammengesetzt.

Schauen Sie sich das folgende Video an und finden Sie heraus, wie AXA Analytics-Daten von AT Internet im Zusammenhang seiner Data Science-Projekte nutzt, um:

  • Einen klareren Blick auf die Business-Performance zu bekommen
  • Die Daten für Business-Analysten im gesamten Unternehmen einfacher zur Verfügung zu stellen
  • Das Verhalten und den potentiellen Wert der (potentiellen) Kunden besser zu verstehen
  • Ein Bewertungssystem und Vorhersage-Modelle aufzubauen sowie Kunden nach ihrem Sales-Potential zu segmentieren
  • Maßgenschneiderte Angebote und Ansprachen je nach Nutzerprofil zusammenzustellen

 

 

Video-Transkript:

Ich bin Thibaud Ryden, Data Scientist bei AXA Frankreich. Ich bin Mitglied von AXA’s „Big Data“-Team. Unser Ziel ist es mit all unseren Datenquellen einen Data Lake zu betreiben und einen echten Mehrwert bei den Daten zu haben, der es uns ermöglicht, die Angebote von AXA Frankreich zu verbessern.

Noch vor einem Jahr war das Team ziemlich klein. Um den Data Lake schaffen zu können, haben wir unser Team innerhalb eines Jahres von 5 Mitarbeitern auf 30 vergrößert. Die Zusammenarbeit ist großartig. Unsere Projekte werden nach und nach umgesetzt, so dass wir unsere Modelle in der wirklichen Welt anwenden können.

Was sind die Data Science-Ziele von AXA?

Bei AXA haben wir jetzt einen Data Lake, der es uns ermöglicht an einem Ort Daten aus allen Quellen abzurufen, die AXA zur Verfügung stehen. Mit diesem Data Lake können wir viele neue Daten vergleichen, was vorher so nicht möglich war. Zuvor waren die Daten auf verschiedene Orte verstreut.

Jetzt können wir all diese Daten nehmen und Data Sets erstellen, mit denen wir unsere Kunden besser verstehen. Wir wissen dank dieser neuen Daten genauer, wie wir mit ihnen interagieren.

Welche Typen von Technologien nutzt ihr?

Technisch gesprochen haben wir einen Hadoop-Cluster. Diese Big Data-Technologie erlaubt es uns all unsere Daten an einem gemeinsamen Ort zu vereinen, sie zu speichern und zu verarbeiten. Zusätzlich zur Hadoop-Technologie nutzen wir Spark-Technologie. Damit können wir noch viel mehr aus unseren Rohdaten machen. Konkret bekommen wir dadurch die Data Sets, die wir für die Analyse oder für unsere Business Analysten brauchen, die eine spezielle Analyse durchführen wollen.

Welche Technologien würdest Du anderen empfehlen?

Beim Aufbau eines Data Lake kommt man nicht um eine Hadoop-Datenbank herum. Das Hadoop-Ökosystem ist die Open-Source-Technologie schlechthin, wenn man heute mit Big Data arbeiten möchte. In dieser Hadoop-Datenbank haben wir verschiedene Bestandteile, durch die wir SQL, Python, Java, Scala und mehr verwenden können.

Ich selbst habe vor 3 Jahren mit Command Lines angefangen. Es ist wirklich kein Spaß damit zu arbeiten! Und dann habe ich die Spark Technologie entdeckt. Mit ihr kann ich die Daten so verwenden, wie ich es will und das sehr schnell. Deshalb empfehle ich Spark zu verwenden. Es ist eine wundervolle Technologie. Aber man sollte daran denken, dass sie als umfassendere Technologie auch mehr kostet.

Spark kann man gut mit Data Science-Sprachen wie Python oder R vergleichen. Man kann Spark mit Python nutzen … und das ist super, weil man mit Python alles machen kann! Man kann auch R für Spark verwenden, aber da ist die Entwicklung noch nicht so weit, schließlich war das nicht das vordringliche Ziel. Die Open Source-Community kümmert sich aktiv um diese beiden Sprachen, die auf breiter Basis von Data Scientists verwendet werden.

Im Grund braucht man für die Technik Python oder R. Man kann sie bis zu einem gewissen Grad zusammenwerfen, aber R ist ein wenig besser auf Entwickler zugeschnitten, die am häufigsten damit arbeiten.

Welchen Beitrag hat Analytics zur Data Science?

Ich würde sagen es handelt sich dabei mehr oder weniger um das selbe. Durch Data Science können wir neue Arten entwickeln, wie wir die Daten bearbeiten, sie miteinander verknüpfen und sie analysieren. Das ist nicht ganz neu, aber vorher hatten wir nur sehr spezielle Technologien zur Verfügung. Heute haben wir mehr Informationen, mehr Daten und mehr Technologien und Methoden um diese Informationen zu vergleichen.

Warum sind Digital Analytics-Daten unverzichtbar für Data Lake-Projekte?

Wir nutzen viele Daten wie die von AT Internet oder DMP-Daten in unseren Modellen, weil wir dadurch Kontext-Informationen über die Person bekommen, die auf unseren Seiten surft. Die Daten aus unseren Website-Formularen sind sehr reichhaltig und wertvoll. Aber wir verlassen uns auch auf Daten von AT Internet und DMPs um mehr Informationen zu bekommen, die uns dabei helfen ein präziseres Scoring für zukünftige Geschäftsaktionen zu bekommen.

Kannst Du uns ein Beispiel geben, wie Du Daten von AT Internet nutzt?

Wir starten sehr bald ein Scoring-System auf Basis von Page Views, ausgefüllten Formularen, Preisanfragen, … alles was auf unser Website passiert und von AT Internet gemessen wird.

Dieses Scoring hilft uns Besucher zu bewerten, je nachdem ob wir glauben, dass er sich wirklich für eine Versicherung bei der AXA entscheidet, oder ob er sich einfach nur umsieht und noch nicht bereit für einen Vertragsabschluss ist. Damit können wir bei unseren Angeboten passend zu den Nutzerprofilen, die wir ausmachen, einen Schritt weiter gehen. Wenn wir sehen, dass jemand großes Interesse an einem Produkt hat, können wir ihr auf der Stelle anrufen, ihm mehr Priorität einräumen oder versuchen herauszufinden, welches Produkt am besten zu dem passt, wonach er sucht. Damit geben wir den bestmöglichen Anreiz unser Kunde zu werden.

Gibt es Anwendungen aus dem Alltag, die Du uns vorstellen kannst?

Jetzt, da wir über alle Informationen verfügen, können wir die Performance so darstellen, dass daraus ein Mehrwert für das Unternehmen wird. Als Data Scientists arbeiten wir dabei mit neuen Technologien, die vielleicht noch nicht jeder kennt und es ist auch nicht unbedingt die Aufgabe eine Webanalysten diese Technologie zu beherrschen.

Also bauen wir zuerst kleine Prototypen, die es ihnen erlauben sich mit den neuen Methoden und Techniken vertraut zu machen, um ihre Arbeitsabläufe zu verbessern. Ich habe zum Beispiel eine Anwendung entwickelt, weil es im Unternehmen einen großen Bedarf dafür gab und habe weiter daran gearbeitet sie benutzerfreundlicher und relevanter zu machen. Diese Anwendung kann genutzt werden um Conversion Rates mit Pageview-Sequenzen zu messen. Sie besitzt eine Vielzahl von Filtern, die normalerweise nicht so einfach genutzt werden könnten, wenn wir nicht diese Art von Anwendung hätten.

Wie verwendet ihr Daten darüber hinaus noch?

Wenn wir mit Machine-Learning arbeiten, erstellen wir einen Score um Kunden mit hohem Potential zu priorisieren. Bei denen ist die Chance groß, dass sie eines unserer Angebote nutzen. Aber damit haben wir nur einen sehr theoretischen Wert. Wir wissen, dass das Modell sehr genau ist und dass es uns nutzen wird. Sobald es gestartet wurde, müssen wir es testen um sicherzustellen, dass es wie geplant funktioniert.

Also gibt es einen Monat lang eine A/B-Testing-Phase, während der wir einen Zufalls-Feed generieren und nicht eingreifen. Danach kommt eine zweite Phase während des selben Monats, in der wir den Score verändern. Üblicherweise machen wir einen Test bei allen bei denen die Chance, dass sie sich anmelden, sehr groß ist. Wir rufen zum Beispiel sofort an.

Dann messen wir, ob dieser unmittelbare Anruf, so wie gehofft, einen Einfluss auf die Conversion-Rate hatte – entweder positiv oder negativ. Wenn die Anrufe sich negativ auswirken, hören wir sofort damit auf und starten einen neuen Test um herauszufinden, warum das nicht so funktioniert hat, wie wir wollten.

Mehr zu diesem Thema: Digital Analytics & Big Data-Projekte: Was Sie darüber wissen müssen

AT Internet Analytics Suite 2
Autor

Ashleys Heimat ist das Silicon Valley. Sie verfügt über 10 Jahre Erfahrung als Marketing Writer und hat zuletzt bei Google im digitalen B2B-Marketing gearbeitet. 2014 ist sie zu AT Internet gekommen um unsere internationale Kommunikation in 6 Sprachen auf- und auszubauen. Ihr Ansporn ist es, die Inhalte aus dem komplexen, sich unablässig verändernden digitalen Universum in klare, ansprechende und verlässliche Botschaften zu übersetzen – mit nichts als den richtigen Worten.

Comments are closed.