data scientist’s journey

Dr. Sébastien Foucaud hat rund um den Globus als Astrophysiker und Universitätsprofessor gearbeitet bevor er seinen Weg in die Data Analysis-Welt mit Machine Learning und Big Data Technology fand. Momentan ist er der Leiter der Data Science-Abteilung bei Scout 24, einem Handelsportal für Immobilien und Fahrzeuge. Dort ist er für Data Science-Projekte verantwortlich, die Empfehlungen für die Produktentwicklung liefern. Er hat sich bereit erklärt uns an seinem Erfahrungsschatz rund um die Arbeit mit unterschiedlichsten Daten teilhaben zu lassen: angefangen bei Bildern von Teleskopen bis zu den Digital Analytics-Daten von AT Internet. Im folgenden Interview erfahren Sie, wie Machine Learning Unternehmen helfen kann. Foucaud gibt Data Scientists, die am Anfang ihrer Karriere stehen, Tipps und spekuliert darüber, wie sich dieser Bereich in Zukunft entwickeln wird.

Du hast eine recht ungewöhnliche Karriere hinter Dir. Wie bist Du von der Arbeit als Astrophysiker zu Deiner heutigen Tätigkeit als Data Scientist gekommen?

Mit 7 Jahren habe ich mein erstes Teleskop bekommen und beschlossen, dass ich Astronom werden möchte. Die Astrophysik ist sehr analytisch – ich habe das damals nicht so gesehen, aber es hat sich als sehr wichtig für meine heutige Arbeit herausgestellt.
Nach meinem Abschluss in Astrophysik an der Universität der Provence in Marseille habe ich mehrere Jahre lang daran gearbeitet Daten von Teleskopen zu sammeln und Software zu entwickeln, mit der man automatisch Informationen daraus ziehen kann. 2005 habe ich ein Projekt zusammen mit der Universität Nottingham geleitet, bei dem wir uns eines Teleskops in Hawaii angenommen haben, das jede Nacht 100 Terabytes an Daten geammelt hat. Wir haben eine Technologie entwickelt, mit der man Informationen aus den Bildern extrahieren kann, die vom Teleskop aufgenommen werden, diese Daten in eine Datenbank in Schottland überträgt und sie automatisch aktualisiert. Unser Ziel war es die Daten der jeweiligen Nacht in Echtzeit zu verarbeiten. Wir haben riesige Datenmengen in der Datenbank gesammelt, aber vieles davon konnte nicht genutzt werden, weil die Technologie in dieser Zeit für die Auswertung dieser Datenmengen noch nicht weit genug entwickelt war.

Das war eines der Probleme, die ich lösen wollte – große Datenmengen zu untersuchen. Da Projekte in der Astrophysik oft von einer Regierung finanziert werden, stehen die Daten öffentlich zur Verfügung und das in großen Mengen. Im besten Fall braucht man das Teleskop gar nicht mehr, weil die Daten bereits schon mal gesammelt und irgendwo gespeichert wurden. Also habe ich mich auf die Frage konzentriert, wie wir Technologie nutzen können um die bestehenden Datenbanken auszuwerten. Auf diese Weise bin ich zur Informationswissenschaft gekommen. Als erstes habe ich mit Hadoop gearbeitet. Ich wollte alle Informationen an einem Ort zusammenbringen, die Daten analysieren und mehrere Milliarden Einträge gleichzeitig für Data Science-Projekte nutzen.

Ich habe 4 Jahre als Universitätsprofessor in Taiwan verbracht. Dort konnte ich ein Datencenter für astronomische Daten aufbauen. Mit den Daten ließ sich einiges anfangen und wir konnten damit einfache Statistiken für Milliarden von Datenpunkten erstellen (zum Beispiel Durchschnitt oder Median). Das war bisher nicht möglich. Sobald wir Zugriff auf ein statistisch verwertbares Datenset hatten, konnten wir anfangen darüber nachzudenken, wie wir durch Maschine Learning verschiedene Objekte klassifizieren und Einsichten daraus gewinnen. Zum Beispiel wie weit Galaxien voneinander entfernt sind.
Dann war ich 2 Jahre lang als Professor in Shanghai. Dort habe ich mitgeholfen ein ähnliches Datencenter aufzubauen, das sogar noch umfangreicher war. Zu diesem Zeitpunkt habe ich gemerkt, dass mich nicht mehr so sehr die Astrophysik interessiert sondern mehr die Produktentwicklung für Data Science: wie man Daten nutzt um Lösungen zu finden, mit denen man Privatpersonen und Unternehmen dabei hilft das, was sie tun wollen, erfolgreicher zu tun.

An welchen Typen von angewandter Data Science und Machine Learning-Projekten hast Du gearbeitet?

Nachdem ich China und dem akademischen Bereich den Rücken gekehrt hatte, bin ich nach Berlin gezogen um mich als Head of Data Science einem P2P-Startup anzuschließen. Meine Aufgabe war es alles zu verbessern, was mit Data Science und Machine Learning verbessert werden konnte. Das hat mit dem Risiko-Management und der Risiko-Einschätzung angefangen. Ein Beispiel dafür ist, wie man das Risiko einschätzen soll, wenn man jemandem Geld leiht. Die Lösung sah so ähnlich aus wie die Abstandsmessung von Galaxien – es ist ein Klassifikations-Problem. Man erstellt ein Modell, das auf Daten aus der Vergangenheit basiert und sortiert sie in verschiedene „Schubladen“ ein. Dabei ist es egal ob es sich bei den „Schubladen“ um unterschiedliche Risiko-Ebenen oder unterschiedliche Farben von Galaxien handelt … Beide sind nur ein Klassifikationsproblem von vorhandenen Informationen.

Danach kam ich zur OLX-Gruppe. Das ist ein globales Netzwerk von Plattformen für Kleinanzeigen. Dort habe ich ein Team aus Data Scientists, Data Analysts und Data Engineers aufgebaut. Unsere Aufgabe war es die vorhandenen Daten zu nutzen, um bestimmte Aufgaben des Unternehmens zu vereinfachen. Zum Beispiel die Automatisierung und Überwachung der etwa 2 Millionen Angebote, die täglich eingestellt werden. Auch dafür war eine Klassifikation die Lösung: Uns standen umfangreiche Daten und Anzeigen zur Verfügung, die zuvor von den Kundendienstmitarbeitern manuell bestätigt wurden. Diese Daten haben wir verwendet um Modelle für die automatische Überwachung von Anzeigen zu erstellen. In meiner Zeit bei OLX habe ich auch an Projekten gearbeitet, die sich damit befassten, wie in den Anzeigen Texte und Bilder besser genutzt werden können. Wir konnten Bilder dadurch klassifizieren, dass wir uns angesehen haben, wie sie die User Experience verbessern konnten und automatisch bestimmte Eigenschaften der Anzeigen-Bilder erkennen und extrahieren. Zu dieser Zeit habe ich auch angefangen mit Digital Analytics-Daten von AT Internet zu arbeiten. Sie waren die Grundlage für die wichtigsten KPIs bei OLX.

Um welche Projekte kümmerst Du Dich momentan? Wie sieht Dein Team aus?

Bei Scout 24 leite ich ein Team von 10 Data Scientists und 20 Data Engineers in wechselnden Team-Konstellationen. Dadurch haben wir eine sehr agile, schlanke Arbeitsumgebung. Unsere Data Engineers konzentrieren sich darauf unseren Data Stack weiter aufzubauen, während unsere Data Scientists sich um das Geschäft kümmern und überlegen, wie man Machine Learning nutzen kann um Produkte zu entwickeln, die den Wert des Unternehmens für die Nutzer steigern. Scout 24 ist ein technik-getriebenes Unternehmen, das verstanden hat, dass Daten das Kapital sind. Deshalb bauen wir das Data Science-Team langsam aber stetig aus.
Eines unserer wichtigsten Projekte ist die Empfehlungs-Engine, die wir Ende 2016 gestartet haben. Diese Engine hat zwei Funktionen:

  • Ähnlichkeit zu anderen Nutzern (wir empfehlen Angebote basierend darauf, was sich andere Nutzer angesehen haben, z.B.: „Nutzer, die sich das Angebot für dieses Apartment angesehen haben, habe sich auch diese anderen Angebote angesehen“)
  • Ähnlichkeit bei den Funktionen (wir empfehlen Angebote, die ähnliche Eigenschaften haben, z.B.: „Sie sehen sich blaue Autos mit Automatikschaltung und 4 Türen an, hier sind weitere Autos mit diesen Eigenschaften“)
    Wir arbeiten an der automatischen Erkennung von Bildern und Eigenschaften in diesen Bildern. Zum Beispiel wollen wir unterscheiden können, ob es sich auf dem Foto um einen Audi oder einen BMW handelt, oder um eine Küche oder ein Badezimmer.

 

Wie wirkt sich dieses Projekt auf das Unternehmen aus?

Wir haben hervorragende Erfahrungen mit der Empfehlungs-Engine gemacht – mit einer Clickthrough-Rate, die 6mal höher ist als bei der normalen Suche. Anders ausgedrückt: Mit der normalen Suche mussten unsere Kunden 50 Angebote durchsuchen, bevor sie das gefunden haben, was sie wollen. Jetzt müssen sie sich nur 8 von unseren empfohlenen Angeboten anschauen! Außerdem überschneiden sich die Angebote nur zu 30 % mit solchen, die Nutzer schon angesehen haben. Das bedeutet, dass 70 % dieser Empfehlungen für die Nutzer komplett neu sind.

Was sind die gängigsten Fehler, die Unternehmen bei der Implementierung von Data Science-Initiativen machen?

Viele Unternehmen zäumen das Pferd von hinten auf: Sie bauen zuerst die Infrastruktur aus, investieren massiv in Cluster und Server sowohl vor Ort als auch in der Cloud um Daten sammeln zu können und stellen Data Scientists an. All das bevor sie wissen, was sie damit erreichen wollen. Und wenn sie feststellen, dass ihre Data Scientists die Probleme nicht lösen können, folgt die große Enttäuschung.
Zuallererst müssen Unternehmen wissen, was sie eigentlich wollen und welche Probleme gelöst werden müssen. Sie müssen festlegen, ob sie schon genügend Daten haben, um die Probleme zu lösen. Wenn nicht, müssen sie herausbekommen, wo die Daten zu finden sind. Danach müssen sie die Daten an einen Ort bringen, an dem man sie nutzen kann (normalerweise in der Cloud), bestimmen, welche Data Science Skillsets man für bestimmte Probleme braucht und zum Schluss noch einen Data Scientist finden, der dazu passt. Dafür muss man sich mit einem guten Datenstrategen und einem zuverlässigen Datenanbieter zusammentun.

Ich empfehle momentan ein Start-Up (certace), das hochqualifizierte Data Scientists an Projekte von Fortune 500- oder Fortune 1000- Unternehmen vermittelt. Das Freelance-Modell ist bei Data Scientists sehr beliebt. Wir interessieren uns nicht unbedingt für ein bestimmtes Unternehmen sondern für bestimmte Arten von Projekten. Diese Herangehensweise ist auch für die Unternehmen interessant – sie müssen kein eigenes Data Science-Team aufbauen und können trotzdem mit erfahrenen Data Scientists zusammenarbeiten, die genau zum entsprechenden Projekt passen.

“Data Scientist” kann eine ziemlich schwammige Beschreibung sein. Wie würdest Du Dich selbst in Deiner Rolle als Data Scientist beschreiben?

Ich bezeichne mich als „Datenstratege“ oder „Data Strategist“ – jemand, der versteht, was das Unternehmen braucht, das in einen Handlungsrahmen umwandeln kann und dann Data Science verwendet um eine Lösung für das Unternehmen zu schaffen.
Ja, es gibt alle möglichen Sorten von „Data Scientists“. Die Bandbreite reicht von Analysten, die sich um das Geschäft kümmern, Python oder Scala nutzen können um Informationen zu extrahieren und sie mit einer Machine Learning-Toolbox in Einsichten für das Unternehmen zu verwandeln, bis zu Data Scientists, die eher Entwickler sind, die Machine Learning und fortschrittliche Technologien nutzen um Produkte zu entwickeln, die auf ihren Plattformen skaliert werden können. Diese zwei Profiltypen sind komplett unterschiedlich: Auf der einen Seite hat man jemanden der analysiert und das Unternehmen versteht, auf der anderen den Ingenieur, der viel Erfahrung im Entwickeln von Lösungen mitbringt.
Sie müssen aber beide zumindest ein Grundverständnis dafür besitzen, was das Unternehmen braucht. Natürlich muss nicht jeder einen Uni-Abschluss haben, damit er in der Wirtschaft effizient als Data Scientist arbeiten kann, aber man muss wissen, wie man die Leistung des Unternehmens verbessern kann.

Welche Erfahrungen oder Fähigkeiten braucht man Deiner Meinung nach um ein guter Data Scientist zu sein?

Es gibt nicht den einen Weg, den man einschlagen muss; Die unterschiedlichsten Menschen mit unterschiedlichsten Hintergründen und Ausbildungen werden Data Scientists. Ich habe viel Erfahrung mit Statistik, was man meiner Meinung nach einfach braucht. Warum? Als Data Scientist muss man in der Lage sein zu verstehen, was man in Datasets nutzen kann und ob die Daten gut genug – oder groß genug, unverfälscht, usw. – sind um die Informationen zu liefern, die man braucht um das Problem zu lösen. Dafür ist Statistik unabdingbar.
Ich halte es darüber hinaus für sehr wichtig sich damit auszukennen, wie man Daten streamt. Obwohl ich mich nicht direkt um das Coding kümmere, besitze ich ein solides technisches Wissen über Algorithmen und deren Funktion. Ich verstehe die Architektur und Infrastruktur dahinter, besonders wenn es um Spark geht.

Welchen Rat würdest Du jemandem geben, der Data Scientist werden möchte?

Zuerst solltest du dir darüber klar werden ob du dein Wissen einem Unternehmen dafür zur Verfügung stellen möchtest seine Probleme zu lösen oder ob du rein in der Forschung tätig sein willst.
Du kannst ein Praktikum machen – dafür gibt es immer mehr Angebote. Damit siehst du, was dir gefällt. Du kannst dich später in deiner Karriere auf ein bestimmtes Gebiet spezialisieren, aber für deinen ersten Job, während du noch dazulernst, geht es darum herauszufinden, was dir gefällt.
Bleib nicht stecken, indem du dich zu sehr auf eine bestimmte Sprache konzentrierst. Wenn du dich mit Python wohl fühlst, dann sollte sich das Unternehmen an Python anpassen. Wenn du mit R arbeitest, dann sollte das Unternehmen R übernehmen. Du solltest eine Technologie aber nicht über eine andere stellen … In 5 Jahren hat sich eh wieder alles geändert, weil sich die Dinge so schnell entwickeln. Dann musst du wieder eine neue Sprache lernen!
Data Scientists konzentrieren sich immer auf Technologie und Algorithmen. Aber mein Rat ist, darüber nachzudenken, was das Unternehmen von dem hat, was du tust und zu verstehen, welchen Mehrwert das bringt. Das macht den Unterschied zwischen einem guten Data Scientist und einem guten Data Scientist mit einem Job aus!

Was gefällt Dir an Deinem Beruf am besten? Was treibt Dich an?

Am besten gefallen mir die Produktentwicklung und der strategische Aspekt der Problemlösung für Unternehmen. Ich interessiere mich sehr dafür wie wir die Anwendung von Data Science auf andere Bereiche und Geschäftsfelder übertragen können, die außerhalb der digitalen Branche, E-Commerce und Kleinanzeigen liegen. Mich motiviert das Ziel Unternehmen dabei zu helfen zu verstehen was sie erreichen wollen und dann mit den richtigen Daten, Entwicklungen und dem Talent von Data Scientists dort hin zu kommen.

Wie denkst Du wird sich Data Science und Machine Learning in der nächsten Dekade entwickeln?

Global gesehen wird die Cloud immer wichtiger und wir sind immer mehr in der Lage Probleme zu lösen, weil wir uns jetzt in anderen Größenordnungen bewegen: Cluster sind günstiger und leistungsfähiger, wir können große Datenmengen verschicken. Das ist ein guter Ausgangspunkt und es wird mit der Zeit immer besser.
Ich glaube nicht, dass die Technologie gewaltige Entwicklungssprünge machen wird. Stattdessen wird sich das Machine Learning ausbreiten und in weiteren Bereichen angewendet werden. Voll entwickeltes Machine Learning kann überall seinen Platz finden. Deshalb denke ich, dass Data Science auch dort verwendet werden wird, wo das heute noch nicht der Fall ist. Blockchain-Technologie, Augmented Reality, Virtual Reality, Spracherkennung und neuronale Netze werden in den nächsten zehn Jahren ihren Einfluss geltend machen.

Und jetzt die 1-Million-Euro-Frage: Wird die Herrschaft der Maschinen anbrechen?

In Zukunft werden wir noch enger mit Maschinen zusammenarbeiten, da sie noch responsiver sein werden. Wenn wir uns anschauen wie wir heute Probleme mit künstlicher Intelligenz und Machine Learning lösen, stellt sich die Frage der Optimierung – wie wird man effizienter, wie verdient man mehr Geld? Wenn wir das als Grundvoraussetzung nehmen und versuchen alles um uns herum zu optimieren, dann wird es wohl nicht mehr lange dauern, bis die Maschinen begreifen, dass die Menschen diese Optimierung bremsen, oder? [lacht]

Wir sollten aber keine Angst davor haben, denn wir können die Technologie im Sinn einer „Augmented Humanity“ zu unserem Vorteil nutzen … uns also mit Technik so verbessern, dass wir nicht ersetzt werden müssen.

Vielen Dank an Dr. Foucaud dafür, dass er mit uns über seine Erfahrungen gesprochen hat! Sie können mit ihm bei SBSF Consultancy in Kontakt treten. Werfen Sie in den kommenden Wochen regelmäßig einen Blick in den Blog um mehr von Dr. Foucaud zu lesen!

Data Quality in Digital Analytics guide
Autor

Ashleys Heimat ist das Silicon Valley. Sie verfügt über 10 Jahre Erfahrung als Marketing Writer und hat zuletzt bei Google im digitalen B2B-Marketing gearbeitet. 2014 ist sie zu AT Internet gekommen um unsere internationale Kommunikation in 6 Sprachen auf- und auszubauen. Ihr Ansporn ist es, die Inhalte aus dem komplexen, sich unablässig verändernden digitalen Universum in klare, ansprechende und verlässliche Botschaften zu übersetzen – mit nichts als den richtigen Worten.

Comments are closed.