Der Mythos vom tugendhaften Sampling in der Webanalyse (Teil 2 von 2)

Wir haben gesehen, dass Firmen vom Sampling profitieren können, aber was bringt es den Kunden?

Es gibt Unternehmen, die behaupten, dass Sampling dabei hilft Leistung und Geschwindigkeit zu steigern. Darüber haben Sie gerade einiges gelesen. Aber hört man auch etwas über die Wirkung, die das Sampling auf die Relevanz der Resultate hat? Davon erfährt man nichts und genau da liegt das Problem.

Hier stößt man auf schwammige Formulierungen und allerlei Verschleierungen.
Manche Firmen begründen die Verwendung von Sampling dadurch, indem sie andauernd darauf verweisen, dass es auch in der Statistik angewendet wird. Dieses Argument ist falsch und manchmal richtig gefährlich, da sich der eine Bereich nicht auf den anderen übertragen lässt.

Sampling: wie und mit welchen Konsequenzen?

In der Statistik ist niemand so unvorsichtig die Tatsache zu ignorieren, dass für die Untersuchung von Verhaltensdaten ein repräsentatives Sample zur Verfügung stehen muss. Darüber hinaus verlangt korrektes Deduzieren auch, dass nach der Kontrolle der Ergebnisse durch Re-sampling und das Abwägen der Daten immer noch ein Statistiker oder Forscher die endgültige Feinkorrektur vornehmen muss.

Die verwendete Sampling-Technik unterscheidet sich je nach statistischer Methode. Wir können zum Beispiel die Methode mit der sich die Wahrscheinlichkeit herausfinden lässt, ob man einen weißen oder schwarzen Ball zieht (wo das Gesetz der großen Zahlen ins Spiel kommt) nicht mit der für die Auswertung von Verhaltensdaten gleichsetzen (hier spielen Zeit und Ort eine Rolle).

Außerdem: Was passiert mit kumulativen Daten? Das Sample ist jeden Tag ein anderes. Beziehen sich die kumulativen Ergebnisse, die angezeigt werden, auf den Monat, ein Vierteljahr oder ein Jahr? Ich wäre dankbar, wenn mir das jemand erklären könnte.

Ein Beispiel:

Meine Site generiert im Durchschnitt 50 Millionen Hits pro Monat und 50.000 Visits am Tag. Durch das Sampling bin ich (beispielsweise) auf 10 Millionen Hits im Monat und 25.000 Visits am Tag beschränkt.Es gibt zwei mögliche Vorgehensweisen:#1- Mit dem Sammeln von Daten aufhören, wenn das Limit erreicht istFolgende Beispiele zeigen, welche Verzerrungen sich dadurch ergeben können:

Von der Produktion kommen am Mittwoch und Freitag um 17:00 Updates (inklusive kurzfristige Angebote).
Am Mittwoch wird der Schwellenwert für das Sample um 18.00 Uhr erreicht und meine Aktualisierungen werden nur teilweise berücksichtigt.
Am Freitag wird der Schwellenwert um 16.00 Uhr erreicht und meine Aktualisierungen werden überhaupt nicht mehr aufgenommen (selbst wenn sich das Nutzerverhalten sich auf meiner Site um 17.00 Uhr grundlegend von Besuchern um 16.00 Uhr unterscheidet).
Mein Verkaufs-Newsletter wird am Dienstagmorgen verschickt: Wer kann mir glaubwürdig darlegen, dass das Sample vom Dienstag (11.00 Uhr) mit den Samples vom Mittwoch oder Freitag vergleichen und zu diesen addiert werden kann? Welche Erkenntnisse lassen sich dann aus dem Gesamtergebnis von drei verschiedenen Gruppen mit jeweils unterschiedlichen Requests, anderen Interessen und einer von Tag zu Tag unterschiedlichen Zusammensetzung ziehen?
Man kann auch eine Untersuchung zu den gesammelten Hits im Monat November (10 Millionen gesammelte Hits von 20 Millionen) und Dezember (10 Millionen Hits von 100 Millionen) durchführen. 20 Millionen Hits sind nicht besonders repräsentativ für die insgesamt 110 Millionen Hits. Was kann man also mit einem Durchschnittswert anfangen?

#2- Einen Prozentsatz festlegen, der untersucht werden soll

Folgende Beispiele zeigen, welche Verzerrungen sich dadurch ergeben können:

Mein Verlauf zeigt 14 Millionen Hits und 360.000 Visits
Ich lege fest, dass 70% der Daten gesammelt werden, um den Schwellenwert nicht zu überschreiten.
Saisonale Schwankungen: Wenn der Traffic im Monat Dezember doppelt so groß ist wie in den anderen Monaten, sind 70% zu viel. Diese Zahl muss auf 35% reduziert werden, was bedeutet, dass keine Daten mehr gesammelt werden, sobald das Limit von 35% erreicht wurde.
Wenn im Februar dagegen wenig los ist (nur die Hälfte im Vergleich zu einem gewöhnlichen Monat) dann macht es keinen Sinn ein Sample zu machen, denn das wäre größer als die tatsächlich zur Verfügung stehenden Daten.
Ist die Rate anpassbar?
Wer entscheidet in diesem Fall, ob ein Sample Sinn macht oder nicht? Auf welche Grundlagen wird das Sampling gestellt?
Wie kann man das Sampling ohne Vorkenntnisse über das Trafficvolumen für den festgelegten Zeitraum definieren?

Sampling und die Aufgabe des Analysten

“Big Data” ist ein vieldiskutiertes Thema und wir sind uns im Klaren darüber, wie wichtig es für Analysten ist, mit „Big Data“ klarzukommen. Es ist gut, sich von der Masse der „Small Data“ zu lösen die viele wichtige Informationen liefern, so dass die richtigen Marketingaktionen geplant werden können, die optimale Wirkung zeigen.

Das wichtigste Werkzeug um diese wichtigen Informationen zu finden heißt Segmentierung. Sie wird oft mit geringer Granularität in Verbindung gebracht (wie bei einem Foto, wo eine schlechtere Granularität eine bessere Lichtempfindlichkeit bedeutet).

Es ist klar, dass Sampling es mit all seinen Beschränkungen und Verfälschungen unmöglich (und manchmal sogar gefährlich) macht Segmentierung zu verwenden. Je spezifischer das Segment ist, desto ungenauer wird das Sampling von Anfang an.

Man muss jeden, der Retargeting verwenden möchte, darauf hinweisen, dass es unbedingt notwendig ist umfassende Daten zu verwenden und keine Samples.

In diesem Fall ist Sampling ein Hemmnis oder sogar eine Gefahr für den Analysten.

Zum Glück sind Analysten sehr kritisch und finden schnell heraus, was nur leere Versprechungen sind, wo etwas verschwiegen wurde, wo man die Argumentation verdreht hat und wann man ihnen versucht ein X für ein U zu verkaufen. Sie werden also schnell feststellen, dass Sampling wenig taugt.

[sc:social url=“https://blog.atinternet.com/de/index.php/2012/12/14/market-trends/der-mythos-sampling-2/961″]