Question

Modellüberlegungen am Beispiel des Portals #LETSROCKMATHE

Aufrufe: 1345 Aktiv: 03.03.2020 um 20:43

6

Guten Tag zusammen,

in der letzten Woche habe ich mich ein bisschen mit dieser Website beschäftigt und das Folgende herausgearbeitet.

STAND - 15.08.2019 - ca. 17:00

etwa 7900 Mitglieder
etwa 3470 Fragen
mindestens 4410 Antworten (Abschätzung für die 400 Nutzer mit den meisten Punkten, also der höchsten Reputations-Wertung)

Verhältnis aller Fragen zu diesen Antworten:
1:1,27 (Mindestwert)

Verwendetes Programm: Excel

Verwendete Daten: Verifizierungen, Punktewertung, Anzahl abgegebener Antworten

Betrachtete Gruppen:

- Gruppe: Verifizierung vorhanden,
- Gruppe: Erfolgreiche Mitglieder (wird später genauer erklärt),
- Gruppe: Top 680 (nach Punkten),
- Gruppe: Top 40 (nach Punkten),
- Daniel Jung - er ist eine Besonderheit bei der Datenauswertung,
- Überschneidungen der Gruppen sind möglich.

Soweit der erste Überblick, beschäftigen wir uns nun etwas genauer mit den Daten, die frei einzusehen sind.
Es bietet sich offensichtlich an, einige Auswertungen und Berechnungen mit einem Tabellenkalkulationsprogramm durchzuführen:

1.) Punkte/Scores der 680 Nutzer mit den höchsten Werten:

- Untersuchung aller Werte größer als die Startpunktzahl von 10,
- Untersuchung berücksichtigt folglich nur positive Werte,
- Scores über 1k werden nur auf 10er genau angegeben.

Abbildung 1. Verteilung der Punkte, Normale Darstellung

Mit etwas Erfahrung in der Auswertung von Funktionen bemerkt man sofort, dass hier eine Art Hyperbel zu betrachten ist.
Bandbreite: Maximalwert 13920, Minimalwert 10 (diesen Wert hat man bei Anmeldung)

Mit einer normalen Skala ist wenig zu erkennen; besser geeignet erscheint die logarithmische Darstellung.

Abbildung 2. Verteilung der Punkte, Logarithmische Darstellung

Als Nächstes wird eine Rekonstruktion der Daten mit möglichst einfachen Funktionen angestrebt.
Zunächst erstellen wir eine linearisierte Version der Datenreihe. Mit Geschick wählt man eine Darstellung, bei der das Verhältnis zwischen x-Achse und y-Achse etwa 1:1 ist.

Abbildung 3. Darstellung einer Linearfunktion

Ein erster Versuch direkt hiermit, d.h. mit der Funktion 'Punkte=7555.55/(Rang)' die Kurve zu rekonstruieren, ist allerdings nicht hinreichend präzise.

Abbildung 4. Darstellung der Regression der Linearfunktion

In unserem Fall findet man mithilfe einer linearen Regression heraus, dass mit der Funktion 'Punkte=7907.43/(Rang+38.98)' die Punktzahl der Mitglieder ab Rang 50 recht gut modelliert werden kann.

Abbildung 5. Rekonstruktion der Daten aus den genannten Funktionen

Für eine "Topgruppe" von etwa 40-50 Mitgliedern gibt es jedoch unvertretbare Abweichungen. Auf diese Erkenntnis wollen wir später zurückkommen. Schauen wir aber zunächst auf die weiteren Daten.

2.) Antworten der 400 Nutzer mit den höchsten Scores:

- Untersuchung aller Mitglieder, die mehr als 4 Antworten abgegeben haben,
- hiermit Abschätzung der Gesamtzahl der Antworten nach unten,
- Anteile in % an der Gesamtzahl von ca. 4410 berücksichtigten Antworten.

Abbildung 6. Verteilung der Antworten, Logarithmische Darstellung

Bandbreite: Maximalwert 1010, Minimalwert 4 (ab diesem Wert werden Antworten in der Übersicht angezeigt)
Die echt nutzbare Datengröße für 2.) und 3.) waren die Antwortzahlen von 112 Nutzern, da für die restlichen Mitglieder der Top 400 Gruppe keine Antwortzahl (bzw. keine größer als 3) gegeben war. Im Diagramm werden folglich diese Werte nicht angezeigt, was die vielen "Lücken" erklärt.

Abbildung 7. Anteile an den berücksichtigten Antworten, Normale und Logarithmische Darstellung

3.) Antworten pro Punkt/"AP-Score"

- Berechnung [10*Anzahl Antworten/Punkte],
- Ziel: Berechnung eines Vergleichswertes für den "Erfolg" eines Mitglieds,
- ein Maß, wie viele Antworten pro 10 Punkte gegeben werden mussten,
- ein niedriger "AP-Score" bedeutet: viele Punkte für wenige Antworten.
- vernachlässigt Punktegewinne durch Fragen oder Community-Artikel (vereinfachtes Modell)

Abbildung 8. Verteilung der "AP-Scores"

Bandbreite: bester Wert 0,255 - Daniel Jung - rot markiert, schlechtester Wert 3,500
Wir können also festhalten, dass Daniel Jung eine Sonderstellung auf dieser Plattform einnimmt.
Als erfolgreich werden im folgenden Mitglieder mit einem "AP-Score" von unter 0,7 bezeichnet. In der nächsten Grafik ist die Abweichung zum (willkürlich gewählten) Normwert 1 gegeben. Ein Wert unter null bedeutet im Schnitt weniger als eine Antwort pro 10 Punkte geben zu müssen.

Abbildung 9. Differenzwerte der "AP-Scores"

Erfolgreich nach Definition sind in dieser Grafik alle Mitglieder, die sich unterhalb des grauen Bereichs befinden. Daniel Jung ist (wie an einer später folgenden Grafik abgelesen werden kann) sogar doppelt so erfolgreich wie der Schnitt der erfolgreichen Mitglieder.

5.) Für nähere Untersuchungen sollte zwischen einer Spitzengruppe (zu finden auf Seite 1 der Liste aller Mitglieder, also die Top 40 - vgl. auch Ergebnisse der Regression) und dem Rest unterschieden werden.
Diese Spitzengruppe besteht aus 40 Mitgliedern, wobei ich jedoch eine bereinigte Datenreihe verwendet habe, die nur Mitglieder beinhaltet, für die auch Daten über die Anzahl an Antworten vorliegen.
Zudem sind in der Spitzengruppe alle 10 verifizierten Mitglieder (inklusive Daniel Jung) zu finden. Hinzu kommt die Gruppe der erfolgreichen Mitglieder (das sind 17 Nutzer). Weitere von mir vorgenommene Einteilungen sind eine Top 5 Gruppe und eine Top 15 Gruppe.

Eine Übersicht hierzu:

Abbildung 10. Anteile verschiedener Nutzergruppen an allen Antworten und durchschnittliche AP-Scores

Zur Erinnerung: Gezählt wurden hier jedoch nur die Antworten, die von Nutzern kamen, die bereits MEHR als drei Antworten abgegeben hatten.
Die kleinste Topgruppe (das heißt 5 Personen) geben zusammen schon deutlich über 50% aller gezählten Antworten ab. Von den Top 40 werden bereits 9/10 aller Antworten verfasst, wobei die kleineren Topgruppen tendenziell erfolgreicher sind.
Nimmt man als Vergleichsmaß die 112 Nutzer, von denen Antwortdaten vorliegen, bedeutet das salopp gesagt, dass selbst unter diesen "aktiven" Nutzern etwa 5% der Personen die Hälfte der Arbeit erledigen. Eine beachtliche Leistung, wie ich finde.
Interessant ist zudem, dass die verifizierten Mitglieder zusammen immerhin knapp 2/3 aller betrachteten Antworten abgeben - die erfolgreichsten (nach AP-Score) jedoch nur 1/8.

Nun erstmal genug der vielen Zahlen, Zeit für einige weitere Diagramme:

Abbildung 11. Verteilung der Anteile an allen abgegebenen Antworten der Top 40 Gruppe, Normale und Logarithmische Darstellung

Ein mathematisches Modell der Beschreibung erscheint unsauber, da die Daten "Sprünge" aufweisen. Uns kann nun interessieren, wie groß die Korrelation zwischen beantworteten Fragen und erreichter Punktzahl ist.

Abbildung 12. Korrelation Antworten und Punkte in der Top 40 Gruppe

Wie zu sehen ist, liegt für die gesamte Top 40 eine starke Korrelation vor, doch hierbei verfälschen die zwei höchsten Werte das Ergebnis. Betrachtet man die Gruppe mit Ausnahme dieser Werte, liegt eine deutlich geringere Korrelation vor, wobei auch diese noch im signifikanten Bereich ist. Hier zeigt sich nun auch der Sinn des "AP-Score" - er kann die Abweichungen von der linearen Regression beschreiben. Punkte die deutlich über der Kurve liegen, haben dabei einen sehr guten bzw. niedrigen "AP-Score".
Zur Erinnerung: Nicht betrachtet wurde hierbei jedoch, dass auch mit Fragen oder (wahrscheinlicher) mit Community-Artikeln Punkte gesammelt worden sein könnten, was ebenfalls deutlichere Abweichungen erklären würde.
Es könnte auch interessant sein, zu wissen, wie viele Personen denn genau benötigt werden, um einen Anteil aller Fragen zu beantworten. Ein ungefähre Abschätzung ergibt sich durch einfaches Aufsummieren der gezählten Antworten in Reihenfolge der Punkte der Mitglieder.

Abbildung 13. Aufsummierte Anteile an allen Antworten (zu lesen als: die ersten x-Nutzer (nach Punktzahl) gaben zusammen y-Prozent aller gezählten Antworten)

Zum Abschluss betrachten wir noch einmal die Punktzahlen der Topgruppe und versuchen die Rekonstruktion der Punktekurve abzuschließen. Zur Erinnerung: für den Bereich ab etwa Rang 40-50 ist uns dies bereits gelungen. Auch hier wird genauso vorgegangen und eine Linearisierung versucht.

Abbildung 14. Punkte Top 40, Normale und Logarithmische Darstellung

Abbildung 15. Linearisierte Darstellung Top 40

Offensichtlich muss auch diese Topgruppe noch in zwei Subgruppen unterteilt werden, um die Regression gelingen zu lassen.

Abbildung 16. Regressionen Top 1-18 und Top 18-40

Die Gruppe Rang 1-18 wird durch die Funktion 'Punkte=9582.3/(Rang)' und die Gruppe 18-40 durch 'Punkte=3096.7/(Rang-8.611) bestmöglich beschrieben.

--- ANMERKUNG MÄRZ 2019: Korrektur - eine weitere Optimierung ist für die Gruppe Rang 1-18 durch 'Punkte=9210.2/(Rang-0.338)' möglich. Mit dieser Lösung lässt sich auch der damalige Punkte-Maximalwert von 13920 Punkten (Christian Stack) sehr gut abbilden. Diese Version werde ich in zukünftigen Artikeln verwenden! An den wesentlichen Aussagen der weiteren Betrachtungen in diesem Beitrag ändert dies jedoch wenig. ---

Für die Restgruppe hatten wir zuvor 'Punkte=7907.43/(Rang+38.98)' gefunden.
Hierbei müssten für eine perfekte Vergleichbarkeit noch einige Verbesserungen vorgenommen werden, da für die Top 40 nur Mitglieder gezählt wurden, für die Antwortdaten vorlagen, während zuvor die Punktzahlen aller Top 50 Nutzer verwendet wurden - insgesamt ist die Näherung aber bereits hinreichend präzise.

Stellen wir diese Ergebnisse in einer letzten Grafik zusammen.

Abbildung 17. Rekonstruktion der Punkteverteilung (Ausschnitt Rang 1-40) und Fehlerbetrachtung

Es fällt auf, dass Punkt 19 (gelb markiert), der sich im Übergangsbereich der Subgruppen befindet, eine größere Abweichung aufweist. Interessanter ist aber wahrscheinlich, dass vor allem die ersten Punkte (rot markiert) hohe Abweichungen von der Rekonstruktion zeigen. Als Erklärungsansatz kann gesehen werden, dass z.B. Christian Strack als "Head Of Content" und andere Top-Mitglieder aufgrund ihrer besonderen Nähe zum Portal sich eben nicht den sonst gefundenen "Gesetzen" folgend verhalten und "mehr leisten".

Soweit mein erster Versuch, einen richtigen Community-Artikel zu schreiben.
Spannend zu beobachten dürfte sein, ob diese oder ähnliche Beobachtungen auch in Zukunft (bei insgesamt mehr Fragen und Mitgliedern) noch Gültigkeit haben werden.

Mit freundlichen Grüßen
Valentin Tempel

Teilen Diesen Artikel melden

geschrieben 17.08.2019 um 19:46

vt5
Student, Punkte: 5.08K

Kommentar schreiben

1 Antwort

danieljung · Answer 1 · 2019-08-20T13:31:16Z

0

Wow:) Werden wir mal im Team durchgehen:)! BG Daniel

Teilen Diese Antwort melden Link

geantwortet 20.08.2019 um 13:31

danieljung
Bildungsarchitekt, Punkte: 1.62K

Danke ─ vt5 20.08.2019 um 13:31

Sehr sehr cooler Input! Schonmal als Info: wir arbeiten gerade an diversen Zertifizierungen/Badgets für aktive Helfer/Artikelverfasser.... Fände ich eine super Optimierung der Profile, wenn es irgendwann um Bewerbungen bei Firmen geht. BG Daniel ─ danieljung 20.08.2019 um 13:52

Bilder wiederhergestellt - März 2020. ─ vt5 20.08.2019 um 14:02

Kommentar schreiben