0

Guten Tag zusammen,

vor etwa einem halben Jahr hatte ich bereits einen Community-Artikel dieser Art geschrieben. Leider waren die damals verwendeten Grafiken (wie auch alte Profilbilder etc.) zwischenzeitlich nicht mehr verfügbar - ich hoffe sie sind jetzt wieder sichtbar.

______

Link zum Artikel (Daten vom August 2019):           https://www.mathefragen.de/frage/9399/modelluberlegungen-am-beispiel-des-portals-letsrockmathe/

Sowie daran anschließend mit Erklärung der Verwendung von "3n-Datensets" und Beschreibung der Daten mit Hyperbelfunktionen:                                                                                 https://www.mathefragen.de/frage/9495/erganzung-der-daten-von-letsrockmathe-mit-matheboard/

STAND - 15.08.2019
etwa 7900 Mitglieder
etwa 3470 Fragen
mindestens 4400 Antworten der Top 680 Nutzer
(nur die Antworten der Nutzer mit mehr als vier Antworten wurden gezählt!)

Summe aller Punkte der Top 680 Nutzer: etwa 80.000 Punkte
_______

Darauf aufbauend (und natürlich mit im Wesentlichen gleichgebliebenen Verfahren - im Fokus bleiben die Top 680 Nutzer sowie Untergruppen dieser) werde ich die Ausführungen nun - wie damals angekündigt - aktualisieren.
Die Daten sind dabei noch vor "Corona" aufgenommen worden, sodass hier keine möglichen ganz aktuellen Entwicklungen der Nutzerzahlen erfasst worden sind. Zunächst aber der grobe Überblick:

STAND - 28.02.2020
etwa 12250 Mitglieder
etwa 7530 Fragen
mindestens 8000 Antworten der Top 680 Nutzer
(nur die Antworten der Nutzer mit mehr als vier Antworten wurden gezählt!)

Summe aller Punkte der Top 680 Nutzer: etwa 112.500 Punkte

Wir haben also in etwa einem halben Jahr eine Steigerung der Anzahl an Fragen um 117%, bei einer Steigerung der Mitgliederanzahl um 55%, zu verzeichnen. Somit können wir uns vorstellen, dass das Interesse am Stellen von (unter Umständen mehreren) Fragen schneller zunahm, als durch die allgemeine Entwicklung der Mitgliederzahl zu vermuten gewesen wäre. Die Anzahl der gezählten Antworten hat hingegen um 82% zugenommen!

Etwa 4060 neuen Fragen stehen dabei nur etwa 3600 neu gezählte Antworten gegenüber. Weil aber der seit mehreren Monaten bestehende Counter des Anteils beantworteter Fragen bei etwa 95% steht, können wir zumindest davon ausgehen, dass ungefähr eine niedrige (bis mittlere) einstellige Prozentzahl der Fragen von nicht erfassten Beantwortern (d.h. mit weniger als 4 Antworten) bearbeitet wurden.
Wir müssen aber auch bedenken, dass größere gelöschte Profile nicht mehr in den gezählten Antworten auftauchen, und so durchaus hunderte Beiträge aus der Zählung verschwunden sein können. Allein etwa 200 Antworten sowie zahlreiche weiter Mathe-Artikel verschwanden in Folge des Ausscheidens von André Dalwigk aus dem Team der Website. Die Gesamt-Punktzahl der Top 680 Nutzer nahm hingegen "nur" um etwa 40% zu.

Betrachten wir nun die grafisch aufbereiteten Daten.

1.) Punkte/Scores der 680 Nutzer mit den höchsten Werten:

Abbildung 1. Verteilung der Punkte, Normale Darstellung

Bandbreite: Maximalwert 20850, Minimalwert 15 (Wir haben also in der betrachteten Gruppe nur noch Nutzer, die den Startwert von 10 Punkten übertreffen - was vor 6 Monaten durch extra so getroffene Wahl nicht der Fall war.)

Wir bemerken sofort (wie vor sechs Monaten), dass hier auch weiterhin eine Art Hyperbel zu betrachten ist. Mit einer normalen Skala ist wenig zu erkennen; besser geeignet erscheint selbstverständlich wieder die logarithmische Darstellung.

Abbildung 2. Verteilung der Punkte, Logarithmische Darstellung - Daten 08.2019 und 02.2020

Wir sehen ein, dass der Verlauf im Wesentlichen ähnlich ist - die 02.2020 Kurve in etwa aus einer Verschiebung der 08.2019 Kurve nach oben hervorgeht. Wir erinnern uns an die bereits oben festgestellte Zunahme aller Punkte um 40%. Vergleichen wir also um 40% vergrößerte alte Punktzahlen von 2019 mit den neuen Daten und erhalten:

Abbildung 3. Versuch einer einfachen Verschiebung (+40%)

Wir erhalten gute, aber noch nicht ganz zufriedenstellende Ergebnisse. Besonders der Bereich Top 20 bis Top 60 muss hierbei genauer betrachtet werden!

Als Nächstes wird erneut eine Rekonstruktion der Daten mit möglichst einfachen Funktionen (Hyperbeln) angestrebt.
Zunächst erstellen wir eine linearisierte Version der Datenreihe. Man wählt eine Darstellung, bei der das Verhältnis zwischen x-Achse und y-Achse etwa 1:1 ist - das folgende Vorgehen kann als weitgehend analog zu 2019 gesehen werden.

Abbildung 4. Linearfunktion und Darstellung der Regression der Linearfunktion

In unserem Fall findet man mithilfe einer linearen Regression heraus, dass mit der Funktion  'Punkte=12600/(Rang+76.52)' für die Top 81-680 Nutzer die Punktzahl recht gut modelliert werden kann.

Abbildung 5. Rekonstruktion der Daten mit der genannten Funktion - Zum Vergleich die Rekonstruktion der Daten von 2019 mit "3n-Datenset-Funktionen"

Auf die Modellierung der Punktzahlen der Top 80 Mitglieder wollen wir später zurückkommen. Schauen wir aber zunächst auf die weiteren Daten.

2.) Antworten der 400 Nutzer mit den höchsten Scores:

Abbildung 6. Verteilung der Antworten, Logarithmische Darstellung

Bandbreite: Maximalwert 1870, Minimalwert 4 (ab diesem Wert werden Antworten in der Übersicht angezeigt)
Die echt nutzbare Datengröße für 2.) und 3.) waren die Antwortzahlen von 165 Nutzern (zum Vergleich 08.2019: 112 - Steigerung um 47%), da für die restlichen Mitglieder der Top 400 Gruppe keine Antwortzahl (bzw. keine größer als 3) gegeben war.

Abbildung 7. Anteile an den berücksichtigten Antworten, Normale und Logarithmische Darstellung

3.) Antworten pro Punkt/"AP-Score"

- Berechnung [10*Anzahl Antworten/Punkte],
- Ziel: Berechnung eines Vergleichswertes für den "Erfolg" eines Mitglieds,
- ein Maß, wie viele Antworten pro 10 Punkte gegeben werden mussten,
- ein niedriger "AP-Score" bedeutet: viele Punkte für wenige Antworten.
- vernachlässigt Punktegewinne durch Fragen oder Community-Artikel (vereinfachtes Modell)

Soweit wie vom letzten Mal bekannt - neu ist die eingezeichnete Untergrenze der Erfassung in den Grafiken (vorgegeben durch 40/Punkte des Ranges - mit 4 als minimal erfasste Antwortanzahl).

Abbildung 8. Verteilung der "AP-Scores"

Wir können also festhalten, dass Daniel Jung (rot) seine Sonderstellung auf dieser Plattform behält.
Als erfolgreich werden im folgenden Mitglieder mit einem "AP-Score" von unter 0,7 bezeichnet. Wie schon im August 2019 ist dies weiterhin eine Gruppe von 17 Personen.

In der nächsten Grafik ist die Abweichung zum (willkürlich gewählten) Normwert 1 gegeben. Ein Wert unter null bedeutet im Schnitt weniger als eine Antwort pro 10 Punkte geben zu müssen.

Abbildung 9. Differenzwerte der "AP-Scores"

5.) Diesmal besteht die Spitzengruppe meiner Einschätzung nach aus den Top 80 Mitgliedern (August 2019 - Top 40). Ich habe für die folgenden Untersuchungen (wie schon letztes Mal) eine bereinigte Datenreihe verwendet, die nur Mitglieder beinhaltet, für die auch Daten über die Anzahl an Antworten vorliegen.

Gesondert betrachtet wurden auch wieder alle 13 (August 2019 - 10) verifizierten Mitglieder (inklusive Daniel Jung). Weitere von mir vorgenommene Einteilungen sind eine Top 5 Gruppe und eine Top 15 Gruppe, sowie zum Erhalt der Vergleichbarkeit zu 2019 die Top 40 Gruppe. Die gesonderte Betrachtung der "erfolgreichen Mitglieder" werde ich in Zukunft nicht fortführen, da sich diese Kategorie nicht als ausreichend stabil (hohe Fluktuation der in ihr eingeordneten Mitglieder) oder besonders aussagekräftig erwiesen hat.

Abbildung 10. Anteile verschiedener Nutzergruppen an allen Antworten und durchschnittliche AP-Scores

Die kleinste Topgruppe (das heißt 5 Personen) gibt zusammen weiterhin über die Hälfte aller gezählten Antworten ab - die verifizierten Mitglieder zwei Drittel. In allen oben aufgeführten Gruppen liegt die Veränderung (was den Anteil an den Antworten betrifft) im Vergleich zu August 2019 bei maximal sechs Prozentpunkten.


Abbildung 11. Erfasste Anteile an allen abgegebenen Antworten in der Top 40 Gruppe, Normale und Logarithmische Darstellung

Uns interessiert natürlich auch, wie groß die Korrelation zwischen beantworteten Fragen und erreichter Punktzahl (geblieben) ist.

Abbildung 12. Korrelation Antworten und Punkte

Wie zu sehen ist, liegt eine starke Korrelation vor, doch hierbei verfälschen die zwei höchsten Werte das Ergebnis. Betrachtet man die Gruppe mit Ausnahme dieser Werte, liegt eine geringere Korrelation vor, wobei auch diese noch im signifikanten Bereich ist. Erst im "Ultradetail", also bei sehr wenigen gegebenen Antworten, reicht diese Betrachtung nicht aus - gegebenenfalls müssten dann auch weitere Daten (etwa zu gestellten Fragen des Nutzers) betrachtet werden.

Ich verweise nochmal auf eine Möglichkeit der Interpretation des "AP-Score" - er kann die Abweichungen von der linearen Regression beschreiben. Punkte die deutlich über der roten Linie liegen, haben dabei einen sehr guten bzw. niedrigen "AP-Score".

Es könnte auch interessant sein, zu wissen, wie viele Personen denn genau benötigt werden, um einen Anteil aller Fragen zu beantworten. Ein ungefähre Abschätzung ergibt sich durch einfaches Aufsummieren der gezählten Antworten in Reihenfolge der Punkte der Mitglieder.

Abbildung 13. Aufsummierte Anteile an allen Antworten 08.2019 (orange) und 02.2020 (blau) - zu lesen als: Die ersten x-Nutzer (nach Punktzahl) gaben zusammen y-Prozent aller gezählten Antworten.

Wir sehen, dass die 2020-Kurve im Bereich Top 10 bis Top 40 etwa 5 Prozentpunkte unter den Werten von 2019 zurückbleibt, nach hinten also ein größerer Rest verbleibt, dem der in dieser Grafik fehlende Antwortenanteil zuzuordnen ist. Abzuwarten ist, inwieweit sich dies in Zukunft ausweiten wird - ob sich also die Beantwortung der Fragen tatsächlich auf eine breitere Basis verlagert. Denn gleichzeitig ist festzuhalten, dass die Top 5 Gruppe weiterhin den Hauptteil der Fragen bearbeitet und dies - bei deutlicher Zunahme der Nutzerzahl (gesamt und meiner Einschätzung nach auch in der Topgruppe) - anteilsmäßig nahezu unverändert im Vergleich zu 2019.

Zum Abschluss betrachten wir noch einmal die Punktzahlen der Topgruppe und versuchen die Rekonstruktion der Punktekurve abzuschließen. Zur Erinnerung: für den Bereich ab etwa Rang 80 ist uns dies bereits gelungen. Auch hier wird genauso vorgegangen und eine Linearisierung versucht.

Abbildung 14. Punkte Top 80, Normale und Logarithmische Darstellung

Abbildung 15. Linearisierte Darstellung Top 80

Offensichtlich muss auch diese Topgruppe noch in zwei Subgruppen unterteilt werden (vergleiche hierzu auch das Vorgehen von 2019), um die Regression gelingen zu lassen.

Abbildung 16. Regressionen Top 1-24 und Top 25-80

Die Gruppe Rang 1-24 wird durch die Funktion 'Punkte=12495/(Rang-0.402)' und die Gruppe 25-80 durch 'Punkte=5649.2/(Rang-10.96)' bestmöglich beschrieben. Für die Restgruppe hatten wir zuvor  'Punkte=12600/(Rang+76.52)' gefunden.
Hierbei müssten für eine perfekte Vergleichbarkeit noch einige Verbesserungen vorgenommen werden, da für die Top 80 nur Mitglieder gezählt wurden, für die Antwortdaten vorlagen, während zuvor die Punktzahlen aller Nutzer verwendet wurden - insgesamt ist die Näherung aber bereits hinreichend präzise.
Stellen wir diese Ergebnisse in einer letzten Grafik zusammen.

Abbildung 17. Punkteverteilung der Topgruppe (2019 und 2020 im Vergleich) sowie Rekonstruktion mit den oben genannten Funktionen

Wir erhalten im Wesentlichen die gleichen Besonderheiten wie schon 2019, doch scheint sich der mittlere Sprung in der Topgruppe abzumildern - der Velauf "harmonisiert" sich also.

Abbildung 18. Fehlerbetrachtung der Rekonstruktion in den Topgruppen (2019 und 2020 im Vergleich)

6.) "3n-Datensets" und Wachstumsvergleich

____

Soweit die Auswertungen - Stand Ende Februar 2020:

3*n-Datenset (LETSROCKMATHE, Rang zu Punktzahl, 28.02.2020, Rang 1-680)
n=1 (1 ; 24) ; (12495) ; (-0.402)
n=2 (25 ; 80) ; (5649.2) ; (-10.96)
n=3 (81 ; 680) ; (12600) ; (76.52)

1) 'Punkte=12495/(Rang-0.402)' für die Top 1-24 Nutzer nach Punkten
2) 'Punkte=5649.2/(Rang-10.96)' für die Top 25-80 Nutzer nach Punkten
3) 'Punkte=12600/(Rang+76.52)' für die Top 81-680 Nutzer nach Punkten

____

In direkter Gegenüberstellung - Stand Mitte August 2019:

3*n-Datenset (LETSROCKMATHE, Rang zu Punktzahl, 15.08.2019, Rang 1-680)
n=1 (1 ; 18) ; (9210.2) ; (-0.338)
n=2 (19 ; 40) ; (3096.7) ; (-8.611)
n=3 (41 ; 680) ; (7907.4) ; (38.98)

1) 'Punkte=9210.2/(Rang-0.338)' für die Top 1-17 Nutzer nach Punkten
2) 'Punkte=3096.7/(Rang-8.611)' für die Top 18-40 Nutzer nach Punkten
3) 'Punkte=7907.4/(Rang+38.98)' für die Top 41-680 Nutzer nach Punkten

____

Prozentualer Wachstumsvergleich 15.08.2019 auf 28.02.2020:

- nach Mitgliedern: +55%
- nach Fragen: +107%

- nach Punkten (Top 680): +40%
- nach Antworten (Zählweise wie oben): +82%

Wenn meine Zeit es zulässt, werde ich das nächste Mal im August 2020 neue Daten erheben und diese anschließend auswerten.

Mit freundlichen Grüßen
Valentin Tempel

Mathe Artikel, geschrieben vor 5 Monaten, 3 Wochen
vt5,
Student, Punkte: 5.07K

 
Kommentar schreiben Diesen Artikel melden
0 Antworten