[Statistische Datenanalyse mit R] Eine Variable (kategorial od. metrisch)

SMALL

Ausgangssituation

Die Punktezahlen zweier Verbände, Verband A und B, werden verglichen.

▼ Datei.txt ▼

"A","B"
"1",NA,4.02
"2",3.83,4.42
"3",1.3,2.1
"4",2.5,2.58
"5",3.63,2.47
"6",1.88,NA
"7",4.35,1
"8",3.75,3.55
"9",NA,0
"10",4.55,3.85
"11",1.63,0.83
"12",2.38,4.38
"13",1.17,3.3
"14",2.42,4.45
"15",2,2.2
"16",0.92,3

data = read.table("Datei.txt", sep =",", na.strings = "NA")
print(data)

Beschreibung des Datensatzes

Stichprobenumfang: Der Datensatz umfasst insgesamt 16 Beobachtungen, aufgeteilt in 2 Gruppen: Verband A und Verband B.

Merkmale:

Verband A: kontinuierliche metrische Variable
Verband B: kontinuierliche metrische Variable

Gibt es fehlende Werte? Wie wurden diese behandelt?

Im Datensatz sind fehlende Werte NA vorhanden. Diese wurden in der Analyse durch die Angabe na.strings = "NA" beim Einlesen der Daten behandelt. Bei der Berechnung der Kenngrößen wurden die fehlenden Werte nicht berücksichtigt.

Frage 1

Verwenden Sie Histogramme, um die Verteilungen der Punktezahlen separat für beide Verbände zu charakterisieren.

Man kann anhand des Dollar-Zeichens für jede Spalte (Verband A u. B) jeweils ein Histogramm erstellen.
hist() erstellt das Histogramm.
main gibt den Titel des Histogramms an.
xlab bezeichnet die x-Achsenbeschriftung.
breaks bestimmt die Anzahl der Balken(Intervalle) im Histogramm.

hist(data$A,
    breaks = 10,
    main = "Verteilung der Punkte - Verband A",
    xlab = "Punkte"
    )
    
hist(data$B,
    breaks = 10,
    main = "Verteilung der Punkte - Verband B",
    xlab = "Punkte"
    )

Auffälligkeiten:

Die Histogramme zeigen, dass die Punktezahlen in Verband A tendenziell niedriger und breiter verteilt sind, während Verband B eine etwas höhere und schmalere Verteilung aufweist. Dies deutet auf Unterschiede in der Leistung zwischen den beiden Verbändene hin.

Frage 2

Berechnen, interpretieren und vergleichen Sie für beide Gruppen diverse Kenngrößen der Lage und der Streuung.

Kenngrößen der Lage:

Mittelwert: Durchschnitt
Median: Zentralwert
Modus: häufigster Wert

Kenngrößen der Streuung:

Standardabweichung: Streuung der Werte um den Mittelwert
Varianz: Quadrat der Standardabweichung
Interquartilsabstand (IQR): Differenz zw. dem 75. und 25. Perzentil
Min und Max

mean_A <- mean(data$A, na.rm = TRUE)
median_A <- median(data$A, na.rm = TRUE)
sd_A <- sd(data$A, na.rm = TRUE)
iqr_A <- IQR(data$A, na.rm = TRUE)
min_A <- min(data$A, na.rm = TRUE)
max_A <- max(data$A, na.rm = TRUE)

mean_B <- mean(data$B, na.rm = TRUE)
median_B <- median(data$B, na.rm = TRUE)
sd_B <- sd(data$B, na.rm = TRUE)
iqr_B <- IQR(data$B, na.rm = TRUE)
min_B <- min(data$B, na.rm = TRUE)
max_B <- max(data$B, na.rm = TRUE)

kenngroessen <- data.frame(
	Kenngröße = c("Mittelwert", "Median", "Standardabweichung", "IQR"),
	Verband_A = c(mean_A, median_A, sd_A, iqr_A, min_A, max_A),
	Verband_B = c(mean_B, median_B, sd_B, iqr_B, min_B, max_B)
	)
    
print(kenngroessen)

Interpretation

Mittelwert: Verband A hat einen Mittelwert von 2.593571, während Verband B einen Mittelwert von 2.81 aufweist. Dies zeigt, dass die durchschnittl. Punktzahl in Verband B höher ist als in Verband A. Dies könnte darauf hindeuten, dass die Teilnehmer in Verband B im Durchschnitt besser abgeschnitten haben.
Median: Der Median für Verband A liegt bei 2.40, während Verband B bei 3.00 liegt. Der Median ist ein robusterer Maßstab für den zentralen Wert, da er nicht so stark von Ausreißern beeinflusst wird. Dies bestätigt die Beobachtung, dass Verband B im zentralen Bereich der Daten höhere Werte aufweist.
Standardabweichung: Eine höhere Standardabweichung in Verband B zeigt an, dass die Werte in dieser Verband eine größere Streuung aufweisen. Dies kann bedeuten, dass Verband B heterogener ist als Verband A, obwohl Verband B im Durchschnitt bessere Ergebnisse erzielt hat.
IQR: Ein größerer IQR in Verband A zeigt eine größere Variabilität in den mittleren 50 % der Daten im Vergleich zu Verband B an. Dies könnte darauf hindeuten, dass es in Verband A extreme Werte gibt, die die Verteilung beeinflussen.
Min & Max: Das Minimum in Verband A (0.920000) ist höher als das Minimum in Verband B (0.000000), was bedeutet, dass Verband B einen niedrigeren Wert von 0 aufweist, während Verband A keine so niedrigen Werte hat. Das Maximum für Verband A (4.550000) liegt leicht über dem Maximum von Verband B (4.450000). Beide Verbandn zeigen hohe Werte, die sich jedoch nahe beieinander befinden.

Schlussfolgerung

Die Analyse der Kenngrößen zeigt, dass:

Verband B insgesamt höhere zentrale Werte (Mittelwert und Median) hat, was darauf hindeutet, dass diese Verband im Durchschnitt besser abschneidet.
Verband A weist eine größere Streuung in den mittleren Werten (IQR) und eine geringere Variabilität (Standardabweichung) auf. Dies könnte auf eine stabilere Leistung innerhalb dieser Verband hindeuten.
Das Vorhandensein eines Wertes von 0 in Verband B könnte die Verteilung beeinflussen und darauf hindeuten, dass einige Mitglieder in dieser Verband deutlich schlechter abgeschnitten haben.

Frage 3

Vergleichen Sie beide Gruppen in einer Grafik.

boxplot(data,
	main = "Vergleich der beiden Verbände A & B",
	col = c("lightblue", "lightgreen"),
	horizontal = TRUE,
	xlab = "Punktezahlen",
	ylab = "Verband"
	)

Der Boxplot zeigt den Median als Linie in der Box.

Die Länge der Box repräsentiert den IQR, mit dem man die Streuung der Daten vergleichen kann.

Frage 4

Unterscheiden sich die beiden Gruppen hinsichtlich der durchschnittlich bei den begleiteten Übungstests erreichten Punktezahlen (10%-Signifikanzniveau)?

Der t-test hilft, zu bestimmen, ob der Unterschied zw. den Mittelwerten der Gruppen statistisch signifikant ist. Es gibt auch keine signifikanten Ausreißer.
Nullhypothese (H0): Es gibt keinen Unterschied in den durchschnittlichen Punktezahlen zw. den beiden Verbänden (Mittelwert_A = Mittelwert_B).
Alternativhypothese (HA): Es gibt einen Unterschied in den durchschnittlichen Punktezahlen zw. den beiden Verbänden (Mittelwert_A != Mittelwert_B).
Das Signifikanzniveau beträgt 10% (lt. Angabe).

t_test_A <- t.test(data$A, conf.level = 0.90)
    
print(t_test_A)

Fazit

Da sowohl der p-Wert für Gruppe A (2.3e-06) als auch der für Gruppe B (1.836e-06) deutlich unter dem 10%-Signifikanzniveau (0.10) liegen, können wir die Nullhypothese für beide Gruppen ablehnen. Das bedeutet, dass sich die beiden Gruppen hinsichtlich der durchschnittlich bei den begleiteten Übungstests erreichten Punktezahlen signifikant unterscheiden.