Ausgangssituation
Die Punktezahlen zweier Verbände, Verband A und B, werden verglichen.
▼ Datei.txt ▼
"A","B"
"1",NA,4.02
"2",3.83,4.42
"3",1.3,2.1
"4",2.5,2.58
"5",3.63,2.47
"6",1.88,NA
"7",4.35,1
"8",3.75,3.55
"9",NA,0
"10",4.55,3.85
"11",1.63,0.83
"12",2.38,4.38
"13",1.17,3.3
"14",2.42,4.45
"15",2,2.2
"16",0.92,3
data = read.table("Datei.txt", sep =",", na.strings = "NA")
print(data)
Beschreibung des Datensatzes
Stichprobenumfang: Der Datensatz umfasst insgesamt 16 Beobachtungen, aufgeteilt in 2 Gruppen: Verband A und Verband B.
Merkmale:
- Verband A: kontinuierliche metrische Variable
- Verband B: kontinuierliche metrische Variable
Gibt es fehlende Werte? Wie wurden diese behandelt?
Im Datensatz sind fehlende Werte NA vorhanden. Diese wurden in der Analyse durch die Angabe na.strings = "NA" beim Einlesen der Daten behandelt. Bei der Berechnung der Kenngrößen wurden die fehlenden Werte nicht berücksichtigt.
Frage 1
Verwenden Sie Histogramme, um die Verteilungen der Punktezahlen separat für beide Verbände zu charakterisieren.
- Man kann anhand des Dollar-Zeichens für jede Spalte (Verband A u. B) jeweils ein Histogramm erstellen.
- hist() erstellt das Histogramm.
- main gibt den Titel des Histogramms an.
- xlab bezeichnet die x-Achsenbeschriftung.
- breaks bestimmt die Anzahl der Balken(Intervalle) im Histogramm.
hist(data$A,
breaks = 10,
main = "Verteilung der Punkte - Verband A",
xlab = "Punkte"
)
hist(data$B,
breaks = 10,
main = "Verteilung der Punkte - Verband B",
xlab = "Punkte"
)
Auffälligkeiten:
Die Histogramme zeigen, dass die Punktezahlen in Verband A tendenziell niedriger und breiter verteilt sind, während Verband B eine etwas höhere und schmalere Verteilung aufweist. Dies deutet auf Unterschiede in der Leistung zwischen den beiden Verbändene hin.
Frage 2
Berechnen, interpretieren und vergleichen Sie für beide Gruppen diverse Kenngrößen der Lage und der Streuung.
Kenngrößen der Lage:
- Mittelwert: Durchschnitt
- Median: Zentralwert
- Modus: häufigster Wert
Kenngrößen der Streuung:
- Standardabweichung: Streuung der Werte um den Mittelwert
- Varianz: Quadrat der Standardabweichung
- Interquartilsabstand (IQR): Differenz zw. dem 75. und 25. Perzentil
- Min und Max
mean_A <- mean(data$A, na.rm = TRUE)
median_A <- median(data$A, na.rm = TRUE)
sd_A <- sd(data$A, na.rm = TRUE)
iqr_A <- IQR(data$A, na.rm = TRUE)
min_A <- min(data$A, na.rm = TRUE)
max_A <- max(data$A, na.rm = TRUE)
mean_B <- mean(data$B, na.rm = TRUE)
median_B <- median(data$B, na.rm = TRUE)
sd_B <- sd(data$B, na.rm = TRUE)
iqr_B <- IQR(data$B, na.rm = TRUE)
min_B <- min(data$B, na.rm = TRUE)
max_B <- max(data$B, na.rm = TRUE)
kenngroessen <- data.frame(
Kenngröße = c("Mittelwert", "Median", "Standardabweichung", "IQR"),
Verband_A = c(mean_A, median_A, sd_A, iqr_A, min_A, max_A),
Verband_B = c(mean_B, median_B, sd_B, iqr_B, min_B, max_B)
)
print(kenngroessen)
Interpretation
- Mittelwert: Verband A hat einen Mittelwert von 2.593571, während Verband B einen Mittelwert von 2.81 aufweist. Dies zeigt, dass die durchschnittl. Punktzahl in Verband B höher ist als in Verband A. Dies könnte darauf hindeuten, dass die Teilnehmer in Verband B im Durchschnitt besser abgeschnitten haben.
- Median: Der Median für Verband A liegt bei 2.40, während Verband B bei 3.00 liegt. Der Median ist ein robusterer Maßstab für den zentralen Wert, da er nicht so stark von Ausreißern beeinflusst wird. Dies bestätigt die Beobachtung, dass Verband B im zentralen Bereich der Daten höhere Werte aufweist.
- Standardabweichung: Eine höhere Standardabweichung in Verband B zeigt an, dass die Werte in dieser Verband eine größere Streuung aufweisen. Dies kann bedeuten, dass Verband B heterogener ist als Verband A, obwohl Verband B im Durchschnitt bessere Ergebnisse erzielt hat.
- IQR: Ein größerer IQR in Verband A zeigt eine größere Variabilität in den mittleren 50 % der Daten im Vergleich zu Verband B an. Dies könnte darauf hindeuten, dass es in Verband A extreme Werte gibt, die die Verteilung beeinflussen.
- Min & Max: Das Minimum in Verband A (0.920000) ist höher als das Minimum in Verband B (0.000000), was bedeutet, dass Verband B einen niedrigeren Wert von 0 aufweist, während Verband A keine so niedrigen Werte hat. Das Maximum für Verband A (4.550000) liegt leicht über dem Maximum von Verband B (4.450000). Beide Verbandn zeigen hohe Werte, die sich jedoch nahe beieinander befinden.
Schlussfolgerung
Die Analyse der Kenngrößen zeigt, dass:
- Verband B insgesamt höhere zentrale Werte (Mittelwert und Median) hat, was darauf hindeutet, dass diese Verband im Durchschnitt besser abschneidet.
- Verband A weist eine größere Streuung in den mittleren Werten (IQR) und eine geringere Variabilität (Standardabweichung) auf. Dies könnte auf eine stabilere Leistung innerhalb dieser Verband hindeuten.
- Das Vorhandensein eines Wertes von 0 in Verband B könnte die Verteilung beeinflussen und darauf hindeuten, dass einige Mitglieder in dieser Verband deutlich schlechter abgeschnitten haben.
Frage 3
Vergleichen Sie beide Gruppen in einer Grafik.
boxplot(data,
main = "Vergleich der beiden Verbände A & B",
col = c("lightblue", "lightgreen"),
horizontal = TRUE,
xlab = "Punktezahlen",
ylab = "Verband"
)
Der Boxplot zeigt den Median als Linie in der Box.
Die Länge der Box repräsentiert den IQR, mit dem man die Streuung der Daten vergleichen kann.
Frage 4
Unterscheiden sich die beiden Gruppen hinsichtlich der durchschnittlich bei den begleiteten Übungstests erreichten Punktezahlen (10%-Signifikanzniveau)?
- Der t-test hilft, zu bestimmen, ob der Unterschied zw. den Mittelwerten der Gruppen statistisch signifikant ist. Es gibt auch keine signifikanten Ausreißer.
- Nullhypothese (H0): Es gibt keinen Unterschied in den durchschnittlichen Punktezahlen zw. den beiden Verbänden (Mittelwert_A = Mittelwert_B).
- Alternativhypothese (HA): Es gibt einen Unterschied in den durchschnittlichen Punktezahlen zw. den beiden Verbänden (Mittelwert_A != Mittelwert_B).
- Das Signifikanzniveau beträgt 10% (lt. Angabe).
t_test_A <- t.test(data$A, conf.level = 0.90)
print(t_test_A)
Fazit
Da sowohl der p-Wert für Gruppe A (2.3e-06) als auch der für Gruppe B (1.836e-06) deutlich unter dem 10%-Signifikanzniveau (0.10) liegen, können wir die Nullhypothese für beide Gruppen ablehnen. Das bedeutet, dass sich die beiden Gruppen hinsichtlich der durchschnittlich bei den begleiteten Übungstests erreichten Punktezahlen signifikant unterscheiden.
⬇️독일어 수업, 유학 & 현지정착 관련 문의, 개인/비즈니스 통역 문의는 아래 링크로 부탁드립니다⬇️
KJ독일어
오스트리아 현지 독일어 학원 & 유학 컨설턴트
'[R: 독일어로 배우는 코딩]' 카테고리의 다른 글
[Statistische Datenanalyse mit R] Kategoriale Variablen (1) | 2024.10.27 |
---|