본문 바로가기

[R: 독일어로 배우는 코딩]

[Statistische Datenanalyse mit R] Eine Variable (kategorial od. metrisch)

SMALL

Ausgangssituation

Die Punktezahlen zweier Verbände, Verband A und B, werden verglichen.

 

Datei.txt ▼

더보기

"A","B"
"1",NA,4.02
"2",3.83,4.42
"3",1.3,2.1
"4",2.5,2.58
"5",3.63,2.47
"6",1.88,NA
"7",4.35,1
"8",3.75,3.55
"9",NA,0
"10",4.55,3.85
"11",1.63,0.83
"12",2.38,4.38
"13",1.17,3.3
"14",2.42,4.45
"15",2,2.2
"16",0.92,3

 

data = read.table("Datei.txt", sep =",", na.strings = "NA")
print(data)

 

Beschreibung des Datensatzes

Stichprobenumfang: Der Datensatz umfasst insgesamt 16 Beobachtungen, aufgeteilt in 2 Gruppen: Verband A und Verband B.

 

Merkmale:

  • Verband A: kontinuierliche metrische Variable
  • Verband B: kontinuierliche metrische Variable

Gibt es fehlende Werte? Wie wurden diese behandelt?

Im Datensatz sind fehlende Werte NA vorhanden. Diese wurden in der Analyse durch die Angabe na.strings = "NA" beim Einlesen der Daten behandelt. Bei der Berechnung der Kenngrößen wurden die fehlenden Werte nicht berücksichtigt.

 


 

Frage 1

 

Verwenden Sie Histogramme, um die Verteilungen der Punktezahlen separat für beide Verbände zu charakterisieren.

 

  • Man kann anhand des Dollar-Zeichens für jede Spalte (Verband A u. B) jeweils ein Histogramm erstellen.
  • hist() erstellt das Histogramm.
  • main gibt den Titel des Histogramms an.
  • xlab bezeichnet die x-Achsenbeschriftung.
  • breaks bestimmt die Anzahl der Balken(Intervalle) im Histogramm.
hist(data$A,
    breaks = 10,
    main = "Verteilung der Punkte - Verband A",
    xlab = "Punkte"
    )
    
hist(data$B,
    breaks = 10,
    main = "Verteilung der Punkte - Verband B",
    xlab = "Punkte"
    )

 

Auffälligkeiten:

Die Histogramme zeigen, dass die Punktezahlen in Verband A tendenziell niedriger und breiter verteilt sind, während Verband B eine etwas höhere und schmalere Verteilung aufweist. Dies deutet auf Unterschiede in der Leistung zwischen den beiden Verbändene hin.

 


 

Frage 2

 

Berechnen, interpretieren und vergleichen Sie für beide Gruppen diverse Kenngrößen der Lage und der Streuung.

 

Kenngrößen der Lage:

  • Mittelwert: Durchschnitt
  • Median: Zentralwert
  • Modus: häufigster Wert

Kenngrößen der Streuung:

  • Standardabweichung: Streuung der Werte um den Mittelwert
  • Varianz: Quadrat der Standardabweichung
  • Interquartilsabstand (IQR): Differenz zw. dem 75. und 25. Perzentil
  • Min und Max
mean_A <- mean(data$A, na.rm = TRUE)
median_A <- median(data$A, na.rm = TRUE)
sd_A <- sd(data$A, na.rm = TRUE)
iqr_A <- IQR(data$A, na.rm = TRUE)
min_A <- min(data$A, na.rm = TRUE)
max_A <- max(data$A, na.rm = TRUE)

mean_B <- mean(data$B, na.rm = TRUE)
median_B <- median(data$B, na.rm = TRUE)
sd_B <- sd(data$B, na.rm = TRUE)
iqr_B <- IQR(data$B, na.rm = TRUE)
min_B <- min(data$B, na.rm = TRUE)
max_B <- max(data$B, na.rm = TRUE)

kenngroessen <- data.frame(
	Kenngröße = c("Mittelwert", "Median", "Standardabweichung", "IQR"),
	Verband_A = c(mean_A, median_A, sd_A, iqr_A, min_A, max_A),
	Verband_B = c(mean_B, median_B, sd_B, iqr_B, min_B, max_B)
	)
    
print(kenngroessen)

 

Interpretation

  • Mittelwert: Verband A hat einen Mittelwert von 2.593571, während Verband B einen Mittelwert von 2.81 aufweist. Dies zeigt, dass die durchschnittl. Punktzahl in Verband B höher ist als in Verband A. Dies könnte darauf hindeuten, dass die Teilnehmer in Verband B im Durchschnitt besser abgeschnitten haben.
  • Median: Der Median für Verband A liegt bei 2.40, während Verband B bei 3.00 liegt. Der Median ist ein robusterer Maßstab für den zentralen Wert, da er nicht so stark von Ausreißern beeinflusst wird. Dies bestätigt die Beobachtung, dass Verband B im zentralen Bereich der Daten höhere Werte aufweist.
  • Standardabweichung: Eine höhere Standardabweichung in Verband B zeigt an, dass die Werte in dieser Verband eine größere Streuung aufweisen. Dies kann bedeuten, dass Verband B heterogener ist als Verband A, obwohl Verband B im Durchschnitt bessere Ergebnisse erzielt hat.
  • IQR: Ein größerer IQR in Verband A zeigt eine größere Variabilität in den mittleren 50 % der Daten im Vergleich zu Verband B an. Dies könnte darauf hindeuten, dass es in Verband A extreme Werte gibt, die die Verteilung beeinflussen.
  • Min & Max: Das Minimum in Verband A (0.920000) ist höher als das Minimum in Verband B (0.000000), was bedeutet, dass Verband B einen niedrigeren Wert von 0 aufweist, während Verband A keine so niedrigen Werte hat. Das Maximum für Verband A (4.550000) liegt leicht über dem Maximum von Verband B (4.450000). Beide Verbandn zeigen hohe Werte, die sich jedoch nahe beieinander befinden.

Schlussfolgerung

Die Analyse der Kenngrößen zeigt, dass:

  • Verband B insgesamt höhere zentrale Werte (Mittelwert und Median) hat, was darauf hindeutet, dass diese Verband im Durchschnitt besser abschneidet.
  • Verband A weist eine größere Streuung in den mittleren Werten (IQR) und eine geringere Variabilität (Standardabweichung) auf. Dies könnte auf eine stabilere Leistung innerhalb dieser Verband hindeuten.
  • Das Vorhandensein eines Wertes von 0 in Verband B könnte die Verteilung beeinflussen und darauf hindeuten, dass einige Mitglieder in dieser Verband deutlich schlechter abgeschnitten haben.

 

Frage 3

 

Vergleichen Sie beide Gruppen in einer Grafik.

 

boxplot(data,
	main = "Vergleich der beiden Verbände A & B",
	col = c("lightblue", "lightgreen"),
	horizontal = TRUE,
	xlab = "Punktezahlen",
	ylab = "Verband"
	)

 

Der Boxplot zeigt den Median als Linie in der Box.

 

Die Länge der Box repräsentiert den IQR, mit dem man die Streuung der Daten vergleichen kann.

 


 

Frage 4

 

Unterscheiden sich die beiden Gruppen hinsichtlich der durchschnittlich bei den begleiteten Übungstests erreichten Punktezahlen (10%-Signifikanzniveau)?

 

  • Der t-test hilft, zu bestimmen, ob der Unterschied zw. den Mittelwerten der Gruppen statistisch signifikant ist. Es gibt auch keine signifikanten Ausreißer.
  • Nullhypothese (H0): Es gibt keinen Unterschied in den durchschnittlichen Punktezahlen zw. den beiden Verbänden (Mittelwert_A = Mittelwert_B).
  • Alternativhypothese (HA): Es gibt einen Unterschied in den durchschnittlichen Punktezahlen zw. den beiden Verbänden (Mittelwert_A != Mittelwert_B).
  • Das Signifikanzniveau beträgt 10% (lt. Angabe).
t_test_A <- t.test(data$A, conf.level = 0.90)
    
print(t_test_A)

 

Fazit

Da sowohl der p-Wert für Gruppe A (2.3e-06) als auch der für Gruppe B (1.836e-06) deutlich unter dem 10%-Signifikanzniveau (0.10) liegen, können wir die Nullhypothese für beide Gruppen ablehnen. Das bedeutet, dass sich die beiden Gruppen hinsichtlich der durchschnittlich bei den begleiteten Übungstests erreichten Punktezahlen signifikant unterscheiden.

 

⬇️독일어 수업, 유학 & 현지정착 관련 문의, 개인/비즈니스 통역 문의는 아래 링크로 부탁드립니다⬇️

kjgerman.imweb.me

 

KJ독일어

오스트리아 현지 독일어 학원 & 유학 컨설턴트

kjgerman.imweb.me

KJ독일어

오스트리아 현지 독일어 학원 & 유학 컨설턴트

 

LIST