Ausgangssituation
Der Datensatz enthält Informationen über eine Stichprobe von 2-Bay NAS- (Network-Attached Storage) Systemen. Die Preise dieser Netzwerkspeicher wurden als niedrig, mittel oder hoch klassifiziert. Außerdem ist noch die Variable hdmi enthalten, die über das Vorhandensein eines HDMI-Anschlusses (ja oder nein) informiert.
▼ Datei.txt ▼
"name" "preis" "hdmi"
"1" "D-Link DNS-327L" "niedrig" "nein"
"2" "Zyxel NAS326" "niedrig" "nein"
"3" "Asustor AS6102T" "mittel" "ja"
"4" "Asustor AS3102T" "mittel" "ja"
"5" "D-Link DNS-320L" "niedrig" "nein"
"6" "Synology DS214" "niedrig" "nein"
"7" "Asustor AS3202T" "mittel" "ja"
"8" "Buffalo TeraStation 1200D" "hoch" "nein"
"9" "Asustor AS-202TE" "niedrig" "ja"
"10" "Western Digital My Cloud Mirror 4TB" "niedrig" "nein"
"11" "QNAP HS-251+" "mittel" "ja"
"12" "Buffalo LinkStation 520" "mittel" "nein"
"13" "Western Digital My Cloud EX2 Ultra" "mittel" "nein"
"14" "Synology DS216j" "niedrig" "nein"
"15" "Buffalo LinkStation 220D 4TB" "mittel" "nein"
"16" "Asustor AS-202T" "niedrig" "nein"
"17" "Synology DS716+II" "hoch" "nein"
"18" "Asustor AS1002T" "niedrig" "nein"
"19" "Synology DS216play" "mittel" "nein"
"20" "Netgear ReadyNAS 202 RN202" "mittel" "nein"
"21" "Thecus N2810" "mittel" "ja"
"22" "Western Digital My Cloud EX2100" "niedrig" "nein"
"23" "QNAP TS-251-4G" "mittel" "ja"
"24" "Seagate NAS 2-Bay (STCT200)" "niedrig" "nein"
"25" "Buffalo LinkStation 421DE" "niedrig" "nein"
"26" "Asustor AS-602T" "mittel" "ja"
"27" "QNAP TS-253A-8G" "hoch" "ja"
"28" "Synology DS215+" "mittel" "nein"
"29" "Buffalo LinkStation Mini 2TB" "mittel" "nein"
"30" "QNAP TS-251C" "niedrig" "ja"
"31" "Asustor AS5102T" "mittel" "ja"
"32" "Netgear ReadyNAS 312 RN31200" "hoch" "ja"
Laden des Datensatzes
data <- read.table("Datei.txt", header = TRUE, sep = "")
print(data)
Überblick über die Daten
summary(data)
Frage 1
Wir wollen wissen, ob das Vorhandensein eines HDMI-Anschlusses von der Preisklasse beeinflusst wird. Handelt es sich dabei um ein Homogenitäts- oder ein Unabhängigkeitsproblem? Argumentieren Sie!
- Homogenitätsproblem: Hier wird untersucht, ob zwei oder mehr Gruppen (z.B. verschiedene Preisklassen) dieselbe Verteilung einer Variablen (z.B. Vorhandensein eines HDMI-Anschlusses) haben. Das wäre der Fall, wenn wir bereits wüssten, dass der HDMI- Anschluss in allen Preisklassen vorkommen kann, und nur überprüfen möchten, ob die Häufigkeiten in den Preisklassen gleich sind.
- Unabhängigkeitsproblem: Dies liegt vor, wenn wir untersuchen wollen, ob zwei Variablen voneinander abhängig sind. Hier geht es darum, ob die Preisklasse (niedrig, mittel, hoch) einen Einfluss darauf hat, ob ein Gerät einen HDMI-Anschluss hat oder nicht.
Durch die Erstellung einer Kreuztabelle und die Anwendung des Chi-Quadrat-Unabhängigkeitstests kann statistisch überprüft werden, ob der Preis die Wahrscheinlichkeit eines HDMI-Anschlusses beeinflusst.
Deskrptive Analyse: Häufigkeitstabellen und Verteilungen
# Häufigkeitstabelle für Preis
table(data$preis)
# Kreuztabelle für Preis und HDMI
table(data$preis, data$hdmi)
Frage 2
Erstellen Sie univariate Visualisierungen der beiden Variablen preis und hdmi.
# Barplot für die Verteilung des Preises
barplot(table(data$preis),
main = "Verteilung der Preise",
xlab = "Preisklasse",
ylab = "Anzahl der Geräte",
col = "lightblue"
)
# Barplot für die Verteilung von HDMI-Anschlüssen
barplot(table(data$hdmi),
main = "Verfügbarkeit von HDMI-Anschlüssen",
xlab ="HDMI-Anschluss",
ylab = "Anzahl der Geräte",
col = "lightgreen"
)
- Univariate Visualisierung der Preisklasse (preis): Das Balkendiagramm zeigt die Verteilung der Geräte auf die Preisklassen (niedrig, mittel, hoch). Es gibt eine höhere Anzahl an Geräten in der mittleren und niedrigen Preisklasse im Vergleich zur hohen Preisklasse.
- Univariate Visualisierung des HDMI-Anschlusses (hdmi): Das Balkendiagramm zeigt die Verfügbarkeit eines HDMI-Anschlusses. Es gibt mehr Geräte ohne HDMI-Anschluss im Vergleich zu den Geräten, die über einen HDMI- Anschluss verfügen.
Frage 3
Zeigen und interpretieren Sie die Zusammenhänge zwischen preis und hdmi mit passenden Tabellen und Grafiken.
Um den Zusammenhang zwischen den Variablen preis und hdmi zu analysieren, können wir zunächst eine Kreuztabelle erstellen, die die Häufigkeiten jeder Kombination der Kategorien zeigt. Anschließend visualisieren wir die Daten mit einem gestapelten Balkendiagramm.
# Kreuztabelle für die Variablen preis und hdmi
kreuztabelle <- table(data$hdmi, data$preis)
print(kreuztabelle)
# Gestapeltes Balkendiagramm erstellen
barplot(kreuztabelle,
beside = FALSE,
legend = rownames(kreuztabelle),
main = "Zusammenhang zw. Preis & HDMI-Anschluss",
xlab = "Anzahl der Geräte",
ylab = "HDMI-Anschluss"
)
Interpretation der Ergebnisse
- Kreuztabelle:
- In der niedrigen Preisklasse gibt es 10 Geräte ohne HDMI-Anschluss und 2 Geräte mit HDMI-Anschluss.
- In der mittleren Preisklasse gibt es 9 Geräte ohne HDMI-Anschluss und 5 Geräte mit HDMI-Anschluss.
- In der hohen Preisklasse sind die Zahlen fast gleich verteilt, mit 2 Geräten ohne und 2 Geräten mit HDMI-Anschluss.
- Gestapeltes Balkendiagramm:
- Das Diagramm zeigt deutlich, dass in der niedrigen Preisklasse die meisten Geräte keinen HDMI-Anschluss haben.
- In der mittleren Preisklasse gibt es mehr Geräte ohne HDMI-Anschluss, aber auch einige mit.
- In der hohen Preisklasse ist die Verteilung zwischen Geräten mit und ohne HDMI-Anschluss relativ ausgeglichen.
- Diese Analyse deutet darauf hin, dass der Preis in gewisser Weise mit dem Vorhandensein eines HDMI-Anschlusses zusammenhängt, insbesondere in der niedrigen und mittleren Preisklasse. Um dies statistisch zu testen, führen wir später den Chi-Quadrat-Test durch, um zu überprüfen, ob der Zusammenhang signifikant ist.
Frage 4
Führen Sie eine χ2-Test durch, um zu überprüfen, ob zwischen den beiden interessierenden Variablen ein signifikanter Zusammenhang besteht (Signifikanzniveau: 1%).
Um zu überprüfen, ob zwischen den beiden Variablen Preis (niedrig, mittel, hoch) und HDMI-Anschluss (ja, nein) ein signifikanter Zusammenhang besteht, verwenden wir einen Chi-Quadrat-Test. Der Test untersucht, ob die beobachteten Häufigkeiten in der Kreuztabelle signifikant von den erwarteten Häufigkeiten abweichen.
# Chi-Quadrat-Test
chi_test <- chisq.test(kreuztabelle)
print(chi_test)
Wenn der p-Wert kleiner als das Signifikanzniveau (1%) ist, lehnen wir die Nullhypothese ab und schließen auf einen signifikanten Zusammenhang.
Fazit
if (chi_test$p.value < 0.01) {
print ("Es besteht ein signifikanter Zusammenhang zwischen dem Preis und der Verfügbarkeit eines HDMI-Anschlusses."
} else {
print ("Es besteht kein signifikanter Zusammenhang zwischen dem Preis und der Verfügbarkeit eines HDMI-Anschlusses."
}
⬇️독일어 수업, 유학 & 현지정착 관련 문의, 개인/비즈니스 통역 문의는 아래 링크로 부탁드립니다⬇️
KJ독일어
오스트리아 현지 독일어 학원 & 유학 컨설턴트
'[R: 독일어로 배우는 코딩]' 카테고리의 다른 글
[Statistische Datenanalyse mit R] Eine Variable (kategorial od. metrisch) (2) | 2024.10.21 |
---|