library(tidyverse)
library(gt)
library(here)
library(viridis)
library(stringr)
library(scales)
pisa <- read_csv(here("datasets", "pisa.csv"),
show_col_types = FALSE)
wvs <- read_csv(here("datasets", "wvs.csv"),
show_col_types = FALSE)Variabilitas
Pentingnya mengukur variablitas
Indeks variasi kualitatif
Indeks variasi kualitatif merupakan ukuran variabilitas pada data nominal. Indeks tersebut didasarkan pada rasio jumlah total perbedaan dalam distribusi hingga jumlah maksimum perbedaan yang mungkin ada di dalam distribusi yang sama. Indeks variasi kumulatif berkisar antara \(0.00 - 1.00\). Ketika semua distribusi kasus berada dalam satu kategori (tidak ada variasi) maka indeks variasi kualitatifnya \(0\). Indeks variasi kualitatif dirumuskan sebagai berikut.
\[ IQV = \frac {K(100^2-\Sigma{Pct^2})}{100^2(K-1)} \]
dengan
\(K\) = jumlah kategori
\(\Sigma Pct^2\) = jumlah seluruh persentase kuadrat dalam distribusi
Contoh
wvs |>
count(pendidikan_terakhir) |>
mutate(Persen = (n / sum(n)) * 100,
Persen_kuadrat = Persen^2) |>
mutate(Persen = round(Persen, 2),
Persen_kuadrat = round(Persen_kuadrat, 1)) |>
gt() |>
cols_label(pendidikan_terakhir = "Pendidikan terakhir",
n = "Frekuensi") |>
opt_stylize(style = 6, color = "blue") |>
tab_source_note(
source_note = "Sumber: Data WVS 7")| Pendidikan terakhir | Frekuensi | Persen | Persen_kuadrat |
|---|---|---|---|
| 1 | 841 | 29.17 | 850.9 |
| 2 | 658 | 22.82 | 520.9 |
| 3 | 1065 | 36.94 | 1364.6 |
| 5 | 80 | 2.77 | 7.7 |
| 6 | 221 | 7.67 | 58.8 |
| 7 | 17 | 0.59 | 0.3 |
| 8 | 1 | 0.03 | 0.0 |
| Sumber: Data WVS 7 | |||
Jangkauan
Jangkauan mengukur variasi dalam variabel rasio interval. Jangkauan merupakan perbedaan antara skor tertinggi dengan skor terendah dalam distribusi.
Jangkauan = skor tertinggi - skor terendah
Secara umum, semakin besar jangkaun, semakin banyak fleksibilitas yang dibutuhkan.
Jangkaun suatu variabel bisa sensitif terhadap nilai ekstrim. Nilai ekstrim harus lebih besar dari nilai maksimum atau kurang dari nilai minimum. Dengan kata lain, menambahkan kasus ekstrim ke dalam variabel hanya akan mengubah jangkauan jika menjadi minimum.
Jangkauan Interkuartil (IQR)
Jangkauan interkuartil merupakan ukuran variasi untuk variabel ordinal dan rasio interval. Jangkauan adalah lebar \(50\%\) tengah distribusi yang didefinisikan sebagai perbedaan antara kuartil bawah (\(Q_1\)) dan kuartil atas (\(Q_3\)).
\(IQR = Q_3 - Q_1\)
Kuartil bawah adalah persentil ke 25, sedangkan kuartil atas adalah persentil ke 75. Oleh karena itu, jangkauan interkuartil mendefinisikan variasi untuk \(50\%\) kasus tengah.
Misalnya kita memiliki 100 kasus, nilai terendah ke 25 adalah persentil ke 25 dan nilai terendah ke 75 adalah kasus persentil ke 75. Jangkauan interkuatilnya adalah jarak antara kedua titik tersebut.
Contoh: Untuk menghitung jangkauan interkuartil kelahiran bayi setiap provinsi di Indonesia. Data kelahiran bayi diurutkan dari angka terendah hingga tertinggi. Kemudian menentukan provinsi mana yang merupakan persentil ke 25 dan 75.
Box plot
Box plot dapat menyajikan jangkuan, skor minimum, dan skor maksimum secara visual. Melalui box plot kita dapat melihat variasi dan bentuk sebaran variabel rasio interval.
Selain itu, melalui boxplot kita dapat melihat kesan visual dari sifat-sifat berikut:
- Pusat distribusi mudah diidentifikasi dengan garis padat di dalam kotak.
- Tinggi kotak mencerminkan indeks variasi kualitatif dan panjang garis vertikal di kedua ujung kotak mewakili jangkauan. Indeks variasi kualitatif dan jangkauan menggambarkan penyebaran dalam distribusi data.
- Posisi relatif kotak dan posisi median menunjukkan kesimetrisan distribusi data. Distribusi yang simetris terjadi ketika kotak di tengah jangkauan dan median di tengah kotak. Distribusi tidak simetris ketika kotak dan median tidak berada di tengah. Jika terdapat banyak kasus dengan skor lebih rendah maka kotak dan median lebih dekat dengan kuartil bawah. Sebaliknya, jika terdapat banyak kasus dengan skor lebih tinggi maka kotak dan median lebih dekat dengan kuartil atas.
Variansi dan Standar deviasi
Variansi adalah rata-rata deviasi kuadrat dari pusat (mean) distribusi. Standar deviasi adalah akar kuadrat dari varians. Variansi dan standar deviasi mengukur variabilitas dalam variabel ordinal dan rasio interval. Varians adalah standar deviasi yang dikuadratkan.
Variansi: \[ s^2=\frac{Sigma(Y- \bar Y)}{N-1} \] Standar deviasi merupakan ringkasan penyebaran yang sering digunakan. Standar deviasi dinyatakan (distandarisasi) dalam satuan asli variabel (mil, kaki, inci, tahun, dll)
standar deviasi:
\[ s=\sqrt {s^2} \]