Regresi Linier

Model Regresi Linier Sederhana

Model regresi linier sederhana dalam populasi adalah

\[ y_i=\beta_0+\beta_1x_i+\epsilon_i \]

dengan,

\(y_i\) adalah variabel dependen untuk individu ke-\(i\)

\(x_i\) adalah variabel independen untuk individu ke-\(i\)

\(\beta_0\) adalah intersep model

\(\beta_1\) adalah slope model.

Asumsi Regresi Linier

Linieritas

Model regresi mengasumsikan hubungan antara \(y_i\) dan \(x_i\) yang bersifat linier, jika hubungannya tidak linier maka persamaan garis tidak akan linier memberikan kecocokan yang memadai dan model yang dihasilkan tidak tepat.
Homogenitas Variansi

Varians dalam residu diasumsikan konstan berapa pun nilai \(x_i\)nya. Asumsi ini biasanya juga disebut homoskedastisitas dan merupakan generalisasi dari homogenitas variansi galat pada Anova.
Normalitas

Asumsi ketiga adalah galat dalam populasi diasumsikan berdistribusi normal.
Diasumsikan bahwa variabel bebas \(x\) diukur tanpa kesalahan dan tidak berhubungan dengan istilah kesalahan model.
Independen

Residual antara dua individu dalam populasi diasumsikan independen satu sama lain. Faktor-faktor yang tidak terukur mempengaruhi \(y\) tidak berhubungan antara satu individu dengan individu yang lain. Asumsi inilah yang secara langsung diatasi dengan menggunakan pemodelan multilevel.

Keterbatasan Model Linier: Data Nested

Model regresi linier biasanya digunakan pada data tingkat individu yang diperoleh dari random sampling.
Dalam beberapa kasus yang menggunakan data nested, data dengan struktur bertingkat, diperlukan pengukuran bobot sampel untuk mengatasi oversampling dari sub-grup individu.
Keraguan peneliti dalam mengaplikasikan model linier, yang merupakan teknik level tunggal, pada data nested membuat peneliti mengembangkan multilevel model.

Contoh Model Linier pada Data Nested

library(tidyverse)
library(ggpubr)
library(here)
pisa <- read_csv(here("datasets", "pisa7_id.csv"))

plot_1 <- pisa |> 
  filter(CNTSCHID %in% unique(pisa$CNTSCHID)[1:10]) |>  
  ggplot(aes(ESCS, MATH)) +
  geom_point() +
  geom_smooth(method="lm", se=F) +
  theme_light()

plot_2 <- pisa |>  
  filter(CNTSCHID %in% unique(pisa$CNTSCHID)[1:5]) |>  
  ggplot(aes(ESCS, MATH)) +
  geom_point(aes(color=factor(CNTSCHID))) +
  geom_smooth(aes(group=factor(CNTSCHID), color=factor(CNTSCHID)), method="lm", se=F) +
  theme_light() +
  theme(legend.position = "none")

ggarrange(plot_1, plot_2)

Pelanggaran Asumsi Independen

Penggunaan model regresi linier pada data multilevel akan melanggar salah satu asumsi regresi linier, yakni residual independen.
Sebagai contoh nilai ujian dari beberapa sampel pelajar yang berasal dari beberapa sekolah, mudah diasumsikan jika pelajar yang berasal dari sekolah sama akan memiliki nilai yang berkorelasi tinggi satu sama lain dibandingkan dengan pelajar dari sekolah lain. Korelasi sekolah yang sama dapat dikaitkan dengan guru yang sama, kurikulum yang sama, dan lain-lain.
Korelasi dalam sekolah akan memberikan estimasi standar error yang tidak sesuai untuk parameter model, sehingga menyebabkan error statistik inferensi, seperti p-value lebih kecil daripada yang seharusnya dan menolak hipotesis nol atas error tipe I, mengenai parameter.
Uji statistik untuk hipotesis nol tidak adanya hubungan antara variabel independen dan dependen adalah koefisien regresi dibagi standar error. Standar error yang underestimated menyebabkan overestimate uji statistik, sehingga signifikansi statistik parameter menjadi lebih tinggi daripada yang seharusnya. Underestimate standar error akan terjadi kecuali \(\tau^2 = 0\).
Selain underestimate standar error, permasalahan lain yang terjadi ketika mengabaikan data berstruktur multilevel adalah hilangnya informasi mengenai hubungan di setiap level data.
Data nilai ujian terdiri dari pelajar (level 1) yang nested dalam sekolah (level 2). Jika data sekolah diabaikan maka variabel-variabel penting mengenai sekolah seperti performa penguji juga akan terabaikan.

Estimasi Model Regresi dengan Ordinary Least Square (OLS)

Ordinary Least Square (OLS) atau metode kuadrat terkecil merupakan salah satu metode yang paling sering digunakan untuk memperoleh estimasi parameter model regresi (\(b_0\) dan \(b_1\)). Tujuan dari OLS adalah untuk meminimalkan galat yaitu jumlah selisih kuadrat antara nilai \(y\) yang diamati dan nilai \(y\) yang diprediksi model pada seluruh sampel. Galat ditulis sebagai

\[ e_i=y_i-\hat{y}_i \]

Oleh karena itu metode OLS digunakan untuk meminimalkan

\[ \Sigma_{i=1}^n e_i^2=\Sigma_{i=1}^n(y_i-\hat{y}_i)^2 \]

Menghitung \(b_1\)

\[ b_1=r(\frac{s_y} {s_x}) \]

Menghitung \(b_0\)

\[ b_0=\bar{y}-b_1 \bar {x} \]

dimana

\(r\) adalah koefisien korelasi Pearson antara \(x\) dan \(y\),

\(s_y\) adalah standar deviasi sampel dari \(y\)

\(s_x\) adalah standar deviasi sampel dari \(x\)

\(\bar y\) adalah rata-rata sampel \(y\)

\(\bar x\) adalah rata-rata sampel \(x\)

Illustration

library(tidyverse)

Peneliti akan meneliti seberapa besar hubungan sosial dan kesehatan dapat memprediksi kebahagiaan.
Penelitian ini melibatkan 72,000 responden dan peneliti akan menggunakan model linear.
Hasil penelitian menunjukkan bahwa hubungan sosial dan kesehatan memprediksi kebahagiaan secara signifikan.

Apa itu prediksi?

Ide dasar prediksi adalah menggunakan data yang sudah terkumpul mengenai variabel X dan Y dan melakukan kalkulasi tentang bagaimana X dapat memprediksi Y.

Contoh

Seorang peneliti mengumpulkan data tentang total Indeks Prestasi Kumulatif (IPK) sekolah menengah atas dan IPK universitas tahun pertama untuk 400 siswa di tahun pertama mereka di universitas negeri.
Dia menghitung korelasi antara dua variabel. Kemudian, dia menggunakan teknik yang akan Anda pelajari nanti di bab ini untuk mengambil satu set IPK sekolah menengah baru dan (mengetahui hubungan antara IPK sekolah menengah atas dan IPK perguruan tinggi tahun pertama dari kumpulan siswa sebelumnya) memprediksi apa yang pertama- tahun IPK harus untuk sampel baru 400 siswa.

The logic of prediction

Prediksi adalah perhitungan hasil masa depan berdasarkan pengetahuan yang sekarang.
Ketika kita ingin memprediksi satu variabel dari yang lain, pertama-tama kita perlu menghitung korelasi antara kedua variabel tersebut.

Data

Plot

Regression line

Predicting

Error in predictiong

Basic formula of regression

\[ y=bX+a \]

y is the predicted score of Y based on a known value of X,
b is the slope of the line,
X is the score being used as the predictor, and
a is the point at which the line crosses the y-axis.

Detailed formula

\[ b = \frac{{\Sigma{XY}}-(\Sigma{X}\Sigma{Y}/n)}{\Sigma{X^2}-[(\Sigma{X})^2)/n]} \]

\[ a=\frac{\Sigma{Y}-b\Sigma{X}}{n} \]

Entry data

hs_gpa <- c(3.50, 2.50, 4.00, 3.80, 2.80, 1.90, 3.20, 3.70, 2.70, 3.30)
u_gpa <- c(3.30, 2.20, 3.50,  2.70, 3.50, 2.00, 3.10, 3.40, 1.90, 3.70)
gpa <- data.frame(hs_gpa, u_gpa)

calculate the components

library(tidyverse)
gpa<-gpa |> mutate(hs_gpa_hat=hs_gpa^2) |>
  mutate(u_gpa_hat=u_gpa^2) |>
  mutate(hsXu=hs_gpa*u_gpa) 
gpa

   hs_gpa u_gpa hs_gpa_hat u_gpa_hat  hsXu
1     3.5   3.3      12.25     10.89 11.55
2     2.5   2.2       6.25      4.84  5.50
3     4.0   3.5      16.00     12.25 14.00
4     3.8   2.7      14.44      7.29 10.26
5     2.8   3.5       7.84     12.25  9.80
6     1.9   2.0       3.61      4.00  3.80
7     3.2   3.1      10.24      9.61  9.92
8     3.7   3.4      13.69     11.56 12.58
9     2.7   1.9       7.29      3.61  5.13
10    3.3   3.7      10.89     13.69 12.21

Early Table

Calculate b

sum_hs=sum(hs_gpa)
sum_u=sum(u_gpa)
sum_hs_hat=sum(hs_gpa)^2
sum_hs_gpa_hat=sum(gpa$hs_gpa_hat)
sum_hs_u=sum(gpa$hsXu)

sum_hs

[1] 31.4

sum_hs_hat

[1] 985.96

sum_u

[1] 29.3

sum_hs_gpa_hat

[1] 102.5

sum_hs_u

[1] 94.75

calculate b

\[ b=\frac{{\Sigma{XY}}-(\Sigma{X}.\Sigma{Y}/n)}{\Sigma{X^2}-[(\Sigma{X})^2)/n]} \]

n <- 10
b <- (sum_hs_u-(sum_hs*sum_u)/n) / ((sum_hs_gpa_hat-(sum_hs_hat)/n))
b

[1] 0.7038934

calculate a

\[ a=\frac{\Sigma{Y}-b\Sigma{X}}{n} \]

a <- (sum_u - b*sum_hs)/n
a

[1] 0.7197746

calculate y

\[ y=bX+a \]

y <- b*3.5 + a
y

[1] 3.183402