Command Palette

Search for a command to run...

Metode Linear AI

Analisis Komponen Utama

Contoh Analisis Komponen Utama

Bayangkan kamu memiliki sebuah vektor acak xRnx \in \mathbb{R}^n yang terdistribusi normal. Vektor ini memiliki nilai harapan nol 0Rn0 \in \mathbb{R}^n dan matriks kovarians positif definit CRn×nC \in \mathbb{R}^{n \times n}. Kita dapat menuliskannya sebagai distribusi normal seperti ini:

xN(0,C)x \sim N(0, C)

Setiap parameter individual xix_i merepresentasikan karakteristik dari proses yang sedang kita amati. Dalam praktiknya, hampir semua entri dari matriks kovarians CC bisa bernilai tidak nol. Ini artinya parameter-parameter tersebut saling berkorelasi kuat karena adanya kovarians pada elemen diagonal samping.

Melalui analisis komponen utama, kita bisa menentukan faktor-faktor pengaruh utama yang mempengaruhi proses tersebut.

Diagonalisasi Matriks Kovarians

Untuk mengidentifikasi faktor pengaruh utama, kita perlu melakukan diagonalisasi pada matriks kovarians CC. Misalkan λ1λn>0\lambda_1 \geq \ldots \geq \lambda_n > 0 adalah nilai eigen dari CC dengan vektor eigen ortonormal yang bersesuaian v1,,vnv_1, \ldots, v_n.

Berdasarkan teorema spektral, kita dapat membentuk matriks diagonal dan matriks vektor eigen:

Λ=(λ100λn)\Lambda = \begin{pmatrix} \lambda_1 & & 0 \\ & \ddots & \\ 0 & & \lambda_n \end{pmatrix}
S=(v1vn)S = (v_1 \quad \ldots \quad v_n)

Kemudian berlaku hubungan fundamental:

Λ=STCS\Lambda = S^T \cdot C \cdot S

Transformasi ke Koordinat Baru

Berkaitan dengan basis v1,,vnv_1, \ldots, v_n, koordinat baru didefinisikan sebagai y=STxy = S^T x. Yang menarik adalah variabel yiy_i menjadi independen dan terdistribusi normal dengan varians λi\lambda_i:

yiN(0,λi),i=1,,ny_i \sim N(0, \lambda_i), \quad i = 1, \ldots, n

Variabel yiy_i inilah yang disebut komponen utama dari xx. Komponen utama dengan varians λi\lambda_i yang paling besar menggambarkan faktor pengaruh utama dari proses yang diamati.

Analoginya seperti ketika kamu mengamati gerak awan di langit. Ada banyak faktor yang mempengaruhi pergerakan awan, tapi angin barat mungkin memberikan pengaruh paling besar. Komponen utama pertama seperti arah angin utama yang memberikan kontribusi terbesar terhadap pola pergerakan awan.

Visualisasi Geometris

Secara geometris, analisis komponen utama dapat dipahami sebagai cara mencari arah yang paling optimal untuk merepresentasikan data. Bayangkan data tersebar seperti awan titik-titik dalam ruang dua dimensi. Komponen utama menunjukkan arah dimana data memiliki variabilitas maksimum.

Visualisasi Analisis Komponen Utama dalam R2\mathbb{R}^2
Transformasi dari koordinat asli ke arah faktor utama yang menangkap variabilitas maksimum data.

Dalam visualisasi di atas, Variable 1 dan Variable 2 merepresentasikan koordinat asli data kamu. Sementara Faktor 1 dan Faktor 2 menunjukkan arah komponen utama yang baru. Perhatikan bagaimana arah faktor tidak sejajar dengan sumbu asli, melainkan mengikuti pola sebaran data yang sebenarnya.

Faktor 1 menunjukkan arah dengan variabilitas terbesar dari data, sedangkan Faktor 2 menunjukkan arah variabilitas terbesar kedua yang tegak lurus terhadap Faktor 1. Transformasi ini memungkinkan kita memahami struktur data dengan lebih baik karena komponen utama menangkap pola variabilitas yang sesungguhnya ada dalam data.