next up previous
Fel: Jelek vizsgálata zaj jelenlétében Elõzõ Wiener szûrés

Fõkomponens analízis

Alkossanak mérési adataink minden idõpillanatban egy n dimenziós vektort. Tekintsük tex2html_wrap_inline3847 kifejtését egy tex2html_wrap_inline3849 ortonormális (azaz tex2html_wrap_inline3851) bázis szerint:


displaymath3853
, ahol tex2html_wrap_inline3855 és tex2html_wrap_inline3857. Az ortonormalitás miatt igaz lesz, hogy tex2html_wrap_inline3859. Látható, hogy tex2html_wrap_inline3861 egyszerûen tex2html_wrap_inline3847 egy elforgatottja lesz. A fõkomponens analízisben tex2html_wrap_inline3849-t tulajdonságnak nevezzük, egy ilyen tulajdonság értékét az adatokon a tex2html_wrap_inline3867 komponensek mérik.

Tegyük fel, hogy ki szeretnénk választani m (< n) olyan tex2html_wrap_inline3871-t, amelyik tex2html_wrap_inline3847-et legjobban közelíti. Ehhez tex2html_wrap_inline3861 nem használt tagjait (elõre meghatározandó) tex2html_wrap_inline3877 konstansokkal helyettesítjük:
displaymath3879

Minimalizálni akarjuk a tex2html_wrap_inline3881 eltérés-négyzetet, ekkor (az itt szereplõ E() a várható értéket adja meg):
eqnarray1415

A minimumhoz deriválnunk kell tex2html_wrap_inline3881-t tex2html_wrap_inline3877 szerint. Innen kapjuk, hogy tex2html_wrap_inline3889. Ezt visszaírhatjuk tex2html_wrap_inline3881-be:
eqnarray1426

Az itt szereplõ tex2html_wrap_inline3893 az adatok ún. kovariancia mátrixa. Bebizonyítható, hogy tex2html_wrap_inline3849-re az optimális választás a
displaymath3897
, azaz a tex2html_wrap_inline3849 a tex2html_wrap_inline3901 sajátértékhez tartozó sajátvektor. Így
displaymath3903

Azt az eredményt kaptuk tehát, hogy a (a tex2html_wrap_inline3881 közelítés értelemben) a legjobb lineáris reprezentációt akkor kapjuk, ha a kovariancia mátrix sajátvektorai szerinti ortogonális transzformációt választjuk. Itt célszerû a sajátvektorokat monoton csökkenõ sorba rendezni (azaz az i index szerint tex2html_wrap_inline3909, ha i > j. Az eljárás neve is innen ered: ha csak az m (< n) ``fõ'' komponenst választjuk ki, akkor az eltérés az eredeti adatoktól minimális lesz.

A 82 ábrán ez az analízist láthatjuk két dimenzióban. A tex2html_wrap_inline3915 és tex2html_wrap_inline3917 sajátvektorok az eloszlás fõ tengelyeit alkotják, miközben a tex2html_wrap_inline3919 és tex2html_wrap_inline3921 sajátértékek megmondják a tex2html_wrap_inline3915 és tex2html_wrap_inline3917 tengelyek mentén az eloszlás varianciáját. Mivel tex2html_wrap_inline3927, ezért tex2html_wrap_inline3929 és tex2html_wrap_inline3931 lesznek tex2html_wrap_inline3847 vetületei a a tex2html_wrap_inline3915 és tex2html_wrap_inline3917 tengelyekre.

  figure1444
82. Ábra: Példa két dimenzióban a fõkomponens analízisre.

A tex2html_wrap_inline3867 tulajdonságok több szempontbók is vonzóak: pl. ha töröljük az tex2html_wrap_inline3867 tulajdonságot, akkor a közelítés hibája tex2html_wrap_inline3901-vel nõ meg. Ez lehetõséget biztosít az adatok veszteséges tömörítésére is: amennyiben csak a legnagyobb m sajátkomponenst és az arra vett vetületeket tároljuk, akkor a visszaállítás során az átlagos eltérés értéke tex2html_wrap_inline3947 lesz. Ha ez sokkal kisebb, mint tex2html_wrap_inline3949, és m sokkal kisebb, mint n, akkor jelentõs tömörítést érhetünk így el.

További jó tulajdonság az eljárásnak, hogy az egyes tulajdonságok egymástól függetlenek, azaz az tex2html_wrap_inline3867-k egymás közötti korrelációja 0. A fõkomponens analízis az adatok entrópiájára is szélsõértéket biztosít: bebizonyítható, hogy az összes lineáris transzformáció közül ez a transzformáció minimalizálja a transzformációk Y terében mért entrópiamaximumot (minimax viselkedés).

Érdekességként megjegyezzük, hogy stacionárius idõsorok esetén a fõkomponens analízis tex2html_wrap_inline3867 tulajdonság-függvényei tex2html_wrap_inline3963 alakúak lesznek, azaz ekkor visszakapjuk a Fourier-transzformációt! Ez talán nem is annyira meglepõ, ha visszagondolunk, hogy a Fourier-transzformációt tex2html_wrap_inline3881 minimalizálással is bevezethetjük.

A fõkomponens analízis hátrányai között említhetjük, hogy nem mindig (fizikailag) értelmes a tex2html_wrap_inline3893 mátrix számolásakor levonni az tex2html_wrap_inline3969 átlagértéket. Természetesen ezt elhagyhatjuk, hiszen tex2html_wrap_inline3893 helyett bármilyen (nem szinguláris) szimmetrikus mátrixot vehetünk, de ekkor a korábban említett minimalizációs tulajdonság nem lesz igaz. A másik hátrány, hogy az eljárás csak lineáris tulajdonságokat képes megtalálni, pl. egy adott síkban körívet leíró adatoknál nem találja meg (legfeljebb közelíti) az adott ívnek megfelelõ egydimenziós teret. Ezt a hátrányt az adatok normalizálásakor ki is használhatjuk: pl. az tex2html_wrap_inline3973 adatokat tex2html_wrap_inline3975 szerint normálva a fõkomponens analízis rendben végrehajtható, míg a tex2html_wrap_inline3977 normálást használva ezt nem tehetjük meg, mivel tex2html_wrap_inline3893 szinguláris lesz.


next up previous
Fel: Jelek vizsgálata zaj jelenlétében Elõzõ: Wiener szûrés