Fel: Jelek
vizsgálata zaj jelenlétében Elõzõ
Wiener
szûrés
Alkossanak mérési adataink minden idõpillanatban egy n dimenziós vektort. Tekintsük kifejtését egy ortonormális (azaz ) bázis szerint:
, ahol
és .
Az ortonormalitás miatt igaz lesz, hogy .
Látható, hogy
egyszerûen
egy elforgatottja lesz. A fõkomponens analízisben -t
tulajdonságnak nevezzük, egy ilyen tulajdonság értékét
az adatokon a
komponensek mérik.
Tegyük fel, hogy ki szeretnénk választani m
(< n) olyan -t,
amelyik -et
legjobban közelíti. Ehhez
nem használt tagjait (elõre meghatározandó)
konstansokkal helyettesítjük:
Minimalizálni akarjuk a
eltérés-négyzetet, ekkor (az itt szereplõ E()
a várható értéket adja meg):
A minimumhoz deriválnunk kell -t
szerint. Innen kapjuk, hogy .
Ezt visszaírhatjuk -be:
Az itt szereplõ
az adatok ún. kovariancia mátrixa. Bebizonyítható,
hogy -re
az optimális választás a
, azaz a
a
sajátértékhez tartozó sajátvektor. Így
Azt az eredményt kaptuk tehát, hogy a (a közelítés értelemben) a legjobb lineáris reprezentációt akkor kapjuk, ha a kovariancia mátrix sajátvektorai szerinti ortogonális transzformációt választjuk. Itt célszerû a sajátvektorokat monoton csökkenõ sorba rendezni (azaz az i index szerint , ha i > j. Az eljárás neve is innen ered: ha csak az m (< n) ``fõ'' komponenst választjuk ki, akkor az eltérés az eredeti adatoktól minimális lesz.
A 82 ábrán ez az analízist láthatjuk két dimenzióban. A és sajátvektorok az eloszlás fõ tengelyeit alkotják, miközben a és sajátértékek megmondják a és tengelyek mentén az eloszlás varianciáját. Mivel , ezért és lesznek vetületei a a és tengelyekre.
82. Ábra: Példa két dimenzióban a fõkomponens
analízisre.
A tulajdonságok több szempontbók is vonzóak: pl. ha töröljük az tulajdonságot, akkor a közelítés hibája -vel nõ meg. Ez lehetõséget biztosít az adatok veszteséges tömörítésére is: amennyiben csak a legnagyobb m sajátkomponenst és az arra vett vetületeket tároljuk, akkor a visszaállítás során az átlagos eltérés értéke lesz. Ha ez sokkal kisebb, mint , és m sokkal kisebb, mint n, akkor jelentõs tömörítést érhetünk így el.
További jó tulajdonság az eljárásnak, hogy az egyes tulajdonságok egymástól függetlenek, azaz az -k egymás közötti korrelációja 0. A fõkomponens analízis az adatok entrópiájára is szélsõértéket biztosít: bebizonyítható, hogy az összes lineáris transzformáció közül ez a transzformáció minimalizálja a transzformációk Y terében mért entrópiamaximumot (minimax viselkedés).
Érdekességként megjegyezzük, hogy stacionárius idõsorok esetén a fõkomponens analízis tulajdonság-függvényei alakúak lesznek, azaz ekkor visszakapjuk a Fourier-transzformációt! Ez talán nem is annyira meglepõ, ha visszagondolunk, hogy a Fourier-transzformációt minimalizálással is bevezethetjük.
A fõkomponens analízis hátrányai között említhetjük, hogy nem mindig (fizikailag) értelmes a mátrix számolásakor levonni az átlagértéket. Természetesen ezt elhagyhatjuk, hiszen helyett bármilyen (nem szinguláris) szimmetrikus mátrixot vehetünk, de ekkor a korábban említett minimalizációs tulajdonság nem lesz igaz. A másik hátrány, hogy az eljárás csak lineáris tulajdonságokat képes megtalálni, pl. egy adott síkban körívet leíró adatoknál nem találja meg (legfeljebb közelíti) az adott ívnek megfelelõ egydimenziós teret. Ezt a hátrányt az adatok normalizálásakor ki is használhatjuk: pl. az adatokat szerint normálva a fõkomponens analízis rendben végrehajtható, míg a normálást használva ezt nem tehetjük meg, mivel szinguláris lesz.