The processing powers of computers have increased constantly during the last decades. Ordinary personal computers are now able to perform intricate calculations with datasets. Large datasets, such as images, create unique challenges as they often contain more variables than used in ordinary statistical analysis.In dimension reduction we are decreasing the amount of variables by combining them. The locations of the data points in a low-dimensional space are often optimized with respect to some predefined criteria. If we use a response variable to guide the search of the subspace, the method is called a supervised method. When the objective of the dimension reduction is to reduce the size of the space to two or three dimensions, the procedure is often called visualization. This thesis is mostly focused on supervised visualization.This thesis first discusses a supervised dimension reduction tool developed at the Aalto University: Supervised Distance Preserving Projections (SDPP). The method matches response space distances with linearly transformed input space distances using the Euclidean divergence. Second, this thesis introduces a new method for dimension reduction based on the SDPP: Stochastic Discriminant Analysis (SDA). The method matches point-to-point neighbor probabilities in the linearly transformed input space with target probabilities from the response space, using the relative entropy (Kullback-Leibler divergence). Finally, the performance of this method is analyzed against some selected supervised state-ofthe-art dimension reduction methods on contemporary datasets.
Keywords:visualization Professori Juha Karhunen Ohjaaja:Tohtori Francesco Corona Viimeisten vuosikymmenten aikana tietokoneiden prosessointikyky on jatkuvasti kasvanut. Suurten datajoukkojen tutkiminen on tärkeää muun muassa sosiaalisen median alalla. Samalla tavalliset tietokoneet ovat kehittyneet tehokkaiksi prosessointiyksiköiksi, mahdollistaen monimutkaisenkin datan käsittelyn. Toisaalta datajoukot sisältävät usein liian paljon muuttujia havaintojen lukumäärään verrattuna, luoden niin kutsutun dimensionaalisuuden kirouksen.Uloitteisuuden pienentämisessä pyritään pienentämään muuttujien määrää yhdistelemällä muuttujia. Näissä menetelmissä datapisteiden olinpaikkaa aliavaruudessa optimoidaan usein jonkin kriteerin suhteen. Uloitteisuuden pienentämisessä voidaan käyttää hyväksi havantoihin liittyvää vastetta, jolloin pienentämistä kutsutaan ohjatuksi menetelmäksi. Kun tarkoituksena on pienentää avaruuden kokoa kaksi-tai kolmiuloitteiseksi silmämääräistä tarkastelua varten, pienentämistä kutsutaan visualisoinniksi. Tässä työssä keskitytään ohjattuihin visualisointimenetelmiin.Tässä diplomityössä tarkastellaan aluksi erästä Aalto Yliopistolla kehitettyä ohjattua uloitteisuuden pienentämismenetelmää: Supervised Distance Preserving Projections (SDPP:tä). Menetelmä sovittaa havaintopisteiden väliset etäisyydet vastepisteiden välisiin etäisyyksiin naapurustossa Euklidista divergenssiä käyt-täen. Tämän jälkeen kehitetään SDPP:n pohjalta uloittei...