(English) A great deal is known about second-order statistics. For many years, most of the signal processing problems have been addressed under the perspective of the first and second-order moments of the data, known to be optimal under normal conditions. Nevertheless, nowadays data grow in complexity, rendering the second-order approach insufficient. To cope with this, descriptors of data that come from the field of information theory have been utilized in recent years as a substitute for classical second-order methods. Divergence, entropy, and information are the basis of the information-theoretic methods, endowed with the capability of discovering the intricacies of the underlying distributions. However, due to its nonlinear nature and the difficulty of estimating a density function, the estimation and utilization of these measures have also proven to be a difficult task.
Meanwhile, the field of machine learning has also advanced toward the analysis of data in a nonlinear fashion. Kernel methods are a primer example of this, procuring an apparently simple way of dealing with nonlinearities, called the kernel “trick”, but concealing a mathematically rigorous background that strengthens the method. In essence, a kernel performs linear operations in a possibly infinite-dimensional feature space without the requirement of explicitly operating in such space. Thanks to this, kernels have the potential to define nonparametric methods that may be unfeasible otherwise. This approach has been used to deal with the aforementioned information-theoretical measures, whose nonlinearity is easily manageable in the feature space. However, its strengths also become its disadvantages. To operate in an unvisited feature space is to lack interpretability. To operate in a high-dimensional feature space is an ingredient for sparsity, requiring regularization. Furthermore, their blind approach often comes at the cost of an increased computational complexity.
This dissertation deals with the analysis of complex phenomena embedded in large amounts of data by leveraging well-known second-order statistics tools. This task is performed from two different points of view. In the first part, and following a similar rationale to kernel methods, this thesis develops a framework that is capable of dealing with nonlinearities in a linear fashion. To do so, the data is mapped into a feature space of higher dimensionality than the data space. However, this feature space is neither infinite-dimensional nor unknown, gaining not only in interpretability but also scalability for its use on large data sets. In this space, correlation and covariance are measured with the purpose of estimating measures of information, which constitutes the primary motivation of the mapping. While regularization is still needed in the proposed approach, a consequence of increasing the intrinsic dimensionality of the problem, the deterministic feature space allows the characterization of an appropriate regularization, which ends up exhibiting a strong duality with classical spectral estimation techniques.
The second part of the dissertation focuses on the applications of information measures in problems that are typically solved through second-order statistics. Specifically, entropy is an uncertainty measure that provides better granularity of the underlying distribution than the variance. Entropy not only retains the information of first and second-order statistics but also those of higher-order. The resulting methods gain in robustness thanks to this generalization of moments, and at the same time, the information provided by the variance is still discerned. A specific entropy estimator that derives into kernel methods is used for this task thanks to its relationship with U-statistics, which have the advantage of an asymptotic tendency to the sample variance. Consequently, the framework is again rotated, providing a unified rationale of information and second-order statistics.
(Català) Les estadístiques de segon ordre són una eina àmpliament coneguda i utilitzada gràcies al fet que les tècniques de processat de senyal clàssiques basades en aquestes són òptimes sota l'assumpció de Gaussianitat. No obstant això, avui dia el processat requereix tractar amb dades d'una complexitat incrementada, deixant obsolet la formulació amb estadístiques de segon ordre. Últimament, ha crescut l'interès en la utilització de descriptors de dades que provenen del camp de la teoria de la informació, en substitució del primer i segon ordre. La divergència, l'entropia i la informació són la base d'aquest altre enfocament, dotats amb la capacitat de descobrir la riquesa de la distribució subjacent. Així i tot, la seva inherent no-linealitat i una estimació enrevessada dificulta utilització d'aquestes mesures en la majoria dels casos.
Paral·lelament, el camp de l'aprenentatge automàtic també ha avançat en l'anàlisi no lineal de dades. Per exemple, els mètodes de nucli ofereixen una manera que és, aparentment, senzilla de tractar les no-linealitats. Aquest s'anomena el “truc” del nucli, però que amaga un fons matemàtic molt rigorós. Aquests nuclis permeten efectuar operacions lineals una vegada les dades són traslladades a un espai de característiques d'alta dimensió, però sense la necessitat d'explícitament operar en aquest espai. Gràcies a això, aquests tenen el potencial de ser utilitzats en mètodes no paramètrics que d'altra manera podrien esdevenir inviables, com per exemple l'estimació de les mesures esmentades anteriorment. Aquest plantejament, però, té també els seus problemes. Ja que l'espai de característiques no es visita, l'operació lineal es fa cegament. També són propicis a requerir una regularització, donat l'augment de dimensionalitat, el qual s'ha de fer, altre cop, cegament. I, a més, solen comportar una complexitat computacional elevada, car creixen exponencialment amb el nombre de dades.
Aquesta tesi desenvolupa les dues idees anteriors i les ajunta en un sol marc de treball per a l'anàlisi de fenòmens complexos presents en les dades, aprofitant també les estadístiques de segon ordre i el seu llarg recorregut en aquesta àrea de coneixement. Per a tal, ho analitzem de dues formes diferents. En primera instància, busquem una manera de tractar amb les no-linealitats de les dades de forma lineal, similar a com ho fan els mètodes de nucli, però limitant la dimensió de l'espai de característiques per tal de guanyar en ambdues interpretacions i complexitat computacional. Per a obtenir el millor dels dos mons, la dimensió és major a la de les dades, però menor que en mètodes de nucli. És llavors en aquest espai on calculem correlació i covariància, i ho traslladem a mesures d'informació. Si bé la regularització es manté necessària donat l'increment en la dimensió del problema, el fet que coneixem l'espai de característiques ens permet analitzar el procediment i proposar una regularització adequada, la qual acaba mostrant una forta connexió amb tècniques clàssiques d'estimació espectral.
La segona part de la tesi es centra en l'aplicació d'aquestes mesures d'informació, però en problemes que normalment es resolen amb la utilització de tècniques de segon ordre. En concret, utilitzem l'entropia, una mesura d'incertesa, per tal d'avaluar les propietats d'una funció de densitat de probabilitat que no pas la variància, ja que aquesta no només depèn de les estadístiques de primer i segon ordre, sinó també d'estadístiques d'ordre superior. Els mètodes que fan servir aquest plantejament guanyen en robustesa quan les dades no són Gaussianes, però sense perdre de vista la seva relació intrínseca amb la variància. Per a tal, fem ús d'un estimador concret que, mentre que prové de mètodes de nucli, és una estadística no esbiaixada i manté una forta relació amb el moment de segon ordre. Amb això, l'anàlisi dona la volta sobre si mateix i permet el desenvolupament d'un plantejament comú entre informació i estadístiques de segon ordre.