(English) Living in the era of big data and artificiall intelligence this thesis wants to contribute with a new methodology to support data-driven decisions rapidly after data collection, and a technological infrastructure for participatory processess in the data collection step.Thus the main goal is “Define a rapid methodology for making diagnoses in complex domains (territorial or not) based on profiling techniques, incorporating the use of clustering and TLP based on thermometers as key parts of a new explainable Artificial Intelligence methodology and oriented to support complex and strategic decisions”. To achieve it, MIPRI2D has been developed thanks to several contributions. INSESS consultation is the main instrument in MIPRI2D. In it, non-temporal questionnaires are created to obtain information from some timestamps disregarding when the citizen answer the questionnaire. The methodology can deal with heterogeneous databases involving many types of variables, including multiple response, compositional or temporal variables and new variable types more complex and expressive proposed in this thesis likeGrid variables, Temporal Qualified Variables (TQQ) or Temporal Basic Variables (TBV). A Conceptual model for metainformation (MdM) is proposed, so that MIPRI2D can deal with any kind of questionnaire, provided that the variables are properly defined in the metainformation model. This allows an automatic processing of preprocessing and data mining methods that transforms data in valuable added information. The descriptive analysis proposed in MIPRI2D goes beyond the state of the art by proposing new tools to describe the new type of variables introduced in the thesis.
The data acquisition process proposed and the automatic generation of a finalist descriptive analisys is a powerfull tool to support basic policy-making in front of disruptive situations where systemic data is non available. A contribution on the calculation of the estimation statistical error is proposed, so that statistical secrecy keeps preserved and risk of redidentification reduced. New types of derived variables named 2nd and 3rd generation variables enriches the dataset and improves clustering and profiling results. This thesis also tackles the challenge of getting coherent clusters when data has a territorial component and presents a new methodology to identify the better representative variables (TFSM) among a set of topics, such that both coherence and interpretability of clustering results is preserved from a geographical point of view. The proposal includes the introduction of the Thermometer, a new knowledge acquisition tool used to introduce the semantics of the variables in the the Traffic Light Panels (TLP) improving the interpretability of the clustering results. The proposal contributes to find clusters on datasets describing several topics, by providing interpretable results with geographical consistency. The present proposal opens the door to get interpretable results of clustering multitopic unbalanced data linked to a territorial structure. In this thesis there are 2 types of results, theorical ones and applied. The main theoretical result are encompassed in the several steps of MIPRI2D contribution. MIPRI2D is a genèric methodology suitable for any topic and application domain. The practical results are the aplication of the thesis proposal to 4 real use cases where it was used for different kinds of private/public consultations proving the flexibility and versatility of the proposal. The methodology is tested and validated in the context of the INSESS-COVID19 project, where territorial groups of vulnerable population were discovered, interpreted and reported in less than 15 days after data collection closure. Also, successfull Applications to Digital Transformation in Third Sector entities, NGO and electric consumption data have been obtained as well.
(Català) Vivint en l'era del big data i la intel·ligència artificial, aquesta tesi contribueix, per una banda, amb una nova metodologia de suport a la decisió basada en dades per decidir ràpidament després de tancar la recollida de dades i, per una altra, amb una infraestructura tecnològica per a processos participatius de recollida de dades. L'objectiu principal d’aquesta tesi és "Definir una metodologia ràpida de diagnòstic d’un domini (territorial o no) basat en tècniques de perfilat, que incorpori l’ús del clustering i el TLP basat en termòmetres com a peces clau d’una nova metodologia d’Intel·ligència Artificial explicable i orientada al suport a la presa de decisions complexes i estratègiques." Així, s'ha desenvolupat MIPRI2D integrant diverses contribucions. La consulta INSESS és l'instrument principal; es creen qüestionaris atemporals per obtenir informació d'alguns moments concrets sense tenir en compte quan respon el ciutadà. La metodologia permet manegar bases de dades heterogènies que impliquen molts tipus de variables, incloent-hi variables de resposta múltiple o temporals i nous tipus, que hem proposat, de més complexes i expressives com Variables de quadrícula, Variables Qualificades Temporals (TQQ) o Variables Bàsiques Temporals (TBV). Es proposa un model conceptual de metainformació (MdM), per a que MIPRI2D pugui tractar qualsevol tipus de qüestionari, sempre que les variables estiguin correctament definides en el model de metainformació. Això permet un processament automàtic del preprocessament de les dades i dels mètodes de mineria de dades que transformen les dades en informació de valor afegit. L'anàlisi descriptiva que proposa MIPRI2D va més enllà de l’estat de l’art amb noves eines per descriure els nous tipus de variables considerats.
El procés d’adquisició de dades proposat i la generació automàtica d'un informe final amb l’ anàlisi descriptiva són eines potents per donar suport al desenvolupament de polítiques davant de situacions disruptives. Una altra contribució, és la proposta de càlcul de l'error estadístic de mostreig, per tal que el secret estadístic es mantingui preservat i es redueixi el risc de reidentificació. Es proposen també uns nous tipus de variables derivades de 2a i 3a generació que enriqueixen el conjunt de dades i milloren els resultats del clustering i perfilat de les classes. La tesi també aborda el repte d'obtenir clústers coherents quan les dades tenen una component territorial i presenta una metodologia per identificar les millors variables representatives (TFSM) entre un conjunt d’àmbits, de manera que tant la coherència com la interpretabilitat dels resultats del clustering es conserven des d'un punt de vista geogràfic. La proposta inclou la introducció del termòmetre, una eina d'adquisició de coneixement que permet introduir la semàntica de les variables en els quadres de semàfor i millora la interpretabilitat dels resultats. La tesi contribueix a trobar clusters a partir de dades que descriguin diversos àmbits, proporcionant resultats interpretables i amb consistència geogràficament. Això permet obtenir resultats interpretables del clustering de dades multitopic i amb desequilibrades i amb estructura territorial. A la tesi hi ha resultats teòrics i aplicats. El principal resultat teòric es troba en les diverses passes de la metodologia MIPRI2D proposada, una metodologia genèrica adequada per a qualsevol tema i domini d'aplicació. Els resultats pràctics són l'aplicació de MIRPI2D a 4 casos d’us reals amb diferents tipus de consultes public/privades que mostren la flexibilitat i versatilitat de la proposta. La metodologia s’ha testejat i validat en el context del projecte INSESS-COVID19, on es van descobrir, interpretar i documentar grups territorials de població vulnerable en menys de 15 dies després del tancament de la recollida de dades. A més, s'han realitzat també aplicacions relatives a la Transformació Digital en entitats de tercer sector, una ONG i dades de consum elèctric.