RESUMONa última década a tecnologia OLAP tem sido redesenhada para melhor atender à demanda de dados textuais, tendo que remodelar suas medidas e dimensões. A hierarquia de tópicos surgiu como uma alternativa para organizar dimensões textuais em diferentes níveis semânticos. Contudo, tal hierarquia é criada uma única vez e utilizada para todos os cuboides do cubo. A hierarquia de tópicos é sensível ao conteúdo dos documentos, portanto diferentes células de um cubo agregam diferentes conjuntos de documentos, produzindo hierarquias de tópicos distintas. Este artigo apresenta uma abordagem para OLAP textual que constrói múltiplas hierarquias de tópicos para cada célula do cubo, denominada DTCubing. Múltiplas hierarquias são viáveis porque cada documento pode ser particionado em diversos segmentos de texto, tais como título, resumo, parágrafo, dentre outros. Este artigo também pretende contribuir com a apresentação dos resultados das consultas multidimensionais. O estado da arte em OLAP textual normalmente retorna os top-k documentos mais relevantes como resultado de suas consultas. A abordagem DTCubing vai além, retornando também os top-k segmentos de texto mais relevantes, portanto os parágrafos e resumos mais relevantes podem ser retornados. Os experimentos realizados utilizando artigos indexados pela DBLP confirmam as hipóteses do trabalho.
ABSTRACTIn the last decade, the OLAP technology has been redesigned for the textual data, therefore dimensions, hierarchies and measures are being remodeled. Topic hierarchy is a useful alternative to organize document collections. Currently, the topic hierarchy is defined only once in the data cube, i.e., for the entire lattice of cuboids. However, textual hierarchy is sensitive to the content of the documents. Thus, a data cube cell can contain a collection of documents distinct from others in the same cube, since they have complementary aggregation levels that potentially introduce changes in the topic hierarchy. In this paper, we present a textual OLAP approach, named DTCubing, which handles multiple topic hierarchies for each cube cell. Multiple hierarchies are feasible because a document can be partitioned into several text segments (e.g., title, abstract, keywords and many more). A second contribution of this paper refers to query response. The state of art in textual OLAP normally returns the top-k documents as a query result. We go beyond by returning other text segments, such as the most significant titles, abstracts and paragraphs. Experiments, using part of the DBLP papers, reinforce our assumptions.
CCS Concepts• Information systems ➝ Data management systems ➝ Database management system engines ➝ Online analytical processing engine.