Abstract-Missing data in databases are considered to be one of the biggest problems faced on Data Mining application. This problem can be aggravated when there is massive missing data in the presence of imbalanced databases. Several techniques as samples deletion, values imputation, values prediction through classifiers and approximation of patterns have been proposed and compared, but these comparisons do not consider adverse conditions found in real databases. In this work, it is presented a comparison of techniques used to classify records from a real imbalanced database with massive missing data, where the main objective is the database pre-processing to recover and select records completely filled for further techniques application. It was compared algorithms such as clustering, decision tree, artificial neural networks and Bayesian classifier, expressing their efficiency through ROC curves. Through the results, it can be verified that the problem characterization and database understanding are essential steps for a correct techniques comparison in a real problem. It was observed that artificial neural networks are an interesting alternative for this kind of problem since it was capable to obtain satisfactory results even when dealing with real-world problems.
The research of alternative forms of energy production became more important in a context where the natural resources are scarce. In this sense, thermosiphon systems have been developed as an alternative way of energy economy for the water heating process using a renewable energy Cool water tank source: the sun. A thermosiphon system is greatly influenced by several parameters: the ambient temperature (Tamb), the input OLtPLt water temperature (Tin), the solar irradiance (G), the flow rate warm (in), the inclination of the solar collector (I), the height of the Storage tank water water storage tank (H) and mainly by the manufacturing process. Inp Nowadays, there are interests in the development of analytical water Solar collector models that consider parameters of installation such as: height of the water storage tank and inclination of the solar collector. These analytical models can be complex and non-linear. In the last decades, ANN (i.e. Artificial Neural Networks) have been used to represent many kinds of industrial processes, dealing F _ with the complexity and non-linearity of them. Moreover, ANN Fig. 1. Schematic diagram of thermosiphon system.are capable to deal with manufacturing aspects unconsidered by the analytical models but that are important to determine the The performance of a thermosiphon system has been efficiency of the real thermosiphon system. In this work, ANN investigated, both experimentally and analytically, by have been proposed as a new alternative to represent numerous researches [1-8]. The efficiency of this kind of thermosiphon system considering the different parameters systems can be calculated through the equation: related to the efficiency. A trained ANN can eliminate the necessity of new laboratory experiments for real and new mc (T -T T conditions of installation. p out in1
Resumo-Dados ausentes em bancos de dados são hoje considerados um dos maiores problemas enfrentados na aplicação de Data Mining. No tratamento destes dados é necessário que as características do banco sejam preservadas, ou seja, que não haja informação perdida nem adicionada sem uma análise mais cuidadosa. O objetivo deste trabalho é mostrar como as Redes Neurais Artificiais junto com o conhecimento tácito do especialista no domínio, podem ajudar a recuperar informações dos atributos ausentes. Neste trabalho, esses dois elementos são combinados para recuperar dados ausentes numa base de dados mercadológicos.I. INTRODUÇÃO Atualmente, KDD (Knowledge Discovery in Data Base) [1], onde o Data Mining está inserido, vem sendo aplicado aos mais diversos segmentos científicos e de mercado. Como exemplos, podem ser citadas as áreas industrial, financeira, de saúde, telecomunicações, de negócios entre outras, sempre com a mesma finalidade, a descoberta de conhecimento não óbvio e o auxílio para tomada de decisão.Os dados sobre os quais é aplicado o processo KDD freqüentemente possuem dados ausentes ocasionados por circunstâncias não controladas. Entende-se por dados ausentes aqueles cujos valores não foram adicionados à base de dados, mas para os quais existe um valor real no meio do qual foram extraídos. A presença de valores ausentes em uma base de dados é um fato comum, podendo estar distribuído em diversos atributos, numa mesma instância (registro) ou de forma aleatória. Valores ausentes podem gerar sérios problemas na extração de conhecimento e na aplicação dos algoritmos de Data Mining.Durante o processo da Descoberta de Conhecimento numa base de dados, um procedimento muito comum para lidar com dados ausentes consiste em eliminar o(s) atributo(s) ou a(s) instância(s) da base de dados que apresentam esses valores, impondo, desta forma, restrições ao conhecimento extraído. Outros procedimentos sugerem a substituição de valores ausentes por valores padrões ou valores médios em todas as ocorrências.A eliminação de instâncias e/ou atributos pode acarretar também na perda de informações importantes relativos aos valores que estão presentes. Além disso, a substituição por valor padrão, mesmo o mais criterioso, pode introduzir na base informações distorcidas, que não estão contidas no evento e nas circunstâncias que a geraram [2] . A recuperação de dados ausentes torna-se, então, um ponto de extrema importância na descoberta de conhecimento em base de dados, requerendo predições cuidadosas dos valores, utilizando técnicas mais avançadas e elaboradas, além do conhecimento tácito de um especialista no domínio do problema [3]. Todas elas, em seu conjunto, visam a não distorção das informações.Embora um grande número de técnicas usadas em Data Mining não lide com dados que contenham valores ausentes, existem outras que sobrelevam este problema em diferentes graus. Técnicas como classificador por vizinho mais pró-ximo nearest neighbor, classificadores bayesianos e diversas técnicas estatísticas, não conseguem lidar com conjunto ...
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.