Resumo. A área de Cluster Analysis agrega diversos métodos de classificação não supervisionada que podem ser aplicados com o objetivo de identificar grupos dentro de um conjunto de dados, supondo fixado o número de grupos e uma função objetivo, ou identificar o número ideal de grupos mediante avaliação de algum índice ou coeficiente. Em particular, o presente trabalho traz a proposta de um novo método de classificação denominado MRDBSCAN, que foi concebido a partir de uma calibração dos valores de parâmetros que são utilizados no conhecido método DBSCAN, que trabalha com o conceito de densidade. A qualidade das soluções obtidas é indicada pelo coeficiente silhueta, que combina coesão e separação. Os resultados apresentados neste estudo indicam que o método proposto é de fácil implementação e é competitivo em relação à qualidade das soluções quando comparado com os algoritmos mais sofisticados da literatura.Palavras Chave: Problema de Agrupamento Automático, Densidade, Silhueta, Algoritmo DBSCAN.
-INTRODUÇÃOA resolução do problema de agrupamento de dados consiste na classificação não supervisionada de objetos em grupos (clusters), não sendo necessário um conhecimento prévio sobre as suas classes ou categorias [Jain and Dubes, 1988]. Seu objetivo é obter grupos que apresentem padrões (características) semelhantes e que possam refletir a forma como os dados são estruturados. Para isso, deve-se maximizar a similaridade (homogeneidade) entre os objetos de um mesmo grupo e minimizar a similaridade entre objetos de grupos distintos [Han and Kamber, 2006] and Ochi, 2003]. No presente trabalho será abordado o problema clássico de agrupamento definido pelas restrições:Estas restrições determinam, respectivamente, que: O conjunto X corresponde à união dos objetos dos grupos, cada objeto pertence a exatamente um grupo e todos os grupos possuem ao menos um objeto.Para este problema, o número de soluções possíveis, ou seja, o total de maneiras em que os n objetos podem ser agrupados, considerando um número fixo de k grupos, é dado pelo número de Stirling (NS) de segundo tipo [Jr, 1968], e podem ser obtidas pela Equação 4 [Liu, 1968]. Para problemas de agrupamento em que o valor de k é desconhecido (agrupamento automático), o número de soluções possíveis aumenta ainda mais. Este número é dado pela Equação 5, que corresponde ao somatório da Equação 4 para o número de grupos variando no intervalo [1,k max ], sendo k max o número máximo de grupos. Para que se tenha uma ideia da ordem de grandeza deste número, no caso de n=10 objetos a serem alocados em k=3 grupos, o número de soluções a serem consideradas é de 9.330. Mas considerando apenas dobro de objetos, ou seja, n=20 e k=3, o número de soluções possíveis (Equação 4) sobe para 580.606.446. No problema de agrupamento automático estes valores crescem exponencialmente com o aumento da quantidade de objetos (n). Esta característica torna proibitiva a obtenção