RESUMONeste trabalho estudam-se o algoritmo k-means, suas diferentes variações e sua associação a transformadas de Fourier e wavelets para a classificação de sinais eletroencefalogramas (EEG). O objetivo central dessa classificação é identificar a presença de padrões associados à sonolência em diferentes épocas (intervalos de análise dos sinais EEG).O algoritmo k-means [6] é amplamente utilizado na identificaçã o de subconjuntos (clusters) com comportamentos similares dentro de um conjunto {p i /p i ∈ R d , i = 1, 2, ..., n}, com uma quantidade grande (n) de dados. Na verdade, estes subconjuntos (clusters) são formados de acordo com k valores médios arbitrados inicialmente e essas similaridades são obtidas a partir do cálculo das distâncias entre os elementos do conjunto e os k valores médios que representam possíveis centróides para os k clusters.Uma vez obtida uma configuração para os clusters, os k valores médios são então recalculados, dando início a um processo iterativo no qual as novas distâncias entre os elementos do conjunto inicial e os novos k valores médios de referência são obtidos, permitindo o ajuste dos elementos em cada classe.A Figura 1 apresenta 4 iterações do algoritmo k-means, considerando o cálculo via distâcia Euclidiana, sendo o conjunto inicial formado por 3000 pontos aleatoriamente gerados no [−4, 4]×[−4, 4] ∈ R 2 . Em cada uma das iterações apresentadas na Figura 1 é indicado o novo valor do centróide, recalculado através dos elementos associados a cada um dos clusters, a cada iteração. Diferentes variações para o algoritmo são obtidas cada vez que diferentes métricas são consideradas, como por exemplo a distância de Minkowski considerada em [3]. Além disso, a escolha para o número de clusters k também influencia na dinâmica do algoritmo, permitindo diferentes agrupamentos ao final do processo iterativo.Figura 1: Quatro primeiras iterações do algoritmo k-means, utilizando distância Euclidiana, quando aplicado a uma nuvem de 3000 pontos, p i ∈ R 2 , distribuídos em 3 clusters (k = 3).Apesar do algoritmo k-means ser amplamente utilizado em diversos tipos de dados [1,2], ele pode produzir resultados não satisfatórios, quando aplicado a séries temporais [8]. Este baixo desempenho se dá principalmente devido a grande dimensão d de cada elemento do conjunto das séries a serem classificadas, possível alta correlação entre os dados e a grande quantidade de ruído geralmente presente em séries temporais obtidas através de medições associadas a problemas realistas .Uma maneira de se poder contornar essas situações é aplicar algum tipo de transformada aos dados iniciais, selecionar uma quantidade menor dos coeficientes dessas novas representações e então aplicar o