Resumo-Este artigo descreve um modelo de visão computacional baseado em técnicas de aprendizado de máquina, que tem por objetivo realizar a categorização de objetos de forma não supervisionada. Este modelo é composto de três elementos: um módulo de atenção visual bastante robusto em relação a transformações afins; um esquema de representação de informações visuais baseado em cores; e um algoritmo de categorização estatístico capaz de aprender as distribuições dos dados de entrada de forma não supervisionada. Este modelo visão computacional é validado através de diversos experimentos, que demonstram que ele consegue criar categorias que permitem a identificação de objetos de forma bastante estável.Palavras-chave-Visão de Robôs, Atenção Visual, Categorização de Objetos, Reconhecimento de Objetos.
IntroduçãoA quantidade de informações que chega ao sistema visual dos primatas -estimada como sendo da ordem de 10 8 bits por segundo -excede em muito a capacidade que o cérebro tem de processá-la e assimilá-la em sua experiência consciente (Pashler, 1997). A estratégia utilizada pelos sistemas biológicos para lidar com este excesso de informações é processar de forma detalhada somente algumas partes do campo visual, chamadas de regiões de interesse, e ignorar o restante das informações . Segundo (Desimone and Duncan, 1995), a seleção das regiões de interesse é dirigida por um mecanismo competitivo de controle de atenção, que facilita a emergência de um vencedor entre diversos alvos potenciais, permitindo ao sistema processar informações relevantes enquanto que suprime as informações irrelevantes que não podem ser processadas simultaneamente.Inspirados nos sistemas de atenção biológicos, é possível desenvolver sistemas de atenção computacionais capazes de selecionar as regiões de interesse do campo visual, o que torna possível a análise de cenas complexas em tempo real com recursos limitados de processamento. Embora diversos modelos de atenção visual já tenham sido propostos e implementados (Koch and Ullman, 1985;Tsotsos et al., 1995;Itti et al., 1998;Frintrop, 2006), a maioria destes modelos tem como foco principal entender o funcionamento dos mecanismos de atenção dos seres vivos. Mas para que um modelo de atenção possa ser adequadamente utilizado em sistemas de visão computacional é necessário que: (i) ele seja relativamente insensível a transformações afins (rotação, translação, reflexão e escala); (ii) as escalas das fixações sejam selecionadas em conjunto com as posições das mesmas (Draper and Lionelle, 2005).Com base nestes requisitos, um novo modelo de atenção visual, chamado de NLOOK, foi proposto e implementado (Heinen and Engel, 2008b;Heinen and Engel, 2009a;Heinen and Engel, 2009b). Este novo modelo, que possui um excelente desempenho computa-cional, é bem menos sensível a transformações afins que outros modelos de atenção como o NVT (Itti et al., 1998), que é o modelo de atenção visual mais conhecido e utilizado. Além disso, o NLOOK consegue selecionar tanto as posições como as escalas das fixações de forma ba...