Resumo-Este artigo apresenta uma abordagem robusta para o problema de seleção de características aplicado a conjuntos de dados não-linearmente separáveis. Neste sentido, foram realizados estudos comparando-se resultados relativos a utilização de classificadores baseados em funções kernel, os quais produzem o processo de seleção em um espaço de mais alta dimensão, denominado espaço kernel, com classificadores robustos, que utilizam o conceito de margem flexível e permitem uma tolerância a erros de classificação promovendo a seleção de características diretamente no espaço de entrada. A introdução do processo de flexibilização da margem possibilita a correta classificação de dados, que não sejam linearmente separáveis no espaço de entrada, refletindo em uma melhora do poder de generalização. Tal fato pode ser comprovado pela redução de erros nos testes experimentais. Também, a opção pela minimização da norma L1 do vetor normal ao hiperplano separador, tornou possível a construção de hipóteses com alto grau de esparsidade. De fato, esta forma de otimização, que apresenta um processo de regularização interna, contribui de forma significativa para uma melhor eficiência do processo de seleção de características. Para a seleção dos melhores subconjuntos, os classificadores foram associados a um algoritmo de busca ordenada que utiliza os valores de margem como medida de avaliação dos subconjuntos candidatos. Foram realizados experimentos para a comprovação da proposta apresentada, tendo-se obtido resultados bastante significativos.Keywords-Seleção de características, Norma L1, Busca ordenada, Classificadores de larga margem, Margem flexível
I. INTRODUÇÃONeste trabalho aborda-se o problema de seleção de características quando aplicado a conjuntos de dados não-linearmente separáveis. Nas tarefas de classificação binária, associadas ao aprendizado supervisionado, os vetores de entrada podem ter uma alta dimensão relacionadaà existência de um grande número de variáveis. Entretanto, somente um número reduzido destas variáveisé relevante ou possuem um alto poder de discriminação para separação das duas classes [1], no sentido de produzirem boas hipóteses com alto poder de generalização. Mesmo classificadores de larga margem, como exemplo as Máquinas de Vetores Suportes (Support Vector Machines -SVM), não conseguem lidar de forma favorável com este tipo de problema, ou seja, construir boas hipóteses com dados contendo um grande número de variáveis irrelevantes ou até mesmo redundantes. Esta situação se configura mais criticamente em conjuntos de dados não-linearmente separáveis. Neste caso, a utilização de uma função de mapeamento implícita, com a utilização do truque kernel [2], expande enormemente a dimensão do problema para um espaço definido como espaço de kernel, tornando atrativo o processo de seleção de características. Também,é notório que a realização da seleção de características no espaço kernel pode capturar relações de natureza não-linear nos dados que não são observados por técnicas lineares de seleção de caracte...