Este artigo propõe um novo tipo de arquitetura baseada em esquemas de transição. Esses esquemas mapeiam o ambiente no qual o agente está inserido, através de relações elementares de causa e efeito que são organizadas de forma hierárquica, permitindo a implementação de estruturas de controle relativamente complexas. Esta proposta representa uma interessante alternativa aos modelos existentes, levando a uma nova estratégia de programação que necessita de reduzida quantidade de informação, quando comparada às técnicas de programação convencionais.
Treinamento com Reforço CondicionadoDe forma geral, percebe-se que todos os seres vivos são capazes de adaptar-se a um meio ambiente, basicamente, através de dois tipos de comportamentos: instintivos e condicionados.O treinamento condicionado é um processo em que um agente, inserido em um ambiente, deve descobrir soluções através da aprendizagem por tentativa e erro. O agente recebe uma série de informações do ambiente (inclusive os estímulos de reforço) e, simultaneamente, interage com o ambiente (Fig. 1). Existem, basicamente, dois tipos de reforço: reforço imediato e com retardo. No reforço imediato, o estímulo (positivo ou negativo) é recebido após a realização de cada ação. No reforço com retardo, o estímulo é recebido após a realização de um conjunto de ações. O agente pode ser modelado através de uma função de controle que, para um dado estado de entrada, gera um ou mais estados de saída. Desta forma, o agente deve realizar um mapeamento entrada-saída que leve em conta os estímulos de reforço e indique qual a ação de maior ganho (a que tenha a maior possibilidade de gerar um estímulo positivo ou evitar um negativo) para cada estado de entrada. Segundo [6], existem duas estratégias principais para a determinação deste mapeamento. A primeira consiste na realização de uma busca exaustiva no ambiente a fim de determinar as ações que apresentem melhor desempenho para cada estado de entrada. Esta busca pode ser realizada através de algoritmos clássicos de otimização, ou através de outros algoritmos, por exemplo, algoritmos genéticos. A segunda estratégia passa pelo uso de técnicas estatísticas e por métodos que permitem estimar a importância de determinadas ações em função de estados do ambiente, que vão sendo gradativamente explorados pelo agente. No treinamento condicionado,
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.