“…Depois de definidas essas entradas, o próximo passo do algoritmo é inicializar o conjunto de estados visitados S como um conjunto vazio (linha 4, algoritmo 1), já que a construção de S é feita passo a passo conforme o agente interage com o ambiente. A novidade deste algoritmo, comparando com os algoritmos de AR tradicionais, é que M ainda é capaz de aproximar a função valor-ação Q(s, a), mesmo com a construção incremental dos conjuntos de estados e de ações para cada estado, e retornar a tabela Q, definindo que a política ótima é seguida se as ações com os maiores valores são executadas(FERREIRA et al, 2018).Logo após a sua inicialização, o algoritmo entra em um laço de repetição (linha 5, algoritmo 1), que será executado um número n de vezes (n é um valor informado ao algoritmo através do parâmetro de entrada). Em cada repetição deste laço, o algoritmo observa o estado atual s, e então, poderá tomar duas decisões distintas, dependendo do estado atual s estar presente ou não no conjunto S. Portanto, se s ∈ S (linha 8, algoritmo 1), então: s é adicionado ao conjunto S, uma ação aleatória é escolhida e executada, retornando um estado futuro s .…”