2018
DOI: 10.1007/978-3-319-92058-0_1
|View full text |Cite
|
Sign up to set email alerts
|

A Method for the Online Construction of the Set of States of a Markov Decision Process Using Answer Set Programming

Abstract: Non-stationary domains, that change in unpredicted ways, are a challenge for agents searching for optimal policies in sequential decision-making problems. This paper presents a combination of Markov Decision Processes (MDP) with Answer Set Programming (ASP), named Online ASP for MDP (oASP(MDP)), which is a method capable of constructing the set of domain states while the agent interacts with a changing environment. oASP(MDP) updates previously obtained policies, learnt by means of Reinforcement Learning (RL), … Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1

Citation Types

0
0
0
4

Year Published

2018
2018
2021
2021

Publication Types

Select...
2
1
1

Relationship

0
4

Authors

Journals

citations
Cited by 4 publications
(4 citation statements)
references
References 12 publications
0
0
0
4
Order By: Relevance
“…Uma outra característica do ASP é a possibilidade de gerar diferentes saídas para a mesma entrada (FERREIRA et al, 2018). Isso quer dizer que, por exemplo, dado um estado qualquer s e uma ação qualquer a, é possível descrever, utilizando um programa ASP, os estados s1 e s2 como possíveis saídas da execução da ação a no estado s, essa regra pode ser representada em ASP utilizando a formula:…”
Section: Answer Set Programing (Asp)unclassified
See 3 more Smart Citations
“…Uma outra característica do ASP é a possibilidade de gerar diferentes saídas para a mesma entrada (FERREIRA et al, 2018). Isso quer dizer que, por exemplo, dado um estado qualquer s e uma ação qualquer a, é possível descrever, utilizando um programa ASP, os estados s1 e s2 como possíveis saídas da execução da ação a no estado s, essa regra pode ser representada em ASP utilizando a formula:…”
Section: Answer Set Programing (Asp)unclassified
“…SegundoFerreira et al (2018), essa descrição pode ser aplicada para toda ação e todo estado no domínio. Portanto, descrevendo toda transição para cada ação e para cada estado que foi visitado, em um determinado instante, como um programa lógico, é possível usar ASP para obter um conjunto de estados e ações observáveis e, através da interação entre o agente Q-Learning e o ambiente, definir a função valor-ação Q(s,a).…”
unclassified
See 2 more Smart Citations