This paper presents a combined identification/Qfunction fitting methodology, which involves identification of a Takagi-Sugeno model, computation of (sub)optimal controllers from Linear Matrix Inequalities, and subsequent data-based fitting of the Q-function via monotonic optimisation. The LMIbased initialisation provides a conservative solution but it is a sensible starting point to avoid convergence/local-minima issues in raw data-based fitted Q-iteration or Bellman residual minimisation. An inverted-pendulum experimental case study illustrates the approach.
<p>En este artículo se presenta una metodología para el aprendizaje de controladores óptimos basados en datos, en el contexto de la programación dinámica aproximada. Existen soluciones previas en programación dinámica que utilizan programación lineal en espacios de estado discretos, pero que no se pueden aplicar directamente a espacios continuos. El objetivo de la metodología es calcular controladores óptimos para espacios de estados continuos, basados en datos, obtenidos mediante una estimación inferior del coste acumulado a través de aproximadores funcionales con parametrización lineal. Esto se resuelve de forma no iterativa con programación lineal, pero requiere proporcionar las condiciones adecuadas de regularización de regresores e introducir un coste de abandono de la región con datos válidos, con el fin de obtener resultados satisfactorios (evitando soluciones no acotadas o mal condicionadas).</p>
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.