En apprentissage par renforcement, la recherche locale de politique est une approche classique permettant de prendre en compte de grands espaces d'état. Formellement, elle consiste à chercher localement dans un espace de politiques paramétrées la solution qui va maximiser la fonction de valeur associée, moyennée selon une loi prédéfinie sur les états. La première contribution de cet article montre que si l'espace de politiques est convexe, tout optimum local (approché) présente une garantie globale de performance. Malheureusement, supposer la convexité de l'espace de recherche est une hypothèse forte : elle n'est pas satisfaite par les représentations usuelles des politiques et définir une paramétrisation non triviale qui satisfasse cette propriété est difficile. Une solution naturelle pour palier ce problème est d'optimiser la fonction objectif associée grâce à une montée de gradient fonctionnel, la recherche étant contrainte à l'enveloppe convexe de l'espace de politiques. Il s'avère que l'algorithme résultant est une légère généralisation du schéma d'itération conservative de la politique. Ainsi, notre seconde contribution consiste à souligner cette connexion originale entre recherche locale de politique et programmation dynamique approchée.