Tip:
Highlight text to annotate it
X
Em resumo, aprendemos como fazer muitas coisas com MDPs --
especialmente utilizando aprendizado reforçado.
Se não conhecemos o MDP,
podemos estimá-lo e resolver o problema.
Podemos estimar a utilidade de alguma política Pi,
ou então estimar os valores Q da política
ótima enquando executamos a exploração.
E vimos também sobre como fazer um equilíbrio entre exploração
e seguir um caminho conhecido.
O aprendizado reforçado é uma das áreas mais empolgantes de IA.
Algumas das maiores surpresas surgiram do aprendizado reforçado,
como o jogador de gamão de Tesauro
e o helicóptero de Andrew Ng,
e achamos que ainda há muito mais o que se aprender.
É uma área empolgante, que ainda possui muito espaço para inovação.