Unit 10 25 Conclusion.mp4

Em resumo, aprendemos como fazer muitas coisas com MDPs -- especialmente utilizando aprendizado reforçado. Se não conhecemos o MDP, podemos estimá-lo e resolver o problema. Podemos estimar a utilidade de alguma política Pi, ou então estimar os valores Q da política ótima enquando executamos a exploração. E vimos também sobre como fazer um equilíbrio entre exploração e seguir um caminho conhecido. O aprendizado reforçado é uma das áreas mais empolgantes de IA. Algumas das maiores surpresas surgiram do aprendizado reforçado, como o jogador de gamão de Tesauro e o helicóptero de Andrew Ng, e achamos que ainda há muito mais o que se aprender. É uma área empolgante, que ainda possui muito espaço para inovação.