Q学習おそるるにたらず・・・・。 - A View of Tanichu (たにちゅーの思惑)

珍しく研究ネタです。今日、離散空間、いわゆるGrid空間でのQ学習をプログラムしてみた。今書いてる論文の簡単な例題として使うつもりだったんだけど。いままで、強化学習は連続空間でしかやったことがないという、変わり者のワタクシ。ヨノナカでは一番、このGrid空間って奴がやられてるんですが、実際、プログラムしてみると「めっちゃ簡単。」連続空間で問題になるような学習における汎化性の問題なんて、しったこっちゃないって感じで計算が収束していく・・・。一日で、まとまった結果が出せてしまいました。あーこりゃこりゃ。近々Q学習の連続空間への拡張をやるんだけど、まあ、その前哨戦といったところでしょうか？ちなみに、elgibility traceを導入すると、ほとんど報酬分配の効果のないQ(λ)以外では Q学習の本質的利点である、方策非依存性が消えてしまうことが発覚。

あー、そらそうか・・・・。その辺の証明はわかってないので、上手く与える方法があるかもしれないけど、ちょっと勉強セナならんなあ・・・。