A View of Tanichu (たにちゅーの思惑)

This blog is about personal thoughts and views by Tanichu. Tanichu is a nickname of Tadahiro Taniguchi.

Q学習おそるるにたらず・・・・。

珍しく研究ネタです。 今日、離散空間、いわゆるGrid空間でのQ学習をプログラムしてみた。 今書いてる論文の簡単な例題として使うつもりだったんだけど。 いままで、強化学習は連続空間でしかやったことがないという、変わり者の ワタクシ。 ヨノナカでは一番、このGrid空間って奴がやられてるんですが、 実際、プログラムしてみると 「めっちゃ簡単。」 連続空間で問題になるような学習における汎化性の問題なんて、しったこっちゃない って感じで計算が収束していく・・・。 一日で、まとまった結果が出せてしまいました。あーこりゃこりゃ。 近々Q学習の連続空間への拡張をやるんだけど、まあ、その前哨戦といったところでしょうか? ちなみに、elgibility traceを導入すると、ほとんど報酬分配の効果のないQ(λ)以外では Q学習の本質的利点である、方策非依存性が消えてしまうことが発覚。 あー、そらそうか・・・・。 その辺の証明はわかってないので、上手く与える方法があるかもしれないけど、 ちょっと勉強セナならんなあ・・・。