効率的にビットベクトルを切り替えることを学ぶ強化学習エージェントを提案する

次の env では簡単なタスクについて説明しています。サイズ10のビットベクトルであり、すべてのビットは最初に0に設定される。

エージェントはすべてを1に切り替える方法を学ぶ必要があります。それは10の可能なアクションを持っています - それぞれが対応するビットを1に切り替えます。0から1だったビットを切り替えると1の報酬が得られますが、すでに1であるビットを切り替えようとすると報酬は-1になりゲームは終了します。エージェントは、各ステップの後にビットベクトル全体を見る。

それはなぜ非常に簡単ではないのですか?私は政策勾配のアプローチを書いたが、それは到着しなかったエージェント 10Kエピソードの後に​​十分な結果(約3ポイント平均で)を維持する。

私は何が欠けていますか?それは本当にそのような困難な仕事ですか?

0

1 答え

なぜそれは非常に単純ではありませんか?

問題の記述は単純ですが、標準のRLアルゴリズムにアクセスできる方法ではありません。まず第一に、スイッチと "対応する"の類推はRLに意味を持たない。第2に、複雑さが低いことは検出できず、一般的にRLエージェントの想定外である。

強化学習は、一般的なマルコフ決定プロセス(MDP)としての問題の内部モデルに基づいています。 RLエージェントは、試行錯誤によって、MDPが何をするかを、典型的には状態および許容された動作以外の知識または仮定なしで発見しなければならない。エージェントは、最適なアクションを行うためにMDPについて十分なを発見する必要がありますが、唯一の仮定は環境がMDPであるということです。

単純なスイッチ問題は、間違いなくMDPとしてモデル化することができます。エージェントは、おもちゃの問題の簡単な構成を発見する必要があります。何が問題の説明よりも難しくなるのか:

  • 州/行動スペース。 1024状態と10アクションがあります。何らかのアクションと結果を結びつける先験的な理由はないので、エージェントが徹底的に試す必要があります。最小限の検索では、10,240の状態/アクションのペアが検索されます。

  • 状態遷移。アクションをとることができる1024の状態と終端の状態があります。したがって、1024 * 1025 = 1,049,600の状態遷移が可能です。あなたのケースでは、各ステート/アクションのペアには1つの結果があり、約5,000の異なる遷移があります(その半分が終端ステートになるため)。

  • エージェントは状態遷移が確定的でスパースでないことを認識しません。それは試行錯誤によってしか発見できません。たとえば、おそらく特定の構成では、特定のアクションを実行すると、一部のビットが再設定されます。たぶん、4回の試行で1回だけ起こります。ここで任意の確率分布の可能性を追加すると、潜在的なMDPの数は無限になります。 RLアルゴリズムはこれに対処するように設計されており、最終的に最適なポリシーの良い近似を最終的に学習します。その環境についてのあなたの知識の一部をエンコードすることなく、単純な方法で単純な方法ではなく短くすることはできません。

  • 代理店は、報酬が確定的かつ単純であることを知らない。ここでも試行錯誤でしか発見できません。エージェントには、異なる状態ベクトルとアクションは互いに似ておらず(すべてのスイッチとビット)、関連付けもありません(アクション0はビット0には何も関連付けられていません)。関連が観察された後でさえ、エージェントが類推によって理由づけることができるようにエンコードされていません。再度、報酬のための任意の確率分布の可能性を追加すると、潜在的なMDPの数は無限になります。

ビットベクトルを効率的に切り替える方法を学ぶ強化学習エージェントを提案する

あなたは、ニューラルネットワーク関数近似器を用いて方針勾配法を試みることによって、自分自身のために多くのことをより困難にしてきた。これはおそらくあなたの問題を解決するために行うことができますが、高度な技術であり、不安定で訓練が難しいことも知られています。状態、遷移および報酬の関係が非常に複雑で、それらの間に意味のある類似性を持つ可能性のある状態がさらに多い場合は、良い選択である可能性があります(数字/統計的な意味で、ニューラルネットワークは、スイッチや番号付きビットで類推することはまだありません)。それでも、遷移と報酬が信頼できることを知るために、状態と行動の組を何度も繰り返す必要があるため、ゆっくりと慎重に学習します。

ポリシー勾配法を採用する理由がない限り、テーブルアルゴリズム(つまり、関数近似はなく、行動価値見積もり表のみ)とシングルステップQラーニングのようなものを使用することをお勧めします。それはアルゴリズムが決定論的であることを知っているので、高い学習率を設定することができ、安定したままであるという利点があります。実際、Q-learningはおそらく10,000エピソードをはるかに下回る最適なポリシーを学ぶでしょう。しかし、当初、多くの可能な最適ポリシーのうちの1つのみを学習し、それに固執する傾向があります。つまり、0から9の各アクションを1回ずつ取る順列ですが、安全であることを学んだので常に同じ順序です。

1
追加された