フェーズ 2 ry 各セルの予測状態を計算する。セルのどれかのセグメントがアクティブになると、 そのセルの predictiveState がオンになる。 即ち、十分な数の横方向の接続先が、フィード・フォワード入力によって現在アクティブ であればオンになる。この場合、そのセルは以下の変更を待ち行列に加える: a) 現在アクティブなセグメントを強化56する(47-48 行目)、 b) このアクティベーション57を予測し得たセグメント (即ち、前回の時刻ステップでアクティビティに(弱いかも ry )マッチしたセグメント) を強化する(50-53 行目)。
42. for c, i in cells 43. for s in segments(c, i) 44. if segmentActive(s, t, activeState) then 45. predictiveState(c, i, t) = 1 46. 47. activeUpdate = getSegmentActiveSynapses(c, i, s, t, false) 48. segmentUpdateList.add(activeUpdate) 49. 50. predSegment = getBestMatchingSegment(c, i, t-1) 51. predUpdate = getSegmentActiveSynapses( 52. c, i, predSegment, t-1, true) 53. segmentUpdateList.add(predUpdate)
54. for c, i in cells 55. if learnState(s, i, t) == 1 then 56. adaptSegments (segmentUpdateList(c, i), true) 57. segmentUpdateList(c, i).delete() 58. else if predictiveState(c, i, t) == 0 and predictiveState(c, i, t-1)==1 then 59. adaptSegments (segmentUpdateList(c, i), false) 60. segmentUpdateList(c, i).delete() 61.
ry 。各セルは二つの数値でアクセスする。カラムの添字 c と、セルの添字 i である。 セルは樹状突起セグメントのリストを保持する。各セグメントはシナプスのリストと、 各シナプスごとに永続値を保持する。 ry 変更は、セルが フィード・フォワード入力によってアクティブになるまでは一時的とマークされ ry segmentUpdateList によって保持される。 各セグメントはまた、論理値のフラグsequenceSegment を保持する。 これはそのセグメントが次の時刻ステップにおけるフィード・フォワード入力 を予測するかどうかを示している。
シナプス候補の実装は空間プーリングの実装とは異なっている。 空間プーリングでは、シナプス候補の完全なリストが明示的に示される。 時間プーリングでは各セグメントが固有のシナプス候補の(ときには大きな)リスト を保持することができる。実際には各セグメントごとに大きなリスト ry は、計算量 ry メモリ消費 ry 。そこで ry 時間プーリングでは学習の際に各セグメントごとに アクティブなシナプスをランダムに追加する(newSynapseCount パラメータで制御する)。 ry 候補のリスト ry と同様の効果があり、しかも新たな時間的パターンを学習でき ry リストはずっと小さくなる。
疑似コードはまた、異なる時刻ステップのセル状態の推移 ry 小さな状態遷移マシンを使用 ry 。各セルごとに三つの異なる状態を維持管理する。 配列activeState と predictiveState は各セルの各時刻ステップごとの アクティブ状態及び予測状態の推移を追う。 配列 learnState はどのセルの出力が学習のときに使用されるかを決定する。 入力が予測されなかったときは、 その特定のカラムのすべてのセルが同じ時刻ステップ内に同時にアクティブになる。 これらのセルのうちの一つだけ(入力に最もマッチするセル)で learnState がオンになる。 learnState がオンのセルだけにつ
activationThreshold あるセグメントをアクティブにするしきい値。 ry 接続されたアクティブなシナプスの数が activationThreshold より大 ry アクティブに ry learningRadius 横方向の接続を持つ、時間プーリングセルの周囲の領域の範囲 initialPerm シナプスの永続値の初期値 connectedPerm あるシナプスの永続値がこの値より大 ry 接続している ry minThreshold 学習の際の、アクティブなセグメントの最小数 newSynapseCount 学習のときにセグメントに追加されるシナプスの最大数 permanenceInc アクティビティによる学習が発生したとき、シナプスの永続値を増加させる量 permanenceDec ry 減少させる量
上の画像は左側が生体ニューロンの写真、中央が単純な人工ニューロン、 右側がHTM のニューロンあるいはセル ry 。この付録の目的 ry 比 ry
実物のニューロンは途方もなく複雑で変化に富んでいる。 ここではその最も普遍的な原理に注目し、また我々のモデルに関わる部分に限定する。 ry 、HTM 大脳皮質性学習アルゴリズムで用いられているセルは 多くのニューラルネットワークで用いられている人工ニューロンよりも はるかに現実に即している。 ry
生体ニューロン
ニューロンは脳内で情報を伝えるセル59である。上記左の画像は標準的な興奮性の ニューロンである。 ry 外見の大部分は枝分かれした樹状突起で占められている。 ry すべての興奮性の入力は、樹状突起に沿って配置されたシナプスを経由 ry 。近年、ニューロンに関する知識 ry 最大の発見は、 ニューロンの樹状突起が入力を細胞体60に繋ぐ単なる導線ではないと分かったことで
59 cell ry 「セル」と訳したが、生物の細胞を意味する。 60 cell body。ニューロン中央の膨らんだ部分。
主要樹状突起62 細胞体に最も近い ry 枝は主要樹状突起 ry 図 ry いくつかを緑色の線 ry
ry 突起上の複数のアクティブなシナプスは、細胞体に対して概ね線形の加算 ry 。5 つのアクティブなシナプスは 1 つのアク ry 概ね 5 倍の脱分極63を細胞体に ry 引き起 ry 。対照的に、ある一つのシナプスが後続の素早い活動電位64によって繰り返しアクティブ になったとしても、2 番目、3 番目と続く活動電位による細胞体への影響は、 最初のものよりずっと小 ry
末梢樹状突起は主要樹状突起よりも細い。これらは樹状突起の木の中の他の樹状突起の枝に 接続されていて、細胞体に直接接続されていない。これらの違いにより末梢樹状突起は ユニークな電気・化学特性を持っている。 末梢樹状突起で一つのシナプスがアクティブになっても、細胞体に対して最小限の影響しか ry 。シナプスで局所的に発生した脱分極は、それが細胞体に届くときには弱くなっている。 このことは長年のなぞであった。 ニューロンのシナプスの大多数を占める末梢のシナプスはあまり多くのことを ry
今では末梢樹状突起の各断片が半独立の処理領域として働くことが分かっている。 もしその樹状突起の短い区間内で十分な数のシナプスが同時にアクティブになると、 樹状突起のパルスを生成することができ、 それは細胞体にまで届いて大きな影響を及ぼすことができる。 例えば 40μm 間隔の 20 個のアクティブなシナプスは樹状突起のパルスを生成 ry
従って、末梢樹状突起は域内同時発生事象の検出器 ry
末梢樹状突起上のシナプスは、圧倒的にそのリージョン内の付近の他のセルから形成 ry
画像では上方向に伸びる大きな樹状突起の枝 ry 先端樹状突起66 ry 。ある理論 ry 、この構造によりニューロンは付近にいくつかの末梢樹状突起を形成し、 この付近を通る軸索により容易に接続 ry 。 この解釈によれば、先端樹状突起はセルの延長として働く ry
長年に渡って、学習はシナプスの影響度ないし「重み」を強くしたり弱くしたり することを含む ry 。このような影響は観測されるものの、各シナプスはどこか確率的な様子である。 アクティブになったとき、それが神経伝達物質67を放出することに信頼性がない。 よって脳が ry 各シナプスの重みの精度や忠実度に依存しているはずがない。
さらに今では、シナプス全体が素早く形成されたり切断 ry 。この柔軟性は学習の強力な表現形式であり、素早く知識を獲得 ry 。シナプスは軸索と樹状突起がある距離の範囲内にあるときにだけ形成されうることから、 シナプス「候補」の概念 ry 、学習は主にシナプス候補から有効なシナプスが形成 ry
ry 出力は常にパルスであるが、この解釈には異なる見方ができる。 有力 ry (特に新皮質に関しては)、パルスの発生頻度が重要というもの ry 。よってセルの出力はスカラー値と見なすことができる。
いくつかのニューロンは数個の連続したパルスを短時間に素早く出力する「バースト」反応 を示すことも ry
ry 上記 ry HTM セルの特徴に関連する属性に注目して述べ ry 詳細は無視 ry ここで述べたすべての特徴が幅広く受け入れられているとは必ずしも言えない。 ry 、我々のモデルにとって必要 ry
単純な人工ニューロン
この付録の最初に示した中央の図は、多くの古典的な ry に模した構成要素 ry これらの人工ニューロンはシナプスの集合を持ち、各シナプスはウェイトを持っている。 各シナプスはスカラー値のアクティブ化を受け取り、それにシナプスのウェイトが掛け合 ry 。すべてのシナプスの出力は非線形の方法で足し合わされ、人工ニューロンの出力となる。 学習はシナプスのウェイトを調整 ry 恐らく非線形の関数 ry 。このタイプの人工ニューロン、そしてそのバリエーションは、 コンピュータ ry アプリケーションにおいて有益 ry しかし ry 多くの複雑さを捉えておらず ry 能力を活用していない。 ry もっと精巧なニューロンモデルが必要 ry
我々は、カラム内のすべてのセルが同じフィード・フォワード応答を持つよう求めている。 実物のニューロンではこれは恐らく抑制タイプのセルによって行われる。 HTMでは我々は単にカラム中のすべてのセルが単一の主要樹状突起を共有するように強制 ry
隣のセルとの競合に決して勝つことができない ry 避けるため、 ry 隣と比較して十分に勝利していないときには、そのフィード・フォワード入力 によるアクティブ化をブーストする。よってセル間には常に競合 ry 我々はこれをセル間ではなくカラム間の競合として HTM でモデル化 ry 図では示されていない。
ry 候補 ry 生物学 ry シナプスを形成するのに十分に近くにある軸索と樹状突起 ry 拡張して、HTM セルで接続する可能性のある、より大きな集合を意味する ry 。生体ニューロンの樹状突起と軸索は学習によって成長したり縮退 ry よってシナプス候補の集合は成長に伴って変化する。 HTM セルのシナプス候補の集合を大きめにすることで、我々は概ね、 軸索や樹状突起の成長と同じ結果を得た。 シナプス候補の集合は図示されていない。
のかを(主要樹状突起上のシナプスの変更によって)自動的に調整し、 カラム数の増加ないし減少を自動的に調整 ry
末梢樹状突起 各 HTM セルは末梢樹状突起セグメントのリストを管理している。 各セグメントはしきい値検出器として働く。 ry アクティブなシナプス(冒頭の図で青い点で示した)の数がしきい値を超えると、 そのセグメントはアクティブになり、それに接続されたセルが予測状態になる。 セルの予測状態はアクティブなセグメントの OR ry
樹状突起セグメントは、以前のある時点で互いに同時にアクティブになった複数のセル への接続を形成することでリージョンの状態を記憶する。そのセグメントは、 以前にフィード・フォワード入力によってアクティブになったセルの状態を記憶する。 よってそのセグメントはセルがアクティブになることを予測する状態を探す。 樹状突起セグメントの標準的なしきい値は 15 である。 ry 有効なシナプスが 15 個同時にアクティブになると、その樹状突起はアクティブになる。 数百から数千個の周囲のセルがアクティブになるかも知れないが、 15 個の接続だけで十分により大きなパターンを理解 ry
各末梢樹状突起セグメントはそれに関連付けられたシナプス候補の集合を持つ。 そのシナプス候補の集合はリージョン内のすべてのセルの部分集合である。 そのセグメントが学習 ry 、それらすべてのシナプス候補の永続値を増加ないし減少 ry 。しきい値を超えたシナプス候補だけが有効 ry
ある実装では、我々はセルあたり固定の数の樹状突起セグメントを用いた。 他のある実装では、訓練を通じてセグメントを追加ないし削除するようにした。 ry 。セルあたりの樹状突起セグメントの数を固定にすると、 同じセグメントに対していくつかの異なるシナプスの集合を保存することができる。 例えば、セグメント上に 20 個の有効なシナプスがあり、しきい値が 15 とする。 (一般に ry ノイズへの耐性 ry しきい値をシナプスの数よりも少 ry ) これでそのセグメントは周囲のセルの特定の一つの状態を理解できるようになる。 もし周囲のセルのまったく異なる状態を表現する、20 個の他のシナプスを その同じセグメントに追加 ry するとそのセグメントは、 あるパターンの 8 個のアクティブなシナプスと他のパターンの 7 個のアクティブなシナプスを 持つことで間違ってアクティブになるかも知れないので、エラーが起こる可能性 ry 。我々は実験的に、20 個の異なるパターンまでならエラーなしで一つのセグメントに保存 ry 従って十数個の樹状突起セグメントを持つ HTM セルは多くの異なる予測に関与 ry
シナプス HTM セルのシナプスは二値の重みを持つ。ry 重みをスカラー値にすることを妨げるものは何もないが、 疎分散パターンを用い ry 今のところスカラー値の重みを使う必要性がない。
しかし ry セルは「永続値」というスカラー値を ry 学習を通じて調整する。 永続値 0.0 は有効でないシナプス候補を表し、 ry しきい値(標準的には 0.2) を超える永続値は接続したばかりで容易に切断するシナプスを表す。 高い永続値、例えば 0.9 は、接続状態でしかも容易には切断しない ry
HTM セルの主要樹状突起セグメントや末梢樹状 ry にある有効なシナプス の数は固定ではない。それはセルがパターンに触れるに従って変化する。 例えば、末梢樹状突起の有効なシナプスの数はデータの時間的構造に依存する。 リージョンへの入力に時間的に永続的なパターンが何もないときは、 末梢セグメントのすべてのシナプスは低い永続値を持ち、 わずかな数のシナプスだけが有効になるだろう。 入力列にたくさんの時間的構造があるときは、高い永続値を持つ有効なシナプスが多数 ry
フィード・フォワードによるアクティブ状態だけがリージョン内の他のセルに接続され、 これにより予測は常に現在の入力(及び文脈)に基づいて行われる。 予測に基づいて予測が行われることは望ましくない。 ry そうなると、数回処理を繰り返しただけでリージョン内のほとんどすべてのセルが予測状態 ry
リージョンの出力はすべてのセルの状態を表すベクトルである。 もし階層構造の次のリージョンがあるなら、このベクトルがその入力となる。 この出力はアクティブ状態と予測状態の OR である。 アクティブ状態と予測状態を結合する ry 出力は入力よりも安定する(ゆっくりと変化する)。 このような安定性はリージョンの推論における重要な特性である。
特に、HTM 大脳皮質性学習アルゴリズム、 及びそのカラムとセルが、新皮質の層やカラム構造とどのような関係 ry 。新皮質の「層」の概念やそれが HTM の層とどう関係 ry 、多くの人が困惑 ry 。本稿がこの混乱を解決し、また HTM 大脳皮質性学習アルゴリズムの生物学的基礎 ry
新皮質の神経回路網
人の新皮質は面積約 1,000cm2、厚さ 2mm のニューロンの皮である。 ry 食事に使うナプキンの布 ry 、新皮質の面積と厚さのちょうど良い近似 ry 。新皮質は十数種類の機能的なリージョン ry 、そのいくつかは視覚に関係し、あるいは聴覚、言語などに ry 。顕微鏡で見ると、異なるリージョンの物理的な特徴は驚くほど良く似ている。
に 2 つに枝分かれする。枝の一つは主に水平に伸び、他の枝は主に垂直 ry 。水平の方の枝は同じ層や近くの層の他のセルと多数の接続 ry 。 ry 新皮質の断片 ry 。多くの軸索がこの画像で示された部分から出たり入ったりしているので、 軸索は画像に見られるものよりも長い。 新皮質の 1mm の立方体に含まれる軸索や樹状突起の総延長は 2km から 4km ry
画像の中央部はニューロンの本体だけを示す染色法で、樹状突起や軸索は見えない。 ニューロンの大きさや密度が層によって変化する様子 ry 。この画像ではカラムは少ししか分からない。第 1 層にいくつかのニューロン ry の数はあまりに少ないので、この層はやはりセルのない層 ry 。ニューロ科学者は新皮質の 1mm の立方体ごとに約100,000 個程度のニューロン ry
画像の左側はほんのわずかな数のニューロンの本体、軸索、樹状突起だけを示す染色法 ry 。異なる層や異なるセルごとに、樹状突起の「主軸」の大きさは異なっている様子 ry 。いくつかの「先端樹状突起」72 ry は細胞体からそびえ立ち、他の層と接続 ry 。先端樹状突起が存在するか否か、及びその接続先は各層ごとに特徴 ry
科学者が針を使って、何がニューロンをアクティブにするのかを見てみると、 異なる層を横断する垂直方向に揃った複数のニューロンがだいたい同じ入力に反応 ry
この図は、網膜からの情報を処理する最初の皮質性リージョンである V1 の、 セルのいくつかの応答特性 ry
最初の発見の一つは、V1 のほとんどのセルは 網膜の特定の領域で、異なる角度の線や縁に反応 ry 。カラム状に垂直に配列された複数のセルすべてが、同じ角度の縁に反応する。 図を注意深く見れば、各区画の最上部に異なる角度の小さな線が描かれている ry 。これらの線はその場所のセルがどの角度の線に反応するかを示している。 垂直に配列された複数のセル(うすい垂直の縞模様の一つに含まれる)は 同じ角度の線に反応する。
新皮質の一般的な規則は、角度と眼球優位性のようにいくつかの異なる応答特性が 互いに重ね合わさっているということである。皮質の表面を水平に移動してゆくに従って、 セルから出力される応答特性の組み合わせは変化する。 しかしながら、垂直に配列されたニューロンは同じ応答特性の組み合わせを共有している。 聴覚・視覚・体性感覚野についてはこのような垂直の配列になっている。 新皮質のあらゆる場所でそう ry 、全部ではなく多くの部分について言うならそれは正しい ry
ミニカラム 新皮質の最小のカラム構造はミニカラムである。ミニカラムは直径約 30μm で、 セルを持つ 5 つの層全体に及ぶ 80-100 個のニューロンが含まれている。 新皮質全体はミニカラムから構成されている。小さなスパゲッティのかけらを端同士を 積み重ねたものを思い浮かべるとよい。ミニカラムの間には セルが少ししかないわずかなすきま ry 、染色された画像でそれを見 ry
抑制ニューロンがミニカラムを定義する本質的な役割を果たしている。 ry 画像や図に示されていないが、抑制ニューロンはミニカラムの間のまっすぐな線に沿って 軸索を送っており、ミニカラムの一部を物理的に分離している。抑制ニューロンはまた、 ミニカラム中のニューロンが同じ入力に反応するよう強制することに役立っていると ry
ミニカラムは HTM 大脳皮質性学習アルゴリズムで用いられているカラムの原型である。
カラム反応の例外 カラム反応の例外が一つあって、それは HTM 大脳皮質性学習アルゴリズムにも関係する。 科学者は通常、実験動物に単純な刺激を与えることでセルが何に反応するのかを発見する。 例えば、動物の視覚空間の小さな部分に 1 つの線を見せて、V1 のセルの応答特性を調べ ry 。単純な入力を用いると、科学者はセルが常に同じ入力に反応することを発見するかも ry 。しかしながら、もしその単純な入力が自然な場面の動画像に組み込まれたなら、 セルはもっと選択的になる。あるセルが高い信頼性で独立した垂線に反応するとしても、 その垂線が自然な場面の複雑な動画像に組み込まれた場合は必ずしも反応するとは ry
新皮質になぜ層があり、なぜカラムがあるのか、はっきりしたことは誰も知らない。 HTM 大脳皮質性学習アルゴリズムは、カラム状に構成したセルの層が 可変長の状態遷移を記憶する大容量メモリとなりうることを示した。 もっと単純に言えば、セルの層はたくさんのシーケンスを学習できる ry 。同じフィード・フォワード反応を共有するセルのカラムは可変長の遷移を学習 ry の鍵 ry
この仮説はなぜカラムが必要なのかを説明しているが、しかし 5 つの層については ry ? もし 1 層の皮質でシーケンスを学習して予測できるのであれば、なぜ ry 5 つ ry ?
我々が提唱するのは、新皮質に観察される異なる層はすべて同じ基本メカニズムを用いて シーケンスを学習しているが、各層で学習したシーケンスは異なる方法で使用 ry 。これについて我々が理解していないことはたくさん ry 考えを述べることはできる。 その前に、各層のニューロンが何に接続しているのかを述べる ry
上の図は 2 つの新皮質のリージョンとそれらの間の主要な接続関係 ry このような接続は新皮質の中の互いに関係し合う 2 つのリージョンで一般によく見 ry 。左の箱は、右の(箱の)リージョンよりも低い階層構造にある皮質性のリージョン を表しているので、フィード・フォワード情報は図の左から右へと流れる。 各リージョンは層に分け ry 2 層と第 3 層は一緒にして第 2/3 層として表されている。
色のついた線は異なる層からのニューロンの出力 ry その層のニューロンから出ている軸索の束である。軸索はすぐに 2 つに分か ry 一つの枝は主にそれと同じ層の中で、リージョン内で水平方向に広がる。 よって各層のすべてのセルは相互によく接続し合っている。 ニューロンと水平方向の接続は図に示されていない。
第5層 最後のフィード・フォワード層 ry 3 層と似ているが 3 つの違い ry 。第一の違いは第 5 層が時間の概念を付加 ry 。第 3 層は次に「何」が起こるかを予測するが、それが「いつ」起こるかを教えてくれない。 しかしながら、話し言葉 ry 音の間の相対的なタイミングが重要 ry 運動動作 ry 筋肉の活性化のタイミング ry 。我々は、第 5 層のニューロンが期待した時刻の後にだけ次の状態を予測すると提唱する。 この仮説を裏付ける生物学上の詳細がいくつかある。一つは第 5 層が新皮質の運動出力層 ry 。いま一つは第 5 層が視床の一部から発して第 1 層から来る入力(図に示されていない) を受け取るということである。我々はまた、この情報こそが時間をコード化したものであり、 視床を経由して第 1 層に入力される多くのセル(図に示されていない) にこの情報が分散されると提唱する。
まとめると、第 5 層は特定のタイミング、注意、運動行動を結びつける。 これらが互いにどのように関わりあうかについては多くの謎 ry 。 ry ポイントは、HTM 大脳皮質性学習アルゴリズムのバリエーションが 特定のタイミングを容易に組み入れることができ、別々の皮質の層を結合することができる ry
第2層と第6層 第 6 層は下位のリージョンへフィードバックする軸索の起点である。 第 2 層についてはほとんど知られていない。 ry 2 層が第 3 層と比べて ユニークな点があるかどうかですら、しばしば議論 ry いまのところ ry 言えることはほとんどないが、他のすべての層と同様に ry 層はたくさんの水平方向の接続パターンを持ち、カラム単位で反応する特徴があること
http://translate.google.jp/ コーネル大学 図書館 定量的生物学>ニューロンと認知 タイトル:深い予測学習:3つのビジュアルストリームの包括的なモデル 著者: Randall C. O'Reilly 、 Dean R. Wyatte 、 John Rohrlich
要旨:新皮質 ry 高次認知能力の基礎を学び、どのように発展 ry ? レベル間の明確な理論的連続性を持ち、生物学的、計算的、および認知的なレベルにわたる 包括 ry 提示し、各レベルでの広範なデータによって ry 一貫した答えを提供する。 学習は、感覚が100msec( ry )間隔 ry 、予測精度 ry シナプスの重みを ry に基づいている。 視床の脊髄核は、複数の脳領域からの深層6大脳皮質の入力および抽象化のレベルによって、 予測 ry 投影スクリーン ry 。層5内因性バーストニュ ry の疎駆動入力は標的信号 ry 予測との間の時間差は皮質全体に反映され、 詳細な生物物理学 ry の局所活性化信号のみを用いて誤差逆伝播に近似するシナプス変化を引き起こすモデル。 ビジョンでは、予測学習には、 ry 、3つの経路(What、Where、W ry e)の ry と解剖学 ry 必要 ry 。低レベルの感覚 ry 予測のために; ry 抽象化の学習を促進する分離可能な因子の抽出 ry ために、 集合的な低レベルの予測誤差を漸進的かつ機敏に分割しなけ ry モデルは、 ry ムービーから100種類のオブジェクトを体系的に不変なオブジェクト表現で構成し、 幅広いデータを扱い、多くのテスト可能な予測を
> Title: 拡張リカレントニューラルネットワーク > 著者: Shiyu Chang , Yang Zhang , Wei Han , Mo Yu , Xiaoxiao Guo , Wei Tan , Xiaodong Cui , Michael Witbrock , Mark Hasegawa-Johnson , Thomas Huang > >要約:悪名高いことに、長いシーケンス上の ry (RNN)を用いた学習は難 ry >。 3つの大きな課題 ry :1)複雑な依存関係の抽出、2)消滅と爆発の勾配、3)効率的な並列化です。 >本稿では、シンプルで効果的なRNN接続構造であるDILATEDRNNを紹介 ry これらの課題を同時に解決します。 >ry 、多重解像度拡張再帰スキップ接続 ry 、異なるRNNセルと柔軟に組み合 ry >。さらに、 ry 、パラメータの数を減らし、トレーニングの効率を大幅に向上 ry >、非常に長期間の依存性を伴うタスクで最先端のパフォーマンス(バニラRNNセル ry ) ry >。 ry メモリ容量測定値、すなわち平均反復長さを導入する。これは、長いスキップ接続を有するRNNが ry 適し > >次のように引用: arXiv:1710.02224 [cs.AI] (またはこのバージョンではarXiv:1710.02224v1 [cs.AI] ) > [v1] Thu, 5 Oct 2017 21:28:01 GMT (2327kb,D) [v1]
> Google 翻訳 > > Saturday, June 23, 2018 > 2018年6月23日土曜日 > Google Deep Mind's Bogus AI Patent Filings > Google Deep Mindの●のAI特許提出 > : >ry Google Deep Mind has filed a bunch of patent applications for well-known ry , all or nearly all of which certainly are not their original inventions. >ry 、 Google Deep Mindがよく知られている ry の特許申請 ry 。そのほとんどまたはすべてが確かにオリジナルの発明ではありませ :
>>100 > , for instance: > 。たとえば、 : > 溺ethods, systems, and apparatus, including computer programs encoded on a computer storage medium, for environment simulation. > "環境シミュレーションのためのコンピュータ記憶媒体上にコード化されたコンピュータプログラムを含む方法、システム、および装置。 > In one aspect, a system comprises a recurrent neural network configured to, at each of a plurality of time steps, receive a preceding action for a preceding time step, > update a preceding initial hidden state of the recurrent neural network from the preceding time step using the preceding action, > update a preceding cell state of the recurrent neural network from the preceding time step using at least the initial hidden state for the time step, > and determine a final hidden state for the time step using the cell state for the time step. > 一態様では、システムは、複数の時間ステップのそれぞれにおいて、先行する時間ステップのための先行するアクションを受信し、 ? > 前の時間ステップから前の時間ステップから先行 ry 備える。 前の時間ステップから先行する初期の隠れた状態を更新するように構成されたリカレントニューラルネットワークを備える。 > 時間ステップのための少なくとも初期隠れ状態を使用して前の時間ステップからリカレントニューラルネットワークの先行セル状態を更新し、 > 時間ステップのセル状態を使用して時間ステップの最終隠れ状態を決定する。 > The system further comprises a decoder neural network configured to > receive the final hidden state for the time step and process the final hidden state to generate a predicted observation characterizing a predicted state of the environment at the time step.” > システムは、時間ステップの最終隠れ状態を受信し、最終隠れ状態を処理して、時間ステップで環境の予測状態を特徴付ける予測観察を生成する ように構成されたデコーダニューラルネットワークをさらに備える。 : > Posted by Benjamin Goertzel > 投稿者 ベンジャミンGoertzel
抽象- In-OrderスカラーRISCアーキテクチャは、20年にわたってFPGAソフトプロセッサ設計の支配的 ry ? ry 順序外スーパスカラ ry 。 従来のアウトオブオーダスーパスカラ実装は、競合領域または絶対性能を示さなかった。 本稿では、EDGE(Explicit Data Graph Execution)命令セットアーキテクチャを利用して、高速かつエリア効率の優れた順序外のスーパースカラソフトプロセッサを構築 ry 。 EDGEマイクロアーキテクチャ、特にそのデータフロー命令スケジューラを慎重にマッピングすることにより、アウトオブオーダFPGA ry 実証します。 2つのスケジューラ設計の選択肢が比較されます。 索引用語 - 明示的データグラフ実行(EDGE); ハイブリッドフォンノイマンデータフロー; FPGAソフトプロセッサ
設計の生産性は、リコンフィギュラブル ry の課題 ry ? ワークロードをゲートに移植し、 ry 。 ワークロードをゲートに移し、10^2〜10^4秒のビットストリーム再設計の設計反復に耐えるのは高価です。 ソフトプロセッサアレイオーバーレイは、これらのコストを軽減 ry ? 高価な初期ポートは、ソフトプロセッサーを対象 ry 。 コストがかかる最初の移植は、ソフトプロセッサを対象とした単純なクロスコンパイルとなります。ほとんどのデザインターンは、迅速な再コンパイルです。 ? ry 、または相互接続 として公開されているカスタムハードウェア ry 。 アプリケーションのボトルネックは、新しい命令、機能ユニット、自律アクセラレータ、メモリ、または相互接続の公開済機能を持つカスタムハードウェアにオフロードできます。 ? 異種のFPGA ry 相補的な有用性 ry 。 ヘテロジニアス FPGA とハードARMコアの出現は、ソフトコアの相補的有用性を低下させません。 FPGAの容量が倍増 ry ソフトプロセッサも倍増します。 ? いくつかのハード・プロセッサーが一致しないスループット ry 。 中規模のFPGAは現在、何百ものソフトプロセッサとそのメモリ相互接続ネットワー ry 。そのような超並列プロセッサとアクセラレータアレイ(MPPAA)は、サイクルごとに数百のメモリアクセスとブランチ -- 一部のハードプロセッサを越えるスループッ ? ry 20年後にはほとんど変わりません。 汎用ソフトプロセッサーのマイクロアーキテクチャーは20年間余り変わっていません。 ? ry インラインパイプライン型スカラーRISC ry 。 Philip Freidinの16ビットRISC4005(1991)は、j32、xr16、NIOS、MicroBlaze [1] -- [4]のように、インオーダパイプライン型スカラ RISC であり、最新バージョンと同様です。 何年もの間、ソフトプロセッサは命令レベルの並列性を高めるためにキャッシュ、分岐予測器、 ry 、基本的なスカラーRISCマイクロアーキテクチャが依然として支配的です。 ? ry と1つのライト/サイクルLUT RAM ry 。 これは、この単純なマイクロアーキテクチャと、 ry FPGAプリミティブ要素、特にLUTとライトパーサイクル LUT RAM との間の良好な適合を反映しています。 残念なことに、このようなアーキテクチャでキャッシュミス ry 、実行は停止 ry 。
? ry ソフトプロセッサの代わりにVLIW [5]、[6]またはベクトル[7]、[8]コア。 より高い命令レベル並列(ILP)マイクロアーキテクチャをターゲットとする設計研究は、典型的には、アウトオブオーダー(OoO)[9] -- [11]ソフトプロセッサコアの代替としてのVLIW [5]、[6]またはベクトル[7]、[8] アーキテクチャを挙げれます。 スーパースカラOoOマイクロアーキテクチャの問題は、レジスタの名前を変更し、命令をデータフロー順にスケジューリングし、誤特定した後にクリーンアップし、正確な例外のために結果を順序通りにリタイアさせるために必要な機械の複雑さです。 ? これは、 ry 多数ポートCAM、 ry 、これらのすべてがFPGAで面積が集中する。 これにより、深い多ポートレジスタファイル、データフロー命令スケジューリングウェイクアップのための多ポートCAM、および多くのワイドバスマルチプレクサおよびバイパスネットワークなどの高価な回路を必要とし、これらのすべてがFPGAの面積消費を加速する。 ? ry 、マルチリード、マルチライトRAMは、レプリケーション、 ry 。 例えば、マルチリード、マルチライトRAMは、転送形態の混在、マルチサイクル動作、クロックダブリング、バンクインターリーブ、ライブバリューテーブル、その他の高価な技術を必要とします。 ? 現在の作業は、 この度の取組は、複雑さとオーバーヘッドのほとんどを伴わずに、高いILP OoOスーパースカラソフトプロセッサを構築 ry 、面積とエネルギー効率の高い高ILP実行 ry 明示的データグラフ実行(EDGE)[12]、[13]命令セットアーキテクチャを実装 ry
1
? ry 、順不同のプロセッサーをインライン・スカラーRISCより ry 。 EDGEアーキテクチャーとそのコンパイラーは、レジスタの名前変更、CAM、複雑さを払拭し、アウトオブオーダプロセッサーをインオーダスカラ RISC よりも数百LUTだけ有効にします。 ? ry が、今日のFPGA上で一般的なインオーダRISCとどのように似ているかを解説します。 本稿では、 ry EDGEマイクロアーキテクチャと、今日のFPGA上で一般的なインオーダRISCとの共通性を解説します。 重要な課題と論文の主な貢献点は、FPGAに小型で高速なデータフロー命令スケジューラを構築する方法です。 最小面積のEDGEソフトプロセッサを開発する途中で、2つの代替FPGA実装を開発して対比 ry 。
図2に一般的な命令フォーマットを示します。 >>110 各EDGE命令は32ビットで、最大2つのターゲット命令のエンコードをサポートしています。 ? ry 消費者の指示については、コンパイラは移動命令を使用して ry 高いファンアウト命令を割り当てることができます[15]。 ターゲットフィールドより多くのコンシューマを伴う命令については、コンパイラは move 命令を使用してファンアウトツリーを構築するか、ブロードキャストに高ファンアウトな命令を割り当てることができます[15]。 ブロードキャストは、軽量ネットワーク上のオペランドをブロック内の任意の数のコンシューマ命令に送信することをサポートします。 ? ry 、TLEI命令(テスト無しイミディエイト命令) ry 。 図1では、TLEI命令(Less / Equal イミディエイトテスト命令)がADDから単一の入力オペランドを受け取ると、それは準備完了となり、実行されます。 ? ry 生成されます。 このテストでは、チャネル1(B [1P])からブロードキャストチャネルでリッスンするすべての命令(この例では2つの分岐予測命令(ry .F))にブロー ry トされる述語オペランドがプロデュースされます。 一致する述部を受け取ったブランチは起動します。
A. マイクロアーキテクチャ 図3は、コンパクトEDGEプ ry 例 ry >>114-115>>114>>115 ? ry 、およびメモリ/データキャッシュアクセスを含む命令およびデータキャッシュおよび5段階パイプライン(従来のインオーダスカラーRISC) LS)。 これは、命令フェッチ(IF)、デコード(DC)、オペランドフェッチ、実行(EX)、およびメモリ/データキャッシュアクセス ( LS ) を含む I/D キャッシュおよび5段階パイプラインを持つほぼ従来型のインオーダスカラ RISC です。 ? ry 読み出されます。 インオーダ・プロセッサとは異なり、命令オペランドはレジスタ・ファイルではなくオペランド・バッファから読出され、 ? ry データフローの 又データフローの順序で次に実行する命令は、IS(発行)パイプラインステージによって決定されます。 これは、データフロー命令スケジューラと、デコードされた命令バッファと、オペランドバッファとを含む命令ウィンドウを使用する。 ? 単純な ry プログラム命令 ry 。 その際に単純なロードストアキューを使用してプログラムされた順の通りのメモリ命令群を発行します。 フロントエンド(IF、DC)はバックエンド(IS、EX、LS)から切り離 ry 。クロックごとに2つの命令をフェッチし、命令ウィンドウにデコードします。 命令ウィンドウのデータフロースケジューラは、各デコードされた命令の入力すなわち ? その述語とオペランド。 その述語とオペランドのレディステートを保持します。 ? 準備完了状態になると、 ry 。 すべての入力(ある場合)がレディ状態になると、命令は起動し、発行準備が整います。 最も低い番号のレディ命令IIDが各サイクルで選択され、そのデコードされた命令および入力オペランドが読 ry 。データマルチプレクサとファンクションユニット制御信号のほかに、この命令は最大2つのレディイベントをエンコードします。 ? ry および/またはイベント ry 準備状態を更新する。 スケジューラは、これらの and/or イベントを他のソース(T0およびT1に多重化)から受け取り、ウィンドウ内の他の命令のレディ状態をアップデートする。 このようにして、データフローの実行が開始され、ブロックのレディ0入力命令、次にこれらがターゲットとする命令など ry 。
B. EDGEデータフロー命令のスケジューリング要件 ? ry、コアのリンチピンです。 命令ウィンドウとスケジューラは、コアの鎹です。 それらの領域、クロック周期、能力、および制限によって、EDGEコアの実現性能と ry が大きく左右されます。
2
命令スケジューラは、多様な機能と要件を備えています。 ? ry 同時です。 それは非常に同時並行的です。 ? ry 、デコーダは、命令をデコードし、デコードされた ry 。 各サイクルにおいて、デコーダは、デコードされたレディ状態及びデコードされた命令をウィンドウに書き込む。 ? ry バックエンドは準備完了イベント ry 。 各サイクルで、スケジューラは発行する次の命令を選択し、それに応答してバックエンドはレディイベント -- 特定の命令の入力スロット(述語、オペランド#0、オペランド#1)をターゲットとするターゲットレディイベント、またはブロードキャストIDで待機しているすべての命令をターゲットとしたブロードキャストレディイベントのいずれかを送信します。 これらは命令毎のアクティブレディ状態ビットをセットし、デコード済みレディ状態と共に命令が発行可能であることを知らせる。 ? ry を受け付け、発行されたレディ命令の再発行を禁止する必要があることに注意してください。 スケジューラは、まだデコードされていないターゲット命令のイベントを受付けるので、発行されたレディ命令の再発行を禁止 ry ? ry 、または述語の真または偽である可能性 ry 。 EDGE命令は、述語ではないか、又は true か false という述語である可能性があります。 ? ry 、別の命令の述語結果によって ry 。 述語化された命令は、別の命令の述語評価結果によってターゲットにされ、その結果が述語条件と一致するまで、準備ができません。 ? ry 発行しません。 述語が一致しない場合、命令は決して発行されません。
新しいブロックへの分岐では、すべての命令ウインドウレディ状態がフラッシュクリアされる(ブロックリセット)。 しかし、ブロックがそれ自身に分岐すると(ブロックリフレッシュ)、アクティブレディ状態のみがクリアされ、 デコードされたレディ状態は保存されるので、 ry 再フェ ry 必要はない。 ry 節約するための鍵です。 ソフトウェアクリティカルパスの一部は、依存する命令の1つのチェーン ( 例 ? ry 、連続するバックツーバック命令ウェイクアップのためにパイプラインバブルを追加しないことが重要です。 A → B → C と順にターゲット ) で構成されており、データフロースケジューラは、連続するバックツーバック命令の起動の為のパイプラインバブルを追加しない点は重要です。 ? ry レディ・イグジット・ターゲット・レディ・パイプラインの再発行は、クロック・サイクルに深刻 ry したがって、ISステージのレディ・イシュー・ターゲット・レディ・パイプラインの再発行は、クロック周波数に深刻な影響を与えないと仮定すると、1サイクル ry ADDのような命令は、1サイクルの待ち時間を有する。 ? ry 、スケジューラはターゲットステージの命令をISステージでウェイクさせることができます。 EXステージの結果転送では、命令が完了する前であっても、スケジューラはISステージでターゲットがターゲットする命令を起動させることができます。 他の命令の結果は、ALUの比較を待つか、複数のサイクルを取るか、または未知の待ち時間 ry ? これらは後で目標を起こすまで待たなければなりません。 これらの場合はターゲットを後で起動する様にウェイトせねばなりません。
? ry 符号化し、恐らくブロードキャストチャネルを介して述語および/またはいくつかのオペランドを待つか、 ry 。 これらのビットはともに、命令がデコードされたかどうかを符号化し、述語および/またはいくつかのオペランドを恐らくブロードキャストチャネルを介して待つか、またはすぐに発行する準備ができているかどうかをエンコードする。 これらのビットは、ブロック・リセット時にのみクリアされます。
D. 並列スケジューラのFPGA実装 スケジューラの面積とクロック周期を最小限にするには、FPGA回路設計に注意 ry ? 32命令ウィンドウは、準備完了状態のために32 *(6 + 6)= 384FFを、準備完了イベントを復号して各入力の準備完了状態を更新するために32 *多くのLUTを必要とする。 32 個ある命令ウィンドウは、それらのレディステートの為に 32 *(6 + 6)= 384FF を、レディイベントを復号して各入力のレディステートを更新するために32 *多くのLUTを必要とする。 ? 最新のFPGAは、 ry 。 現代的 FPGA は、一連のLUT( ry )とDフリッ ry (FF)をロジッククラスタにまとめ ry ? ry 各スライスのクラスタに ry 。 ry 、ザイリンクス7 ry 、4つの6-LUTと8つのFFを各 `` スライス ''クラスタにグループ化します。 各LUTは2つの出力を持ち、1つの6-LUT、または5つの共通入力を持つ2つの5-LUTとして ry ? ry 登録することができます。 各出力はFFに登録されるかも知れません。 フリップフロップにはオプションのCE(クロックイネーブル)とSR(セット/リセット)入力 ry 、これらの信号はクラスタ内の8つのFFすべてに共通です。 ry 、アルテラのFPGAに似ています。 これから、2つの設計上の考慮事項 ry ? Fracturable 6-LUTデコーダ: ry 。 分割可能な 6-LUTデコーダ:ターゲット命令インデックスのデコードでは、インデックスが≦5ビットである限り、2つのデコーダが1つの6-LUTに収まる可能性があります。 スライスFFパッキングとクラスタ制御セットの制限:領域と配線の遅延を最小限に抑えるため、デザインはクラスタごとに4〜8 FFの高密度FFをパックします。 すべての6ビットデコード済みレディ状態エントリは一緒に書き込まれ(共通RSTおよびCE)、1つまたは2つのスライスにパック ry アクティブレディ状態のFFにはもっと注意 ry ? これらの32ラ6 ry 。 これらの32*6 = 192個のFFの各々は個別に設定 ry が、スライス当たり4つのFFをパックすることにより、1つのFFがクロックイネーブルされると、全てがクロックイネーブルされる。 準備完了イベントによってFFが設定されると、そのスライス内の他のFFは変更されるべきではありません。 これには、各FFの入力LUTにCE機能を実装し、その出力をその入力にフィードバックする ry 。FF_NXT = FF |(EN&入力)。
? ry 、およびデコードされた命令バッファ ry 。 図5は、スケジューラ、プライオリティエンコーダ、およびデコード済命令用バッファを含む図4のザイリンクス7シリーズの実装であり、クリティカルパスが白 ry FPGAスライスの2つの水平な行はそれぞれ、命令ウィンドウの4つのエントリに対応します。 左から右へ:
? 右側には、複数の32x6ビットトゥルーデュアルポートLUT RAMに実装された、合成された優先エンコーダとマルチプレクサ(青)とデコードされた命令バッファ(白) ry 。 右側には、合成された優先度エンコーダとマルチプレクサ(青)と、複数の 32 x 6 ビットトゥルーデュアルポート LUT RAM に実装されたデコード命令用バッファ(白 ry ? ry デコード済命令LUT RAM、 ry 。 パフォーマンス:Kintex-7 -1スピードグレードでは、クリティカルパスにRDYクロックトゥーアウト、プライオリティエンコーダ、マルチプレクサ、デコードされた命令LUT RAM、次のreadysロジック、RDYセットアップを含む5.0 nsが必要です。 相互接続遅延はクリティカルパスの85%です。残念ながら、RDYからRDYまでのすべてのパスは、比較的大きな直径のネットリストを通過 ry ? ry バックツーバック問題(連続サイクルで) ry 。 スケジューラクリティカルパス(命令バッファLUT RAMの出力ポート)の途中でパイプラインレジスタを追加することにより、サイクルタイムを2.9nsに短縮することができますが、 これは、単一の従属命令チェーンのバックツーバックイシュー(連続サイクルで)を達成することはできません。
? ry ・バンクの競合が存在する可能性があります。 EDGEコンパイラは、命令の両方のターゲットがディスジョイント・バンクにあることを保証するわけではないため、スケジューラ・バンクの競合が発生する可能性 ry 。 ADD命令は、命令10のオペランドと命令12のオペランドを対象 ry ? ry できないため、1つのイベントが処理され、もう1つのイベントが後のサイクルでキューに入れられます。 同じサイクルで2つの偶数バンク・ターゲットのアクティブ・レディ状態を更新することはできないため、 1 つのイベントが処理された後のサイクルで、もう 1 つのイベントがキュー ry
表2は、2つのデータフロースケジューラ設計の違いをまとめたものです。 >>146 インクリメンタルスケジューラのコアは、並列スケジューラのサイズの3分の1以下ですが、キューとマルチプレクサの追加オーバーヘッドが追加されるとサイズの利点が小さくなります。 ? ry 、エリア*期間のメトリック ry 。 インクリメンタルスケジューラも高速で、エリア*時間のメトリックは2.6倍優れています。
7
しかし、並列スケジューラはいくつかの強引な利点を保持しています。 ? 増分スケジューラは、 ry 割合でブロードキャストキューを反復的に排除する必要があります。 インクリメンタルスケジューラは、ブロードキャストイベントを1サイクルで処理できますが、1サイクルあたり1〜2命令の割合で反復的にブロードキャストキューから排出させる必要があります。 ? ry で問題が発生する可能性 ry 。 これにより、一部のワークロードでイシューがストールする可能性があります。 インクリメンタルスケジューラはまた、偶数/奇数のターゲットバンクの衝突を受けやすく、命令ウェイクアップを遅らせる可能性がある。 ? ry 実質的な期間の利点を覆い隠す ry 、実際の作業負荷の調査が必要です。 これらの影響が実質的な面積*時間の利点を覆隠すかどうかを測定するには、実際のワークロードの調査 ry ? 最後に、将来のスケールアップをより広い問題とより大きな命令ウィンドウにまで考慮する。 最後に、より幅広のイシューとより大きな命令ウィンドウの為の将来のスケールアップを考察する。 ? ry 細分されたときには増加せず、 ry 。 並列スケジューラは、サイクルごとに2倍のイベントを処理するために、より多くのバンクに細分されたときには拡大せず、インクリメンタルスケジューラコア領域は2倍になります。 命令ウィンドウを64エントリに拡張するために、並列スケジューラは2倍の面積を必要とし、インクリメンタルスケジューラ領域はより穏やかに増加する。
IV. 結論 ? ry 取り組みを紹介します。 本稿では、FPGAのための実用的な ry に向けた取組を紹介しました。 ASICのより単純な高ILPマイクロアーキテクチャに最適化された新しいEDGE命令セットアーキテクチャが、FPGAに適しているか、または汎用ソフトプロセッサがスカラーRISC低速レーンに停滞しているかどうか ry 我々は、2つの異なるデータフロー命令スケジューラ設計と ry を検討した。 ? ry 、いずれかのデザインのFPGAリソースコストとクロック周期の影響は限定的であり、 ry 。 市販の200MHz、1,000-2,000のLUTソフトプロセッサのコンテキストでは、いずれのデザインのFPGAリソースコストとクロック周期のインパクトも限定的であり、許容可能で実用的なようです。 ? ry 4デコード/ 2つの実装形態に適しています。 両方の設計選択肢は、将来の4デコード/ 2イシュー実装形態へのスケールに適しています。
強化学習アルゴリズムは、エージェントへの慎重にエンジニアリングされた外的な環境報酬に依存します。 しかし、手作業で設計された密集した報酬で各環境に注釈を付けることはスケーラブルではなく、エージェントに内在する報酬機能を開発する必要があります。 好奇心は報酬信号として予測誤差を用いる内的報酬関数の一種である。 このペーパーでは、(a)Atariゲームスイートを含む54の標準ベンチマーク環境全体にわたって、純粋に好奇心に基づいた学習、つまり、いかなる外的報酬も伴わない最初の大規模な学習を行います。 私たちの結果は、驚くほど優れたパフォーマンスと、本質的な好奇心の目標と多くのゲーム環境の手作業で設計された外的報酬との高度なアライメントを示しています。 (b) We investigate the effect of using different feature spaces for computing prediction error and show that random features are sufficient for many popular RL game benchmarks, (b)我々は、予測誤差を計算するために異なる特徴空間を使用することの効果を調べ、多くの一般的なRLゲームのベンチマークではランダムな特徴が十分であることを示し、 but learned features appear to generalize better (eg to novel game levels in Super Mario Bros.). 学習された機能は、より一般化するように見える(例えば、スーパーマリオブラザーズの新規ゲームレベルへ)。 (c)予測ベースの報酬の制限を確率的な設定で実証する。 ゲームプレイ動画やコードは http://pathak22.github.io/large-scale-curiosity/ 。
このホワイトペーパーでは、様々なシミュレートされた環境のさまざまな範囲の固有の報酬によって純粋に駆動されるエージェントの大規模な実証研究を行っています。 In particular, we choose the dynamics-based curiosity model of intrinsic reward presented in Pathak et al. 特に、我々はPathak et al。が提示した内在的報酬のダイナミクスに基づく好奇心モデルを選択する。 [27] because it is scalable and trivially parallelizable, making it ideal for large-scale experimentation. [27]スケーラビリティと並行して並列化できるため、大規模な実験には理想的です。 中心的なアイデアは、エージェントの現在の状態、すなわちエージェントの学習された順動力学の予測誤差を与えられたエージェントの行動の結果を予測する際の誤りとして、内在的な報酬を表現することである。 我々は、図1に示すビデオゲーム、物理エンジンシミュレーション、および仮想3Dナビゲーションタスクの54の環境にわたるダイナミクスに基づいた好奇心を徹底的に調査します。
好奇心に基づいた学習をより深く理解するために、パフォーマンスを決定づける重要な要因についてさらに検討します。 特に、高次元の生の観測空間(例えば、画像)における将来の状態を予測することは困難な問題であり、最近の研究[27,42]に示されるように、補助的な特徴空間における学習のダイナミクスは改善された結果につながる。 しかしながら、そのような埋め込み空間をどのように選択すべきかは、重要であるが未だオープンな研究課題である。 体系的アブレーションを通じて、エージェントが自分の好奇心によって純粋に動くように、エージェントの観察をコード化するさまざまな方法の役割を調べます。 To ensure stable online training of dynamics, we argue that the desired embedding space should: (a) be compact in terms of dimensionality, ダイナミクスの安定したオンライントレーニングを確実にするために、我々は、所望の埋め込み空間が、(a)次元的にコンパクトであり、 (b) preserve sufficient information about the observation, and (c) be a stationary function of the observations. (b)観測に関する十分な情報を保持し、(c)観測の定常関数である。 私たちはランダムなネットワークを介して観測をエンコーディングすることは、多くの一般的なRLベンチマークで好奇心をモデル化するための単純で効果的な手法であることを示しています。 これは、多くの一般的なRLビデオゲームのテストベッドは、一般的に考えられているように視覚的に洗練されていないことを示唆するかもしれません。 興味深いことに、練習ではランダムな機能で十分なパフォーマンスが得られますが、学習した機能は一般的に良く見えます(たとえば、Super Mario Bros.の新しいゲームレベル)。
要約すれば: (a) We perform a large-scale study of curiosity-driven exploration across a variety of environments including: (a)私たちは、好奇心に基づいた探査の大規模な研究を、 the set of Atari games [4], Super Mario Bros., virtual 3D navigation in Unity [1], multi-player Pong, and Roboschool [39] environments. Atariゲーム[4]、Super Mario Bros.、Unity [1]、マルチプレイヤーPong、Roboschool [39]環境での仮想3Dナビゲーション。 (b)ランダム特徴、画素、逆ダイナミクス[27]、変分オートエンコーダ[15]を用いて、ダイナミクスに基づいた好奇心を学習するための異なる特徴空間を広範囲に調査し、見えない環境への一般化を評価する。 (c)我々は、直接予測誤差に基づく好奇心の定式化のいくつかの限界について議論することによって結論づける。 エージェント自体が環境中の確率論の源であるならば、実際の進歩を伴わずに報酬を得ることができます。 エージェントが環境の異なる部分を制御する3Dナビゲーションタスクで、この制限を経験的に実証します。
観測xtを見て、xt + 1の観測で次の状態に移り、次の状態に遷移するエージェントを考えてみましょう。 私たちは、このエージェントを、移行がどれほど有益であったかという報酬と奨励したいと考えています。 この報酬を提供するために、我々は以下の要素を含む探査ボーナスを使用します: (a)観測値を表現φ(x)に埋め込むためのネットワーク、 (b)前回の観測と行動p(φ(xt + 1)| xt、at)に条件付けられた次の状態の表現を予測するフォワードダイナミクスネットワーク。 Given a transition tuple {xt,xt+1,at}, the exploration reward is then defined as rt = ? 遷移タプル{xt、xt + 1、at}が与えられると、探索報酬はrt =? log p(φ(xt+1)|xt,at), also called the surprisal [2]. log p(φ(xt + 1)| xt、at)は、驚くべき[2]とも呼ばれます。
この報酬を最大にするように訓練されたエージェントは、予測誤差が大きい遷移を優先します。これは、エージェントが短い時間を過ごした領域で、または複雑なダイナミクスを持つ領域で高くなります。 このようなダイナミクスを基盤とした好奇心はシナリオ全体にわたって非常によく実行されることが示されている[27]。特にダイナミクスが生の観測ではなく埋め込み空間で学習されている。 In this paper, we explore dynamics-based curiosity and use mean-squared error corresponding to a fixed-variance Gaussian density as surprisal, ie, f(xt,at) ? この論文では、ダイナミクスに基づく好奇心を探り、固定分散ガウス密度に対応する平均2乗誤差を驚くべきもの、すなわちf(xt、at)とする。 φ(xt+1)2 2 where f is the learned dynamics model. φ(xt + 1)2 2ここで、fは学習された力学モデルである。 しかし、他の密度モデルを使用することもできる。
次に、埋め込みネットワークφとして平均値への写像を用いることができる。 These features will be a low-dimensional approximately sufficient summary of the observation, これらの特徴は、観察の低次元の概ね十分な要約であり、 but they may still contain some irrelevant details such as noise, and the features will change over time as the VAE trains. ノイズなどの無関係な詳細が含まれている可能性があります。その機能は、VAEがトレーニングするにつれて変化します。
2.3 `死は終わりではない ':無限の地平線との割引好奇心 1つの重要な点は、エピソード信号の終わり(時には「完了」と呼ばれる)を使用すると、実際の報酬機能に関する情報が漏れることが多いことです。 シグナルを取り除かなければ、Atariのゲームの多くは単純すぎるようになります。 For example, a simple strategy of giving +1 artificial reward at every time-step when the agent is alive and 0 on death is sufficient to obtain a high score in some games, 例えば、エージェントが生きているときにステップごとに+1の人工報酬を与えるという簡単な戦略は、いくつかのゲームで高い得点を得るには死亡時に0で十分ですが、 for instance, the Atari game ` Breakout ' where it will seek to maximize the episode length and hence its score. たとえば、エピソードの長さを最大化しようとするAtariゲームの「Breakout」とそれに伴うスコアです。 否定的な報酬の場合、エージェントはできるだけ早くエピソードを終了しようとします。
3.1 外的報酬のない好奇心に基づいた学習外的報酬を使用せずに、多数の環境に対する純粋な好奇心に基づく学習を拡大することから始めます。 We pick a total of 54 diverse simulated environments, as shown in Figure 1, 図1に示すように、合計54の多様なシミュレーション環境を選択し、 including 48 Atari games, Super Mario Bros., 2 Roboschool scenarios (learning Ant controller and Juggling), Two-player Pong, 2 Unity mazes (with and without a TV controlled by the agent). Super Mario Bros.、Roboschoolシナリオ2(Ant Control and Jugglingを学ぶ)、Two-player Pong、2つのUnity mazes(エージェントによって制御されたテレビの有無にかかわらず)を含む48のAtariゲームを含みます。 この大規模分析の目的は、以下の質問を調査することです。 (a)外的な報酬なしに、さまざまなゲームで純粋な好奇心に基づいたエージェントを実行すると、実際にはどうなりますか? (b)あなたはこれらのエージェントからどのような行動を期待できますか? (c)ダイナミクスを基礎とした好奇心における異なる特徴学習の変種がこれらの行動に及ぼす影響は何か?
これは予期しない結果であり、多くの一般的なRLテストベッドでは外部報酬が必要ないことを示唆している可能性があります。 ry (similar to architects, urban planners, gardeners, etc.) are これはゲームデザイナー(建築家、都市計画家、庭師などに似ている)が very good at setting up curriculums to guide agents through the ry 好奇心のような目的は、多くの人間が設計した環境[6,12,16,48]の外的報酬とうまく一致しています。 しかし、これは必ずしもそうではなく、時には好奇心をそそるエージェントがランダムエージェントよりも悪い場合もあります。 これは、外的報酬がエージェントの探索とほとんど相関しない場合、またはエージェントが効率的に探索できない場合に発生します(図8のゲーム「Atlantis」、「IceHockey」を参照)。 我々はさらに、学習者のスキルをよりよく理解するために、ウェブサイト上で利用可能なエージェントのゲームプレイビデオを参照することを読者に推奨する。
VAE法も良好に機能しましたが、やや不安定でしたので、RFとIDFを実験に使用することにしました。 The detailed result in appendix Figure 8 compares IDF vs. 付録の詳細な結果図8は、IDFと RF across the full Atari suite. フルアタリスイート全体のRF。 学習された行動を定量化するために、我々は好奇心旺盛なエージェントをランダムに行動するエージェントと比較した。 我々は、IDFに興味のあるエージェントが、Atariゲームの75%でランダムエージェントよりも多くのゲーム報酬を集めることを発見しました.RF好奇心旺盛なエージェントは70%でより良くなります。 さらに、IDFはゲームの55%でRFより優れています。 全体として、ランダムなフィーチャとインバース・ダイナミクスのフィーチャが一般的にうまく機能しまし 付録の詳細。
図3: (a)Left:MarioのRFメソッドと異なるバッチサイズの比較。 結果は外的報酬を使用しない。 (b)センター:ジャグリング(Roboschool)環境におけるボールのバウンス数。 (c)右:マルチプレイPong環境におけるエピソード長の平均。 The discontinuous jump on the graph corresponds to the agent reaching a limit of the environment - グラフ上の不連続なジャンプは、エージェントが環境の限界に達することに対応します。 after a certain number of steps in the environment the Atari Pong emulator starts randomly cycling through background colors and becomes unresponsive to agent 's actions 環境内の特定のステップ数の後で、Atari Pongエミュレータは背景色をランダムに循環し始め、エージェントのアクションに応答しなくなります
エージェントが両面をプレイしているので、この文脈では外的報酬は無意味なので、代わりにエピソードの長さを示します。 結果を図3(c)に示す。 We see from the episode length that the agent learns to have more and longer rallies over time, learning to play pong without any teacher ? エピソードの長さから、エージェントが時間の経過と共にますます長くなる集会を学び、先生なしでポンをすることを学びます。 purely by curiosity on both sides. 純粋に両側の好奇心によって。 実際には、ゲーム集会は最終的には非常に長くなり、Atariエミュレータを破り、色が急激に変化し、プロットに示すようにポリシーがクラッシュします。
Sparse reward setting: In preliminary experiments, we picked 5 Atari games which have sparse rewards (as categorized by [3]), and compared extrinsic (classic RL) vs. 疎な報酬設定:予備実験では、疎な報酬([3]で分類される)を持つ5つのAtariゲームを選び、外的(古典的なRL)vs. extrinsic+intrinsic (ours) reward performance. 外因性+内在性(私たちの)報酬のパフォーマンス。 5つのうち4試合では、好奇心のボーナスによりパフォーマンスが向上します(付録の表2を参照してください)。 これは本書の焦点ではないことを強調したいと思います。これらの実験は完全性のために提供されています。 外因性(係数1.0)と内因性報酬(係数0.01)を調整することなく直接結合しました。 私たちは、内在的報酬と内在報酬を将来の方向性として最適に組み合わせる方法について質問を残します。
本質的な動機づけ: A family of approaches to intrinsic motivation reward内在的なモチベーション報酬へのアプローチのファミリー an agent based on prediction error [2, 27, 36, 42], prediction uncertainty [11, 44], or improvement [19, 34] of a forward dynamics model of the environment that gets trained along with the agent 's policy. エージェントの方針とともに訓練された環境のフォワードダイナミクスモデルの予測誤差[2,27,36,42]、予測不確実性[11,44]、または改善[19,34]に基づくエージェント。 A family of approaches to intrinsic motivation reward an agent based on prediction error , prediction uncertainty , or improvement of a forward dynamics model of the environment that gets trained along with the agent 's policy. 内在的動機づけへのアプローチの一群は、予測誤差、予測不確実性、またはエージェントの方針とともに訓練される環境の順動力学モデルの改善に基づいてエージェントに報酬を与える。 その結果、フォワードダイナミクスモデルの予測が困難な領域にエージェントが移動し、モデルはこれらの領域の予測を改善します。 この敵対的および非定常的な力学は複雑な挙動を引き起こす可能性がある。 この分野では、外部報酬が存在しない純粋な探査環境では、ほとんど進んでいません。 Of these mostly closely related are those that use a forward dynamics model of a feature space such as Stadie et al. これらの大部分は、Stadieらのような特徴空間の順動力学モデルを使用するものである。 [42] where they use autoencoder features, and Pathak et al. [42]オートエンコーダー機能を使用する場所、Pathak et al。 [27] where they use features trained [27]訓練された機能を使用する場所 逆動力学の仕事で。 これらは、セクション2.1で詳述されているVAEとIDFメソッドにほぼ対応しています。
内在的な報酬には、州訪問回数の平滑化されたバージョンを使用することができる[3,9,24,47]。 Count-based methods have already shown very strong results when combining with extrinsic rewards such as setting the state of the art in the Atari game Montezuma 's Revenge [3], カウントベースの方法は、AtariのゲームMontezuma's Revenge [3]で最新の状態を設定するなどの外的な報酬と組み合わせると、非常に強力な結果を示しています。 and also showing significant exploration of the game without using the extrinsic reward. また、外的報酬を使用せずにゲームの重要な探索を示しています。 カウントベースのアプローチがダイナミクスベースのアプローチよりも好まれるべきである状況はまだ明確ではない。このペーパーでは、ダイナミクスベースのボーナスに重点を置くことを選択しました。 私たちの予備実験では、既存のカウントベースの実装では大規模な研究のためのスケールアップで十分な成功を収めていませんでした。
Other methods of exploration are designed to work in combination with maximizing a reward function, such as those utilizing uncertainty about value function estimates [5, 23], or those using perturbations of the policy for exploration [8, 29]. 他の探査方法は、価値関数推定値に関する不確実性を利用する報酬関数や探索のための方針の摂動を用いる報酬関数などの報酬関数を最大化することと組み合わせて機能するように設計されている[8]、[29]。 Schmidhuber [37]とOudeyer [25]、OudeyerとKaplan [26]は、内在的動機づけへのアプローチに関する初期の研究のいくつかについて素晴らしいレビューを提供する。
Alternative methods of exploration include Sukhbaatar et al. 探査の代替方法には、Sukhbaatar et al。 [45] where they utilize an adversarial game between two agents for exploration. [45]彼らは探索のために2つのエージェントの間で敵対的なゲームを利用する。 In Gregor et al. Gregor et al。 [10], they optimize a quantity called empowerment which is a measurement of the control an agent has over the state. [10]、エージェントはエンパワーメントと呼ばれる量を最適化します。これは、エージェントがその状態を超えた制御の測定値です。 In a concurrent work, diversity is used as a measure to learn skills without reward functions Eysenbach et al. 並行作業では、報酬機能なしにスキルを習得するための手段として多様性が使用されます。Eysenbach et al。 [7]. [7]。
ランダムな特徴: この論文の発見の1つは、ランダムな特徴の驚くべき有効性であり、ランダム投影法およびより一般的にはランダムに初期化されたニューラルネットワークに関する著しい文献がある。 Much of the literature has focused on using random features for classification [14, 33, 49] where the typical finding is that whilst random features can work well for simpler problems, 文献の多くは、分類のためにランダムな特徴を用いることに焦点を当てている[14,33,49]。典型的な発見は、ランダムな特徴がより簡単な問題のためにうまくいく一方、 feature learning performs much better once the problem becomes sufficiently complex. 問題が十分に複雑になると、フィーチャラーニングははるかに良好に機能します。 literature has focused on using random features for classification where the typical finding is that whilst random features can work well for simpler problems, feature learning performs much better once the problem becomes sufficiently complex. 文献では、ランダムな特徴がより単純な問題に対してはうまくいくが、問題の学習がはるかに良好になるという典型的な発見がある場合、分類にランダムな特徴を用いることに集中している。 このパターンがダイナミクスに基づく探索にも当てはまると期待していますが、学習したフィーチャがMario Brosの斬新なレベルでより一般化するように見える予備的な証拠があります。
[2] J. AchiamおよびS. Sastry。 深い強化学習のためのサプライズベースの内的動機。 arXiv:1703.01732,2017。3,9 [3] M. Bellemare、S. Srinivasan、G. Ostrovski、T.Schaul、D. Saxton、およびR.Munos。 カウントベースの探索と固有のモチベーションの統一。 NIPSでは、2016年1月9日 [4] MG Bellemare、Y. Naddaf、J. Veness、およびM. Bowling。 アーケード学習環境:一般エージェントの評価プラットフォーム。 Journal of Artificial Intelligence Research、47:253279、jun 2013. 2 [5] RY Chen、J. Schulman、P. Abbeel、およびS. Sidor。 q-ensembles.arXiv:1706.01502、2017.によるUCBとインフォゲイン探査 [6] G. Costikyan。 ゲームの不確実性。 Mit Press、2013. 6、10 [7] B. Eysenbach、A. Gupta、J. Ibarz、およびS. Levine。 ダイバーシティはあなたが必要とするすべてです:報酬機能のない学習スキル。 arXivプレプリント、2018 [8] M. Fortunato, MG Azar, B. Piot, J. Menick, I. Osband, A. Graves, V. Mnih, R. Munos, D. Hassabis, O. Pietquin, C. Blundell, and S. Legg. M. Fortunato、MG Azar、B. Piot、J. Menick、I. Osband、A. Graves、V. Mnih、R. Munos、D. Hassabis、O. Pietquin、C. Blundell、およびS. Legg 。 探査のための騒々しいネットワーク。 arXiv:1706.10295,2017。9 [9] J. Fu、JD Co-Reyes、およびS. Levine。 EX2:深層強化学習のための模範モデルによる探査。 NIPS、2017. 9 [10] K. Gregor、DJ Rezende、およびD. Wierstra。 バリアント固有制御。 ICLRワークショップ、2017年9月 [11] R. Houthooft, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel. R. Houthooft、X. Chen、Y. Duan、J. Schulman、F. De Turck、およびP. Abbeel。 Vime:探索情報を最大化する変分情報。 NIPSでは、2016年1月9日 [12] R. Hunicke、M. LeBlanc、およびR. Zubek。 Mda:ゲーム設計とゲーム研究への正式なアプローチ。 ゲームAIにおける課題に関するAAAIワークショップ(2004年6月10日) [13] S.IoffeおよびC.Szegedy。 バッチ正規化:内部共変量シフトを減らすことにより、深いネットワークトレーニングを加速します。 arXiv preprint arXiv:1502.03167,2015 4
[26] P.-Y. Oudeyer and F. Kaplan。 内在的な動機は何ですか? 計算上のアプローチの類型。 ニューロロボティクスの最前線、2009年1月9日 [27] D. Pathak, P. Agrawal, AA Efros, and T. Darrell. D.Patak、P. Agrawal、AA Efros、およびT. Darrell。 自己監視予測による好奇心に基づく探索。 ICMLでは、2017年1月2日、3日、4日、6日、9日 [28] D. Pathak, P. Mahmoudieh, G. Luo, P. Agrawal, D. Chen, Y. Shentu, E. Shelhamer, J. Malik, AA Efros, and T. Darrell. D. Pathak、P. Mahmoudieh、G. Luo、P. Agrawal、D. Chen、Y. Shentu、E. Shelhamer、J. Malik、AA Efros、およびT. Darrell。 ゼロショットの視覚的模倣。 ICLR、2018.1 [29] M.Plappert、R.Houthooft、P.Dhariwal、S.Sidor、RYChen、X.Chen、T.Asfour、P.Abbeel、およびM. Andrychowicz。 探索のためのパラメータ空間雑音。 arXiv:1706.01905,2017。9 [30] P. Poupart、N. Vlassis、J. Hoey、およびK. Regan。 離散ベイジアン強化学習の解析的解。 ICML、2006. 1 [31] DJ Rezende、S.Mohamed、およびD.Wierstra。 深い生成モデルにおける確率的逆伝播と近似推論。 arXiv preprint arXiv:1401.4082、2014。3 [32] EL Ryan、Richard; Deci。 内在的および外的な動機:古典的定義と新しい方向性。 現代教育心理学、2000. 1 [33] AM Saxe, PW Koh, Z. Chen, M. Bhand, B. Suresh, and AY Ng. AM Saxe、PW Koh、Z. Chen、M. Bhand、B. Suresh、およびAY Ng。 ランダムウェイトと教師なしの特徴学習。 ICML、10891096ページ、2011年。
[46] RS Sutton and AG Barto. [46] RS SuttonおよびAG Barto。 Reinforcement learning: An introduction. 強化学習:導入。 MIT press Cambridge, 1998. 4 MITプレスケンブリッジ、1998。4 [47] H. Tang, R. Houthooft, D. Foote, A. Stooke, X. Chen, Y. Duan, J. Schulman, F. De Turck, and P. Abbeel. H. Tang、R.Houthooft、D.Foote、A.Stooke、X.Chen、Y.Duan、J.Schulman、F.De Turck、およびP. Abbeel。 #Exploration:深層強化学習のためのカウントに基づく探索の研究。 神経情報処理システムの進歩、2017. 9 [48] P. Wouters、H. Van Oostendorp、R. Boonekamp、およびE. Van der Spek。 バックストーリーと予兆を実装することで、魅力的で効果的な真剣なゲームを作成する際のゲームの談話分析と好奇心の役割。 コンピュータとの交流、2011年6月、10 [49] Z. Yang, M. Moczulski, M. Denil, N. de Freitas, A. Smola, L. Song, and Z. Wang. Z. Yang、M. Moczulski、M. Denil、N. de Freitas、A. Smola、L. Song、およびZ. Wang。 ディープフライドコンベット。 In Proceedings of the IEEE International Conference on Computer Vision, pages 14761483, 2015. 9 IEEEビジョンに関するIEEE国際会議予稿集、14761483、2015。
前処理: すべての実験はピクセルで行った。 すべての画像をグレースケールに変換し、サイズを84x84に変更しました。 現在の観測のみを使用するのではなく、歴史的観測[xt→3、xt→2、xt→1、xt]のスタックの両方でエージェントの方針とフォワードダイナミクスの機能を学ぶ。 これは、これらのゲームで部分的な観測可能性を取得するためです。 Super Mario BrosとAtariの実験では、各アクションを4回繰り返す標準フレームキットラッパーも使用しました。
Inverse Dynamics features ? 逆動力学の特徴 ランダムエージェント Random CNN features ? ランダムCNN機能
図8: 48個のAtariゲームで、純粋な好奇心に基づいた探索(外的報酬もエピソード終了信号もない)。 私たちは、外的帰還やエピソード信号の終わりにアクセスできないエージェントにもかかわらず、好奇心に基づくエージェントの外的帰還がしばしば増加することを観察します。 In multiple environments, 複数の環境では、 the performance of the curiosity-driven agents is significantly better than that of a random agent, although there are environments where the behavior of the agent is close to random, or in fact seems to minimize the return, rather than maximize it. エージェントの行動がランダムに近いか、実際には最大限にするのではなく、リターンを最小限に抑えるような環境が存在するにもかかわらず、好奇心に基づいたエージェントのパフォーマンスはランダムエージェントのパフォーマンスよりも大幅に優れています。 大部分の訓練プロセスでは、RFは環境の約67%でランダムエージェントよりも優れていますが、IDFは環境の約71%でランダムエージェントよりも優れています。
概要>、興奮性シナプス後電位似反応へと誘導している所の薄膜酸化物経由という、通過、 前書き>、 BCI を究極的には齎すという事を約束しています。 前書き>? ry に、メモリスタMR1は、それぞれ1 ry )からシナプス ry 脱分極を ry システムを ry 端子デバイスとして動作します。 前書き>? ry 接続するハイブリッド回路の代表例であり、
メモリー検索の依存性 ? いくつ ry では、セマ ry から情報を取 ry リが以前に短時間アクセスされた場合に短 ry ことが示 ry 。 情報をセマンティックカテゴリから取得する時間が、そのカテ がもしも短時間前にアクセスされていた場合 短縮される事が、いくつかの研究では示され ます ? たとえば、Collins ry は、「 ry 」などの質 ry。 Collins and Quillian(1970)は、例えば、「カナリアは鳥 か?」といった質問に答えるのに必要な時間を示しています 前回のトライアルでカナリアに関する情報にアクセスした場合、600ミリ秒も減 。 多少異なるパラダイムを使用して、マイヤーとシュヴァネヴェルト(マイヤー&シュヴァネヴェルト、1971年;メイヤー、シュヴァネヴェルト&ラディ、1972年、シュ &メ 、1973年;メ 、1973年)は同じことを示しています これらの実験では、Sは文字列を単語または非単語として分類 要 ? 一般的な発見は、Sが意味的に類似していない単語とは対照的に3つの意味的に類似した単語を分 ry り速い ry 。 そこでの一般的発見は、意味的非類似なとは対照的な意味的類似な 3 単語それらを被験者が単に分類した場合、文字列を単語として分類する反応時間はより早い こと したがって、 、「バター」の前に「パン」が付いている場合は、「ナース」が前にある場合よりも、「バター」を単語として分類 時間が速
このような結果を処理 ために、2つの一般的なクラスのモデルが提案されています ロケーションシフトモデル(Meyer&Schvaneveldt、1971)は、Sが特定のカテ のメンバーの処理を終了し、次にシフトして2番目のカテ の処理を開始する必要 場合、シフト時間は2つのカテ 間の意味的距離に依存すると想定 。 ? 一方、 ィブ化モデルは、カテ ry 、処 ry 的に類 ry 他のア が「興奮」または「 ィブ化」されるこ ry 。 アクティべーションモデルは、一方、カテ 内のアイテムが処理されるときに、その処理される情報と意味的類似している範囲で、他アイテムが「興奮化」または「アクティべート」される ことを前提とし ます さらに2つの想定が行われます。1つ目(Warren、1970年)は、アクティブ化が時間とともに減衰すること、2つ目は、 ィブ化されたアイテムは非アクティブ化されたアイテムよりも容易にアクセスできること 。
本実験の結果は、Meyer et al(1972)とLoftus(1973)のデータと合わせて、位置シフトモデルを非承認にし、活性化モデルをサポート 。 ? ry な比 ry 。 これらすべての実験には、次のような各比較が含まれます ? Tが、処理される時間が対象の従 数であるター 報を表す ry 。 処理時間を対象従属変数としたターゲット情報を T が表すとします ? Rが意味的にTに関 ry が意味的にTに関連 ry 表すようにします。 T に意味的関連する情報をR が表し、最後にU1とU2が T に意味的関連しない情報を表すとします ? 次の3つの条件を検討してください。 ここで 3 条件を検討します :
? ry 、次に条件bで最も速く、条件a ry 。 データは、Tが条件cで最も速く、条件bで次点最速、条件aで最も遅く処理されることを示 。 位置シフトモデルとアクティブ化モデルはどちらも、条件cの反応時間が条件aおよびbの反応時間よりも速いことを正しく予測しています ただし、2 モデルの予測は、条件aとbの関係に関して異な 。 位置シ モデルは、条件aと条件bの反応時間が同じであると誤 予測 。どちらの場合も、Sは無関係なカテゴリU2からTにシフトしているためです 一方、活性化モデルは、得られた結果のパターンを正しく予測 。 ? これは、条件bでは、 ry よってアクティブ化され ry 、この ィブ化がTが処理 ry 時間までに減衰して ry 。 これは条件 b に於ては、TがRによってアクティべートされたと見なされ、そしてこのアクティべーションが、 T の処理される時間によっての減衰をしていないためです ? 一方、条件aでは、Tはまったくアクティブ化されていないと見なされます。 したがっ ry 。 条件 a では、一方、 T がアクティべートされたとは全く見做されません ; したがって、Tを処理する時間が長くなります。