言語

AlphaGo Zeroは、ゼロからプレイすることを学んだ後、100回の連続試合でその先駆者を破った
Liao Shumin
期間:  2017年 10月 19日
/ 出所:  Yicai
AlphaGo Zeroは、ゼロからプレイすることを学んだ後、100回の連続試合でその先駆者を破った AlphaGo Zeroは、ゼロからプレイすることを学んだ後、100回の連続試合でその先駆者を破った

(Yicai Global) 10月19日-GoogleのDeepMindによって開発された人工知能プログラムの最新の進化であるAlphaGo Zeroは、人間の入力なしに古代中国のボードゲームGoをゼロから学び、その前身であるAlphaGo Leeを打ち負かしました-100から0、その開発者は、ジャーナルNatureに掲載された論文で述べています。

数百万のゲームをプレイした後、新しいAIプログラムは、人間が理解するのに何千年もかかるGoの複雑さを発見したと記事は述べています。ゼロはオリジナルの戦略を思いつき、古代のゲームへの洞察を生み出しました。

AlphaGo Leeは48のテンソル処理ユニット (TPU) を持ち、確立されたGoムースシーケンス (josekis) を研究した後、昨年3月に5試合中4試合で韓国の9段のプロの囲碁プレーヤーLee Sedolを破った。数か月で約3000万回対戦します。

AlphaGo Zeroには4つのTPUがあり、人間に直面せずにプレイすることを学びました。新しいバージョンは3日かかり、約490万のセルフトレーニングゲームでAlphaGoLeeを100試合連続で最高にしました。

プログラムの開発により、強化学習アルゴリズムが新しいレベルに引き上げられました。

強化学習の進化は、1990年代初頭の初期のアルゴリズム、「Q学習」、および10年前に開始された詳細な強化学習の3つの段階を経てきました。ゼロの開発に示されているように、ツリートラバーサル理論からの強化学習と先見メカニズム (軍事作戦における偵察と同様) を組み合わせることで、より効率的な詳細な強化学習モデルが作成されました。

その結果、Zeroは前任者のように既存の知識に依存しませんでした。上海交通大学の議長であり、認知機械計算健康センター (CMaCH) の責任者であるXuLei氏は、セルフトレーニングを通じてより良いGo戦略を発明できると述べています。

そのプロセッサと比較して、AlphaGoZeroのアルゴリズムはよりシンプルでスマートです。人工的なビッグデータを使用する代わりに、人間の開発者が設定した学習のルールを適用して知識を発見し、人間が犯した間違いを修正する方法を「知っています」。それは驚くべき効率でそのような能力を獲得しました。興味深いことに、AIはこれをどのように達成したかを説明できず、デモンストレーションしか提供できないと、ニューヨーク大学上海のコンピューターサイエンス教授であるZhangZheng氏は述べています。

AlphaGo Zeroのアルゴリズムとプログラムは、セルフトレーニングセクションの数が増えるにつれて改善できるブラックボックスのようなものであり、特定のコードをコピーすることで最適化されたアルゴリズムを「継承」します。復旦大学のコンピューター科学技術学部のWeiHui教授は、アルゴリズムの内部を見ることはできません。

ゼロや他のAIプログラムやコンピューターがボードゲームのすべての可能な動きを調査したかどうかは不明です。しかし、AIは間違いなく人間よりも高速であり、新しい発見、あるいは新しいジョセキイをもたらすだろうと張氏は語った。

第一財経グロバルをフォローする
キーワード:   AI,アルファ,アルゴリズム,GO,強化学習