TECHNOLOGY
テクノロジー概要
GT Sophyは、各領域で世界をリードするSony AI、Polyphony Digital (ポリフォニー・デジタル、PDI)、Sony Interactive Entertainment(ソニー・インタラクティブエンタテインメント、SIE)の3社によるユニークなコラボレーションによって誕生しました。
以下では、GT Sophyを構成する主な技術要素を解説します。
1. リアルシミュレーション環境
『グランツーリスモSPORT』は、Polyphony Digitalが開発したPlayStation®4(PS4)⽤のドライビングシミュレーターです。『グランツーリスモSPORT』では、実在のレーシングカーやコースの見た目だけではなく、車体の重量バランスや剛性、空気抵抗やタイヤの摩擦などの物理現象に至るまで、現実のレーシング環境が限りなくリアルに再現されています。本プロジェクトにおいては、GT Sophyの学習に最適な究極のシミュレーション環境として『グランツーリスモSPORT』が用いられました。
- 『グランツーリスモSPORT』の特徴
- 実際のレーシングカーへの技術サポート活動で得られた知見を取り入れた、最新の車体挙動シミュレーションを搭載。
- 空気抵抗やタイヤ摩擦はもちろん、サスペンションの動きによる姿勢変化など、クルマのダイナミクスを限りなく忠実に再現。
- ⾃動⾞会社監修のもと、ボディの曲⾯、エッジ、ボディパネルの隙間の幅、ウィンカーやヘッドライトに⾄るまで、クルマの細部を正確に再現。
- FIA(国際⾃動⾞連盟)と提携し、全世界で40万⼈を超えるeSportsコミュニティを形成。明確なルールと判断基準のもと、フェアなレーシング環境を実現。
2. 強化学習手法
強化学習とは、AIの学習に用いられる機械学習手法の一つです。ある環境下でアクションを行うAIに対して、そのアクションによってもたらされる結果に基づいて報酬またはペナルティを与えることにより、お手本なしでAIに最適な行動を自律学習させるために用いられます。
上の図は、AIが環境とどのようにインタラクションするかを示しています。AIは、アクションに応じて報酬(またはペナルティ)を与えられ、そのアクションの結果が反映された環境データを次の行動のための入力として受け取ります。
深層強化学習は、チェスや将棋、碁などの戦略ゲームやリアルタイム・マルチプレイヤー戦略ゲーム、アーケードゲームなどの分野において、近年のAIの進歩には欠かせない要素となっています。深層強化学習で用いられるAIは、自分の行動の長期的な影響を考慮し、学習中に自分自身でデータを収集することができるため、事前に大量のデータセットを用意したり、AIのための複雑な行動ルールを手作業でコーディングしたりする必要がありません。その点で、深層強化学習はゲームAIの開発に適していると言えます。しかし、「グランツーリスモ」のような複雑なゲームには既存の手法では対応しきれないため、より進化した新しい学習の方法が必要でした。
Sony AIのリサーチャーとエンジニアは、QR-SAC(Quantile-Regression Soft Actor-Critic)と呼ばれる新しい学習アルゴリズムや、AIがレースのルールを理解できるように状況を表現する手法、絶妙なレーススキルの習得を可能にするトレーニング方法など、革新的な強化学習技術を開発しました。
GT Sophyに用いられた
強化学習技術
GT Sophyには、レースにおける3つの必須スキル(コントロール、レーシング・スキル、レーシング・エチケット)を学習するための様々な新規技術が用いられています。
-
コントロールSony AIが開発した新しい強化学習アルゴリズムQR-SACは、高速走行中のGT Sophyの運転操作に対し、その結果起こり得る様々な可能性を確率分布として明示的に推論します。この確率の概念を導入することで、GT Sophyは擾乱の可能性を考慮しつつ物理限界までコーナーを攻められるようになり、さらには、色々なドライバーとのレースシーンで起こり得る多様な可能性に対応できるようになりました。
壁際での走行テクニック
壁ギリギリのラインで連続するカーブを走り抜けるGT Sophy。車両コントロール技術の精密さがよくわかるシーン。
-
レーシング・スキル強化学習のAIエージェントは自ら様々なデータを集めて学習することができますが、スリップストリームやクロスラインからのオーバーテイクのような特殊なスキルを学習するためには、それだけでは不十分です。これらのスキルを習得するためには、自分と相手とが特定の位置関係にあることがまず必要で、そのことが学習をより難しくしています。この問題を解決するため、GT Sophyの学習課程では「ミックス・シナリオ・トレーニング」と呼ばれる新たな学習手法を導入しました。これは、レースのカギを握るいくつかの重要なシーンを意図的に再現し、特別にチューンされた相手と対戦させるというもので、これによりGT Sophyは、混戦状態からのスタートダッシュやスリップストリームからのオーバーテイク、さらにはディフェンスなど様々なレーステクニックを習得できるようになりました。
急カーブでのオーバーテイク
ストレートでは追い越せなかった人間のドライバーを、急カーブを利用して抜くことに成功したGT Sophy。ステアリング操作にも注目。
-
レーシング・エチケットGT Sophyがスポーツパーソンシップを身につけるためには、レースの微妙なルールやフェアプレーの精神がGT Sophyの「価値関数」の中に学習されなくてはいけません。そのため、明文化されたルールと暗黙の共通認識であるマナーの両方をGT Sophyの「報酬関数」の中に表現する方法を開発しました。また、GT Sophyが人間との対戦において、アグレッシブになりすぎたり、あるいは逆に消極的になりすぎたりしないように、学習時の対戦相手のバリエーションを調節する方法も開発する必要がありました。
フェアなオーバーテイク
相手をブロックせず、走行ラインを残しながらコーナーでの追い抜きを見せるGT Sophy。激しいバトルシーンながら、互いにフェアなプレイが行われている。
3. 非同期分散型学習プラットフォーム
DART(Distributed, Asynchronous Rollouts and Training)は、Sony AIの研究者がSIEのクラウドゲーミングプラットフォーム上のプレイステーションでGT Sophyの学習を行うためにカスタマイズされたWebベースの機械学習向け研究開発プラットフォームです。研究者は、DARTを用いることで学習実験を簡単にセットアップし、クラウドのリソースが利用可能になった時に実験を自動実行して、ブラウザ上で各種データを収集・集計することができます。DARTは、別々のデータセンターで管理されているプレイステーション、計算機、学習用GPUサーバーをまとめて取り扱うこともできます。このシステムを使うことでSony AIの研究チームは、GT Sophyをさらに進化させるための探索研究において、何百もの学習実験・評価実験を同時並行かつシームレスに行うことができました。
4. 大規模演算インフラストラクチャ
DARTでは、1000台以上のプレイステーション4(PS4)にアクセスすることができます。それらのPS4は、GT Sophyをトレーニングする際のデータ収集や、学習済みの様々なバージョンを評価するために使用されました。このプラットフォームを支えるインフラストラクチャとして、SIEの協力のもと、膨大な数のPS4および、それらとやりとりをする演算装置(GPU、CPU)が用意され、長期間にわたる大規模な学習に用いられました。
Nature
GT Sophyに関するより詳細な技術的な情報は、こちらの『Nature』の論文をご覧ください。
今後の展望
GT Sophyは重要なマイルストーンを達成しましたが、まだ研究開発の初期段階にあります。Sony AIは、PDIおよびSIEとのパートナーシップのもと、今後もGT Sophyの性能を向上させるとともに、「グランツーリスモ」シリーズにGT Sophyをどのように取り込めるか検討していきます。
将来的には、「グランツーリスモ」シリーズだけでなく、AIを通じて様々なゲームの体験を向上させるべく、新たなパートナーシップを模索していきたいと考えています。