三宅陽一郎氏インタビュー(その2)

ゲームAI開発者から見た哲学

【――】  哲学の本もご自身で勉強されたということですが、ご著書でも、東洋哲学も、西洋哲学も、かなりいろいろなものを参照されています。そのなかでとくに興味を持った哲学者や哲学の問題はあるでしょうか。
【三宅】  2人おりまして、デカルトとフッサールですね。デカルトは、僕は中学の頃からデカルトのファンで、もちろん中学生なので手に入る岩波文庫ぐらいしか読めなかったですけれど、デカルトの哲学というのは、すごく明確ですよね。コギトから始まって、確からしい推論で推論していって、世界の真理に至るという。いまの人工知能全体もじつはデカルトのフレームの中にあって、自分というものが確かにあって、そこから推論していくというスタイルが、いまのロボットもそうだし、人工知能の体系そのものもそうなんですね。ところが、そういったある意味優等生的な人工知能というのは、僕がやっているアクションゲームの中の人工知能にはなかなか通用しないところがあるんですね。いろいろな問題が不確定だし、そもそもものすごい速さで状況が変わっていく。あと、身体があるんですね。身体があるということは、身体をシミュレートしつつ、自分の行動を決めないといけない。状況というものと自分というものが物理空間の中でどんどん混在していくわけなんですね。「我思う、ゆえに我あり」みたいな、そんなふうに考えている暇もなくて、全体の状況の中に身体ごと自分が引きずられていく。そういうときに、別の人工知能の仕組みが必要なんじゃないかなという感覚があったんですね。
 そこで、20世紀の初めにデカルトの哲学を乗り越えようとしたフッサールの現象学がある。現象学的な人工知能の理論があるはずだ、つまり、フッサールにしても、デカルトの哲学の完成として現象学がある、後期のフッサールはそういうことを言っていると僕は思っています。『デカルト的省察』というパリでの講演を元にした本もあります。つまり、デカルトが我と考えるというのは、フッサールの批判としては、それは知性のエッジの部分だけを言っているのであって、人間というのはもっと、希望するとか、不安になるとか、いろんな世界に対する志向性の現れというのがあって、そういう経験的な何か豊かな、より広い人工知能の枠組みをゲームの世界に持ち込むべきだと思って、現象学的に人工知能をつくろうと。現象学的人工知能をつくろうと思ったのは学生のときで、博士の研究のときから自分はそういうふうに現象学と人工知能を合わせたフレームをデモでつくって人工知能学会で発表して、それをもってゲーム業界に来たという経緯もあって、世界とのインタラクションの中から自分というものが立ち上がっていくみたいな、そういう形の人工知能をつくろうとしてきたというところですね。そうすることで、いわゆる超反応と呼ばれるような、ロジックを通らずにアクションが出てきてしまうみたいな。つまり、世界と自分が混在となったところからアクションとか行動が生み出されるみたいなところが必要だし、そういうふうに人工知能の理論が拡大すべきだという考えの下でやっております。
【――】  哲学では、ヒューバート・ドレイファスがAIの批判をしていたのは有名ですが、彼の図式はちょっと違って、デカルトとフッサールはどちらもまとめて悪役にして、どちらも、言語的な知識とか、論理的な推論とか、そういった古典的なAIにつながるような知性観をもっていて、それに対してハイデガーやメルロ=ポンティは、それだけではない、身体や状況の重要性を見抜いていると言います。どちらに誰を割り当てるかということは置いておくとして、言語と推論だけに限るような知の見方とそうでないもの、前者では駄目なんだという意味では、三宅さんの問題意識はドレイファスの問題意識とも通じるところがあるように思われます。
【三宅】  そうですね。記号論理みたいなものの限界というのは、本当にゲームを1個つくれば、すぐに分かる。要するに、世界がモデル化できないというところなんですね。結局、モデル化できる場合には言語構造で推論ができると思うんですけれど、敵が10体、いろんな場所からいろんな攻撃の仕方をしてきたり、地形もある中で、これをモデル化してロジカルに考えられますかというと、時間というのもありますし、いろんなスケールで同時に物事が起こっていくときに、モデル化できない状況の中でどういうふうな行動をするんだというところになると、とたんに記号論理というのが破綻してしまう。言葉は悪いですが、大学から人工知能をやってきましたという人がゲーム産業に入ってくると、大体、記号論理を持ち出してくる。今ならディープラーニングだけど、ちょっと前だと記号論理を持ってきて、これはこういう推論でこうやってこうすればいいんだみたいに考える。でも、だいたい途中で暗礁に乗り上げるわけですよ。つまり、オブジェクトというものは固定されないし、対象が明確に記号化できない中で、むしろ記号論理の無力さというのを感じる。多分、それはロボット工学者が感じているのとほぼ同じことで、現実空間という曖昧さ・不確定さの中でいかに記号論理が無力かということが身にしみて分かるみたいなところがあります。だから、ドレイファスの批判というのは、ある程度は当たっているのかなあと。区分けという意味では、僕はデカルトとフッサールの間で区切っちゃうというところはありますね。

【――】  ゲーム開発と実際のロボット開発というのは同じなんですね。これは机上の空論なんだというのをゲーム開発が端的に示してくれるというのは、非常に面白いですね。
【三宅】  そうですね。
【――】  ちょっとでもゲーム開発をすれば、それはすぐ分かると。
【三宅】  じつは、ゲーム産業が使っている人工知能技術というのは、もともとロボットのAIから持ってきているのですね。2000年ぐらいにMITでそういったバーチャル空間にロボティクスのAIを応用しようというグループ「Synthetic Characters Group」がメディアラボにありまして、そこを経由して、そこの研究室にいた人がゲーム産業に入ってきて、結構有名なゲームにロボティクスのAIを応用して、それがアメリカで広がっていって、僕がそれを2004年ぐらい、2004年というのは結構いいタイミングで、それが広まりつつあったタイミングでインターネット越しに資料を見ることができたんですね。そこで認知科学のアフォーダンスの概念とかもゲーム産業に取り入れようとか、そういう時期がじつは2000年代初頭にあったというところがあった。もともと根は一緒なんだけど、さきほど言いましたように、バーチャル空間のAIのほうが進化は速いので、いまはその恩返しをロボット産業にしているという感じでありますね。
【――】  なるほど。そういう意味では、ロボット工学も、ゲーム産業も、かつて第2次人工知能ブームのときに哲学なり認知科学なりで言われていたような考えをそれぞれの仕方で取り入れて、進化していると。
【三宅】  まさにそうですね。
【――】  主流の人工知能研究では見えないところで、じつはかなり進化が進んでいる感じなんですね。
【三宅】  おっしゃるとおりです。第2次ブームの頃って、記号論理とか、エキスパートシステムとか、そういうものが中心でした。何が違うかといいますと、ゲーム産業とロボティクスというのは、リアルタイムで、インタラクティブで、体を持っている、この3つの要素があるんですね。ほかの人工知能分野というのは、体もないし、リアルタイムでもないし、インタラクティブでもないわけなんですね。この3つの特徴があるというのは、簡単に言うと人間と同じ世界で人間と同じ時間を生きるということを意味していて、そのときにどんな人工知能が必要なのかというのを、ゲームもロボットの人たちもそういう課題に共通に直面して、同じ結論を出したというところでありますね。

人工知能の基本問題

【――】  今のお話は事前にお送りした質問にもおおいに関係しますね。かつての、あるいは現在でもそうですが、主流の人工知能研究にとっての原理的な困難とか課題がどこにあるのかというのが、事前にお送りした2つ目の質問でした。まさに今お話しされているような、リアルタイムで身体を持って現実世界で行動するのに通用するか、使えるかというところにAI研究の最大の問題があると。
【三宅】  まさにそうです。おっしゃるとおりです。ロボットはそれを現実空間でやっていて、我々ゲーム産業はそれをバーチャル空間でやっているという、その違いだけだというところです。
【――】  ゲーム産業以外のAIだと、リアルタイムで現実の空間の中でこれが通用するのかというようなことがそれほど問われないがゆえに、そこでは通用しないものが開発されてしまうことも往々にしてあると。
【三宅】  そうです。実際、いまでもそういうところはあります。ディープラーニングで画像を猫と犬で仕分けるみたいな、あれは別に、インタラクティブでも、リアルタイムでも、体を持っているわけでもなくて、どこかのサーバー上で12時間学習させたらそれができるようになりますよという、そういうものですね。それと、リアルタイム、インタラクティブ、体を持っているというのは、本質的な問題が違うというところでありますね。それは画面越しで世界を見ているか、身体を持って世界に参加しているか、という本質的な違いです。
【――】  なるほど。そういう意味では、リアルタイムであるとか、身体を持っているとか、そういうことをちゃんと考慮に入れていないと、ディープラーニングを取り入れるとか、あるいはハードウエアがすごく高速化されるとかというだけでは、その辺で多少変化があっても、根本的なところはなかなか解決しないと。
【三宅】  本質的には解決してないですね。ディープラーニングによって解決した問題はむしろ視覚の問題です。もともとディープラーニング技術そのものは目の視神経の得た情報を解析する脳の第一次野のニューロの結び方、1970年頃にトルステン・ウィーセルたちが解明した脳の視覚野の回路をまねしてつくったので、画像を見分けるとか、パターンを見分けるというのは以前よりずっと進歩しましたが、目が進歩したからといってそれ以外が解決したわけでも何でもないというところがあります。人工知能の基本問題には3つあって、1つはフレーム問題、1つはシンボルグラウンディング問題、もう1つは人工知能として、いかに心と身体をつなぐか、という心身問題です。フレーム問題というのは、要するに、モデル化できるか、できないかという話ですね。将棋というのはフレームがあるから解けるし、囲碁もフレームがあるから解けるし、翻訳というのも一応フレームがあるから解けるんだけど、普通は全ての要素を押さえているという保証がないわけですね、認識の問題というのは。ディープラーニングでその保証ができたと言う人もいるんだけど、本質的にはフレーム問題をディープラーニングは解決してないというのが僕の立場です。というのも、ディープラーニングをセットアップするときにすでにフレームは固定されているので、これは画像を判別するディープラーニングですよと言った時点でフレームが固定されちゃっているので、解決してないんだというところがありますね。逆に言うと、ディープラーニングの活躍によって、人工知能のいろんな基本問題、シンボルグラウンディング問題もフレーム問題も背景に追いやられてしまって、本質的な前進はほとんどない。
 シンボルグラウンディング問題に関しても、人によってはディープラーニングで物の識別ができているわけだから解決されたと言う人もいるんだけど、ほとんど何も解決されていないんじゃないのかなというのが自分の立場ですね。というのも、視覚だけで物事のタグがつけられるわけでもなくて、人間というのは物の世界とのインタラクションの中で物というものを識別していくので、そこに身体が必要なわけですね。物をつかめるとか。視覚だけでつかめる、つかめないかみたいなことを言っても、それは画面越しで世界を見ているにすぎないので、問題は解決してないんじゃないかと。ここはいまでも議論の余地のある点ですが、議論さえされない。よくないことだけど、深層学習の功罪ですね。もちろん功もあるのだけど、罪の部分は、人工知能研究が、本質的問題からずれたところに重心を移してしまったということです。だから、今、目のところに異様な比重がかかっていて、それで何も解決されると言うには違和感がある。デビス・ハサビスが言うように、我々は確かにディープラーニングによって正しいはしごの下に立ったのかもしれない。しかし、そのはしごはどこまでも正しいわけではない。
 あと、これは批判めいた感じになってしまいますが、どうしても第3次ブームから入った人は人工知能=ビッグデータ×ディープラーニングと思っていて、人工知能そのものの基礎はほとんど勉強しないというか、むしろそういうのは嫌いだった人がコネクショニズムのディープラーニングだけにかけているというのがいまの状況ですね。ディープラーニングによって記号主義が払拭された、というのは短絡的過ぎる。実際の世の中は、IBMワトソンを始めとする記号主義の人工知能によって回っている。一方で、人工知能のフロンティアはディープラーニングと共に見えている。ですので、その辺はゆがんでいるけど、時代としてはしようがないのかなという感じがしています。
【――】  でも、それしか道具立てがないと、それで解けない問題が出てきたときに行き詰まってしまうかもしれませんね。
【三宅】  いまでもディープラーニング自体は行き詰まっている。というのも、ディープラーニングは簡単に言うとストライクゾーンが狭い。ディープラーニングがうまくいくようにデータを整えて、はい動いてくださいというのが、いまのディープラーニング。ディープラーニングのスイートスポットが内角低めだとしたら、それ以外のボールというのは全然打ち返さないんですね。逆に言うと、ディープラーニングで解ける問題だけを解いている、あるいはディープラーニングだけの手法で何とか解こうとしているというのが、いまの全体の動向という。じつはそれってほかの手法を使えばあっという間にできることだというのも、そういうことを知らないのか、やりたくないのか分からないのですけど、ディープラーニングで玉砕して、これは解けませんといって帰ってくるみたいな、そういう、人工知能の専門家から見ると滑稽な状況がいろんなところに生まれているなというのはありますね。
【――】  これから5年、10年たってくると、かなりディープラーニングの限界がはっきりしてきて、ディープラーニングだけですべてが解決するわけじゃないということが広く認識されるようになってくるだろうと。
【三宅】  人工知能の研究者は分かっています、それは。分かっているけど、世の中の時流とか、いろいろ、大人の事情なのか何なのか分からないけど、知らないふりをして乗っかっている。だから、専門家もあまりよくないなと思います。人工知能の人って、冬の時代が長かったせいで、1回ブームが来るとすごいうれしくなっちゃって、ちょっと歯止めはかけたくないなと思ってしまう。本当はいろいろ分かっているんですよ。すべて分かった上でやっている。だから、仲間内で話せば冷静に話しますけど、世の中に出ると、何でも解決しちゃうよ、みたいになってしまう。それは、世の中も期待しているし、そういう役を演じている部分は多いかなと思いますので、仕方がない。例えば、これを10年後から見返すと、ああっていう感じになるとは思いますね。多分、第2次ブームのときも同じだったんじゃないですかね。人工知能がブームになって、エキスパートシステムとか、ルールベースで何でもできるんですよと言わざるを得なかったと思うんですね、あの頃って。それが世の中の流れだったし、それ以外の流れもなかったのでというのが繰り返しているのかなという。専門家には批判も大切だけど、時流を作る、という役割もある。
【――】  せっかく注目され始めたときに、何でもできるわけではありませんと釘を差して冷や水を浴びせるのはなかなか難しいですね。
【三宅】  そういう人はメディアも呼ばなくなるし。どうせ誰が言っても同じだったら、俺が言っておくか、みたいな、そんな感じだと思いますけど。それは極端な話で、結局はハイブリッドだと思うんですね。記号主義的な方法と、ディープラーニングのコネクショニズムという。これまでずっと分離してきたわけですけれども、ただ、今回のブームでその2つを融合する糸口がつかめたんじゃないかなと思うんですね。とくに言語処理のところは記号主義的なところが大きかったわけですけど、エンベッティングという方法で、言葉をベクトル空間の多次元ベクトルとみなすというようなところでコネクショニズムを持ってきて、さらにそれをもう1回言語のほうに返すというのは、これまでもあったけど、そこまで注目されて来なかったアプローチで、しかもそれは大成功しているので、ようやくコネクショニズムとシンボリズムという2つの人工知能の潮流が重なってきたというところは、すごくいいことだなと思いますね。
【――】  そういう意味では、実際の研究者には、ディープラーニングだけでやれるところと、ディープラーニングだけだと難しい部分はかなり見えてきていて、共通了解ができつつある感じでしょうか。
【三宅】  大体見えている。ただ、もちろん見えない部分もいっぱいあって、自動翻訳ではディープラーニングがこんなにうまくいくとは思わなかったし、何千コアを何か月も動かすなんていうことは普通の研究者はできないので、Googleとかが持ってくる結果を見せられると、ここまでできちゃうのというところはあります。ゲームに近いところだと、ストラテジーゲームの「StarCraft」とか、「Dota2」とか、ああいうゲームを人間の時間で言うと150年分ぐらい学習して、人間のチャンピオンに勝つとか。それってできるんだ、みたいな。僕らゲームAIの専門家としても、びっくりみたいな。それは言うなればアルファ碁の延長であって、アルファ碁で成功した「ディープQニューラルネットワーク」(DQN)パターンをゲームでいろんなところに展開しているわけなんです。ただ、つくった本人も何を解いているのか分からないんですね、結局、ディープラーニングって。だから、あれを記号主義のほうに戻すことはできなくて、つくっているほうも何のゲーム状態を見ているかも正直分からない。アルファ碁にしても、アルファ碁が囲碁の盤面をどう見ているかはつくった本人たちも分からないわけなので、そこがすごいところであり、コネクショニズムの宿命として何なのだろうという部分が残るところではありますね。じつはゲーム産業ではディープラーニングがなかなか使えないのは、そのせいなんですね。ブラックボックスを製品に入れ込むわけにいかないので。あと、ディープラーニングというのはアンコントローラブルで、何かあったときにバグが取れるというものでもないわけですね。プログラムで書かれているわけじゃないから。なので、じつはゲーム産業はいま、ディープラーニングは開発工程では使うのですけど、製品の中にはなかなか組み込めないというジレンマの中にあります。

その3に続く)

その1へ
その3へ
その4へ