麻生英樹先生インタビュー(その2)

パターン認識と記号操作の統合

【ーー】  次は事前に用意した2番目あるいは3番目の質問です。少し話が変わりますが、現在の人工知能研究の課題や現状での限界、そういったことはどの辺にあるのかということと、第2次ブームのときと比べて、そのあたりがどのくらい変わったのかということについてお考えをお聞かせいただけますでしょうか。
【麻生】  これは、講演でも時々言っているんですけれども、一言で言えば、一番大きな課題は、パターン的な処理とシンボリックな処理、あるいはシステム1、システム2と言ってもいいですけど、そういうものを融合して使うところは、まだできてないと思います。1988年に書いた本で「柔らかな記号」と書いたのも同じことですけれども。
 記号処理は、言語もそうですけど組合せ的なので、それをパターン処理的なアーキテクチャー、例えばニューラルネットワークで効率よく実現できるのかは、一番根本的、原理的な課題だと思っています。
 そこができると、言語と視覚を結びつけることもできるだろうし、自分でどんどん自律的に学習するロボットもできていくと思います。そこに近づいている感じはあるのですが、最終的にできたというような状態には、まだなっていないと思っています。
 第2次と第3次との間の本質的な変化に関しては、人工知能の可能性として何を考えるかによっても異なると思うんですけど、個別的な画像認識・音声認識や、テキスト処理、翻訳などの性能は明らかに大きく変わったので、人工知能の技術が実際に大規模に使われるようになったというのが大きな違いです。
 第2次までは、機械学習も含めて広くは使われなくて、例えばコンピュータービジョンの研究者の方にも「学習するっていうけど、僕がプログラム書いたほうが賢いよね」などと言われて、「まあまあ、そうですけど」、と言っていました。パターン認識、文字認識では使われていましたが、もっと難しいタスクは学習できていなかったのですが、第3次になって、問題によっては、人間レベルにというか、人間を超えるレベルになったというのは大きな違いだと思います。ただし、パターン処理と記号処理の融合という課題に関しては、萌芽的なものは出てきていますが、まだ本質的な変化は起こってないという気がしています。
【ーー】  その点についてもう少し伺いたいのですが、パターン認識的な在り方と記号操作的な在り方との両方が必要になる――人間ぐらいのレベルの知性だと間違いなく両方必要になってくると思いますが、より単純な、例えば昆虫レベルぐらいの自律的なロボットをつくるのであれば、入力も出力、つまり運動制御もパターン認識的なやり方で行ける可能性はあるのでしょうか。
【麻生】  可能性はあると思います。お掃除ロボットのように、あまり賢くない動物みたいに動くロボットであれば、できていると思います。でも、言葉の使用になると両方ないといけなくて、研究者も増えてきていますが、ビジョンならビジョン、テキストならテキストというふうに、どうしても分業しがちなので、なかなか、層が厚くはならなかったのです。それが今やっと、ディープラーニングでそういう研究が盛んになってきていると思います。
【ーー】  いまでは、画像を提示してキャプションだとか、その逆だとか、そういった研究もいろいろあります。
【麻生】  ええ。研究はたくさんあります。いずれも、人間の性能にはまだ及んでないですが、できそうな雰囲気はあると思います。
 例えば画像を見せて文章をつくるといっても、これもよく言うんですけれども、人間だったらもう無限に――無限にと言うと言い過ぎですが、一つの画像の中で何についてしゃべるかは自由に選べるわけです。
 例えば、今、画面に鈴木さんの画像があるわけですけど、「鈴木さんがそこにいます」と言ってもいいし、「唇が赤いです」とか言ってもいいわけですし、「シャツは横縞です」、「綿でできているらしい」など、何でもしゃべれるわけです。
 画像を1枚入れると文章を1個生成するというのは、それに比べればとても素朴で、何かができたとは言えないという感じです。
 なので、本当にそういう、画像を入れて、しかもフォーカスするオブジェクトやフォーカスするトピックを指定すると、それについていろいろな言い方で文章がつくれる、というところまで行くと、かなり人間に近づくという気はしています。質問応答、Visual Q&A や Video Q&A という分野でそれに近い研究がされています。
【ーー】  そういう意味ではまだ最初の一歩で、完全につながっていないわけではないと。
【麻生】  はい。可能性は何か示してくれたけど、まだに十分にできているわけではないということです。

【ーー】  なるほど。さきほどの話にまた戻りますが、広い意味での生物知能ということでいえば、パターン認識だけで理解できるかもしれない……。
【麻生】  行ける部分は多いんじゃないか、と思います。
【ーー】  逆に言うと、その中で人間に特有の知能って何だろうか、シンボル的なものを組み合わせることによって可能になることは何なのかということも気になります。最初のお話にもありましたが、人間の知能を理解する上では、両方組み合わせることで一体何が生じているのかというのが鍵になりそうですね。
【麻生】  そうですね。チンパンジーも言語をある程度は学習できると言われていますが、人間の言語とは全然複雑さのレベルが違うので、そこには何か大きな飛躍、ギャップがあるわけです。
 でも、脳のつくりを見ているとそんなに違わないので、すごく謎なわけです。その謎をシンプルに解きたい、答えを知りたいという気持ちが一番強いですね。それはもう、昔から一貫して変わっていません。
【ーー】  そういう意味では、パターン認識的なものとシンボル的なものをいかに接続するか、組み合わせるか、統合するかというのは、必ずしもAIの実用ということから出てくる話ではなくて、どちらかというと、より学問的な、人間の知能を理解するという関心から出てくると。
【麻生】  そうですね。それができれば工学的にも良いことはたくさんあると思いますが、エンジニアリング的には、意味を理解するシステムはつくりにくいです。人間が要求する能力のハードルがすごく高いんですよね。
 最近は、チャットボットが――昔もELIZAなどがありましたが、結構長くやり取りしても人間を飽きさせない、ということはあるんですけれども、ただ、それはチャットだからできるのであって、もっと中身がしっかり分からないとできないような会話だと、多分すぐ駄目ということが分かってしまうと思います。
 ですから、アプリケーションをつくるときに、「意味が分かる」ということはかなり難しいというか、実用になるレベルのハードルがとても高い。コストと得られるメリットが釣り合わないというのが今まで――少なくとも今までだったと思います。だから、アプリケーションを作りたいというよりは、人間の情報処理を理解したいという原理的なモチベーションのほうが強いです。
【ーー】  逆に、実用ということで言えば、本当の意味で意味理解をしているわけではないけれども、実用している分には、人間の質問にしかるべき適切な答えが返ってくるとかができればよいと。
【麻生】  そうですね。別に「中国語の部屋」のようなものでも、それらしく何か出してくれていれば使える場面はある、浅い意味処理でできるアプリケーションはそれなりにあると思います。例えば商品レビューの文章が肯定的なのか否定的なのかを識別をすることなどは、ある程度できていると思うので、それはそれでいいと思うんですけれども。
 ただ、それが、そこで止まってしまうと、人間の情報処理の理解にはつながらないので、私としてはあまり面白くない。
【ーー】  それは深層学習や深層ニューラルネットワークの限界という話ともつながる話ですね。
【麻生】  そうですね。システム1、システム2と言われていることとも、ほぼ同じことだと思います。
【ーー】  そういう意味では、パターン認識的なやり方ですごく巨大なデータを学習させて、表面的なインプット、アウトプットの処理をうまくできるようにしても、それだけでは人間のようなシステム1とシステム2の両方がセットになっているシステムと同じようにはならないと。
【麻生】  そうならないのではないかと思います。
【ーー】  最近の研究はむしろ、量で質をカバーしようという方向に進んでいるように見えますね。
【麻生】  そうなんですけど、やっぱり違う方式が必要なんじゃないかなと思います。ただ、量で質をカバーするという意味では、人間の脳にかなり近くなってきたと思います。たとえば学習パラメーターの数という意味で。でも、人間の脳のほうがまだまだ複雑だと思います。どんどん大きくしていけば、量が質に転化するようなことが起こるのかもしれませんが、でも、そうじゃないんじゃないかという気もするんです。
【ーー】  当面はやはり、システム2的なものを追加するという戦略が有望だと。
【麻生】  そうですね。何らかの形で、もっと構造化された潜在表現をうまく学習できる仕組みができないかと思っていますが、なかなか難しいですね。
 それに関連して、例えば最近だと、画像に対する質問応答をするときに、画像の中のオブジェクト(物体)を個別に認識できているほうが質問に答えやすいので、まずオブジェクトを抽出して、それを使って質問に答えるという研究もあります。画素レベルや特徴量レベルだけではなくて、オブジェクトという認識の階層を生成させるという方向で研究している方も少しずつ増えていますが、まだ、さっき言ったように、例えば1つの画像から任意の部分にフォーカスできて、その部分の色や形といった任意の属性について話ができるようにはなっていないなと思います。
【ーー】  純粋に人工知能の応用ということで考えた場合にも、パターン認識的なシステムだけではなくて、記号操作的なレベルを追加する必要がある、あるいはしたほうがうまくいくということは、やはりあるのでしょうか。
【麻生】  それがもし本当にできれば、人間と自然にコミュニケートできるシステムができるわけですし、人間が書いたものもある程度分かるわけなので、学習を進めやすくなると思うし、人間にとっても当然使いやすいものになると思うので、アプリケーション的に大きな変化になると思います。
 だから、もちろんできれば役には立つとは思います。コスト的な問題はあるので、アプリケーションとしての価値を持つかどうかは、また別の問題とも思いますが、実現できれば明らかに役には立つと思います。
【ーー】  典型的には、言語理解が人間同士と同じようにできるのが…
【麻生】  ええ。コミュニケートできるというのが、一つの目標ですね。
【ーー】  ただ、現状では、かなり一般的なレベルでも、どういうやり方で両者を組み合わせるのかということに関して具体的なアイデアが出ているわけではないわけですね。
【麻生】  そうですね。萌芽的なアイデアは幾つかありますが、それをどう延長するとうまくいくかというのは、私には少なくとも分かっていません。世界には分かっている人がいるかもしれないですが。
【ーー】  それを実現していくためには、まず実装できるぐらいのレベルの理論が必要だし、実際に実装しても、少なくとも本当に実用化しようとしたら、ある程度ペイする、労力に見合った成果が出るようなものにしなければいけませんね。
【麻生】  はい。ただ、一つ学習できれば、もうあとはコピーできるので、ペイはするんだと思います。いずれにしてもやり方が分からないというのが一番大きいですね。
 自由エネルギー原理もすごく面白いんですけど、やはり認識と制御が中心で、言語の問題はまだ、やっている人もいるのかもしれませんが、到達してないのかなという感じがします。あの路線で言語まで行けたらすごく面白いと思います。

その3に続く

その1
その4