AI研究の成果と課題
【ーー】 すこし話が変わりますが、谷口先生の問題意識は記号創発、あるいはさらに大きく言えば人間の認知の構成論的な解明ということですが、最近の第3次人工知能ブーム、深層学習以降の人工知能で、新しいアプローチによってやれることが実際に変わってきた、かなり使えるようになったということは、あるのでしょうか。
【谷口】 ありありですね。大変あると思います。もう、めちゃくちゃあると思います。
【ーー】 それまでは頭の中のアイデアでしかなかったものが具体的に実証できるようなことが、いろいろと出てきたということはあるのでしょうか。
【谷口】 はい、ありますね。あるあるのあるだと思います。いやもう……、うん、あります。何て言ったらいいんですかね、あります。あります以外に……。そうですね。
一方で、僕とかが「こうや!」って言ってたものが当たり前になってきてしまった、尾形先生とかもそうだと思いますけども。
当たり前になってきた面もいっぱいある一方で、「それでも足りないものが何なのか?」というところは立てて議論していかなあかんなとは思うわけではありますけども。
ずいぶん良くなった点の例をあげましょう。例えばマルチモーダルな情報から内的表象、もしくは内部表現が現れてきますよというふうな話をするとき、以前だと特徴量抽出に関して、ビジョン(視覚)からの特徴なら「こういうのがそれなりに妥当やろう」というのを手づくりせざるを得ないし、音声だったらMFCC(メル周波数ケプストラム係数)というのがスタンダードなんですけれども、何かしらそういう特徴量みたいなものをつくってそれなりに準備してあげてからロボットに渡してあげる必要があった。そういう議論をしないといけなかったりした。そういうところがやはり今の変分オートエンコーダーを始めとした表現学習では、本当に生画像からでもいける。
構成論的アプローチでは計算機やロボットでモデルを作ってある事象を再現するわけですが、設計者自身が設定しているところが多いと、「結局おまえ、自分でそういう現象が出ているけど、結局エンジニアや研究者が手で設定しとるからそういう現象が出ただけやろ」みたいなことになるわけです。構成論の穴ですね。でも別に生画像からいってもいけるよと言えると、ちょっとマシになる。生画像ぐらいやと「でもそれ、ビットマップやんけ。人間の視覚刺激とは違うだろ」とか言われる可能性もありますが「いやいや、人間だって網膜で、要は視細胞があってビットマップ的に取ってるんだから、ここの議論の上ではあんまり違わねえんじゃね?」みたいな感じで、モデルとしてそんなに無理なくできるというか。そういう話もあって非常にこう……、ありがたいというのがありますね。
計算機科学って、やっぱり根っこは離散的だったりするんですよね、もともとは。だけどニューラルネットワークの世界観って非常にいろんなものを連続的に扱います。そういうふうなものによって言語の扱いとかもやっぱり圧倒的に連続的な世界観にシフトしていったところがあって。それもやっぱり僕とかの考えていたような世界観というものをある程度前に進めてくれたというか、凝り固まった世の中の考え方を破壊してくれたというか。
何か、「言語というのはロジックでしょう?」みたいな、「ロジカルでしょう?」みたいな広く盲信されがちな認識があって、「いやそんなことねえべな」とは思いながらもどうしても幅を利かせてしまう先入観みたいなものがあったんですが、それをある程度破壊してくれたというところも、ありがたいかなと思ったりはしますけどね。
【ーー】 そういう意味では、本音としてはそれ見たことかというか、オレが前から言ってたじゃないか、というところもあるわけですね。
【谷口】 そうそう。もちろんそれを上回られたということもありますね。ただ一方で、取りあえず2020年でまだまだ動き続けているので、2020年現在ぐらい、現在というかもう過去ですけど、2010年代のアップデートでいうならばやっぱりまだAIというものに対してパターン認識の系譜であるので、音声認識であったり音声合成であったりほにゃほにゃ……、というもののファンクションをつくること、ある種のモジュールをつくることが人工知能の目的でしょうみたいなシステム観にとどまっているんですよね。多分、ネオサイバネティクスの議論を掘り返すまでもなく、ある種のシステム描像としてインプット・アウトプット関係でシステムというものをモデル化するというのは、システム観としては比較的プリミティブなので。だからそこはまだできていないところもある。
自律的な存在として生き続ける知能、生活し続ける主体というものを構成するという研究そのものは全くされていないと言っていいぐらいだと思います。この辺は実は結構、この前書いた著書でも推したつもりではあるところなんですけども、だからそれってどうすんねんというのは、やっぱりそれはそれ自体でかなり研究プロジェクトを走らせないと難しいなと思ったりして。
そんなこんなでまだまだ答えられていないところが山ほどありますね。
【ーー】 そういう意味では、深層ニューラルネットを使った最近の研究はもちろんすごいことをいろいろできているのだけれども、谷口先生がもともと問題にしていた本当の意味での人工知能研究とは依然としてずれている、せいぜいその一部分でしかないという感覚がまだあるわけですね。
【谷口】 そうですね、一部分ではあります。それはそうだと思います。
【ーー】 本当の意味での人工知能研究というのは、まだまだ先だと。
【谷口】 はい、本当にそうですね。俺が本当の意味の人工知能研究を分かっているみたいなことはとても言えないですけど、僕なりの人工知能みたいな、僕にとっての人工知能とかいう意味ではそうですね。
AI・ロボットにとって難しい課題とは
【ーー】 いまのお話は、事前に準備した2つ目、3つ目の質問とも関係します。人工知能研究の現状での課題や問題についても伺いたいと思います。いまのお話、自律的で自己完結した人工知能をつくるという話にまだなっていないということとも関係してくると思いますが、現状の限界やこれからの課題、そのあたりはどうお考えでしょうか。
【谷口】 やっぱり、人工知能研究、より限定すると記号創発ロボティクスという船にはいろんな人が乗っていて何のために人工知能研究やっているかというのは様々なわけですが、僕にとっての人工知能の研究は、さっきも言ったように哲学的な問いに答えるという面はやっぱり大きくて、人間のモデルなんですよね。発達する人間のモデル。
だから、そういう意味では認知科学なのかもしれない。むしろ。そういう意味では「人工知能」はやっぱり生まれてきたところから我々の社会に参画するところまでができないと駄目なんですよね。それができるということは、つまりそのモデルを我々が与えるということだし、そのモデルに何を求めるかというのは、モデルというのは現象を映し出す色眼鏡なので、モデルを通して我々の認知を理解するということですね。
モデルが妥当であるかどうかというのを検証するためには、反証可能な文脈の上にモデルを置く必要がある。それが我々の知的な振舞いを再現(リプロデュース)できるかということであるという視点に立つならば、我々の認知発達、社会への参画、記号創発システムの中への参入、そういうふうなものの各フェーズを再現できてくれる必要がある。ということなので、足りないものの一つにはやっぱり「自律性」というのはあるよねと思うわけです。
やっぱり、今の人工知能の研究というのは全てというか非常に「データセット」という言葉が非常に強い意味を持つんです。データセットとかシミュレーション環境みたいなものですね。さらに学ぶものをユーザー側が用意して、それで「機能=関数」(ファンクション)というものを鍛える。それにデータを食べさせる(フェッドする)。データを「食わせる」という比喩表現が非常に使われるわけですが、これが非常に言語現象的には面白いなと思うんですよね。食わせるというのはひな鳥みたいなもので、まさに受動性、現在のAI研究における学習モジュールの受動性を表していると思うんです。だからまさにデータを探索(エクスプロア)して、自分で食い物を探してきて育っていく部分というのがやっぱり要るな、それが一つの自律性ということかなと思っています。
【ーー】 逆に言うと、人間の認知を理解するためのモデルという関心がなくて、純粋に役に立つ道具としてまさにいまあるようなAIをつくるのであれば、そういうものだとちゃんと自覚してやっている分には、自律性がないものであっても、それでうまくいく用途に使っている分には問題はないと。
【谷口】 はい。道具として使いたいんだったら自律性なんてバシバシ切って、ちゃんと隷属させることが大事なので。道具として自律性なんて持たれてしまったら困りますよね。その昔、権力者は民衆に自律性も、知識も持たせたがらなかったのと同じようにですね……。識字率もわざと抑えた、みたいな。……あ、これ語弊があるかな? 語弊があるけど、まあまあ、いいと思います。例えば音声認識に別に自律性は要りませんし、機械翻訳装置に自律性は特には要らないと思います。
【ーー】 そういう意味では、その2つのプロジェクトあるいは目的は、はっきり分けて、別のプロジェクトとしてやるほうが見通しがよいと。
【谷口】 それはすごくいい質問なんですよね。隙あらば宣伝してしまうんですけど、『AI時代の「自律性」』という本を書かせてもらって、これはいわゆる西垣先生の関係のネオサイバネティクス関係の研究者の皆さんに初めて交ぜてもらって書いたのですけれど、その中で僕が第3章、ロボットの自律性概念というのを書かせてもらったんです。
その中でも議論させてもらったんですけど、実は我々の「知的機能」というのがどれだけの環境適応を必要とするか、これ実は「ものによる」んです。ものによるというのはタスクによりけりなんですよ。例えば、ある種の物体認識とか音声認識というのは知識がジェネラルに存在していて、そのジェネラルな知識というのを埋め込め切れば大体そのドメインで使い回せるんです。だから基本的に追加学習なしで……、というのは、何かしらの追加学習の枠組みをちょっとだけ加えて動かし続けたら、DeepLにしろ、ある程度いけるんです。
一方で、例えばロボットが店舗環境において、例えばコンビニとかにロボットを入れて、ロボットが物体を外して運んでいったりするようなところをやろうとすると、その環境ならではの配置情報であったりとか、微妙な高さの差とか、そういうようなものとかもろもろを学習して吸収しないといけないということがあったりすると。ロボット自身も身体そのものが一体一体微妙に違っていたりすると、やっぱりその身体性の違いみたいなものを吸収する適応(アダプテーション)が必要になってくる。適応(アダプテーション)、運動学習とかもそうなんですけど、適応(アダプテーション)が必要になるとデータが要るんですよね。で、データというのを受動的(パッシブ)にもらうのを待つというのが、今その辺の応用においても基本なんですよ。受動的(パッシブ)にデータをもらうためにはデータを準備してあげる人が要るんです。それがエンジニアとかロボットのシステムインテグレーション側に役割が回ってきますよとなると、そこの工数がでかくなります。
いろんな企業や研究室がロボットのデモをするというのはこれまで何十年もされていますが、やっぱりああいうふうな実世界デモンストレーションというのを、大体どんな会社でも、ロボットデモを支えるためにその環境でめちゃめちゃ徹夜して頑張ったエンジニアの死屍累々の上の、しかばねの上のデモなんですよ、大体。
で、そこって、1店舗導入で、例えばエンジニアが1週間3人かけてたら、いわゆるその辺の企業がそんなんやって派遣5人、1人日最低5万円ぐらいすると思うので、それは15万円掛ける……、何や、75万円とか100万円、導入に金かかってくるわけですよね。なのでロボットの本体が200万円になっても、そこのエンジニア人件費に100万円乗っかるのでどうにもならんみたいなところがあって、それを考えてあげると、やっぱり自らロボットが動いて、一定、自らデータを収集して、自ら必要な分だけ学習していくということが必要になってくるところが出てくると。ゆえにそんなふうなことも必要かなと思います。
【ーー】 いまは、自律的に学習して適応してということなしにうまくやることを目指しているけれども、実際にロボットを社会で使ってとかということになると、そういう作業が必要になってくるということですね。
【谷口】 そうです、そうです。だから試行的に、我々の分野というのは――我々のというかAI分野とかいうのは、やっぱりまずできることからやるというのが大事なんですね。エンジニアリングというのは。
そしてそれは、うまくタスクを切り出すという、そこがセンスですよね。うまい人はそれでやって、切り出したものが最大限に一般的であるかのようなデモを示すというのがあるので、そこを見抜かない人たちはそれを一気に拡大解釈しちゃうというところがあると。
そういうときに、リアリティーを持って現状自分が手から離したい仕事はとか考えた上で、AIがやってくれないし、まだ手を打っていないものと考えると、それはできていないタスクなんだろうなという感じですよね。
主に家庭環境などでのサービスロボットに対して素朴にやってほしいことをリクエストして動かすために必要な人工知能はほぼ出てきていないですよね。つまり、そういうことですね。
【ーー】 囲碁とか将棋は、ある意味非常にきれいに切り出せるから、うまくいくと。
【谷口】 そうです、そうです。簡単なんですよ、相対的に。これはほかの人もおっしゃったかもしれませんけども、AIブームって面白くて、大体人間にとって難しいタスクを当てると火がつくんですよね。人間にとって簡単なタスクって、できても人間はそんなにすごいと言ってくれへんし。何というか、深い思索をしている人以外は。
で、ちなみにコンピューターなので、人間というのはIQ高い人の論理的思考がいいみたいなこと言うじゃないですか。一方、向こうはコンピューターなので、基本的に論理的なもののほうが簡単なわけですよね。だから何かその変なギャップがあって、コンピューターにとって難しいことと、我々にとって難しいことは全く違うので、そういう意味でいうと囲碁とか将棋は簡単だったということですかね。モラベックのパラドックスですね。
【ーー】 ひょっとしたら、自動運転のデモなどでも、そういった切り出し方はちゃんと見ないといけないのかもしれないですね。
【谷口】 ああ、そうですね。でも、自動運転も運動系では相対的に簡単ですね。自動運転というのは結局、ロボットを考えるのにセンサー側とアクション側だったら、アクション側のほうが難しいんですよ。センサー側、認識側というのは、すごい情報が多いんです。音にしろ、WAVファイル、画像でも、でかいですよね。その中で要る情報って限られているじゃないですか。認識するといったらこれを3,000個のどのカテゴリーですかというぐらいなので、まあ3,000ビットぐらいですよね、何やったら。要はそうやって落とし込むタスク、情報を捨てるタスクなんです、認識というのは大体。それに対して、それから何か生成していく、アクションを取るというのは生成側なのでより難易度が高いんです、どっちかというと。
そのときにはやっぱり自由度の概念が重要になって。それで、車というのは2Dの世界に縛りつけられて、車輪がこれだけしかないので相対的に簡単なんですよね。それでいて自動車運転という現実世界に存在するニーズには応えられるから、まあまあ、非常に次の手としてはいいし、非常に妥当なところですね。
【ーー】 なるほど。コンビニで商品陳列をするとかのほうが、じつはよっぽど難しいわけですね。
【谷口】 よっぽど難しい。よっぽど難しいですよ、よっぽど難しい。
【ーー】 なるほど。そこはなかなか面白い話ですね。実際に研究している人にとってはそれはよく見えることかもしれないけど、内実を知らない人からすると、実際は何が難しいのかということはなかなかぴんとこなくて、自動運転ができるのならば大抵のことはできるだろうというふうに思ってしまうかもしれないですね。
【谷口】 そうですね。そういうふうな感じ。……あ、そうそう、構成論的アプローチの面白いことの一つには、これはよく後輩にも言ってたんだけど、人間にとってすごい簡単なことが実はモデルを作って動かそうとすると結構難しいということって非常によくあるんですよ。僕、むしろそういう気付きは好きですね。それってそれが分かったときに、「あ、人間ってすげえんだな」というふうに気づくんですね。「子供でも、すげえんだ」みたいな。そう再発見することがやっぱりすごく面白いと思っているので。ぜひそういうようなことがもっともっといろんな人に知ってもらえる場が、もっと増えるといいなと思います。
その4に続く