尾形哲也先生インタビュー(その2)

身体の重要性

【ーー】  いままでのディープラーニング、人工知能の中でのディープラーニング研究は、かならずしも身体性を必要としないような領域、画像認識だとか、翻訳だとか、そういったものが多いわけですが、身体に関わるような領域だと事情が変わってくるのでしょうか。ディープラーニングは、身体性が関わらない領域と関わる領域で事情が変わってくるかということに関しては、どのようにお考えでしょうか。
【尾形】  学生にもときどき話すのですが、身体性に関わらずに解決しているように見える方法は、限界があるのではないかと。たとえば、物体を認識するときに、何十万枚、何百万枚の画像に一生懸命ラベリングして学習する。でも、その学習モデルがコップを今、認識しますというときに、それをコップと呼ぶのか、飲み物と呼ぶのか、割れ物と呼ぶのか、汚れものと呼ぶのか。実はすべての可能性は存在している。その存在している多様な可能性がどのように顕在化するかというと、見ている人、主体がそれに対してどうアプローチしようとしているのか、という志向性によって変わる。飲もうと思っていれば飲み物だし、洗おうと思えば洗い物ですし、そっと持とうと思えば、割れ物なわけです。観察主体との関係性がなければ、そのラベルは決まらない。それをコップだと言い切ってしまった瞬間に、大事なものがごっそり抜け落ちてしまっている。壁にある染みを染みとして見える必要が出てくるのは、それを拭こうとするときだけであって、拭こうという行為が生まれない中に「染み」という概念は出てこない。
 こういったことは哲学の先生からは当然のことだと思うのですが、ロボット研究者、もしくは画像処理の研究者は、そこに気づかずに(もしくは気付いていても軽視して)研究される。その多義性に早めに気づいた先生方は、國吉先生、浅田先生が提唱された、認知発達ロボティクスのような分野で活躍される。非常にニッチですが。
 言語も、人間が読んだら何十年かかっても読み切れないような、何十億という単位のテキストの翻訳を学習させると自動翻訳できるようになる。たしかにそれはすごいことではあるのですが、現実を見たことがない。だから、普通はまったく自然に会話をするのに、「あなたの足には目が何個ありますか」と聞くと「2個」と答えちゃう。そういう意地悪な質問に変な解答することが出てくるのは、それは現実の世界を知らずにテキストだけを学習する限界だと思う訳です。
 そういう意味では、いま、画像処理、音声処理、自然言語処理、いろいろな分野が分かれて、それぞれに明確なタスク、問題設定がある。その問題設定を解くために、数字を追う。認識率を上げ、翻訳の精度を上げるために、ひたすら各モダリティーで研究をしてきた。でもそれは人間と全然違うよね、と多くの方々が気づいていると思います。ディープラーニングの画像認識で、1個のピクセルを変えるだけで人間が絶対しないような認識間違いをする。これはおかしいねと。確かに人間も間違えます。人間も錯覚はします。人間は幽霊が見える、でも、「ディープラーニングは幽霊を見られない」。ディープラーニングはそういう学習の仕方をしてない。世界に対してアプローチしようという学習をしていないから。僕らと同じように認識している”フリ”はするけど、全然違うものになってしまっている。
 確かにディープラーニングが、言葉で説明できない、アルゴリズム化できないことをやってくれるのはすごいことで、大きな飛躍です。そして今、ディープラーニングがすごすぎるので、みんな、とにかく沢山学習させて何が出てくるかを競争している。ですが、私は今こそ人間を意識しなければいけないタイミングだ、と思っています。でないと我々と共生することは難しいでしょう。人間がどういうふうに世界を見ているかをあらためて考えたとき、やはり身体を持った個体、主体が世界と関わり合う、という視点で、ディープラーニングという枠組みも、もう一回見直すべきだと思っています。
【ーー】  ありがとうございます。そのあたりはわれわれのプロジェクトでもおおいに関心があるところです。画像認識にせよ、自然言語処理にせよ、学習に必要なサンプル数が全然違うということもありますし、間違いの事例のパターンも違うので、やはり、インプット、アウトプットは同じであっても、やっているプロセスもじつは違うのではないかということが問題になってくるだろうというのは、われわれも関心のあるところです。やはり、そこには問題意識、注意しないといけないという感覚をもっていらっしゃるのですね。
【尾形】  はい。コップに「コップ」とラベルをつけることは、じつは最後の最後まで必要ない。飲むとか、つかむとかということができてしまえば、ラベルをつけるのは必要に応じて最後にすればいいことであって、まずは、行為、主体の身体との関わり合いを記述すべきだと思います。ロボットというのは、こういうことを考えるときにいい題材になると思っています。
【ーー】  そういう意味では、生物が持っているような知能と同じようなものを作るとしたら、やはりロボティクスベース、実際の身体を持ったロボットベースのアプローチであるべきであって、そのような文脈から切り離したディープラーニングのようなものは、一見似ているのだけど、根本的にじつは違うことになっているかもしれないと。
【尾形】  おっしゃるとおりです。実際にリアルなロボットはもしかしたら要らなくて、コンセプトとして身体があることが定義されればいいのかもしれない。ですが、実際のロボットで動くことが確認できると、これは間違いがない身体です。ぜひロボットというか、ハードも知能の研究に入れてほしいなとは思います。少なくとも、世界の学習モデルを作るときには身体が意識されるべきだとは思っています。
【ーー】  逆に、文脈から切り離された形、身体性から切り離された形で訓練されたディープラーニングだと、いまのところはインプット、アウトプットとしてはうまくできていても、実際にわれわれが求めていることができているのかが、つねに問題になると。
【尾形】  そうですね。タスク依存だとは思います。たとえば、囲碁や将棋は身体から離れてよかった例だと思っています。ちなみに私は、身体的な、将棋の表現が好きです。重い手とか、軽い手とか、粘りのある手という表現です。あれは、人間が身体性を持って世界を表現しているのと同様に、将棋を身体で表現しているということで面白いですね。でも、囲碁や将棋に関して言うならば、純粋な論理なので、身体から離れたほうが強くなれる。それはそうだろうなということではあります。AlphaFold みたいに、たんぱく質の可能性をどんどん予測してくれる機能も、おそらくは純粋な推論なので、身体から離れたほうがいいという例だと思います。
 ただ、人間がAIを利用するケースでは、やはり人間が世界をどう見ているんだということを意識することが大事になるシーンが多い。特に実世界に、物理的世界に影響を与えることを目指すシステムを作るときには、やはり人間を意識することはものすごく重要だと思っています。
【ーー】  身体性から切り離してうまくいく場合がどのような場合なのかも、われわれがおおいに関心を持っているところです。囲碁とか将棋で言えば、評価基準が勝ち負けと非常にはっきりしていて、ルールも評価基準もはっきりしているのが大きいのかなと思うのですが、やはり、そのような特殊な領域であればかなりうまくいくけれども、実際のわれわれの生活でやられているもっと曖昧模糊とした実践には、そう単純にはそれは拡張できないと。
【尾形】  むしろ、人工知能の先生方からは、「身体の知能だけでシンボリックなルールを作れるところまで行けるのですか」という問われ方をします。例えば、走り高跳びでは、僕らは飛ぶときはバーを飛び越えるイメージを作って、それとの誤差を埋めるというか、身体的なイメージの誤差を埋めようとして、走り高跳びという競技を考えているはずです。でも、あれはルールとしては高く飛べばいいという抽象的な指標に基づいている。
 強化学習では、その抽象的なルールや指標だけを先に与えます。勝ち負けとか、高く飛べばいい、とか、速く行けばいい、などなど。具体的なやり方については、試行錯誤で探しなさいと言う訳です。ただ順番としては、身体のイメージが先にあって、それが繰り返されていくうちに、抽象的なルールが作られていくと考えています。このようなルールがシンボル化されていくプロセスを、ディープラーニングで模擬することはできそうですが、それは本当に「シンボル」なのか。まだギャップがあるのかなとは思っています。シンボルはどのように生まれるのだろう、シンボルと人間はどうして矛盾なく、いろいろな多義性も含めて、曖昧な表現と何故うまく付き合えあるのだろう、という疑問を興味として持っています。
【ーー】  そのあたりは、身体ベースで考えていくと、かなり先の課題になっていくのかなという感じもいます。実際の身体を持ったロボットと世界とのインタラクションという手法でいくと、ロドニー・ブルックスのように、まずは昆虫みたいな完全に自律的な、基礎的なレベルから出発してというのが極端なアプローチになると思いますが、それはある意味、古典的なAIのシンボリックで演繹的推論のようなところから出発するのと、両極端になる感じだと思います。
【尾形】  そうですね。このギャップがものすごいギャップなのか、意外と近道があるのか、そういうところに興味があります。自分が生きているうちは無理かもしれませんが。でも「そこにたどり着けないでしょ」と言われるとできる、とは思ってしまいます。だって、人間はたどり着いたので。たどり着けると思うのですけど、ただ、どういうふうにしたらいいのか…
 実世界に全く同じものはないはずなのに、2つのリンゴを「2つ」と呼んでいいというのは、やはり、非常に不思議なことです。われわれはラベルを貼っちゃうけど、本当はそんなことはできない。ロボットが見ている世界はセンサーのアナログ値のデータだけです。カテゴリーいうのは、本当は無理やり作っているわけです。非常に不思議で面白い。この辺は、一生のテーマじゃないかなと思いますね。
【ーー】  ただ、アプローチとしては、基本的にはボトムアップで、そこから上っていく、どのくらい近いか遠いかは別として、それが本来あるべきアプローチだと。
【尾形】  そうですね。僕はその立場です。もちろんは逆のアプローチを取られる先生もたくさんおられます。記号的な世界はどこまで実世界を記述できるのか、という立場です。そのようなトップダウンのアプローチももちろん興味深い。僕はたまたまロボットから入ったので、下から上がるのですが、これは双方のアプローチが大事だろうなと思っています。今、ディープラーニングが強いので、下からという動きがあるとは思いますが、記号的な世界の記述の限界、数学の世界になるのでしょうけど、そういう表現の限界みたいなところと実世界を結びつけるのは面白いと思います。
【ーー】  ディープラーニングで、しかも、課題を限定した画像認識のような場合には、身体性を抜きにした形のボトムアップは、ちょっと特殊な、自然界にないような形になっています。そうではなく、ちゃんとした身体性を備えた単純なエージェントがだんだん複雑化していくのが自然なのでしょうか。
【尾形】  一番自然だと思ってます。身体を持ったロボットが動くためには世界はそのために見られるという存在でなければいけないはずです。身体なしで世界を見るのはちょっと違うのではないか。そういうことですね。

ディープラーニングと人間の認知

【ーー】  そういう意味では、そういうルートではないところで、例えば自然言語処理ができるようになっているディープラーニングのシステムというのは、やはり何か根本的に違うことをやっているのかもしれないと。
【尾形】  そうですね。驚異的ではあります。僕は、昔、翻訳はディープラーニングといえども、テキストを学習するだけでは今のような性能まで行かないと思っていました。マルチモーダルな世界の表象をある程度サポートするような学習を加えないと言語の処理はうまくいかないと思っていたのです。確かに実際に、画像とかと一緒に食わすと少し性能がよくなる、そういう研究はあります。けれど、言葉は、やはりものすごい数を集めたときに、世界のいい表現にある程度なっている。それがいまの翻訳精度なんだろうなと。GPTとかもそうですけど、やはり、記号とか言語は、それだけですごい存在だなとも同時に思ったりはします。生まれてテキストしか聞いてないのに、それっぽくしゃべれる、というのは想像できないですよね。
【ーー】  すごいのだけど、やはり人間が言語を理解しているのとは違う何かが起こっているんだという感覚はお持ちですか。
【尾形】  まったく違うものだと思っています。まったく違うので気持ち悪いな、というのが正直な印象です。
【ーー】  その違いが原因でとんでもないことが起こる可能性もどこかにあると。
【尾形】  つねにあると思います。
【ーー】  なるほど。そのあたりのことはわれわれも非常に関心があって。
【尾形】  あれは何か不思議な存在を作ってしまっている。あれでいろいろアプリケーションを作ろうとするのは、本当はちょっと危なっかしいことをやっているのではないかなとは思っています。
【ーー】  最近では、説明できるAIとして、ディープラーニングでやっている情報処理をより分かりやすいモデルに翻訳するようなことがいろいろとやられていますが、ああいうアプローチにもある程度限界はある、それを作ればよいという話ではない、ということでしょうか。
【尾形】  そうですね。僕の立場では、そのようなわかりやすいモデルへの翻訳は周りを説得するために必要ということだと思っています。いまのディープラーニングがうまく動く理由は、人が分からないレベルの表現を自己組織化できるから、これに尽きると思っています。
 ディープラーニング以前は、いかに説明変数を絞って、モデルを絞って、ルールを単純化してという、まさに数理モデルとして記述するわけです。ガウス分布に従うとか、大抵この微分方程式に従うという仮説を用いて説明できる範囲を広げていこうとしていた。ディープラーニングは、そういう意味ではやや暴力的というか、もうとにかく無理やり学習させると、全然一般性のある表現じゃない、アドホックなモデルができる。でもいい性能が出るが、理解はできない。一定のレベルでは内部表現は確認することはできますが、動作メカニズム説明をするレベルには届かない。むしろ人間の説明可能レベルに届かないがゆえに、いい性能が出ている。そういう存在であることを認めた上で使い方を考えていこうとするとき、やはり人間を意識したほうがいいと思うわけです。ラベルを貼って覚えるとか、テキストだけを食わせるというよりは、人間がやっている学習の仕方とかとの比較、人間の思考との比較をつねにしながら、ディープラーニングの設計をしたほうがいいんじゃないかなと思っています。
【ーー】  そういう意味では、例えば画像認識だったら、画像をインプットにして、ラベルをアウトプットにしてというだけではなくて、コップだったらコップに関して、もうちょっとほかの情報も必要だと。
【尾形】  きちんとインタラクションで考えましょうということです。コップはつかめばどうなるとか、飲めばどうなるとか、身体との関わりの中でつねに展開していく。いま見えている視界は、過去にここに至る経緯があり、これからどういう可能性があるかという存在として見えているはずなので、きちんとダイナミクスとして見ることをせずに、一枚絵で捉えるのは多分正しくないのではないか、と思っています。
【ーー】  少なくとも3次元の物体なんだということはちゃんと理解させないといけないわけですね。「コップ」とラベルをつけるだけでは駄目で。
【尾形】  その3次元というのも、人間が思っているデカルト空間でなくてもいいと思っています。手を伸ばせばつかめるという事実を持っていれば、その行為と相まって、3次元的表現を手に入れられる。人間もきれいなマップは意識できない。歩いて人が地図を書くとひどいことになる。それは空間の捉え方がつねに自分の身体との関わり合いの中で記述されるからです。いろいろな行為の可能性がある場所の空間は大きくなるし、何もないところの空間は小さくなる。やはり身体との関わり合いで、空間というイメージが出来上がっている。もちろん、時々グーグルマップでチェックするというか、きちんとした3次元的な情報で補完するのは必要なのでしょうが、まずはどうやって空間が身体との関わり合いという形で記述されるのかをちょっと考えたいなと思っています。
【ーー】  そういう意味では、コップだったら、まさに手でつかめるサイズの物体だと。円筒形のビルみたいなものと形は同じあっても、ビルではなくてコップだと。そこが重要なんですね。
【尾形】  おっしゃるとおりです。手でつかむという状態がなければ、そもそもコップというラベルはつかない。例えば、移動ロボットにとっては、机の上に何が置いてあっても関係ない。机も上のコップもまとめて、ただの障害物です。我々と同じ表象を持たせなくてもいい。そういう意味では、ディープラーニングの認識も、世界で動く身体と世界との関わり合いという視点で、捉え直しをしてみたらいいのではないかなと思っています。いま、私のホームページにいろいろ貼ってあるデモの背景にある考え方です。
【ーー】  画像認識にせよ、自然言語処理にせよ、やはり身体性と最終的には結びつけないといけないだろうと。
【尾形】  ええ。そう思っています、私の立場では。
【ーー】  近い将来、そういうアプローチが必要になってきて、本格的に拡張されていくだろうと。
【尾形】  そのとおりですね。
【ーー】  逆に言えば、いまのままのやり方で使おうとした場合には、注意が必要だということでしょうか。
【尾形】  そうですね。現在の機械学習は「人が教えていない未学習な対象でも対応できます」というコンテクストで使うので、対応できる間は良いですが、どのように間違えるかは予測できない。間違えた後なら、どういう表現が原因かをある程度は解析することはできます。しかし、事前に予測することは不可能。”最適な”学習のさせ方を人間が本当に理解することは多分できない。そういう意味で、できるだけ我々、人間に近い学習のモデルを考えるべきではないかと思っています。
 ただ、そうなったときに、モデルが僕らと同じような錯覚をしてくれるとか、間違い方をしてくれるかどうか、ということを同時に検証しなくちゃいけなくて、それが「認知発達ロボティクス」と呼ばれる分野です。学習させたロボットが僕らと同じような学習プロセスを通して、行動を獲得していくのだろうかということを、赤ちゃんの学習と比較していく。こういう分野もあるということですね。
【ーー】  やはり、きちんとやろうとすると、必然的に身体性が必要になって、実際にロボットを作って、実際に現実世界で動かしてという話になっていくと。
【尾形】  そうですね。もちろん抽象的な身体モデルを作って、仮想世界でインタラクションの議論をする人工生命などの分野もあります。シミュレーションの方が手っ取り早いこともある。ただ程よい抽象的な身体の設計が難しい。私の場合、応用という欲も少しあるので実ロボットを作ります。いずれにしても、身体を意識したモデルを使うことが大事なんじゃないかと思います。

その1
その3に続く
その4