人工知能の原理的課題
【−-】 今のお話は、現在の人工知能の課題という話でもあります。事前にいくつか大きな質問をお送りしましたが、現在の人工知能の原理的な課題はどの辺りにあるかということについてはどうお考えでしょうか。
【小野】 僕が思うには、今、第3次AIブームと言われていますけど、何人かのAIの専門家の方に聞いても、原理的には第2次AIブームと変わってないと。その大きな根拠として、ネオコグニトロンというのを福島邦彦先生は1980年代からやっていらっしゃったのですね。それも多層のニューラルネットワークそのものでやっていらっしゃった。今、同僚で近くにいるのですが、AI学会の会長の野田五十樹さんも、学生時代からドクターまで、いわゆる多層ニューラルネットワークを研究されていて、原理的には1980年代と変わってないと。計算機のパワーとメモリーの増大で多層ニューラルネットワークが実現可能になり、さらに学習に使える大量のデータも得られるようになっただけだと言う方が、僕の知り合いでは多いのですね。
「ロボットは東大に入れるか」というプロジェクトを国立情報学研究所の新井さんがやっていて、あれが途中で終わっちゃったのは、AIは「意味」を理解できないとおっしゃっていて、今、そんなことを言うのかって、ちょっとびっくりしたのですね。それはそうでしょうという感想を持っていて、つまり、今、一生懸命やろうとしている人はいますけど、いわゆるシンボル、知識と言ってもいいのかもしれないですが、シンボルとニューラルネットの統合というのは昔からなかなか難しいと言われていて、今も解決してないと思うのですけど、だから人間の言っている「意味」を扱えないというのは、ある種、当たり前なんじゃないかなという気がするんですね。
これもAIの専門家の方がよくおっしゃるのですが、今のディープラーニングは、パターン認識を高速にできるだけだと。突き詰めればそこだけなのですが、ただ、量が質を凌駕するというのはよくあることで、単なるパターンマッチングというか、パターン認識にしても、我々は機械翻訳の性能の飛躍的な向上を目の当たりにしているわけですね。今、かなりの精度で、日本語から英語、英語から日本語とかに翻訳できるようになってきた。先ほどお話ししたとおり、アーキテクチャの本質は変わらない、つまり、AIは「意味」を理解できないというのは変わらないのですけれども、データ量と計算機パワーであたかも「意味」や「文脈」が理解されているかのような機械翻訳が可能になったというのは、当然、第3次AIブームの非常に大きなインパクトだと、僕は思っています。
僕の個人的な予測ですが、今のディープニューラルネットは、今後、ライブラリ化されて使われるようになると思うのですね。すごいパワーを持っているのは確かだし、使い物になるのは確かなので。最近だと画像処理でもOpenCVというソフトウエアのライブラリがありますし、もっと古くまで遡ると、昔、知的なエディタ、Emacsのようなエディタをうまく作ることはAIの研究の1つでした。つまり、どこで改行してハイフンはどうするのかというような処理も含めると結構複雑なものなので、僕らの若いときはEmacs LISPが書ける人は偉いみたいなのもあったのですが、今はそういうエディタの研究をやっている人はAIの分野ではほとんどいません。コンパイラなんかもそうですよね。コンパイラも、昔はAIの一部と言われていたのが、もう、ほぼライブラリ化されて、そこはもう研究テーマじゃなくなったという感じです。
先ほどお話しした画像処理に関するOpenCVというものがありますが、顔認識や人の認識は、昔は重要な研究テーマだったのですが、もうライブラリ化されていて、プログラムにライブラリを呼んでくれば顔認識とか人物の認識がすぐできるようになる。中身は分からない人が多いのですが、同じようにディープラーニングもライブラリ化されて関数としてプログラムの中に読み込んで使って、その上の高次な処理を人間が設計する。結局、そういうことなのかなあと。
【−-】 なるほど。今、統計ソフトのRなどで、回帰分析やクラスター分析のパッケージを読み込んで使うのと同じような感覚で、画像認識なり、機械翻訳なりも使われるようになると。
【小野】 それでいいと思うのです。最低限、何をやっているかを人間に分からせてくれれば、あとはライブラリ化してプログラムに読み込んで使って、そのライブラリをベースに新しいことを僕らがやっていけばいいのではないかというふうに、僕は個人的には思っています。
【−-】 他方で、先ほどお話に出てきた機械翻訳が、本当の意味では「意味」を理解していないのだけれども、大量のデータに依拠して結果的には翻訳がうまくできているということだとすると、あるとき予想もしない変な結果が出るという可能性は常にあるかもしれません。あるいは、少なくとも人が翻訳しているのとは違うような間違いのパターンが出るかもしれません。
【小野】 おっしゃるとおりですね。昔、AIの世界で「中国語の部屋」というのがよく議論になって、まさしくそれですよね。「中国語の部屋」で問題とされていたのは、部屋の中でやっていることは、今のディープラーニングと同じように意味を考えずに形式的な操作によって翻訳していて、アウトプットとしてはあたかも意味が分かったようなものが出てくるということです。その「中国語の部屋」の中に果たして知性とか知能があるのかという議論は延々と哲学の方もなさっている。それと同じ議論になるのかなというふうに思いますね。
【−-】 量で質を凌駕している、何だかよく分からないけれども、圧倒的な量でうまくいってしまっているのだということは、ある程度注意しておかないといけないわけですね。
【小野】 どこかで破綻する可能性はあるように思うのですが、ただ、具体的にどこが破綻するのか分からないぐらいの翻訳のレベルになっていますよね。
【−-】 どうやっているのかという中身が分からないと、結局、変なことが起こるのかどうかも分かりませんね。
【小野】 おっしゃるとおりですね。
【−-】 そういう意味では、これはできないだろうとか、そういうことが明確に何か言えるという形ではもはやないのかもしれませんね。
【小野】 そうですね。先ほどの「ロボットは東大に入れるか」プロジェクトで新井さんが取り上げている問題があります。これは英語の問題らしいのですが、この問題が解けないので無理だと思ったという例の一つらしいのですが。Aさんが「あと2~3分歩けば本屋に着くよ」、Bさんが「待って、 」、Aさんが「ありがとう。いつもなるんだ」と。この空白の部分に入るものを下の選択肢の中から選べという問題です。英語の問題を日本語に訳したらしいのですが、AIの答えは①番「待って。長いこと歩いたよ」だったそうです。次の発話「ありがとう。いつもなるんだ」というのは、意味が成立しませんが、東ロボくんは①番と答えるのですね。これ、人間だと当然、④番「待って。靴ひもがほどけているよ」になりますね。先ほどお話ししたとおり、「常識」とか「意味」みたいなものがないと、④番を選ぶことはできないだろうという例なのですね。ですから、機械翻訳で穴埋めをどういうふうにするかはよく分かりませんが、これは多分できないところで、「常識」とか「意味」が関わる問題は解けないという実例かなというふうに思うのですね。僕らのHAI・HRIだと、現実世界に行ってロボットと人の対話で今みたいな環境になったときには、多分破綻する。「靴ひもがほどけているよ」という辺りは理解できないところが出てくるのかなあというふうに思うのですね。
【−-】 我々人間であれば、靴を履いて行動して、靴ひもがほどけて困ったという経験を誰しもしているので自然と分かることですが、古典的なAIだったら、人間は靴を履くとか、靴ひもというのはたまにほどけるとか、そういう知識を与えようとするわけですが、多分、それでもきりがなくて、うまくいかないわけですね。
【小野】 ええ。古くは「フレーム問題」と言われて、そういうふうなものを全部書き尽くすということはほぼ不可能なのですが、ただ、人間も全てを経験しているわけでは当然なくて、そこが難しいところですよね。限られた経験だけど、一般化もできているところがあるのでしょうかね。
【−-】 そうですね。こういった例が致命的な結果につながらないように注意は常に必要なわけですね。
【小野】 だと思うのですけど、ただ、どういうときに致命的になるのか。今の靴ひもぐらいだったらいいのですけど。
【−-】 そういう意味では、どういう場合にこういったケースが深刻化するのかも、我々には予想できることでもないから、あり得るというのを取りあえず注意しておくぐらいの形になるのでしょうか。
【小野】 おっしゃるとおりですね。「常識」だけじゃなく、「感性」も絡むようなことっていうのは破綻するのじゃないかなという気はしますね。ですから、英語翻訳、今、DeepLなんかはすごい能力ですけど、論文は、基本的にロジカルで、多くの場合は用語の定義がその論文内で閉じた形で書かれているので、破綻することはそんなにないのかなあという気はしますが、もうちょっと「感性」が絡んだり、先ほどのは「常識」ですけど、そういうものが絡んでくるときはほぼ100%近く破綻してしまうような気がしますね。
【−-】 そういう意味では、ごく普通の日常会話こそ、一番難しいということになりますね。
【小野】 難しいですよね。僕自身も英語はあまりうまくないですけど、国際会議とかの発表とか質疑は何とかこなすにしても、バンケットとかの英語はなかなか、我々には厳しい。
【−-】 店に行って普通に街の人といろいろやり取りすることのほうがよほど難しいというのはありますね。
【小野】 難しいですよね。それに近いところはあるのかもしれないですね。論文の世界では閉じているけれども、実世界に出るとかなり破綻することがある。それこそが僕らのHAI・HRIのやるべきところなので、結構ハードルが高いなという気はしています。
【−-】 なるほど。そういう意味では、単純な画像認識などよりも、はるかにハードルが高そうですね。
【小野】 そうですね。また少し話が逸れるのですけど、「學天則」ってご存じですか。西村真琴先生がロボットを創られて、これはネットで検索するとどんなロボットかというのが出てくるのですが、西村先生はもともと生物学者で、北大にもいらっしゃったらしいのですけど、マリモなどを研究するような生物学者だったのですが、その先生がロボットを創られていたのですけれども、西村先生いわく、人間の代わりに働くようなロボットは駄目だと。カレル・チャペックは、人間の代わりに働くものとしてロボットという言葉を戯曲で使って、それがロボットの始まりと言われているのですが、西村先生はロボットを「芸術的人造人間」と呼んでいらっしゃっていて、鳥の鳴き声を聞いてほほ笑むような人造人間を創りたいとおっしゃっている。つまり、何を言いたいかといいますと、先ほどの感性というものが今は非常に欠けているのではないかということで、北海道新聞の記事に西村真琴先生の「學天則」に関するコメントを書いてくれと言われて、僕が書いたのは、「美しいものをめでる審美の感覚や意味を読み取ること、主観を持つこと、これはまさに現代に至ってもロボットができないでいることです。むしろAIが人類の知をしのぐ時代が来れば、私たちに最後に残されたのは創造性とも言われています。西村博士を知ると、AI時代に向けたメッセージを「學天則」は既に持っていたような気がします」ということですが、つまり、今のAIもできなくて、西村先生が「學天則」というロボットで目指したものが、僕の解釈ではこのようなことで、これらが解決しないと、「意味」とか、「常識」とか、いわゆる「感性」みたいなものが理解できない。そういうものをロボットに持たせる必要があるのか、ロボットはツールで人の役に立てばいいだけだ、ここまでは考える必要がないという考え方もあるかと思うのですが、ただ、本当に人間の知能を再現するとか、人間の知能に近いものを創る、もしくは人間の知能を理解するということを考えると、やはりこういう視点がないと駄目なのかなと。西村先生がこういうロボットを創っていたのは何十年も前で、さらに、西村先生は工学者ではなくて生物学者だというのが面白いなというので、ちょっと引用させていただきました。
【−-】 そういう意味では、人間と同じような意味で感性なり常識なりを備えたようなAIやロボットがつくれるのかということに関して言えば、第2次ブームのときの課題はそのまま残されていると。
【小野】 おっしゃるとおりです。
【−-】 そこまで行かなくてもできることに関してはかなり進んだけれども、ということですね。
【小野】 そうですね。もしかしたらそれでいいのかもしれないですね、工学的には。翻訳も、論文を翻訳してくれたら、僕らは助かるし。感性とか、主観とか、意味みたいなものは人間だけが持っていて、それでいいと言えば、工学的には僕もいいような気がしますけれども、サイエンスとしてそこでとどまるのはいいのか、どうなのかというのは、僕もよく分からないですね。その辺は、哲学の先生に深い議論をしていただいて、こちらに教えていただきたいぐらいの感じです。
【−-】 そこは非常に悩ましいところで、哲学者もこれまで、感性とか、主観とか、意味とか、常識というのはそんな単純には捉えられないよと言うだけで、それらについての理論を積極的に提示しているかというと、そうでもないところがあります。できないよという批判をするところは声が大きいのですけれども、積極的なヒントを提供するということを、むしろこれからはちゃんとやっていかないといけませんね。
【小野】 ぜひ、お願いいたします。
人文科学者への期待とお薦めの文献
【−-】 事前にお送りした質問の四つ目の、哲学者、人文科学者に期待することは、まさにそういったところになるでしょうか。
【小野】 そうですね。実際にどう解決するかよりも、見通しといいますか、方向性をぜひ教えていただければ。
【−-】 あるいは、人文科学者が常識とか感性とか意味について、どう考えてきたのか、どう考えているのかということですね、まずは。
【小野】 そうですね。
【−-】 そこに関しては、きちんと有用な情報提供ができるように頑張らないといけません。
最後に、人工知能あるいはロボットに関する問題を考える上で参考になるような文献を、研究でも、あるいはフィクションでも結構ですので、もし何かあれば、教えていただけますでしょうか。
【小野】 先ほどお話ししたのですけど、今、一緒に取り組ませていただいているプロジェクション・サイエンスというのが今後を見通す上で非常に重要なのかなというふうに、僕は思っているのですね。ですから、外界のものに意味を付与するメカニズムは、やはり知りたいなと。『プロジェクション・サイエンス』という本があって、近代科学社から出ているのですが、主に鈴木宏昭さんの最初の問題提起だけ読まれてもいいのかなあと思います。本質的な議論なのですが、先ほどお話ししましたけど、哲学の方も、大森荘蔵先生とかマイケル・ポランニーなんかも近いことはおっしゃっているし、これも話の途中で出ましたが、プレディクティブ・コーディングみたいな考えは計算論的には近いのかもしれません。僕は、今後を考える上で「プロジェクション」という考えは非常に重要なのかなあと思っています。
【−-】 HAIを考える上でもヒントになるテーマ、必要なテーマだということですね。
【小野】 はい。これは青学の鈴木さんが言ってくださったのですけど、今日、少しだけご説明したITACOエージェントというのは、プロジェクションを考えるときのヒントになったと。つまり、ITACOというのは、あるメディアから違うところにエージェント・マイグレーションという形でネットワークを経由して「飛ぶ」のですけれども、それが、鈴木さん流に言うと、プロジェクションという、ある種、意味と言っていいのかどうか分からないのですが、意味をある人工物に「飛ばす」というようなプロジェクションのヒントになったとおっしゃってくださって、そういうものなのかなと、非常に面白かったなと。
【−-】 これで用意した質問もお答えいただきましたので、インタビューは以上ということにしたいと思います。どうもありがとうございました。
【小野】 こちらこそ、ありがとうございました。
2022年1月6日、Zoomによるオンラインインタビュー
聞き手:鈴木貴之