大塚淳先生インタビュー(その2)

哲学から見た深層学習の意義

【——】  つぎの質問は、話が随分進んでしまいますが、そういった哲学から見た統計学の大きな枠組みの中で、ご著書の後半では、深層学習、統計的因果モデル、統計的な因果推論といった比較的新しい手法についてもかなり詳しく検討されています。われわれのプロジェクトにとっては、そのなかでとくに深層学習の話が特に関係してくるわけですが、統計学の哲学、あるいはさらに広く、認識論や広い意味での科学哲学の観点から見て、深層学習の興味深い点、哲学的に特に面白い点というのは、どの辺になるでしょうか。
【大塚】  私が考える深層学習の興味深い点は、複数あるのですが、主に2点ありまして、それは局所的な哲学的な関心と、もうちょっと大局的で、どちらかといえば文化論的な関心です。まず最初に、局所的な、いわゆる哲学のトピックとしての関心を持っているのは、いわゆる表現学習に関連する分野です。深層学習というのは、データで訓練した大きいモデル使って予測や分類を行うわけですが、すごくざっくりいうと機械がデータから勝手に物事を認識できるようになるわけですね。例えば、画面に映っているピクセルの情報から、これは自動車だなとか、これは人だなとか、そういうふうなことを学習するわけです。それも単に対象をラベリングできるだけじゃなくて、最近の手法では、それをパラメーターによって調節可能な形で学習できる。つまり、例えば人の顔を学習させると、内部のパラメーターの空間をいじることによって、髪の毛を黒髪にしたりブロンドにしたり、あるいは、女性を男性にしたり逆にしたり、サングラスをかけたりかけなかったり、そうした調整ができる。これを表現の学習といいます。つまり単に、物をひとかたまりで捉えているのではなく、様々な可変的な特徴をもった複合体として学習するわけです。このように学習される表現というのはつまり、哲学者が概念と言ってきたものに相当すると思うんですね。車の概念であったり、人の顔の概念であったり。人の顔の概念を持っている人は、人の顔には、例えば、目・鼻・口・頭部などがあって、それらがある程度独立のコンポーネントとして存在しているということを理解しているわけですけれども、機械学習はそうしたコンポーネントを表現として発見できている。そうした表現の性質は、パラメーター空間の数理的・幾何学的な性質として分析することができるわけですが、これは翻って我々の概念というのはどういった構造を備えてなければならないのかという、哲学的な課題に何らかのヒントを与えてくれるんじゃないかという期待を持っています。哲学における概念研究というのは、それこそイデア論に始まって、アリストテレスの範疇論、中世の普遍論争、イギリス経験論における「観念」の理論、ウィトゲンシュタインの家族的類縁性等々、本当に古くからの研究の蓄積があるところですので、そうした伝統に対して、深層学習の最近の研究はどのような含意を持つのかというのは、非常に哲学的な関心があると思っております。これが取りあえず1点目です。
【——】  その点について、先にもう少し詳しく伺いたいと思います。今の話に関しては、例えば、一番素朴な話だと、概念は定義から成り立っているとか、もう少し現実的な見方だったらプロトタイプみたいなものだとか、いろいろな提案がありますが、それらとはまた違う、概念というのはこういうものだということの、しかもきちんと数理的に表現できるモデルが深層学習ネットワークに見いだせるんじゃないかということですね。
【大塚】  そういうことです。哲学にはそうした概念についての理論がいろいろあるわけですけれども、それぞれの理論の一種のモデルを与えてくれる、あるいはそこから新たな理論を作れるんじゃないか、という期待があるということです。
【——】  深層ニューラルネットワークがやっていることというのは、人間と全く同じではないけれども、人間の概念形成と抽象的なレベルではある程度似たような、あるいは人間の概念形成のモデルになるようなことがニューラルネットで見いだせるんじゃないかという感じでしょうか。
【大塚】  そうですね。それはすごくいい御質問で、そもそも人間がどう物事を認識しているのかというのは、実は私としてはそんなに関心はない。それは決してつまらない問題という意味ではなくて、私はあまりよく分からないという、それだけなんですけれども、つまり、ウエットな脳においてどういうふうに我々の計算とか思考が実装されているのかというのは一つ重要な問題としてあると思うのですが、これは恐らく脳科学とか神経科学、認知科学とか、そちらのほうの問題であって、もちろんそこにも哲学的な、それこそ鈴木さんがやっていらっしゃるような形で問題点があると思うのですが、少なくとも私の出る幕ではないという。私はどちらかというと、それこそDavid Marrの三つのレベルだったらもうちょっと上のレベルの話、そもそも概念というのはどのような理論的存在物なんだろうかとか、そういったことに関心があります。強いて例をあげれば「思考」についてのチューリングの仮説のような、ある程度抽象化されたレベルでの話なのかなというふうに思っています。
 過去、哲学者が概念のあり方を論じてきたときに、多分、彼らは脳の構造とかはあまり考えてなかったと思います。デカルトの本には、有名な眼球と松果腺の絵などもあるので、脳も一応考えたのかもしれないですが、ウィトゲンシュタインが家族的類縁性の話をするとき、それがどのように脳でプロセスされているかを考えていたわけではないですよね。むしろ概念というのはどういうふうに理論化すべきなのか、といったところに関心があったはずで、私の関心もそれに近いです。だから、人間の脳と深層モデルは実装(インプリメンテーション)においては全然違うものでしょうが、それでも抽象的なレベルでは我々の概念の概念化みたいなことを機械から学べることもあるんじゃないかなというふうに思っています。
【——】  仮に人間の脳における概念の実装と深層ニューラルネットワークにおける実装は何らかの形で違うとしても、より抽象的なレベルでは、より抽象的な構造、在り方としては共通な何かがあって、むしろそのレベルを解明するのが重要だと。
【大塚】  そうですね。
【——】  そしてその手がかりは、ニューラルネットワークにあるのではないかと。
【大塚】  そうですね、我々は概念というものをどういうものとして捉えるべきなのかということについての、一つのヒントを与えてくれるのではないかという期待をしております。
【——】  そうですね。今までの哲学だったら、概念を獲得するなり操作するなりできるのは、人間とせいぜいプラスアルファ少数の生物ぐらいということが恐らく前提だったかもしれないですが、深層ニューラルネットワークが概念をそれなりの仕方で形成できるというようなことに目を向けることで、より抽象的なレベルで概念一般の理論というのを捉えることは、むしろ見通しがよくなるのかもしれないですね。人間に固有の事情を捨象できるという意味で。
【大塚】  あと深層学習の興味深い点は、表現についての様々な数理的なモデルが提案・研究されている点ですね。その結果として「概念の数理モデル」のようなものを考えるためのヒントを与えてくれるのではないかと思っています。あくまで単なる希望的憶測にすぎませんが。
【——】  これはこれからやっていくプロジェクトになるわけですね。
【大塚】  そうですね。それは今後少しずつ考えていければなと思っています。

【——】  話を戻して、統計学に対するもう一つの大きい興味についても伺いたいと思います。
【大塚】  もう一つのほうは、科学一般に対する影響についての関心なのですが、今後深層学習によって、科学的な推論のあり方がどのように変わっていくのだろうか、というようなことに興味があります。非常に大雑把で通俗的な理解ではありますが、近代科学というのは、それまでアリストテレス的な、対象の内の本性に根拠を求める説明に替えて、ガリレオ的な、客観的な法則からの演繹による説明を出発点に据えてきたわけです。つまり物の本性ではなく、その間の普遍的関係性、それはケプラーの3法則かもしれないし、万有引力かもしれないけれども、とにかくそういう法則に従って事物を説明する。科学はそういった客観的な法則を発見して、そこからの演繹によって物事を説明するのだ、という理念があったと思うんですね。
 現代の統計学の発展においても、そうした根本原理からの理解、という理念は大きな役割を果たしてきました。例えば、これはベイズでも古典統計でもそうですけれども、具体的な統計的手法の有効性や誤差といったものは、特定の理論からしっかりと計算して導くことができるのが筋なわけです。サポートベクターマシンとかでも、最大これぐらいのリスクがありますよみたいなことは、理論的に導き出せて、そうした理論的保証をもとに、実際の実装が進んできたわけです。
 一方、深層学習の研究ではそうした演繹的な理解はそれほど重要視されていないように見えます。グラウンドセオリーからの演繹というよりも、色々なアルゴリズムを作って、ネットワークを組んでみて、こういうふうな機構を入れてみると、すごいうまくいくと。でもなんでうまくいって、いつうまくいかなくなるかは、あんまりよく分からない。もちろん全然わかってないわけじゃなくて、そういうことを研究していらっしゃる方が沢山いらっしゃって、大変興味深い結果が出ているわけですけれども、でも大方ではポストホックな形で、最初に原理があってそこから演繹するというよりも、実際にうまくいっているものがあって、その機序を理解するというふうな形で進んでいるわけですね。そのような次第で、深層学習モデルの評価も、理論によって担保されるというよりも、むしろ個別的なマシンの機構とか工夫、例えばトランスフォーマーであるとか、畳み込みであるとか、そうした個別的要素技術に帰されるようになっている。その結果、これは私の著書でも書いたところですけれども、深層学習モデルの「良さ」というのは、ある種マシンに相対的に評価されているという現状があると思います。
 で何が言いたいかというと、これって結構、アリストテレス的だよなと思うんです。つまり推論の根拠や良さを、推論を行うマシンの本性や性質によって担保するというのは、非常に古代的な発想なわけです。別にそれをくさす意図は全くないのですが、ここには第一法則からの演繹という近代の理念から、個別的な性質に基づくパフォーマンスの評価という古代的な発想への退行、というとあまり響きがよくないかもしれませんが、少なくともシフトがあるように思えて、これは今後の科学一般の在り方にどのように影響を及ぼしていくのかというのは、非常に関心があるところです。つまり、今まで基本的に科学というのはガリレオ的な客観的法則からの演繹的理解を旨とする、という了解が少なくとも理念的にはあった。それが、よく詳細は分からないけれども、とにかくこのマシンは優秀なマシンであって、このマシンがこういう結論を出しているからそうなんだろうみたいな判断が、今後科学的文脈でも受け入れられていくのではないかと。そうなったときに、科学の在り方というか、我々の科学観みたいなものも変わってこざるを得ないだろうというふうに思っていまして、それは科学哲学的にも興味深いことだと思っています。
【——】  今のお話は、こういう言い方をすると科学者と工学者に怒られてしまうかもしれませんが、深層ネットワークは、理論的な科学というよりは、むしろエンジニアリング的にこうやってみたらうまくいったというあり方をしていて、深層ネットワークをモデルとして科学がそのような手法を使うようになると、科学も、理論的というよりはむしろエンジニアリング的にやってみたらうまくいったというような側面がひょっとしたら強まっていくのかもしれないということですね。
【大塚】  おっしゃるとおりだと思います。工学・医学的なというか、あるいは遡れば錬金術的な伝統というか、こう言ったらさらに怒られるかもしれませんけれども、でももともとは錬金術と科学というのはそんなに別物ではなくて、ニュートンも物理学と平行して錬金術にもかなり力を入れて研究をしたりと、今はともかく当時は錬金術も真面目な学的探求だったわけです。確かに錬金術は廃れていって、いわゆる科学的な理解があって初めてそれが実際に工学的に応用できるというようなパラダイムが続いたわけですけれども、決して、工学的な伝統はなくなったわけではなくて、綿々とあったわけですね。特に、生物学、化学、医学の分野では特にそうで、それは鈴木さんがおっしゃるようなエンジニアリングという形で20世紀では非常に大きくなっていくわけですけれども、それが少しずつ科学のほうを侵食していったと言ったら言葉が変かもしれませんが、そんな印象はありますね。
【——】  逆に言うと、ひょっとしたら近代科学のほうが例外的な在り方をしていた。トップダウンで全て原理を説明した上で応用もできるという在り方のほうが、ひょっとしたらすごく特殊なのかもしれないということでしょうか。
【大塚】  それはあり得ると思います。ただ哲学者というのはそういうのが好きなんですね。プラトン以降、トップダウンで確実に理解していくという理念がすごい好きなので、そこばかりを強調して、科学でもそういう、公理的な側面にばかり目を向けていたという節がありますけれども、そうじゃない側面が今後ますます重要になってくるかもしれないというのは、科学哲学にとってもチャレンジかと思います。
【——】  そういう公理的な古典的科学観からすると、深層ニューラルネットワークに関しては、大塚さんも書かれていますが、非常に一般的なレベルでは、結局これはパラメーターがすごくたくさんある非常に複雑な関数で、表現力が非常に高いのでいろんなものに使えるという、すごく大ざっぱな説明はあるわけですが、それだけでは不十分で、こういう課題だったら具体的にこういうモデルにしたらうまくいくはずだし、別の課題だったらもうちょっと違う仕方で利用しないといけないしということがある程度ちゃんとトップダウンに導けて、ちゃんと予想どおりにパフォーマンスが出せてという在り方であってほしいわけですね。従来の科学観からすると。
【大塚】  そうですね。何か、グラウンドセオリーは欲しい、ということになるのだと思います。例えば、エラーバウンドがあったり、こういうふうなことを使ったらどれぐらいの誤差が出るのかということを、例えば、そのデータを無限に増やしたら云々とか、そういうことが理論的に導けてきたのが統計学の理論だったわけですけれども、深層学習にはあまりそのような形での理論はないし、ひょっとするとあまり必要性が感じられていないのかもという気すらします。もちろん、いろんな方向性の研究はあると思いますし、あってしかるべきだと思いますけど、全体の流れとしては、そういう原理的な理解というのはそこまで強調されてないのかなという印象はあります。
【——】  そうですね。少なくとも先立ってなきゃいけないとは誰も思ってないでしょうし、後づけ的にでさえ、実際のAIを開発している人にとっては別になくてもいいということなのかもしれないですね。
【大塚】  そんな印象を受けます。統計学だと、そういうふうな形のペーパーが統計学のジャーナルに載るというのはあんまりないのではないか。
【——】  こういうモデルをつくったらこういうパフォーマンスが出ましたというだけでは、話は終わらないと。
【大塚】  よく分からないけどうまくいきますというのはあんまり歓迎されないんじゃないかなと思うと、面白い対比かなというふうに思います。
【——】  そういう意味では、数理統計モデルとして見たら、なぜこのモデルだとこのパフォーマンスが出るのかというストーリー、説明がないと気持ち悪いはずなわけですね。
【大塚】  そう思ってくれている方もいるんじゃないかなと思いますけど、分からないです。そんなことはもういいんだよというふうに、皆さん思っているのか。どうなんでしょうね。そこら辺は聞きたいです。
【——】  深層ニューラルネットワークに関して、ちゃんと原理を解明するんだという方向に行くのか、よく分からないけどパフォーマンスが出るからいいやという形で使っていくようになるのか、これからどっちに行くのかということですね。
【大塚】  そうですね。そこは関心があるところですね。
【——】  その点に関しては、大塚さんとしては、見込み、見通しというのは何かありますでしょうか。
【大塚】  私は全然、専門家でも何でもないので、無責任なことしか言えませんが、工学的な進展というのは黙っていても進んでいくのではないでしょうか。とにかく理論的なバックグラウンドがなかったとしても、それによって研究がそれほど妨げられるような気はあまりしない。少なくとも過去10年の流れを見るとそんな気がします。
 一方で、そういうことに関心を持つ人というのは必ず出てくるし、現にたくさんいらっしゃるので、それを何とか理解したいという研究は今後も出続けるだろうなと思います。そこで一つブレークスルーが起こって、私のグラウンドセオリーで全て説明できるようになりますみたいなことが出てくるかどうかというのは本当に分からないところではありますけれども、そういう研究は、量や規模はどうあれ、続くのではないかと思います。
【——】  ただ、そういう動きは、グラウンドセオリーが見つからないままにずっと使い続けるとしたら、それは過去100年あるいは400年ぐらいの科学の在り方とは随分違うことになってくるということですね。
【大塚】  なってくるんじゃないかなあというふうに思います。特に最近は、深層学習が様々な科学分野で実際に使われるようになってきているという話を聞きますので、それによって科学全体の在り方も少しずつ変わっていきそうだなという気はしています。
【——】  ありがとうございます。

その3に続く

その1
その4