小町守先生インタビュー（その4）

自然言語処理研究の課題（続き）

【ーー】　　現状では、パフォーマンスが上がるという点では機械翻訳が先行していますが、日本語で人間と会話を続けるというようなことであったり、あるいは言葉に対してロボットが行動すること、そういうものも、時間はかかるかもしれないけど、基本的には同じやり方でやれるだろうということですね。
【小町】　　そう思います。はい。
【ーー】　　少なくともそこまではやれるだろうと。
【小町】　　そうですね。翻訳でも難しいのは、例えば文を超えたような翻訳はまだ難しいんですけども、これは、結局文を超えたデータというものがそもそも対訳データとしてあんまりないという問題で、データが少ないというのが一番大きな問題ですね。だから、前の文脈によって、この文を入れたときの翻訳が変わるというのを内部状態には持っているようなものと思えば、やっぱりデータの問題なんですけど、これが難しいと。あとは、常識的な知識がないと翻訳できないような文も、現在の文単位の対訳データに依存する学習方法では難しいです。
　ただ、対話に関しても同じような問題はあるんですけども、対話はちょっとトリッキーなのは、入力とちょっと外れたことを言っていてもいいことがあったりする点です。例えば「そうですね」という返事を返して、特に何も言っていないんだけど、相づちとしては別にいいから次に何か言ってくれて話が続く、みたいなこともあるので。常に「そうですね」ばっかり言っているようなシステムは、逆にあんまり意味がないんですけど。そういうふうに、タスクによっては、翻訳の場合には入力と意味が違う文を返したらアウトだけど、対話の場合には流暢な出力をふわっと返していれば人間はオーケーということはあり得るというところは多分違うタスクで、それぞれにちょっと別の難しさはあると思いますが、対話はかなりできるような気がしています。相手がロボットだと思って、何かあばいてやろうというふうにする人まで防御するというのは難しいかもしれないですけど、そういう前提なく、ちゃんと会話できると思って会話すれば普通にできるというようなレベルでは、実現可能だと思っています。
【ーー】　　とくに、ある程度定型化されたようなやりとりであれば、いまのSiriよりももう少し自然にやれるぐらいのところであれば、それほど時間もかからずに、かなり性能が上がるんじゃないかと。
【小町】　　はい。今もちょうど LINE が作っている HyperCLOVA というのを使った対話システムが去年の12月に雑談対話コンペティションで1位を取ったんですけど、出力見ると、これは結構できているなと思います。英語の巨大言語モデルはデータが多いのでもっと流暢なのが出せるんですけど、日本語でも、大規模なデータでむっちゃでっかいニューラルネットワークを頑張って学習すればこんなにできるんだ、というふうに思います。データの量の問題と、そのデータを詰め込むことができる、ニューラルネットワークのサイズの問題ですね。
　ただ、こんなふうにデータとモデルを大きくすればできるようになるって、みんなそれまで思っていなかったんですよ。2020年に、データを増やして、モデルのサイズを大きくして、計算時間を増やせば、巨大言語モデルは性能が上がりますよ、という実験結果が報告されたんですけど、それまでは、みんなそんなこと思っていなかったので、そこで研究の仕方というか開発の仕方が変わったなって気がしますね。今は、持たざるものはできないですね。お金持っている人しか、そういうものをつくれないです。
【ーー】　　ちなみに、そういうアプローチに対して、それは邪道だというような批判をする人はいるのでしょうか。つまり、力業、量で解決しているだけだと。
【小町】　　邪道だと言っている人は多分いないと思うんですけど、大学ではなかなかできない研究だなと思っている人は、大学の人は多いんじゃないかなと思います。企業の人は、逆にそれがお金になるから、ほかの企業に無償で出したりする動機は特にないんですよね。2番手以降の企業であれば、1番手を引きずり下ろすために、あえて無償で出して市場を壊すという戦略はあり得ますが。巨大言語モデルの一つである GPT を作った OpenAI という会社も、Microsoftが GPT を使う権利を買いましたし、LINE も企業向けにはお金を普通に取るんだと思います。お金になる技術だということですね。
【ーー】　　大量のデータと圧倒的な計算で解決できるというのは不思議ではあるけれども、実際にパフォーマンスが上がるのだから、事実として受け入れるしかないということですね。
【小町】　　そうなんです。ニューラル以前では、データを増やしていけば、データの量に、横軸、logですけど、logに線形に性能が上がるということは知られていました。一方、データの量以外には、そこまで明確には性能に直結するファクターは知られていませんでした。だから、データも log スケールだと集めるのは大変なので、もうこれ以上データ増やしてもそんな上がんないなと判断したら、ここでやめようか、みたいな感じになっていたんですけど、ニューラルネットワークの分野では、どうもデータだけではなくネットワークのサイズと計算時間も関係しているようで、最初から巨大なネットワークで根気強く学習をすると、いろんなタスクであるところから一気にぐわーっと性能が上がる場合があるということが分かったんです。何でかは分かりませんけど。
　なので、それまでと何か開発の仕方が変わったかと言われると、そこは大きく変わりました。だから、ここでうまくいかないというのも、たまたま今使っている手元のモデルのサイズが小さいからできないのかもな、あるいは計算資源が足りないのかもな、と思ったりします。
【ーー】　　理論的なレベルでも、なぜデータサイズをでかくするとパフォーマンスが上がるのかは、まだ完全に分かっているわけではないわけですね。
【小町】　　分かっているわけではないですね。経験則的な話で、何十というタスクで、データのサイズ、モデルのサイズ、計算時間を変えてそれぞれのタスクの精度をプロットすると、いろんなタスクで似たようなS字曲線が。
【ーー】　　似たようなパターンになると。
【小町】　　はい。科学史でも、理論じゃなく実験のほうが先行して、理論がよく分かっていないけど、後から理論的な説明がつくというのはたくさん例がありますけど、それと同じようなことが今、ディープラーニングで起きているんだとは思っています。
【ーー】　　なるほど。それはそれで、ディープラーニングの数学的な原理を分析する人にとっては面白いテーマになるわけですね。
【小町】　　そうですね。ディープラーニングの数理的な構造を研究するとか、何かいろんなことやっている人がいますけど。
【ーー】　　じつは駒場にも今泉さんという若い方がいらっしゃって、そういうことを研究されていますね。
【小町】　　そうなんですよ。やっぱり超高次元の話なので、人間の直感が働かないんですよね。ぼくもドクターの頃は高次元の世界の話をやっていたんですけど、Word2Vecも2次元とか低次元に可視化されれば分かるんですけど、高次元のままだとパラメータ数が多過ぎて、我々の知覚できるようなものではありません。
【ーー】　　他方で、本当にパフォーマンスが上がるレベルまで持っていくには相当なマシンパワーが必要だとなってくると、誰でもできる研究ではない、特に大学の研究者にとってはできないレベルの研究になっているというのは、なかなか悩ましいことのようにも思えます。
【小町】　　そうですね。国が挙げてお金出しているとか、あるいは企業でも国家規模ぐらいの費用でやっているとか、そういうところではできると思うんですけど、大学にいる人は、もう企業の人と一緒にやるか、国の研究所に所属してやるとかしかないんじゃないかなと。大きなのはエンジニアリングのサポートというか、分かっている人が中にいるかどうかだと思うんですけど、アメリカだと大学でも、例えばカーネギーメロン大学とかだったら、言語技術研究所というところ単体で100人ぐらいスタッフがいたりして、そういうところはできると思うんですけど、日本は大きな国の研究所といっても、産総研や NICT、NII や理研でそれぞれ数十人ずつですよね。全然太刀打ちできないと思いますね。
【ーー】　　なるほど。そういう意味では、物理学ででかい加速器を使って研究するというのとちょっと似たような状況になっているわけですね。
【小町】　　全くそのとおりです。最近のそういう論文見ても、物理の人たちもこんな感じで、30行とは言わないですけど、著者の名前が何行もばーっと載っているなとか思いながら。あと、有名な論文で、途中でバグに気がついたけれども、学習のコストがかか理すぎるので再学習をやり直してません、みたいなことが書いてあったりします。物理の世界では、一回一回の実験にかかるコストが大き過ぎて、そこの研究設備を持っている人しかできなかったりとかいうのは普通にあると思うんですけど、それと同じようなことが、人工知能の分野でも起きていると思っています。
【ーー】　　そういう意味では、人工知能研究自体が、とくに自然言語処理に関しては、ちょっと研究の在り方が変わりつつあるわけなんですね。
【小町】　　はい。
【ーー】　　1人でプログラムを書いてやるというようなことは、もうまったくできないレベルになってしまっていると。
【小町】　　それはちょっと語弊があって、巨大言語モデルを学習するところは、もう大学の人ができる範疇じゃないんですけど、それを使って何かするというところは、むしろやりやすくなったと思っています。
　なぜかというと、これまでの機械学習のアプローチでは、何か問題を解こうと思ったら、データを集めてきて、人手で分析してみて、機械学習で学習するってやってたんですけど、分かりやすくするためにざっくり言うと数万文必要だったんです。数万文用意するとなると数年がかりです。
　だから、本当に研究者の一生で1つとか2つとかぐらいしかできなかったですし、早いうちに業績が欲しい学生や若手の研究者が取り組みたいと思うようなテーマではなかったんですけど、今は深層学習を使って大規模データで事前学習すれば、微調整と呼ばれる後段の学習に用意するデータは数百文とか数千文でいいんです。ニューラルネットワークが苦手なタスクとかもあるんですけど、大体のものは、もうこれでベースラインができちゃって、それ以上データを増やしても劇的には性能が上がらない。そうすると、データ作るほうもそんなに一生をかけてなくていいんです。1年とか2年とかのスパンでデータを作って研究できるので、そこはむしろやりやすくなったと思っています。
　なので、もう国とか超大企業が、お金かけて時間かけて人手かけて大きなモデルをばーっと一個つくってくれて、あとは、下々の者はそれを使わせていただき、未解決の問題のデータを丹念に分析してやっていく、こういうようなエコシステムは普通に回せると思いますし、むしろやりやすくなっている。
【ーー】　　ある意味、例えば統計ソフトのRを使うのと同じような感じで、それを利用して自分は自分のやりたいプロジェクトに使うというような形になりつつあるわけですね。
【小町】　　そうです。面白い問題を見つけるということが、重要になっているということですね。

哲学への期待

【ーー】　　なるほど。ありがとうございます。事前に用意した質問の残りについても伺いたいと思います。1つは、人文科学者あるいは哲学者に期待したいことです。最近、小町先生も言語哲学者との交流があるようですが…
【小町】　　そうです。元々都立大の言語科学にいらして、最近駒場に移られた藤川さんにお声がけして、家庭教師として参加してもらい、毎月言語哲学に関する教科書の輪読会をやっています。藤川さん以外は企業や大学で自然言語処理の研究開発に携わっている人たちですが、かれこれ2年近くやっているのに欠席者がほぼゼロで、自然言語処理側からも言語哲学に対する期待や憧れがあります。
【ーー】　　科学基礎論学会でもワークショップをしばらく前にやられたということですが、その辺で何か面白い問題が出てきそうかというようなことも含めて、いかがでしょうか。
【小町】　　これは多分どちらの分野にも共通することだと思うんですけど、人工知能関係やっている人はもっと人文系の知識をしっかり勉強したほうがいいなと思っていて。結構、「え、これ知らないの」ということが時々ありますね。
　AIの文脈はあんまり関係ないかもしれないですけど、人工知能学会の学会誌の表紙に、女性型アンドロイドが掃除をする姿の絵を載せて炎上した事件がありましたけど、あれも、編集委員の中にはポリティカルコレクトネスという概念自身も知らなかったという人も普通にいたので。人文系の人は、それを知らないということはあり得ないと思うんですけど。　今、倫理の問題がクローズアップされていますけど、よく言えば無邪気で、悪意はないんですけど、逆に、だからといって知らなくていいよねって話じゃないみたいなのは、感じることがあります。
　逆に、哲学、人文科学者一般にという意味でいうと、プログラミングはトライしてほしいなと思っています。プログラミングに苦手意識がある人がどれぐらいいるのか分からないですけど、若い人はやればできるんじゃないかなと思っています。NAIST に入ったときにも、困ったのは線形代数や微分積分で、離散数学は、そんなに人文系の人は不得意じゃないと思うんですよね。記号の世界なので。プログラミングでもほとんどは順番に読めば理解できるものが多いし、ちょっとしたことであればそれだけでもできることが多いので。　法律なんかもそうですよね。条文を上から見ていって、例外があったらこうするとか、プログラミング言語のコンパイルと同じなんですけど、一個一個ちゃんと見ていって理解するというのをやるという。
【ーー】　　しかも、割と分かりやすいはずだということですね。論理を重視している人にとってはなじみがあるはずだと。
【小町】　　はい。本当言うと、確率や統計、微分・積分みたいなものもできるとよりよいんですけど、プログラミング自身は、自分が頭を使って考えたりしているものを自動化するというだけなので、私のやっていることはクリエーティビティが高過ぎて自動化できませんとか思う人もいるかもしれませんけど、日常生活で繰り返し行う作業の多くは定型作業であることが多いので、自動化しやすいです。逆に言うと、そこを自動化して日常生活を便利にしているのが工学の人なんだという意識を持っていただくと、話しやすいんじゃないかなと思います。
　それこそ昨今の巨大言語モデルはプログラム的には数行書けば動くんですよね。そして、操作はプログラムを書く必要すらなく、プロンプトと呼ばれる指示文を日本語や英語で書くだけ。なので、これを何か自分とは別の世界のことだと思っているのは、多分すごく損失があって。試せばすぐ動くんです。簡単なので、抵抗感なしにやっていただけるといいなと思っています。
【ーー】　　なるほど。そこで試してみると、自分にとっても面白い、理論的な問題や課題も発見できるかもしれないと。
【小町】　　はい。動かしてみると、それこそ想像と違うことが結構あると思うので。やっぱり皆さん――皆さんというかぼくも含めてですけど、人間は自分の身の回りにいる人が普通だと思っちゃうんです。インターネットのデータ、SNSとかでもそうなんですけど、自分と全くつながっていない人が、全然違うことをやっていたりするんですよね。データの分析してみると分かるんですけど、そういう人たちは全部のデータを分け隔てなく分析しないと分からないんですよ。自分の知っている世界の中だけで仕事をするのか、自分の知らないものも受け入れて仕事するのかの違いだと思うんですけど、プログラミングをするというのは、自分の知らない世界のことも受け入れるということで、それは地に足がついた分析をするには大事かなと思っています。
　NAIST 時代に言語学の人と自然言語処理の人の若手の勉強会をやっていたことがあり、その時ぼくはウェブデータを使った研究もしていたんですけど、ある時、言語学の人が Google とか Twitter とか大企業は、データをフィルタリングして隠しているのでけしからん、私は生のデータを全部見たい、ということをおっしゃったんですけど、ぼくは実際に中で見てたので、本当に見たいですかと。ウェブデータはエンジニアが頑張ってフィルタリングしているから、氷山の一角の上澄みはまともに見えるけど、9割はアダルトサイトや有害ワードとかですよって言ったら、「えっ」て絶句されていました。こういう事実、ウェブデータを使う人には常識で、論文もたくさん発表されていますが、なかなか知られていないようです。そういうのが普通にあるので、理想の話と現実のダーティーな世界の話は、両方分かった上で理想の話をしていただくのはいいんですけど、理想の世界の中だけで理想の話をされるのは、工学的な立場からすると、「いや、そうじゃないですよ」と言いたくなります。
【ーー】　　なるほど。ありがとうございます。つぎが最後の質問です。人工知能の問題を考える上で重要な文献、あるいは参考になる文献、学術的なものでもフィクションでも、何かあれば挙げていただけますでしょうか。
【小町】　　人工知能ってわけじゃないんですけど、ちくま学芸文庫で出てるシャノンの『通信の数学的理論』ですね。ぼくはたまたま情報理論という学部3年生向けの授業を首都大に来て担当したんです。それまでは、情報理論の専門家でも何でもないので詳しくなかったんですが、授業でやるからしようがないかなと思って勉強するつもりでいろいろ読んでみて、この本も最初読んだときにはあまり印象がなかったのですが、しばらく経ってから読み返してみたらすごいいいこと書いてあるじゃんと思って。
この本は情報理論とか通信理論の古典の論文が入っている本なんですけど、さっき、ニューラルネットワークが何でこんな挙動を示すのかというようなことを考えると、この本に書いてあるような古典的な、例えばノイズがない通信路ではどれぐらいまでデータを圧縮できるかみたいな話が、ニューラルネットワークにどこまで情報を落とさずに詰め込むことができるかの限界を与えてくれる話なのかなと思っております。
　あと、この本にはウィーバーという人の解説文もついていて、自然言語処理で必要となるような、例えば機械翻訳に関するようなものの先駆的な話とかも、もうこんな時代にウィーバーが言っているんだと思ってびっくりしたことがあります。その後の統計的な手法とかニューラルベースの手法とかの予言をしています。
【ーー】　　なるほど。そういう意味では、いまの自然言語処理の考え方というのは、いろんなところに源流があるのかもしれないし、そこに遡ると、また何か新しいヒントが得られるのかもしれませんね。
【小町】　　ええ。新しいように見える手法やアプローチでも、知らないだけで考え方自身は古典的な文献の中で既に出ているかもしれないということですね。
　これ、統計的な手法がなかった頃とかに読んだら、「何言ってんだ」って思うかもしれないんですけど、今読んだら、これ本当にすごいこと言ってるなというのが分かります。やっぱり古典的なものというのはそれだけの価値があるなと思いました。
【ーー】　　当時としては実装しようがなかったから、あまりそのポテンシャルを十分発揮できなかったと。
【小町】　　そうなんです。だからニューラルネットワークも、昔からするとこんなパワフルな計算機がなかったからできなかっただろうし、こんなに大規模なデータがなかったからできなかっただろうし、みたいなことがいっぱいあって、今はこれができるようになったからここまでできるようなったんだな、傍目に見ると一気にパラダイムシフトのように流れが変わっているように見えるけど、同時代の人に取っては連続的な変化で、個々の技術的な課題を一個一個解決していってできるようになっているんだな、ということがあるような気がしています。
【ーー】　　これで準備した質問はすべて伺いましたので、インタビューを終了したいと思います。どうもありがとうございました。
【小町】　　こちらこそ、ありがとうございます。

2022年3月22日Zoomによるオンラインインタビュー
聞き手：鈴木貴之

その1へ
その2へ
その3へ