尾形哲也先生インタビュー（その1）

尾形哲也先生は、早稲田大学基幹理工学部教授で、ロボット技術と人工知能、とくに深層学習を融合させた構成論的アプローチに基づいて、学習や人間機械協調などの研究をされています。このインタビューでは、そのようなユニークな研究に至った経緯や、現在の深層学習の課題などについてお話をうかがいました。

ロボット研究と人工知能研究

【ーー】　　今日は尾形哲也先生にお話を伺いたいと思います。尾形先生は、深層学習とロボット工学の中間の、ユニークな位置で人工知能の研究をされています。まずは、人工知能あるいはロボットに関するいままでの研究の経歴を伺いたいと思います。
【尾形】　　はい。もともと、加藤一郎先生という、世界で最初の人型ロボットWABOT-1を1973年に開発された「日本のロボットの父」と呼ばれた先生ですが、その加藤先生の研究室に入りたいというモチベーションで1989年に早稲田に入りました。その加藤先生の研究室に配属されるのと同じぐらいの時期に甘利俊一先生の『神経回路網の数理』を読んで、加藤先生に神経回路とロボットをやりたいですとお願いしたのです。
　当時、「学習」でロボットを動かすという手法はなかったわけではないのですが、人工神経回路モデルを用いるのは非常に珍しい発想でした。しかしそのお願いをした直後に、加藤先生から、それなら君は「ロボットの心」をやれ、と言われたのです。単なる知能ロボットを考えていたので、「心」という言葉に驚いたのを覚えています。私の修士の１年の時の最初の学会発表（ロボット学会）のタイトルは「ロボットにおける心の発生」です。
　加藤先生の心に関する仮説は、ロボットという主体に自己保存の行動基準を入れようというものでした。ロボットの場合は、例えばハードウエアが壊れないということです。そのような基準を与えて行動選択や学習をさせれば、観察者にとって感情移入しやすい行動を取るはずだと考えられた。まさに自分の本来持つべき状態（自己維持）からの誤差を埋めることが重要である、という思想でした。当時、ホメオスタシス、エントロピーの概念を持ち込んで、ロボットのハードウェア状態に基づく感情モデルを構築したのがスタートです。
　博士課程でご指導頂いた菅野重樹先生の重点領域プロジェクトから、外部観察者だった人間をロボット環境の中に入れる、つまり、ロボットと人間とのインタラクションという方向性が出てきました。いわゆるヒューマン・ロボット・インタラクションの最初期の研究です。そして1997年、おそらく世界で最初のフィールド実験だと思うのですが、これを他大学の友人、先輩方と組んで企画した、国際ロボット展のイベントで実施しました。100人以上の人にインタラクション実験に参加していただきました。心理実験でロボットを評価するという、当時としては相当珍しい発想だったと思うのですけれど、これをまとめて日本機械学会の論文賞をいただくことができ、そして自分の学位論文になりました。
　ただ、この研究を遂行していくうちに、心理評価だけでやっていくのは相当難しいということを思いました。なかなか結果が再現しない、また結果をどのようにロボット設計にフィードバックするのかが難しい、という（当たり前の）問題が出てきます。またモデルとしても、単純な神経回路の応用だけでは駄目だと思い、2001年に理化学究所の谷淳さんのチームに行くことになります。
　谷さんに初めて薦められた本がベイトソンだったり、その後、フッサールの現象学の話をしてもらったり、理研で一気に世界観が変わります。未だに覚えているのは、Sony CSLで谷さんと最初の面接をした直後、そのまま部屋で話をしていたら、そこに東大の池上高志先生が入ってきて、2人でリカレントニューラルネットワークが自己組織化した構造について盛り上がっている。でも、当時の私には何が面白いのかわからない(笑)。でも、分からないけど、絶対この方々は面白いことをしゃべっているのだろうと、そして半分でもいいから理解できるようになりたいと思いました。
　理研では、谷さんがおっしゃられていた「神経回路が作るダイナミクスが、環境のダイナミクスとマッチしたりしなかったりというところで認知プロセスが進む」という動的認知の概念をベースに、人とロボットのインタラクションの研究をしました。人間とロボットの中の神経回路ダイナミクスを介して相互適応する。その過程で、カオス的遍歴のような、インタラクションの構造が出来上がっては崩れ、構造が出来上がっては崩れということが起こるのですけど、それを一生懸命観察する。非常にマニアックな、外目から見ると何をしているのか分からないだろうという研究を好きでやっていました。
　それで2003年に、京都大学の奥乃博先生に呼んでいただくことができて、京大の中で、よりマニアックな話を進めさせていただくことができました。さっきのコミュニケーションに加えて、模倣、身体拡張、アフォーダンス、言語獲得、自己他者認知、こういった題材を神経回路のダイナミクスとロボット、体と世界のインタラクションで表現する、という研究です。このような問題の関心を「認知発達ロボティクス」というコンテクストにのせて、阪大の浅田稔先生とか、東大の國吉康夫先生とか多くの先生に助けていただきつつ、多くの学生さんと一緒に続けてきたのが京大時代でした。
　2012年に京都から早稲田に戻ったときに、ディープラーニングが出てきました。当時は、そんなに深く考えてなかったのですけど、非常に大規模の神経回路が利用できるということで、まず早速はやってみようと思いました。それまではどうしても小さいモデルを使って研究をしていたのですが、ロボットの実験が非常に分かりづらかった。例えば、言語の獲得研究といっても、30ぐらいの単語でしかできない。コミュニケーションの研究といっても、腕が一本でインタラクションする。そんなレベルの話だったのです。しかしディープラーニングで、こういった研究をもっと大きい次元でやれるだろうと。早稲田に移籍した2012年当時は、私を入れてメンバーが4人しかいなかったのですが、非常に強力なメンバーだったおかげで、ディープラーニングでこれまでの基礎研究でのモデルを実装し、実ロボットを動かすという先駆的な研究ができました。この成果をきっかけに、2015年に産業技術総合研究所という、今度はまったく応用寄りの研究所に参加させていただき、大きいロボットで、これまでの基礎研究成果の応用に取り組むことになりました。
　ディープラーニングで予測学習をする、いま、深層予測学習という言葉を使っていますけど、それを使って、いままでのロボットだとなかなか扱いづらかった柔軟物、液体だとか、粉などをハンドリングする。これを産総研、さらに多様な企業に助けていただいて、海外を含めた多くの展示会で実ロボットによるデモンストレーションをすることができました。一部は製品化されています。
　このようなアプリケーション研究に並行して計算論的精神医学という、昔からの興味、つまり構成論的アプローチによる人間の認知研究を続けています。この二本立てでやっているのがいまの研究室の状況です。すごくアプリケーション寄りとすごくアカデミック寄りで。ただ、自分の中では同じことをやっているつもりです。神経ダイナミカルシステムが身体をもって環境とインタラクションする研究です。

異分野とのつながり

【ーー】　　どうもありがとうございます。やはり非常にユニークな研究歴をお持ちだと感じました。最初から、ロボティクスと人工知能の研究の中間のようなところからスタートされていると。
【尾形】　　そうですね。学部生の時、ロボット（身体）と知能、というもののつながりに自分の中で矛盾がなかったので、何の疑問もなく加藤先生にそう言ったら、先生もそれを菅野先生とやり始めたばかりだった。タイミングがピッタリでした。加藤先生は、じつは哲学者になりたかったらしいのです。ただ、当時哲学者になると言うと戦争に取られてしまうということで、それで理系に行ったと。当初、人型ロボットを作られたとき、五本の指ロボットを1967年に作られているのですが、何の意味があるのだと言われたそうです。人型ロボットなんていつまでも役に立たないよねと。役に立たないという意味ではいまでもなかなか役に立たないのですが、本当は人型ロボットを作ることで哲学をやりたかった。だから、私が学生の時、単に学習でロボットを賢くしようと思っている以上のことをいろいろと教えていただいた。しかも幸いなことに谷さんのところに行くことができてそこが加速された。いろいろと幸運がありました。いま思えば、かなりユニークな流れだろうなと思います。
【ーー】　　いまお話を伺っていて名前が挙がってきたいろいろな方も、いまではそれぞれの分野の第一人者の方ですが、それぞれ独自の領域を切り開いている方で、おそらく、その当時としては、先行する流れが全然ないところで試行錯誤的に研究されていた方ですね。
【尾形】　　そうですね。非常にマニアックで。だから、ニューラルネットワークだけでやっていたら、冬の時代に飲み込まれて消えてしまっていたと思います。ただ、人間の認知をロボットで考えるというコンテクストの中でやることができ、非常にニッチではあったのですが、何とかほぼ同じ興味をずっとやり続けることができた。考えてみれば卒論のときから、ほとんど同じことをずっと30年近くやり続けられているのはありがたいことだなと思っています。
【ーー】　　当時、同世代のロボティクス研究をしている方には、もっと純粋に産業応用を考えている人のほうがやはり多かったのでしょうか。
【尾形】　　そうですね。早稲田のときはロボットというか機械、京大に行って情報の世界にいたのですが、そもそも世界に対する見方が違う。機械系では世界は物理方程式、微分方程式を解く対象であって、コントロール（制御）しようと考えるのですが、情報の世界に行くと、世界は確率統計モデルであって、いかに限定されたデータの中から予測精度のいい汎化モデルを作り上げるかと考える。世界の見方がそもそも違う。そういう意味では、応用を考えるとき、また少し哲学的なことを考えるときも、ちょっと違うイメージを持っています。
　また私は「ロボットの認知」というところから入ったので、まず身体があるところからスタートするのですが、機械系でも情報系でも身体ベースで考える人たちは多くはないです。身体から離れた一般化された概念で世界を捉えたい、そしてその一般概念が、多様なロボット、もしくは多様な計算モデルに共通で使える、そういうものを作りたいと考える。アカデミアであれば当然の考え方です。今でこそEmbodied Intelligenceという言葉もキーワードとして出てきましたけど、いまだにちょっとマニアックな位置にいるなとは思っています。
【ーー】　　純粋にAI研究の流れから、情報系から来ている方とは、かなり基本的なアプローチ、スタンスが違うという感覚があるわけですね。
【尾形】　　そうですね。いまディープラーニングがこれだけ来ていてもやっぱり違うなと。
【ーー】　　そこで逆に、尾形先生ならではのアプローチでやれるということもあるのでしょうか。
【尾形】　　なかなか理解してもらえないということもありました。身体から離れられないところをずっとやろうとしているのですが、工学、という視点では、現実世界と離れた一般的な抽象概念を手に入れたいと思っていらっしゃる方が圧倒的に多い。皆、物理的身体から離れることを考える。でも私はそういう概念は身体にくっついたままできている、と思っているので、そこら辺もなかなか難しいですね。
【ーー】　　そういう意味では、やはりロボティクスの流れがベースにあって、ロボティクスと人間の認知との接点というところがやはり基本的な問題関心なのですね。
【尾形】　　はい、そう思います。これも余談ですけど、加藤一郎先生がロボットを開発するのに、複数のグループを作っておられた。腕のチームとか、足のチームとか、皮膚のチームがあって、私は「神経」のチームに入りました。そして、卒論が終わるか終わらないぐらいの頃に一度、「先生、神経というよりは脳と言ったほうが格好よくないですか」と不遜にも言ったことがあるのです。すると、「解剖学的な違いだけで、脳だけ取り出しては駄目だ」と加藤先生に諭されました。神経系というのは、交感神経系、副交感神経系、抹消神経系などを含めて、身体全体で神経系として捉えないと意味がない、と教わったのです。加藤先生は心を研究したいと究極的には思っていらっしゃったわけですが、そのとき、脳だけを取り出す考え方は多分間違いだと思っていらっしゃった。神経系、身体というものをかなり強く意識されていた。いまはそう思うのですが、学生のときはよく分からなかったです。でも多分、そういう思想が今でも何か自分にしみついちゃっていて、身体から離れられない知能をずっと考えたいと思っているところはあります。
【ーー】　　なるほど。そういう見方が有力になった今になって振り返ってみると、ある程度、一つ大きな流れがあるように見えるわけですけれども、当時としては、身体の重要性がどういう大きな見方になるのかがそれほどはっきりしていなかった中で、それぞれの方がある程度感覚を共有していて、尾形先生も、そういった方々と一緒に仕事をされて、身体や世界とのインタラクションというキーワードで結びつくような一つの大きな流れにつながっているという感じでしょうか。
【尾形】　　当時は相当孤立感があったのは確かです。ただ、こういうことを考えていらっしゃる方がたくさんおられると気づく機会もありました。博士学生の時に菅野先生と参加した、大阪大学の浅田稔先生が企画されたヒューマノイドの会議です。そこにはロボット研究者だけではなく、心理学、生物学、社会学など多様な分野の先生が招待され、講演されました。谷さんや池上先生もそこに呼ばれていたのですが、その会議で、人文社会系では身体の重要性はむしろ当たり前に言われていることであって、人工生命をされている人たちにも当たり前のことで、しかも谷さんは、小さい移動ロボットでそういうことを一部でも体現しようとされていた。そういったことに気づかされて、ちょっと驚いたのを覚えています。
　ロボットの世界では、90年半ばにロドニー・ブルックス先生が、サブサンプション・アーキテクチャーを提唱された。彼はまた極端に、抽象的な知能は要らないと言い切ったわけですが、そこまで言うかどうかは別にして、身体と世界のインタラクションが知的行動を生み出す、ということを提唱し始めた。しかもヒューマノイドをやることで、人間の知能にもアプローチしてくわけです。そういう、ある種の転換期になっていたのは確かだろうとは思います。
【ーー】　　それぞれの方が異分野との接点で研究をされている方だと思いますが、そういうスタンスは、当時のロボティクス研究の中では、異端ではあったのでしょうか。
【尾形】　　明確に異端です。（笑）
【ーー】　　では、ちょっと特殊な研究をしているという感じで周りからは見られていたわけでしょうか。
【尾形】　　はい。1990年代前半は、ロボットで心を考えることの意味が分からないと言われる時代、ロボットにコミュニケーションさせますと言ったら、「ロボットは道具だからコミュニケーションしてどうするの」と言われた時代です。ヒューマン・ロボット・インタラクションの影も形もない。もちろん計算論モデルを使って人間の認知を考えようなんてことは誰も考えもしない。そういう時代でした。そういう意味では、極めて変わったことをやっていたなと改めて思っています。
【ーー】　　そうではあるのだけれども、何となく、それぞれの分野からお互い結びつくようなところに人が集まっていて、いまになってみれば、それが一つのかなり大きな流れになっているというのは非常に興味深いお話ですね。
【尾形】　　はい。

ロボティクスとディープラーニング

【ーー】　　その中で、いまではディープラーニングの手法を取り入れられていますが、ある段階でディープラーニングを取り入れるのが有効だということがわかったのでしょうか。
【尾形】　　私の場合はもともと神経回路を利用していたので、その自然な拡張としてディープラーニングを利用しました。ディープラーニングによって、扱うデータの次元と量を大幅に増やすことができます。
私の研究は、神経モデルと身体を組み合わせ、人間との対比を取ることで人間の説明をしようという、構成論と呼ばれるアプローチです。この構成論の立場からすると、次元を大きくできるのは、大きな魅力です。その後、産業応用に繋がっていきますが、それは、後からついてきた話です。
　ただ、ディープラーニングは人工知能研究者にとっては相当大きい変化だっただろうと思います。それまですべて人間が記述可能な説明可能なモデルや変数で”知能”を構成していた。ところがディープラーニングでは、解析も説明もできないような高次元のモデルで学習させると、モデル化できない部分がモデル化できないままに扱うことができる。まさに暗黙知と呼ばれていたものが、暗黙のままなのですが、コンピューターの中で扱えるようになった。大きな変革だったとは思っています。
【ーー】　　ディープラーニングで大規模な深層ニューラルネットを使うと、画像認識せよ、機械翻訳にせよ、質的と言っていいのかは分かりませんが、できることが桁違いに変わってくるわけですが、尾形先生の研究の中で、ロボットの制御に利用するという中でも、ディープラーニングを組み込むことで飛躍的に変わってくる場面はあるのでしょうか。
【尾形】　　そうですね。私の研究室のホームページへ載せているロボットデモは、通常のロボットの制御では、なかなか大変なものを選ぶようにしています。制御対象やロボットを物理の式やグラフなどで表現（近似）する、という方法では難しい、もしくは、できるかもしれないけど、やろうと思ったらものすごく大変な対象です。そういったものが、インタラクションのデータを学習することでできてしまう。もしくは、プログラミングコストがすごく下がる。これは大きな飛躍になっていると思っています。
　ただ、まだロボット研究にディープラーニングが入ってきてから歴史が浅い。ロボットのトップカンファレンスにキーワードとして出てきたのが2017年のことですので。まだまだこれからです。身体ならではという学習が重要、”Embodied Intelligence”というキーワードが盛り上がってきたのも、本当につい最近のことです。私自身は当然だと思って研究を続けてきましたが、これから本当に大きなインパクトが出てくるのではないかと期待しています。

その2に続く
その3へ
その4へ