社会や家庭で人と共生するロボットが広く定着してきたら、世の中はどう変わるのであろうか。今から楽しみでならない。だが、これを従来の模倣学習の手法で実現しようとするとハードルが高すぎる。コストが多大となりすぎてしまうからだ。その課題を解決するために新たな模倣学習の手法を提示しているのが、京都大学 大学院情報学研究科助教の長野 匡隼 氏だ。ロボットが視覚情報をはじめとする人間の五感の情報を取り込み、人の動作を模倣していこうとしている。具体的にはどのような研究なのか、そしてその研究の価値がどこにあるのか、弊社代表の山本が話を伺った。前編では長野氏がロボット研究を手掛ける原点や目指す世界観などについて聞いた。 

京都大学 大学院情報学研究科 知能情報学コース 助教 

長野 匡隼 氏 

 

 

PROFILE

2018年3月電気通信大学情報理工学部卒。2023年3月電気通信大学 大学院情報理工学研究科修了。その後、日本電信電話株式会社研究員や電気通信大学 大学院情報理工学研究科特別研究員を経て、2025年4月から現職。 

 

 

 

目次

01 人のように育つロボットを作りたい。その想いが研究の原点 
02 最終的にはASIのレベルを目指したい
03 人間の五感をも組み込んで研究を行う
04 大規模基盤モデルや報酬モデルを駆使し、行動を洗練させる
05 人の動作をセンサーで認識し、模倣していく
06 米国大手とは一線を画するアプローチ

0415chai +_magazine03

 

 

01

 

人のように育つロボットを作りたい。その想いが研究の原点 

―まずは、長野先生が現在取り組まれている研究の概要、研究に対する想いをご紹介いただけますでしょうか。  

 

 私が現在主に取り組んでいる研究は、時系列情報の解析です。わかりやすく言いますと、工場の作業動画や作業風景の時系列情報は、データを収集・解析するだけでもかなりの労力が必要です。そこで、教師なし学習(正解ラベルのないデータから隠されたパターンや構造を学習する機械学習の学習手法)を用いて、ラベル付けや、作業の上手な人とそうでない人の区別、さらには上手な人のスキルの抽出などを行っています。これらを活用して、ロボットが模倣して作業することにより、効率化する技術の開発に取り組んでいます。 

研究に対するモチベーションとしては、「人のように育つAIやロボットを作りたい」という想いがあります。我々の分野では、ドラえもんやマーベル作品のアイアンマンなどの、人工生命に憧れてこの世界に入ってくる方も多いと感じます。研究に取り組む中で、人が育っていくようにAIを育てようというのは、現在の技術との間に大きなギャップがありますが、それでも少しずつ、人のようなロボットをAI技術で実現し、生活の質の向上に貢献したいと考えています。また、そこで生まれた技術を、社会にインパクトのある形で残したいとも思っています。 
基礎技術の開発、つまり人間の理解や人間の機能の探求をしつつ、それを実社会の課題に応用できるよう、日々AI・ロボットの研究に取り組んでいます。 

 

―まさしく、日本のカルチャーにはドラえもんや鉄腕アトムのように、非常に人との共存というか、共創していく世界観があったりします。ただ、大人になるとどうしてもAIはあくまで機械だということで、人間が優位に立っていると捉えがちです。その中で、長野先生が取り組まれている研究は、非常に興味深いと思いました。今、長野先生のお話にあった時系列情報を教師なし学習でという部分で見ていくと、研究を進めていく上では視覚と聴覚がキーワードになってくるのでしょうか。

 

 そうですね。視覚や聴覚を含めて、やはり着目しているのは人間の五感です。最近の機械学習やAIでは、画像情報がどうしてもメインになってきます。コンピュータービジョンのトップカンファレンスであるCVPR(Conference on Computer Vision and Pattern Recognition)が注目を集めていることや、昨年のノーベル物理学賞の内容からも、それは明らかです。また、大規模言語モデルの発展により、テキスト情報の活用も主要となっています。しかし、画像情報やテキスト情報のみで対応できることには、限界があります。私たちが生活していく中でも、視覚情報を重要視して情報処理していることはよく知られていますが、やはり音声、触覚、嗅覚などの情報も、人のように生活するうえでは重要だと考えています。 

それに、ロボットは多様なセンサーを備えています。そこで取得したあらゆる知覚情報にフォーカスし、語意や動作の学習に取り組んでいるのが、私の研究です。 

 

長野先生_前編_資料画像1

 

長野先生_前編_資料画像2

出典:M.NAGANO Page

 

 

 

 

 

mask-group@2x-Jul-11-2025-05-24-23-7210-AM

 

 

02

 

最終的にはASIのレベルを目指したい  

―長野先生の研究は、現状よりも二歩も三歩も進んでいる気がします。やっぱりどうしても、今お話しがあった画像や文字が、統計学的な部分での確率論から生成AIで使われています。でも、長野先生の場合には本当に人間の五感を使って自己学習していくようなイメージです。いわゆる、ASI(人工超知能:AIやAGIを超越した知能を持つとされる人工知能)みたいな形を作り出す世界を目指されているのではないかという感じがしました。いかがでしょうか。

 

ありがとうございます。ASIも実現できれば理想的だと思います。私としては、人間が育つのと同様に成長するAIや、ユーザーに着目した実用的なロボット、さらにはそれらを超越する知能体であるASIのような高次な知能を持つAIのいずれにも関心があります。これらは適材適所かと感じているのですが、創造的な活動や複雑な業務の支援においてはASIを適切に活用し、意思決定や効率化に貢献できる可能性が高いと考えています。現に、大規模言語モデル(大規模なデータで事前学習済みの汎用的なモデル)の発展や導入により業務の効率化は日々実感されるようになっているかと思います。 

ただ、我々の社会に根付く存在か、人に近いかを考えると、必ずしもASIでなくても良いのではないかとも思います。人間味があったり、「あれっ?」と思うような予測不能さを持つ知能にも、価値があると私は思います。そのため、どちらにも関心を持っています。その中で、私が教師なし学習を用いて取り組んでいるのは、どちらかというと人間のようなAI、また根幹となるような機能の構築を目指しているからです。また、私が近年取り組んでいる記号創発(記号がどのように形成され、共有されるのかを個人や環境、さらにはそのダイナミクスに至るまで幅広く考察する)研究の行く末には、人と共生できるASIの実現もあると考えています。 

 

 

―お話をお聞きしていると、長野先生の研究は子供が成長していく過程をAIやロボットが再現できている、あるいはできるような世界を目指されているのではないかと、私は感じました。そこはいかがですか。 

 

 まさに、おっしゃる通りです。人間が育つように、もっと言えば子供が育っていくように、AIに育ってほしいという想いがあります。ロボットを使っていて思うのは、「やはり人間は優秀だ」ということです。話題となっている最新の高性能ロボットを扱っていても、3〜5歳児の子供の能力の方が優れていると感じることが多々あります。そのような経験から、人がどのように成長し、知能や運動能力を獲得しているのかについて、日々強い関心を持っています。  

 

 

 

 

 

mask-group@2x-Jun-02-2025-09-13-22-6723-AM

 

 

03

 

人間の五感をも組み込んで研究を行う 

―子供が成長していく過程をロボットやAIで再現する場合、それは教師なし学習になるのですか。それとも教師ありになるのですか。長野先生の研究を拝見すると、お互いにロボットが記号創発という形ですから、自らAIが学んでいるような感じがしました。どうなのでしょうか。 

 

もちろん、メインとしては教師なし学習に取り組んでいます。私たちは人から教えられることもありますが、観察するだけでパターンを認識する能力も持っていると考えています。 
走り高跳びを例にすると、走った後にジャンプするという一連の動作の切れ目や区別を、自然に捉えることができます。「走っているな」「ジャンプしているな」といった行動の違いを必ずしも誰かに教わるわけではなく、自らの経験を通じてボトムアップに認識していると考えられます。これは他の情報も同様で、音声から音素や単語、視覚情報から物体やその特徴など認識していると考えられます。このような学習には、教師なし学習が適していると感じています。 
こうした根源的な能力の獲得に関しては、教師なし学習が有効だと考えています。その一方で、動作をさらに洗練させたり、特定のタスクに特化させたりする時には、養育者や教示者からフィードバックを受けることが必要になります。そのような場面では、強化学習や教師あり学習が有効であると考えています。 

 

―初期の段階では教師なしで、模倣とか失敗を重ねながら自己学習していくという感じになりますかね。 

 

おっしゃる通りです。 

 

 

―つい先日、孫を祭りに連れていき、輪投げを初めて体験する様子を見ました。最初は、ただ単にポンポンと投げるだけです。だから、全然入るわけもありません。そのうち、高学年の子たちの投げ方を真似するようになりました。そうすると、ものの10分ぐらいで輪投げができるようになったんです。これは本当にAIも同じだと思います。こういうふうに学んでいくことができる気がします。長野先生の模倣学習は、そういうところに当てはまるのではと思ったのですが、いかがですか。

 

まさにおっしゃる通りです。私が数年にわたって見まね学習に取り組んでいるのは、人間がごく少量の知覚情報から行動を始め、短時間でそれを効率的にタスクへ最適化できる能力を持っているからです。また、報酬の有無にかかわらず、他人の行動を見て「自分もやってみよう」という内発的なモチベーションも重要な要素だと考えて、見まね学習の研究に取り組んでいます。 

とても良い例ですね、輪投げのような動作には、身体的な「コツ」と呼ばれる、言語で明確に説明しにくい感覚的な要素が存在します。私は、逆上がりを例に出して説明することが多いのですが、この例も「こうすればできる」と言われたとしても、実際にやってみなければ始まりません。このように考えると、最近のAIが扱うテキストや画像といった情報だけでは、実世界にある「身体性」や「感覚的理解」までを十分に扱うことは困難だと感じています。だからこそ、身体情報や五感に関わる情報まで統合しなければ、人と共生できるAIの実現には至らないのではないか、そう考えながら研究を進めています。 

 

 

 

 

 

mask-group@2x-Jul-11-2025-05-23-29-5378-AM

 

04

 

大規模基盤モデルや報酬モデルを駆使し、行動を洗練させる 

―先生がおられるロボティクスの領域における模倣学習なのですが、模倣をしていく過程で多分失敗も出てくると思うのですが、その失敗を失敗だと学習するというのは、どういう仕組みでされているのですか。 

 

ロボットがデモンストレーションから学習し動作を生成し、それが失敗した場合には、あらかじめ設定された失敗条件や評価方法に基づいて現在の動作を評価し、成功する動作を生成できるように学習する、という仕組みが一般的だと思います。 

私の見まね学習の研究においても、失敗の検出には大規模基盤モデルを活用しています。例えば、ボタンを押すというタスクを扱った場合では、ライトが点灯している状態が成功を示す最終状態として自然言語で定義します。この時、大規模基盤モデルが自然言語や画像情報を理解する能力を活かし、現在の画像情報から自然言語で与えられた成功状態かどうか判断します。そして、成功に至るような動作に再調整するよう学習が進む、という流れになります。 

 

 

 

―AIの場合は、報酬モデル(報酬を最大化するために行動と学習を繰り返していく方法)という形で、結局成功した時に報酬を与えながら学んでいくというやり方があります。長野先生の場合は、その報酬モデルみたいな形をAIの学習の中に取り入れているのでしょうか。 

 

おっしゃる通りで、私の研究でも動作の評価には報酬モデルを使用しています。これにより、ロボットの行動が段階的に洗練されていく仕組みになっています。先ほどの見まね学習の研究を別の例で説明しますと、たとえば「このようなダンスを踊ってください」といった指示に対して、おおまかなポーズを真似るだけで良い場合は、シンプルな報酬設計で十分です。しかし、動きを洗練するフェーズに入ると、「この瞬間でピタッと止める」「指先の動きを正確に再現する」など、細かな報酬設計が求められます。私の研究では、このような動作の洗練化に関わる部分に、大規模基盤モデルによる報酬モデルを活用しています。このモデルがタスクを成功する動作と判断した場合に、その動作に高い報酬を与えることで、ロボットが正確な行動を学習できるようになります。

 

 

―長野先生は、産学連携の研究もされているのですか。

 

幾つか取り組んでいます。最近では、大手電機メーカーとの共同研究を実施しています。この企業とは、工場における作業解析をテーマに連携しています。製造現場では、製品が年単位で頻繁に変更されるため、従来の教師あり学習では毎回正解ラベルを付け直す必要があり、大きなコストが発生します。そのため、ラベル付けを必要としない教師なし学習や、自己教師あり学習が好まれる傾向にあります。 

私のモデルは、教師なし学習に基づく正解ラベルが不要な手法が多く、計算コストも非常に小さい特徴があります。そのため、現場での実用性やリアルタイム性を高めるために、改良にも取り組んでいます。さらに、「この作業者は上手かどうか」「この手順や作業はもっと効率化できないか」といった観点からも、改善の検討を進めています。 

 

 

 

 

 

0428chai +_magazine02

 

05

 

人の動作をセンサーで認識し、模倣していく 

―面白いですよね。実際に人の動作を模倣しながら学んでいくというのは、私も初めてです。一般的に米半導体大手エヌビディアが行っているのは、実際に工場の現場で進められている作業を学習していきながら、完全にロボットが真似て、そこで学習していくモデルだったりします。長野先生の場合は、模倣するところをセンサーが見ているわけですね。動きをしっかりと認識して、見て模倣するということをやられているのですか。 

 

そうです。

 

 

―そうすると、領域が広いですよね。学習を模倣していくというのは、本当に面白い研究だと思います。それができるとすごく楽ですよね。  

 

ありがとうございます。おっしゃる通りで、動作の模倣が進むとすごく楽だと思います。例えば、データ収集も容易になりロボットを動かすのもスムーズに行えるようになると思います。研究室に来てくださった方には、よく模倣学習のデモを体験してもらっていましたこのデモでは、1台のカメラがあれば良く、モーションキャプチャなどの特殊な装置は要りません。カメラに対して行なった人の腕の動きが、そのままロボットアームリアルタイに真似できます。具体的には、カメラの前で手や腕を動かすと、遠隔地のロボットアームがその動きを模倣し、散らばっているお菓子をUFOキャッチャーのように拾い上げる体験していただいています。本当にふらっと訪れた方でも、カメラの下に手を映すだけでロボットが即座に真似をする。このような体験を提供できるのも知能ロボット分野の研究の魅力の一つだと思います。 

 

 

 

 

 

0408chai +_magazine02

 

 

06

 

米国大手とは一線を画するアプローチ 

―すごいですね。そういった研究を私は初めて見ました。どうしても、ロボット系とか製造業系だとエヌビディアがかなりすごいことをやっている印象があります。例えば、デジタルツイン(人と機械をまったく新しい形で融合させる、未来の工場の在り方)だとどうしてもセンサーを使ってみるというよりも、人がやっているところを真似しながら学習していくスタイルになります。それに、工場とかではレーダーを使ってぐるぐる動きながら、これはもう完全に車と同じことをやっていたりします。それと比べても、かなり先進的な研究なのではないかと思っています。人をそのまま作ろうとしているような感じがします。 

 

そう感じていただき、大変ありがたいです。私が目指しているのは、決められたタスクを忠実に再現するだけでなく、環境や状況に応じて適応的に行動できるロボットの実現です。その意図が伝わってうれしく思います。 

私がシンプルな装置による見まね学習に取り組むようになった背景には、いくつかのきっかけがあります。 

たとえば、以前、プロの球団と共同研究を行い、選手の動作をAIで解析できないかというプロジェクトに関わったことがありました。当時、AIコンサルティング企業でアルバイトをしていたのですが、スポーツ選手は身体にセンサーを装着することに強い抵抗感を示す場合が多く、わずかな違和感がプレーに悪影響を及ぼす可能性があるためです。 

また、ロボットに動作を模倣させる一般的な手法として、リーダー・フォロワー制御があります。これは、人間が動作(リーダー)を行い、そのデータをロボット(フォロワー)に教示する方式ですが、操作者への負荷や、ロボットへの負荷が蓄積して故障の原因になること、また必要な設備のコストや運用の煩雑さなどが課題として挙げられます。そうした問題意識から、「特殊なセンサーや高価な装置がなければ、動作の解析や模倣は本当にできないのか?」という疑問を持ち、携帯電話や市販カメラできないかと試みるようになりました。近年では、カメラや各種センサーの性能は向上し、安価で高性能なデバイスが容易に手に入るようになっています。何よりも、スマートフォンに搭載されているカメラ自体が非常に高性能であることもあり、このようなセンサーの進化や動向を知り、活用することも大事だと常に思います。  

 

 

―長野先生の研究は、日本の今置かれている産業の実状に非常に合致すると思います。安価で、しかも人手を掛けずに自己学習してやっていくのですから。エヌビディアのように資金が豊富な企業は、まずはロボットを模倣して、そこから生成して自分で自己学習していくという流れで行けます。実際、その際には演算処理をすごく使うわけです。車の運転も気象条件が通常のままであれば、グーグルとかでもそうですが、人手を掛けてもうどんどん走らせたりして、そして学習させるわけですよね。それを、エヌビディアがあのデジタルツインで作って、結果的に幾つかのシミュレーションを作ってしまったわけです。それで自己学習して、色々なパターンの環境下で車をドライブさせたらどうなるかとテストしています。それってすごく演算処理が必要になります。スーパーコンピューターの世界なので、どうしてもお金が掛かってしまうわけです。でも、長野先生の研究は、それとは全く違って、人がこうやっているというのをロボットが自分で見て、それでどんどん学習していく。それこそ置いておけば。ロボットは自分自身で学んでいくわけです。工場で作業者の方がやっていることを真似してくれるようになります。そんな世界が近いうちに来るのではないかと思うとワクワクしてきます。 

 

ありがとうございます。まさにその通りです。最初は、人間の動きをロボットが模倣することを目指していますが、ゆくゆくは、そのロボットを別のロボットが見て覚える。それを連鎖的に繰り返す仕組みを構想しています。このようなサイクルが定着すれば、人間がロボットに教える手間を大幅に減らすことができると考えています。 

 

 

―やはり、センサーには高い性能が求められるのですか。 

 

いいえ、見まね学習の研究においては、手元にある一般的な機器で十分に対応可能です。実際に私は、研究の初期段階で自身の携帯電話に搭載されたカメラを使用して実験を行っていました。それこそ研究・開発していくにあたっては、やはり社会実装を見据えて、手軽に使える技術であってほしいという思いがあります。一方で、エヌビディアのように多くの資金と計算資源を用いて、我々にはまだ難しいような新たな知見を切り拓く研究にも大きな価値があると考えています。私自身、そうした研究は好きですし、大いに敬意を持っています。ただ、個人的には数年後には一般社会で役立つ研究や、様々な方が参入しやすく、コミュニティの活性化につながる研究も大事だと考えています。 

 

 

 

img _list_interview06_後編

人と共生するロボットの開発に挑む(後編)