一橋大学 大学院 ソーシャル・データサイエンス研究科 教授
小町 守氏
PROFILE
2005年東京大学教養学部基礎科学科科学史・科学哲学分科を卒業後、2010年奈良先端科学技術大学院大学情報科学研究科で博士(工学)を取得。同年より奈良先端科学技術大学院大学助教、2013年より首都大学東京(現東京都立大学) システムデザイン学部准教授・教授を経て、2023年より現職に就任。著書に『自然言語処理の教科書』(技術評論社)、監修に『自然言語処理の基本と技術』(翔泳社)。
01
資源が乏しい言語にも積極的に取り組む
―ユネスコ(国際連合教育科学文化機関)が絶滅言語(近い将来において絶滅する可能性が高いと見込まれる言語。消滅危機言語とも言う)を保護していこうと提唱していて、Googleも絶滅言語を守っていこうと動いています。小町先生が研究されている部分も、そんなところに活かせたりするのでしょうか。
そうですね。言語の中には低資源な言語もあります。あるいは、それぞれの言語は十分資源があるものの、「日本語とスペイン語の翻訳をしたい」となったときに、英語とスペイン語の間は沢山あるし、英語と日本語の間も沢山あるけれど、日本語とスペイン語の間は全然ない、というケースもあったりします。
そういう資源がないような言語が数多くありまして、私の研究室に今年来た学生は「古代エジプト語の研究をしたい」と言っているのですが、古代エジプト語(古代エジプト文明の発展時期において使用されてきた言語)に関しても、全然資源がありません。現実的にはもう文が増えようがなく、もうその言語の母語の人もいないから聞きようがなかったりします。そういう言語もあります。
直近で、武蔵大学の原朋弘先生、マックスプランク人間開発研究所の矢倉大夢先生と一緒に研究しているのが、スワヒリ語と英語が混じったコードミキシング(同じ文中で二つ以上の言語や方言などが混ざり合うこと)です。その言語のフィールドがケニアにあります。現地ではスワヒリ語(東アフリカの広い地域で話される言語。アラビア語の影響を受けている)と英語が公用語なのですけれど、実際には若い人たちは、もうあまり話しておらず、文法はスワヒリ語に似ていますが、単語レベルで見ると英語やケニアの各民族の語彙が混ざっているみたいな、そういう言語を使っていたりします。これが本当にテキストのデータもなく、しかも年齢が離れると通じないぐらい言語の移り変わりが速かったりします。こういう言語が生まれ、変わっていくという現象にも、最近興味があって取り組んでいます。
02
日本もルール作りの議論に参加する必要がある
―日本語でも若い世代の話す内容が変わってきていますからね。ところで、実社会での応用とリスクの観点で倫理や法制度というか、偽情報の対策という観点でお聞きしたいのですが、生成AIによるフェイクニュースや誤情報の流布は、抑制できると思われますか。
難しいと思いますね。これを抑制できる可能性があるのは、プラットフォーマーと呼ばれる人たちだけです。例えば、X(旧ツイッター)上に変なデマが流れていたら、そのデマを防ぐことができるのはX社しかなくて、他社ではありません。また、Googleの検索で出てくるウェブ上のデマが表示されないようにしようと思ったら、それは、Google側で対策するしかありません。第三者が検索結果にフィルターをかけますとやったところで、一般ユーザーがそれを使ってくれるわけではないのです。
結局、プラットフォーマー側がどれぐらい倫理観を持っているかだとか、コンプライアンスを意識しているか、みたいなことが重要です。これまでは、そういう価値観と言ったものは、国レベルや文化レベルで何となく共有されていたのですが、今は企業レベルになっていて、知らず知らずのうちに一企業の価値観を内面化してしまうということがあり得ると思っています。特に米国は「トランプが勝った、負けた」とかで、国内が分断されています。GoogleやFacebookを開発している人は、割りとお金持ちの人たちなので、「トランプには投票しない」と言っていますが、可視化されない層が相当数いるのは事実です。
日本でもそういう動きがあります。これも、知らず知らずのうちに分断が進んでいたり、価値観のすり込みが行われている可能性があると思っています。例えば中国のAlibabaが開発している Qwen という大規模言語モデルは、天安門事件については教えてくれません。悪用しようと思えば、潜在意識に働きかけるようなことは容易にできるので、透明性が高い開発を行うことは非常に大事だと思っていますし、国を越えたルールづくりもすごく大事になってきます。この辺りは、ヨーロッパが規格を作ることに焦点を当てていて、AIに関する情報保護も議論をリードしてやっています。
中国やアメリカは実利主義なのでどんどん先に進んでいき、自分たちが覇権を取るまでは、とにかくやるみたいな感じになっています。日本だとそれは無理なので、1位になろうと思っても、中国や米国の資本が入ってきたら、全部奪われてしまいます。なので、逆にルールをある程度作るような側に行かないといけないと思っています。
元々日本人はルールを作るのがあまり得意ではなくて、決められているルールの中で、「1位を取るんだ」と頑張りがちです。しかし、1位を取り始めると世界的に「あれは日本人に有利なルールだから変えよう」とか言って、ルールを変えられたりします。そこは、考え方を変えて、ルールを決める側にも、ある程度の意見を出していかないと、今の世の中は難しいのではないでしょうか。どうしても、昔と比べて色々なもののサイクルが速くなってしまっています。世界的な議論の中にしっかりと入るべきだと思っています。
03
SNSには落とし穴があることを認識すべき
―私は今まさに分岐点にいるのかなと思います。メガプラットフォーマーとかもそうですが、結果的に実際の情報に対しても、「それは正しいものだ」と皆が同じように思っているので、エコーチェンバー(自分と似た考えを持つ人々の間で情報が反復される現象)みたいな感じに変わってしまいます。最近の日本の選挙を見ていてもそうです。プラットフォームに対する国レベルなのか、グローバルレベルなのかは別として、何らかの法整備やガイドラインを作らないといけません。このままブラックボックス化してしまうと、そこから出てきたものを信じるしかなくなってしまってしまいます。そうなると、思想をコントロールされる怖い世の中になるのではないかと思ってしまいます。小町先生は、どう思われますか。
そうですね。特に日本人は、周りの人の意見を気にする傾向が強いです。今も、SNSを含めたウェブには自動生成されたテキストや画像が溢れまくっているので、普通にお金がある人が意見をコントロールできるようになっています。これはもう規制をしないと、どうしようもないと思っています。それこそ、ヨーロッパであれば、法律で禁止した瞬間に、ネットワークのトラフィックが下がったりします。ルールを決めることに関して積極的ではないところが、気になっています。
直接的に大規模言語モデルや生成AIを用いて人の意見を誘導することは、ソーシャルメディア上では普通にあります。それ以外にも色々な生成AIの学習をするときに、学習データを汚染する目的で自分たちの意見に有利なデータを沢山生成しておいて世論を誘導するLLMグルーミング(LLMの出力にプロパガンダの主張を反映させてしまう現象)というのがあります。ロシアの人たちが、親ロシアの意見をLLMが出すように、ウェブの上に親ロシアテキストを埋め込んでいることがあったりするのです。技術的にできることは色々とあるのですが、できるからといって、やって良いとは限らないし、オウム真理教の時も理系出身の幹部がいましたよね。開発する側は倫理観を意識しないといけません。僕は哲学出身だから気にするのかもしれませんが、人によっては楽観的というか、ナイーブ過ぎるところがあると思っています。
04
自らデータを取りに行く姿勢の大切さを伝えたい
―次に、教育人材の観点でご質問したいと思います。一橋大学ソーシャル・データサイエンス学部・研究科の教育内容に、自ら考え行動することがテーマとして挙げられています。今一度、創設された社会的背景、問題意識をご説明いただけますか。
社会科学に限らず、定量的に何かをするという観点が重要です。もっとデータやエビデンスに基づく意思決定や分析をしていくことが大事になっているというのが、いわゆる文系がデータサイエンス的なアプローチをするべきであるという背景にあります。
冒頭に申し上げた通り、データサイエンスは手法の一つに過ぎません。結局、何を用意するのかが大事になってきます。一橋大学にデータサイエンスの学部・研究科を作るのであれば、それは、社会科学が題材にならざるを得ないという感じで、ソーシャル・データサイエンス学部・研究科が誕生しました。順天堂大学であれば医学研究に強みがあるので健康データサイエンス学部を作る、という流れですね。
一般的に、データサイエンスを大学で教えるときに、2つのやり方に大別されます。一つは専門の学部や学科を作る。もう1つは学部ではなくて、副専攻とか学部・学科横断のコースを設けて、データサイエンスに関する科目をある程度取ったら認定証を出す、みたいな建付けでやることです。
どちちもメリット、デメリットがあります。本学のように学部・学科として独立して作ると、理工系のバックグラウンドを持った人が中核になりやすい利点があります。実際に、一橋大学のソーシャル・データサイエンス学部では、ほとんどの教員が他大学から来ていて、理工系出身の人が大半です。学部生も8割理系出身です。修士の大学院生は、今のところまだ内部進学がおらず、全員外部から来ているのでいて8割が非理系出身ですが、来年は内部進学の学生がいるので、もっと理系寄りになると思います。
一橋大学ソーシャル・データサイエンス学部・研究科のカリキュラムとしては、我々が最も伝えたいのはどこかに綺麗なデータがあるわけではないということです。どこかに綺麗なオープンデータがあって、それをダウンロードすれば知見が見つかる、とかではなくて、実際に現場でやろうと思うと、当該の部署に行ってデータを出してもらう、根回しをして時間をかけて信頼関係を築いて出してもらい、ようやく見ることができます。そういうことが大事だというのを分からないまま、データサイエンスをアプローチだと捉えてしまうと、「データをくれればやりますよ」みたいな感じになりがちです。そうではなくて、データをもらうところも仕事の一つなんだととても重視しています。
なので、学部1年生に自分で足を使ってデータを取ってきてもらうという授業があったりしますし、学部3年生ではプロジェクトベース学習(PBL:学習者が自ら課題を見つけて解決する教育手法)と呼んでいるものを行っています。これは企業や官公庁の方々と6、7人1グループで、半年ずつ色々な現場で実習をするというような取り組みです。毎回自分たちが何をやるのかを考えながら、最終的にはプレゼンテーションをして評価していただくみたいなことを行っています。完全に座学だけで閉じるようなカリキュラムにはなっていません。実際に体験することをとても重視しているからです。
.webp?width=545&height=409&name=b_1%20(1).webp)
―非常に人気があるのではないですか。
そうですね、始まるまではどれぐらいの人気があるのか、割とドキドキだったのですが、現在3期生まで迎え入れていて、おかげさまで毎回人気は高いです。特に1回目の倍率はかなり高かったです。最近は少し落ち着いてきましたが、それでも高い注目を集めています。
実は今の国公立大学は、前期後期の2次試験があるものの、後期に試験をしている大学や学部が少ないのです。一橋大学の中でも後期の2次試験を実施しているのは、経済学部とソーシャル・データサイエンス学部だけで、他の学部は行っていません。東京大学や東京科学大学も同様です。後期試験を実施していません。なので、実はソーシャル・データサイエンス学部の後期試験で入学してくる人は、ほとんどが東京大学の受験者であったりします。東京大学の理系志望の人が、一橋大学に後期で来るみたいな感じになっています。そのため、学部生も8割が理系出身ということになるのでしょう。
前期試験でも「総合問題」というソーシャル・データサイエンス学部独自の問題を出していますが、3回の入試を経てどういう問題が出題されるのかの傾向が掴みやすくなったので、ソーシャル・データサイエンス学部が第一志望の人も前期で受けやすくなっているのかもしれません。推薦入試も行っているので、多様な人に来てもらいたいと思っています。
05
AIの裏側を知るためにも、数学の知識と審美眼を身に付けたい
―今、人材教育の観点でお話したので、若い世代、例えば高校生や大学生にとってAI時代のリテラシーに求められるものは何か、どういうリテラシーを持つ必要があるのかというメッセージをいただきたいと思います。いかがでしょうか。
深層学習が入って来る10年ぐらい前までは、現代の読み書きそろばんに当たるものは、「英語」と「プログラミング」「数学」だと言っていました。今は、生成AIを使えば翻訳も簡単にできるし、LLMに指示すれば英語も書いてくれるので、英語の重要度が下がってきている印象があります。昔は、学生に英語の論文を書いてもらうと、ひたすら「英語の赤ペン先生」みたいな感じで添削していたのですが、今は英語の文法レベルの修正はほぼなくなりました。ものすごくやりやすくなったと思っています、プログラミングに関しても、最近のコーディング支援ツールを使うとサクサクと補完してくれます。あっという間にコードが書けたりするので、昔ほどプログラミングを必死に学ばなくてはいけないという感じではなくなっていると思っています。
その中で、唯一数学だけはそれほど価値が変わっていません。もちろん、数学を知らなくても、できることはあります。ただ、それこそ生成AIの裏側では至るところで数学が出てきます。なので、数学は学んでおいた方が良いと思っています。具体的には線形代数と微分・積分、確率・統計ですね。昔はこれに離散数学を足していましたが、今は確率・統計の方が重要度が高いと思っています。
先ほど生成AIにも苦手なところがあるとお話しました。例えば、厳密なロジックをやるとか、数字を一の位まで認識するみたいことは、苦手だと言えます。また、文字の長さを何文字以内にコントロールしようというのも難しいです。ふんわりとしたものはできるのですが、厳密なのはやりにくいというところがあります。やはり、数学や厳密な論理に基づいて、何かを理解したり、書いたりするというようなところは、実際に自分の手でやった方が良いと思います。論文や卒業論文を書いたりするときにも、論理をしっかりと組み立てて書くはずです。そこは、しっかりと学んでほしいと思っています。
あと、自ら調べ、自ら考え、自ら行動する、いわゆる“自調自考”と良く言われていますが、私の恩師はそれにプラスして「自分の心で考える」ことが大事だと指摘しています。確かに、生成AIに「どちらの方向に進めば良いか」と聞けば選択肢は提示してくれます。ただし、それが良いのか・悪いのか、自分たちはどちらの方向に進むべきなのかということは、決めてくれません。何が良いかは、結局自分で判断するしかしないのです。そこの判断まで任せるのは、実はまずいと思っています。
実際に、私が取り組んでいる研究でも、人間と大規模言語モデルである程度スコアの相関が高くても、人間が高く評価しているところと機械が高く評価しているところが違うというのもあったりします。上手くいっているように見えるうちは良いものの、何か間違っているときに、「なぜこうなっているのか、どうしたらいいのか」を知りたくても、調整が難しいです。繰り返しになりますが、結局、AIやデータサイエンスは、調理器具みたいなものなのです。料理に使えば、料理が作れますが、人を殺めることもできます。その責任はAIやデータサイエンスにはありません。自分が責任を取らないといけないのです。教育としてはその責任を取る練習が必要で、そこまで全部任せていると、評価力や心理眼が失われかねません。サイクルを短く、色々なものにチャレンジして、それが良い・悪いを、自分でも判断しながら、心理眼を養っていっていただくと良いと思います。
―小町先生は、企業の方とも一緒に研究をされることがあると思います。日本企業では今、社員のリスキリングがブームになっていると思います。これからの時代、ビジネスパーソンがリスキリングするときに、「これをやっておいたら良い」と言えることを1つだけ挙げるとすると何になりますか。
ロジカルなプレゼンテーション力です。文章もスライドも、ある程度「型」を身につけた方が良いと思っています。何となく、ふんわり伝えるみたいなことは、ネイティブであればできますが、誤解がないようにしっかりと伝えることができるようになるには、ネイティブであってもトレーニングが必要です。
理系の場合は、実験レポートや卒業論文でアカデミックライティングをみっちりやるのですが、人文系の人は必ずしもやらなかったりします。ここ20年ぐらいは、1年次の「アカデミックスキル」とかでやることになっているのですが、教員の裁量でやっていなかったりします。また、卒業論文も書かずに学部を卒業できる大学もすごく多かったりします。これらのトレーニングを受けないまま大学を出てしまうと、ある程度の長さの文章も書けなければ、ロジカルに相手を説得するようなこともできません。もっといえば、ロジカルに書かれた文章を読むのも難しかったりします。そのため、全部雰囲気で何とかやっているみたいなのは、そんなに問題なく過ごせるものの、多少なりとも高度なことをやろうと思うと、それが足かせになるということがあると思います。
06
時代は大きく変わりゆく。何事も自ら試すようにしたい
―段々とお時間が少なくなってきました。未来展望のところに行きましょう。今後5年から10年で、先生が研究されておられる自然言語処理の分野でゲームチェンジャー的な技術がありそうでしょうか。
特にないですね。とにかく研究から実用化のサイクルがとても速くなっています。研究自身のサイクルも速くなっていて、これまでのコミュニティーの運営方法では維持できないぐらいの速さになっていると思っています。5年前は、まだChatGPTも世の中に存在していませんでした。それぐらい5年後を想定することが、難しいと言わざるを得ません。言えるのは、5年後も恐らく今と同じか、もっと速いような速度で、世の中が変わっていくということです。今、皆さんが何か文章を書くときにWordを開いてかな漢字変換を使うのと同じような感じで、皆がChatGPTを使っている世の中に本当にすぐなると思っています。たまたま日本にいるから見えないだけなのです。そのときに何か面白いことやりたいと思っています。
―最後の質問です。社会環境の変化が激しい中で、小町先生がその動きにキャッチアップしていくために心がけていることを1つ教えてください。
たまたま今、大学の教員をやっているからですけれど、若い人と喋ったり、情報をもらったりすることです。「自分の方が詳しい」とは全然思っていません。むしろ、彼ら・彼女らの方が詳しいと思っているので、何か面白そうなことがあったら、「何それ」と素直に聞いて、教えてもらい、自分で試すようにしています。やはり、試さないと全然アイデアが生まれてきません。
学生からも、「どうやったらアイデアが思い着くのですか」と聞かれることがありますが、自分が使っていないサービスの改善点はわかるわけがありません。なので、使うしかないんですよ。もう、それは若い気持ちで使い倒す。少しでも時間があったら、試してみることを心がけています。
―小町先生、本日は貴重なお話をありがとうございました。