2023年6月6日(火)〜6月9日(金)に熊本城ホールで開催された第37回人工知能学会全国大会に参加してきました。
自然言語処理(NLP)分野の発表を中心に聴講しましたので、そのご報告をします。
NLP分野では大規模言語モデル(LLM: Large Language Models)を使った研究が多くありました。ChatGPTの登場を皮切りに昨年から激動の様相を呈しているLLMですが、その社会的な影響力の強さを改めて感じる大会でした。
特に強く印象に残っているのは「AIを主体として認めるべきか」「AIを道徳的配慮の対象とするべきか」といった議論が活発になされていたことです。LLMなどの著しい発展によって、人間と見紛うような振る舞いをするAIの実現が決して夢物語ではなくなったということでしょうか。技術的な進展と合わせて、AIが社会的にどのような存在となってゆくかにも注目が集まっています。
人工知能学会全国大会は、人工知能分野に関わる研究発表や招待講演なども行われる大規模なイベントで、年に一度6月上旬ごろに開催されています。
今年は昨年に引き続きオンサイト(現地会場)とオンラインのハイブリッドでの開催となりました。
発表件数や参加者数はコロナ禍で一度は減少していましたが、今年はいずれもコロナ禍以前を上回り(発表件数:950件、参加者数:3527名)、盛り上がりを見せています。
聴講した発表をいくつか紹介します。
[1T3-GS-6-05] 汎用言語モデル学習のためのプロンプト最適化
instruction tuningに与えるプロンプトを最適化するという研究です。instruction tuningとは、様々なタスクに関する指示や例示などのプロンプトを言語モデルに与えることで学習を行う手法のことです。instruction tuningによって、学習していないタスクについても汎化するということが知られています。instruction tuningのプロンプトは基本的に手動で作られており、「多様なプロンプトが効果的である」という報告がある一方、「多様なプロンプトは効果的ではない」という報告があったりするなど、これといったプロンプトが定まっていません。これらの背景を踏まえ、この研究では学習用プロンプトを最適化するinstruction optimizationを提案していました。
instruction optimizationでは、instruction embedder(最適なプロンプトの埋め込み行列を生成)とinstruction extractor(最適なプロンプトを抽出)の2種類を提案しており、埋め込みor抽出によって得られたプロンプトで学習した言語モデルを学習に使っていないデータで検証し、その検証データでの性能を最大化するようinstruction embedder/extractorを学習するようにしていました。実験の結果、「zero-shotの場合は多様なプロンプトが有効」「few-shotの場合はタスクごとに複数の例示ではなく同一の例示を用いることが有効」ということが示されていました。
[2E5-GS-6-05] 人工演繹推論コーパスによる学習は言語モデルをどのように強化するか?
近年、言語モデルの論理推論能力を向上させるために論理推論の事例を多く含むコーパスを学習させるというアプローチが提唱されています。その一方で、このアプローチによって言語モデルの持つ推論能力のどのような側面が強化されているのかは明らかになっていません。そこで、この研究では演繹推論の各側面(多様な演繹規則の習得、多ステップ演繹の実行、多様な言語表現の理解など)を強調したコーパスをそれぞれ生成し、各コーパスで学習した言語モデルの演繹推論性能を検証していました。
その結果、多様な演繹規則を習得するためには公理系を用いた演繹コーパスが最も効果的であること、論理演算子の理解・ノイズ事実への頑健性の獲得に演繹コーパスが有効であること、一方で多ステップ証明の解決は演繹コーパスでの学習後でも難しいことが示されていました。
こちらの研究で使用されたコーパス・ソースコード・学習済みモデルはこちらのリンクで公開されています。
今回の大会で企画されたセッションの一部はYouTubeでも公開されているので、ご興味のある方はぜひそちらもご確認ください(リンクはこちら)。
また、人工知能学会の公式チャンネルでは講演やセミナーの動画も配信されています(リンクはこちら)。
来年の人工知能学会全国大会は2024年5月28日(火)〜5月31日(金)にアクトシティ浜松で開催予定とのことです。
来年の大会もとても楽しみですね。