言語処理学会第30回年次大会(NLP2024)参加報告

はじめに

2024年3月11日(月)〜3月15日(金)に開催された自然言語処理学会第30回年次大会に参加してきましたので、今回はそのご報告をします。今年も昨年に引き続き現地会場(神戸国際会議場)とオンラインのハイブリッドで開催されました。

30回という節目の年だったこともあり、大会は大盛況でした。発表件数は599件、参加者数は2045名(当日参加を除く)といずれも過去最大です。

トレンド

今回の年次大会ではデータセット構築に関する研究発表が例年以上に多く見られました。
現在、大規模言語モデル(LLM)の隆盛に伴いLLMの性能を評価するためのベンチマークデータセットや学習用のデータセットが求められています。
招待論文セッションでの「JGLUE:日本語理解ベンチマーク(○栗原 健太郎, 河原 大輔, 柴田 知秀)」の発表ではベンチマーク構築の重要性が説かれていました。LLMが発展し既存のベンチマークで高い性能を示すようになると、さらに難しいタスクを与えるベンチマークの構築が求められます。そのことによってLLMの更なる発展が促され、性能が高くなるとまたさらに難しいベンチマークが構築されます。このようなサイクルによってLLMが発展してゆくということでした。今後ますますベンチマークの需要が高まることが予想されます。
また、最終日には「日本語言語資源の構築と利用性の向上」というワークショップも開かれ、データセット構築に関する知見が共有されていました。

聴講した発表の紹介

聴講した発表を二つご紹介いたします。

A4-1 日本語論理推論ベンチマークJFLDの提案
○森下皓文 (日立), 山口篤季 (シェフィールド大), 森尾学, 角掛正弥, 友成光, 今一修, 十河泰弘 (日立)

LLMが「暗記した知識」ではなく純粋な論理推論能力によって論理推論をすることができているかを評価するためのベンチマークJFLDを構築した研究です。
知識とは例えば「質量を持つものは重力場を発生させる」「地球は質量を持つ」といった世界に関する事実であり、推論とは前述ような既存の知識を組み合わせることで新たな知識(「地球は重力場を発生させる」)を得る思考形態です。
LLMは一見して推論をすることができているように見えますが、実は学習したデータから類似事例を取り出しているに過ぎないことがわかっているそうです。
そこで、こちらの研究では反常識的な内容の推論タスクを与えるデータを作成しています。例えば以下のようなものです。
「ぴよぴよがある」「もしぴよぴよがあれば、ぽよぽよもある」→「ぽよぽよがある」
構築したデータセットでGPT-4及び日本語LLMを評価した結果、論理推論能力が不十分であることが示されたとのことです。
データセット構築指針が斬新であることはさることながら、推論能力を獲得しているように思われたLLMの実態を明らかにする非常に興味深い研究でした。

P3-26 日本語徳倫理データセットの開発に向けて:英語データセットの翻訳と日本語データセットの比較
○竹下昌志, 連慎治, ジェプカラファウ, 荒木健治 (北大)

日本語の徳倫理データセットとして、英語データセットからの翻訳によるものと翻訳を介さない日本語での収集によるものの二つを構築した研究です。
データセット構築において、翻訳によるものと翻訳によらないものはどちらも一長一短であることが知られています。前者は低コスト低品質、後者は高コスト高品質になる傾向があるというものです。
比較の結果、やはり翻訳によるデータセットは不適切なラベルなどの問題が生じてしまったとのことでした。
また、構築したデータセットでの評価の結果、LLMは常識的な徳を十分に理解することができていないことが判明したとのことです。
翻訳によるデータセット構築の課題を示した興味深い研究でした。コストと品質の双方の問題を解決する構築手法の模索が今後のデータセット構築研究における課題となりそうです。

おわりに

今回はデータセット構築の研究に注目してご報告しましたが、他にも様々な内容のセッションが設けられ、一般発表では5つの口頭発表会場と3つのポスター発表会場で並行して発表が行われていました。
詳しくは公式サイトのプログラムをご覧ください(リンクはこちら)。予稿もこちらのページから無料で閲覧することができますので、ぜひご確認ください。

来年の年次大会は2025年3月10日(月)〜3月14日(金)、出島メッセ長崎での開催予定です。来年の大会も楽しみですね。

この記事を書いた人
早稲田大学人間科学部で語用論の観点から自然言語処理の研究をしています。
モールス信号や速記など言語に関わることを勉強するのが趣味です。