第257回 自然言語処理研究発表会 参加報告

2023年9月1日(金)に四谷オフィスで開催された「第257回 自然言語処理研究発表会」(URL)にオンラインで参加してきました。

近年の大規模言語モデル(LLM: Large Language Models)に関する研究が多くありました。特に、LLMは何ができていないのか?それを改善するにはどうすればいいか?など、LLMの課題に対するアプローチをした研究が多かった印象です。

自然言語処理研究会とは

自然言語処理研究会とは、情報処理学会が開催する研究会の一つで、年に2 ~ 3回研究発表会が開催されます。この研究会では、言語処理に関わる諸技術やその計算資源に関する研究を取り扱っています。

トレンド

今回の研究会では、言語モデルや機械翻訳、意味解析といった多様なテーマに関する研究が発表されました。その中でも、効率性とスケーラビリティ、多言語性と固有表現、詳細な分析と改善が主要なテーマだった印象です。

効率性とスケーラビリティ 大規模な言語モデルを効率的に利用する手法がいくつか提案されました。特に、計算コストと時間を節約しながらも性能を維持・向上させる方法が注目されていました。今後さらに大規模なモデルが登場する中で、その運用コストを抑える重要な課題となる思われます。
多言語性と固有表現 この研究会では多言語に対応したモデルや固有表現の取り扱いに特化した研究が目立ちました。多言語対応は、多言語間でのコミュニケーションの円滑化や言語モデルの公平性に貢献する可能性があり、固有表現の正確な取り扱いはその質をさらに高める要素となっています。
詳細な分析と改善 既存のアルゴリズムやモデルに対する詳細な分析が行われ、その結果を基にした改良の試みが見られました。これにより、モデルの限界と可能性がより明確になり、言語モデルのさらなる発展に寄与すると考えられます。

聴講した発表のご紹介

聴講した発表をいくつか紹介します。

語彙内トークンを媒介とした大規模言語モデルへのソフトプロンプトの転移学習

大規模言語モデルのソフトプロンプトチューニングにかかるコストに着目し、小規模な言語モデルでprompt-tuningしたソフトプロンプトを大規模言語モデルに用いるという研究です。大規模言語モデルはvanilla fine-tuningが難しく、prompt-tuningやLoRA-tuningが注目されています。prompt-tuningやLoRA-tuningといった手法を用いることで、大規模言語モデル自体のパラメータをいじる必要がなくなり、計算コストを抑えることができます。しかし、それでも計算コストは大きく、より効率的な追加学習方法が求められています。
そこでこの研究では、①小規模な言語モデルでprompt-tuningする。②小規模な言語モデルでprompt-tuningした結果を大規模な言語モデルで試す。ということをやっていました。言語モデルによって埋め込みの次元数が異なるため、この研究では、小規模な言語モデルで学習したソフトプロンプトの各ベクトルをそのモデルの語彙にある最近傍トークン列(自然言語)に置き換え、大規模言語モデルの入力としていました。

ドメイン適応のためのSentencePieceにおける語彙追加

言語処理の分野では、事前学習済みの言語モデルを追加学習することで下流のタスクに適用させることがよくあります。その際、事前学習と下流タスクのドメインが異なる場合、下流タスクのドメインに含まれる語彙を十分にカバーすることができないという問題が生じることがあります。この研究では、モデルの語彙を下流タスク固有の語彙に入れ替えることで、下流タスクの精度を向上させることを目的としています。
事前学習済みの言語モデルの語彙を下流タスク固有の語彙に入れ替える手順は、①ドメイン固有の語彙の追加分だけモデルの語彙から入れ替える語を選択する。②入れ替える語を使用頻度の低い順にドメイン固有の語彙に置き換える。③トークナイザーの語彙を置き換えた語彙に更新する。の3ステップで行ったそうです。結果として、この手法を用いることで単純にファインチューニングする場合と比べて精度を向上させることができたそうです。

指示調整言語モデルによる質問応答ペアの自動生成

ChatGPTなどの指示調整言語モデルを用いて、質問応答タスクのデータを自動生成する研究です。この研究で扱っていた質問応答ペアとは、文章とそれに付随する質問が与えられ、その質問に回答するというタスクです。この文章・質問・回答のペアを自動で生成するというのがこの研究の概要です。

背景として、応答タスクにおいて英語以外のデータが不足しているという問題があります。そのため、英語以外の言語では、データの拡張が必要になります。既存のデータ拡張手法では、人が介入する必要があり、コストがかかります。そのため、この研究では指示調整言語モデルを用いて、データを自動で作成していました。具体的には、① 文章を大量に集める。② ChatGPTにテンプレート + 文章を与え、データを作成する。という流れでした。このデータをローカルの言語モデルで追加学習することでデータの有効性を確認しており、結果として人手によるデータで追加訓練したモデルの性能と同等の結果を得ていました。

おわりに

今回紹介した発表の他にも、近年増加してる「マルチリンガルな言語モデル」についての発表など、さまざまな発表がありました。マルチリンガルな言語モデルの発表については、資料が公開されていたので、興味のある方はぜひそちらもご確認ください(リンクはこちら)。

参考文献

この記事を書いた人
自然言語処理の研究開発をしている大学院生です。
大手シンクタンクのインターンに参加した経験から金融分野にも興味が広がっています。

【所属】
早稲田大学 人間科学研究科

【発表した論文】
・システム発話の感情分類による制御を行ったマルチモーダル対話システム(第一著者)
・語用論的対話方策を使用するルールベースの対話システム(第一著者)
・保育現場での実用に向けたテキストベースファシリテーション対話システムの開発(第一著者)
・相談者の期待の種類を考慮する恋愛相談対話システムの検討(第二著者)
・深掘り質問を活用したカタカナ語学習支援対話システム(第二著者)