スタンフォード大学やミシガン大学、ノースウェスタン大学の法学部などを所属とするメンバーグループから、税務を行うLLMにおける拡張方法について公開されています。
同グループは、税務タスクでは推論や算術といった処理が必要であること、また数千もの事例をベースに自動で検証が可能であるメリットについて言及しています。
データセットには米国の連邦規則集(CFR)と合衆国法典をデータに使用し、税務処理アルゴリズムにはChatGPT(GPT-4)を代表としたLLMにRAG(Retrieval Augumented Generation)を組み合わせています。
質問:ザーラは価値が41,000ドル、基準が33,000ドルの財産を所有しています。ザーラは亡くなり、その財産をディランに遺します。数年後、ディランはその財産を37,000ドルで売却します。ディランが財産を37,000ドルで売却したことにより、どの程度の利益または損失が発生しますか?
(1) -4,000ドル (2) -3,000ドル (3) -488ドル (4) 0ドル (5) 2,000ドル (6) 4,000ドル (7) 14,000ドル
GPT-4の回答:ザーラが亡くなり、その財産をディランに遺します。提供された状況に基づくと、ディランが持つ財産の基準価額は、ザーラの死亡日の財産の公正市場価格、すなわち41,000ドルになります。その後、ディランはその財産を37,000ドルで売却します。利益または損失を計算するために、売却価格から基準価額を引きます:37,000ドル – 41,000ドル = -4,000ドル。したがって、答えは(1) -4,000ドルです。
正解:(1) -4,000ドル
また、法律タスクの中でも税務を行う理由について、税法は一般市民から企業レベルまで幅広く生活に根ざしており、論理推論や数値計算だけでなく現実世界の実践に則した形で能力を試されるからとしています。
事前準備として、連邦規則集(CFR)と合衆国法典の規則を分割し、分割した文字列をGTR-largeを使用して768次元のベクトル表現にそれぞれ変換し、FAISSを使用してベクトルデータベースを作成します。
質問文が与えられた時、その質問文を同様の手順でベクトル表現に変換した後に類似度を計算し、マッチ度の高い法律や規則を4つ取得します。
また、GTR-largeは生物医学や科学といった様々なドメインのデータから学習されていますが、法律のデータでは作成されていません。
また実験では、LLMに人間が正解と判断した文章を渡すことで、LLMの能力とRAGの能力を切り離して検証を行っています。
他にも、ノースウェスタン大学のSarah Lawsky教授による講義ノートをRAGで使用する手法も準備されており、対照実験で検証が行われます。
Few-shotはLLMに入出力の例を明示することで、希望する形式で出力を取得するための手法です。
この研究ではLLMが税に関する質問に対して回答を行うにあたって、参考とすべき3点の質問-回答ペアを準備し質問文と合わせてプロンプトに埋め込んでいます。
この参考とすべき質問-回答ペアを準備することで、LLMがどのように税法に関する回答を行うべきか判断しやすくなることが期待できます。
特にFew-shotの活用は大きく正解率が向上し、特にGPT-4以前の”弱い”モデルであるほど効果が大きいことが確認されました。
また、RAGの有効性については僅かですが以下の傾向が確認でき、法律規則データを活用する効果が示されました。
人が与えた正解データを活用したRAG > 類似した法律規則(4つ)を活用するRAG > 講義ノートを活用するRAG > RAGなし
他にもCoT(Chain of Thought)を試していましたが、GPT-4ほどの強いモデルではやや正解率が向上することが確認されました。
また、資格試験の結果を税理士などの専門家と比較すると、まだ能力としては追いついていないことが確認されました。
加えて、法的な質問に対して回答を行うというタスクは、税理士の仕事のごく一部でしかありません。
今後はこの取り組みをベンチマークとし、LLMによる法の理解に向けて開発が加速することが予想されます。
法律タスクにおいては、最近だと北京大学のグループからChatLawも提案されており、同様のRAGによるアプローチが採用されています。
そのため専門分野におけるLLMの拡張として、RAGはとても一般的なアプローチとなっています。
その一方で、RAGを活用する大きなモチベーションとして、LLMが嘘を言ってしまう問題(hallucination)に対応しやすくなることが挙げられます。
実際にChatLawではhallucinationの回避にRAGを使用することの重要さについて言及がありましたが、今回紹介した取り組みでは大きな言及はありませんでした。
この研究では、「hallucinationを生じてしまうのであれば資格試験の正解率が下がるだろう」という暗黙の仮定が介在していますが、分析においてRAGの有無でどれだけ素のChatGPT(GPT-4)と比較して質的な変化が生じたのか掘り下げて確認する必要がありそうです。
また、ground truthと比較した場合に回答率が下がることも確認できたため、RAGのRetrieverによる処理にも課題が残っていることが確認できます。
Retrieverではどうやってベクトルを作成するかであったり、他にも全文検索エンジンを使用するかどうか等、模索する余地が大きい領域です。
税務タスクをベースとしたプロダクトの方向性として、税務相談チャットボットやデューデリジェンス(DD)への応用などが挙げられます。
税務相談であれば仕分けに関する疑問への回答や確定申告に関わる相談など個人に提供するものから、大企業向けにはDDとして財務諸表から企業の健全性評価や不正チェックなどを行うことも出来るようになるかもしれません。