2023年はテキスト生成AIの分野で大きな進歩が見られた一年でした。
AI技術の革新と社会への普及が加速し、多くの新しいアプリケーションが登場しました。
2024年には、このトレンドがさらに進化し、AIがより多様な形で日常生活に溶け込んでいくことが予想されます。
本稿では、2023年のテキスト生成AIの主要な進歩を振り返りつつ、2024年における流行の兆しを探っていきます。
【目次】
独自データを活用するAI構築プラットフォームとマルチモーダルの2つが挙げられます。
AIプラットフォームについては実際に様々な企業から製品が出ているため、いくつかご紹介します。
マルチモーダルについてはAIモデル自体の進化の方向性になっており、2024年にこれをベースとした製品が数多く生まれてくることが強く予想されます。
従来的なAIでは自社データを活用するためにはファインチューニングを行う必要がありました。
一方でテキスト生成を行うLLMにおいては、ファインチューニングを行わなくともプロンプトに資料を与えることで追加知識を与えた状態で質疑応答などを行うことができるようになります。
特に自社情報のようなクローズドな情報を活用したい場合や、ニュースなどの最新の情報を活用したい場合、ChatGPTなどのLLM単独では達成できないため、この方法を採用する必要があります。
自前でこの処理を組もうとすると、データベースとの連携や資料の形式変換、ベクトル変換といった処理を行う必要があり、エンジニアがいない企業では手を出しにくい状況でした。
この問題を解決するため、上記の工程を効率化するツールは様々な企業から提供され、独自データを活用するAI構築プラットフォームが複数出現した、という経緯があります。
以下に代表的なプロダクトを簡潔にご紹介します。
大手QAサイトであるQuoraによるサービスです。
チャットベースのやり取りによって、オリジナルのチャットボットが作成できます。
PDFなどの自社資料からQAチャットボットを作成できます。
他サービスと比較すると、低予算から多数のPDF資料を対象にアップロードできる点が特徴的です。
https://openai.com/blog/introducing-gpts
対話的に設定を行うUXなどはPoeに類似している部分も多いですが、PDFから独自資料をアップロードを行い、QAチャットボットを構築することができます。
OpenAIが提供していることもあり、(現在は制限がかかっていますが)爆発的に流行ったサービスの一つになります。
https://learn.microsoft.com/en-us/azure/ai-services/openai/concepts/use-your-data?tabs=ai-search
Azureの1サービスとして提供されています。
マイクロソフトが提供するサービスということもあり、PDFだけでなくWordなどのマイクロソフト製品のデータ形式をそのままアップロードできる点が特徴的です。
また、Azure上の他サービスと連携しやすかったり、資料をどんどん追加していきたい場合に向いています。
マイクロソフトのサービスは社内の稟議が通りやすい傾向にあるため、一定規模以上の事業者はこちらの採用を検討している印象があります。
https://aws.amazon.com/jp/q/?nc1=h_ls
(現在はプレビュー版の公開のみとなっています)
前述のon your dataと同様にクラウドサービス(AWS)の一貫として提供されています。
ChatGPT以外のLLMをAIのベースモデルとして選択できる点が他サービスと異なるでしょう。
簡単に試して見たい場合はGPTsがオススメで、日々蓄積される情報をLLMで活用したい場合はクラウドベースの製品を検討するか、独自に開発を行うという選択肢がオススメになります。
独自開発はコストがかかってしまう面があるものの、上記サービスの利用でうまく達成できない処理が解決できるようになる可能性があります。
実は上記で紹介したプロットフォームで開発できるAIでは、参考にすべき資料を検索してくる段階で失敗してしまうことが多々あり、検索が失敗するとLLMによる最終的な回答も失敗してしまいます。
この検索精度を向上させる取り組みが独自開発だと改善が可能なため、構築したいAIによっては強くオススメできる場面があります。
画像ファイルをアップロードすることでChatGPTにその画像を使用した質疑応答を行うことができます。
VisionAPIとして公開もされており、自社アプリとして裏側で実行させることもできます。
画像認識を通じた説明生成とその情報をもとにした各種質疑応答ができます。
デモ動画は編集されており実際の処理速度とは異なるようですが、Geminiで達成できることは十分に伝わる内容になっています。
こちらもOpenAI Vision APIのように従量課金で使用することができます。
同社のAdeptという製品の内部で採用されており、例えば請求書情報の登録などの反復処理を行うようなワークフローを作成し、AIに自動で実行させるような使い方ができます。
請求書のフォーマットは企業によって異なりますが、どの欄が金額や取引先なのかといった意味を理解するだけでなく、データベースアプリUIのどの項目に関連情報を入力するのかと、いった理解を行う必要があります。
先述のGeminiでご紹介したように画像認識とテキストの意味理解を行えるマルチモーダルなAIによって初めてオートメーションが可能になります。
AGIは幅広いタスクを自律的に解くことができるだけでなく、自己学習を行うことでタスクを解くように進化できるAIを示します。
特に、ChatGPTで生成AIをリードするOpenAIがCodeInterpreterなどを公開したときにAGIへ近づいたと話題になりました。
意味理解を行った上でソースコードを生成しながらそれらを実行を行えるため、「幅広いタスクを自律的に解く」に該当します。
また、この進化に合わせてマルチモーダル化が推し進められていることで、人間のように目で物事を観測し、音声で説明を行いながらタスク達成に必要な処理を行うことができるようになることが期待されます。
例えば、これまでは会議に参加するものの議事録を要約して作成するだけのAIが、会議の目的や組織情報を理解した上で会議のファシリテーションを行ってくれるように進化するかもしれません。
このようにより人間に近いAGIが生まれることでより幅広い範囲の人間の仕事を効率化することができるようになることが期待されます。
前述のAdeptでご紹介したように、請求書のような形式に自由度があるような入力から、会計ツールのような自由度のあるインターフェイスに対して自動で入力作業を行うようなAI製品が増えてくる可能性が高いでしょう。
生成AIによって既存のノーコードツール製品は脅威にさらされ始めていますが、ZapierやIFTTTといったツール感の連携を効率化する領域まで侵攻が始まる可能性が高まっています。
賢いマルチモーダルAIの出現によってより広い範囲のタスクをAIが担うことができるようになります。
マルチモーダルAIを活用すると、抽象的には画像を入力に意味理解を行い、何かしらのトリガーを発生させることができます。
具体的には、以下のような応用が可能になるかもしれません。
監視カメラ映像の映像から不審な動きを検知して通報を行います。
俯瞰カメラ映像から戦略などの解説を自動で生成します。
学習者や教材の映像からヒントの生成や解くための解説を行います。
特に学習支援に関しては、テキスト生成のみのChatGPTの頃から相性の良さは取り上げられており、早い段階で応用化が進むことが期待されます。
本稿では2023年におけるAIのトレンドと2024年の展望についてご紹介しました。
2024年は昨年以上にAIの構築や利活用において様々な選択肢が生まれてくることが予想されます。
AIを絡めた新規事業を始めたいがプロジェクトの進め方がわからない場合や、AI導入による効果検証を行いたい場合は以下までご連絡いただければ幸いです。
AIReviewでは引き続きAI業界をキャッチアップし、ビジネスへの応用可能性について紹介していく所存でございます。
2024年も引き続きよろしくお願いいたします。