もしかしてあなたは膨大かつ複雑化したデータ処理の扱いに苦労していませんか?
データオーケストレーションツールをまだ導入していないAI開発者/データサイエンティストの方や、データ管理についての相談をよく受ける事業部責任者の方などに是非ご一読いただきたいです。
Apache Airflowを活用したデータオーケストレーションプラットフォーム「Astro」の開発元であるAstronomerがシリーズDラウンドで9,300万ドルの資金調達に成功したことが報じられています。
本記事ではAirflowとAstroについて取り上げながらAI業界における開発分野における傾向について解説していきます。
AstronomerはオープンソースのApache Airflowの開発と普及で中心的な役割を果たした企業で、Airflowが稼働するプラットフォームであるAstroを提供しています。
想像がつきにくい方はGitとGitHub社の関係をイメージしてください、GitがツールでGitHubはGitに関連するプラットフォームを運営しています。
つまりAstronomerはOSSホスティングによるビジネスモデルで収益化を行っている企業になります。
Airflowの類似ツールとしてはPrefectなどがあり、データオーケストレーションツールに分類されます。
Astro(プラットフォーム)の競合としてはAWSの「Managed Workflows for Apache Airflow」やGCPの「Cloud Composer」などがあります。
複雑なデータ処理の流れを自動化・管理・可視化するツールです。
データ処理において、例えば以下のような事例が散見されます。
・毎晩、売上データを集計し、BIツール用のデータマートに格納する
・データが更新されたら自動的に機械学習モデルを再学習・デプロイする
・定期的に外部APIからデータを収集し、S3に保存、その後データクレンジングを実行
これらを人が手動で実行・管理するのは非現実的で、失敗や漏れが発生しやすくなります。
そこで「いつ」「何を」「どの順番で」「成功したか失敗したか」を管理するためのツールが求められてきました。
とりわけ大量データを扱う企業でよく採用される基盤ツールになっています。
もう少し私の経験を元に具体例を取り上げます。
1.について、データの形式が病院毎に異なるためスキームを統一化するために前処理が必要な状況だとします。
このとき、人手で作業を行うケースでは使用する前処理用のスクリプトを間違えて適応してしまう可能性があります。
こうなってしまうとDWHに追加するタイミングでエラーが発生しますが、この段階からどの病院におけるどの処理を間違えたのか全体から探し出すことはかなりの重労働となります。
2. についてはデータに対する継続的デプロイと認識してもよいでしょう。
つまりは、データの準備側とモデル構築の担当者が異なる場合でも「このデータはAに置いてありますが事前処理Bは実行されて更新されてましたっけ?」といった状況の確認を取り合うような余分なコミュニケーションを発生させずに、任意の時点でデータが最新であることを明確にすることができます。
Astronomerのデータ利用の進化は特に重要視されています。同社調査では、約69%の企業がAIや機械学習アプリケーションにAirflowを利用しており、その多くが顧客向けの収益性のあるソリューションに活用されています。
Ford Motor Companyはその一例です。同社の高度運転支援システムや大規模言語モデルなどのAI開発のワークフローはAstroを基盤とし、毎週ペタバイト規模のデータを処理、複数のワークフローを効率的に運用しています。
この事例は、AIモデルをプロトタイプから大規模生産環境へと移行させるうえでの、オーケストレーション技術の重要性を浮き彫りにしています
シリーズDラウンドでの資金調達はBain Capital Venturesが主導し、Salesforce VenturesやInsight Venturesなどの既存投資家も参加しました。また、Bosch Venturesも投資に意欲を示しており、産業界の強い関心を反映しています。同社のCEOであるアンディー・バイロンによれば、この資金は研究開発の加速と、特にヨーロッパ、オーストラリア、ニュージーランドにおける国際的な拡大に充てられるようです。
データ利用が膨大になればなるほどに恩恵があるため、データオーケストレーションツールは大企業向けに思えてしまいます。
一方で、継続的にパフォーマンスの高いAI開発を行う必要のある企業であったり、日々アップデートされるデータからデータ分析によって最新のインサイトを獲得し続けることに意義のある企業、他社と連携してデータ管理を行わなければならないようなケースでは積極的に採用したいツールになります。
自社運用を行いたいが、データフローを確立したいという場合にはPrefectの採用も検討を行う価値があります。
特にpythonの関数ベースで定義できるうえに手軽にローカル環境でも試しやすいです。
従来的にデータが重要視される企業ではBigQueryのあるGCPが採用されることが多く、Prefectを採用する場合も自然とGCPで運用されることも少なくない印象です。
自社に適したデータオーケストレーションツールを導入したい場合の技術選定のコンサルティングも承っておりますので、ご関心があれば以下からご相談いただければ幸いです。
https://www.astronomer.io/
https://venturebeat.com/ai/astronomer-93m-raise-underscores-a-new-reality-orchestration-is-king-in-ai-infrastructure/