July 11, 2023

グローバル AI、ローカル データ: データ常駐性を考慮して AI をグローバルに拡張する方法 by Peter Yared

グローバル AI、ローカル データ: データ常駐性を考慮して AI をグローバルに拡張する方法 by Peter Yared

現在、人工知能と大規模言語モデル (LLM) が大流行していますが、データ常駐に関する厳格なコンプライアンスを維持しながら、LLM のメリットを享受できる思慮深いアーキテクチャを発表できることを嬉しく思います。グローバル レポートがグローバルな洞察を提供するのと同じように、企業はグローバルな人工知能を実行してデータの傾向を分析し、アナリストがプロンプトでデータをより深く調査できるようにしたいと考えています。

複数の国からの匿名化されたデータを使用して動作するグローバル AI

フィールドレベルの匿名化技術を使用すると、複数の国の In Country ボールトからのデータを単一のグローバル LLM に入力できます。姓名などのデータ フィールドは匿名化でき、その後、LLM が匿名化されたデータをトークン化します。その後、LLM はグローバル データ セット上で実行できるようになりますが、LLM ユーザーは規制されたデータ フィールドを参照することができません。

グローバル AI が複数の国の広範なデータセットにわたる異常傾向を検出するヘルスケアのユースケースを考えてみましょう。AI は、規制の厳しい国では個人を追跡できない匿名化された患者データを使用して動作します。患者データがないことは制限ではありません。ほとんどの分析と洞察では、LLM は名前や住所などを知る必要はありません。血圧、投薬、健康状態などの詳細を知る必要があります。

グローバルな洞察には患者データが含まれていないため、国を超えて共有できます。たとえば、低血圧と薬の間に起こる予期せぬ副作用について学習する AI です。特定の患者記録にアクセスするための適切な許可があれば、影響を受けた患者に関する具体的な洞察を各国のスタッフにループバックし、必要に応じて匿名化を解除することができます。

ローカルデータで動作するローカルAI

健康データや財務データなどの詳細な規制データを LLM に操作させるユースケースは数多くあります。ただし、このような高度に規制されたデータは、たとえ匿名化されていても国外に輸出できないことがよくあります。

各顧客のポートフォリオに基づいた洞察を組み込んだマーケティング電子メール キャンペーンの草案など、金融サービスのユースケースを考えてみましょう。LLM はコンテナとして国内に完全に展開され、各顧客を分析し、現地で規制されているデータと規制されていない外部データの両方を使用してレターの草稿を作成します。

コンテナは各国に展開され、各国の In Country Vault から直接データを統合します。各国でデータ損失防止を維持するために、LLM に入力されたデータをマスクしたり、その役割を実行した後にコンテナをパージしたりすることができます。

匿名化、データプライバシートークン化、LLMトークン化

考慮すべき興味深い側面は、LLM がデータをトークン化するときに、なぜデータを匿名化するのかということです。まず、規制されたデータをソース国から LLM にエクスポートする必要があります。さらに、LLM のトークン化の定義は、データ プライバシーの定義とはまったく異なります。LLM の場合、トークンは単語などのより大きな単位へのポインターとして機能し、辞書と同様に、同じトークンが同じ単語を指し、簡単に元に戻すことができます。データ プライバシーの定義では、トークンは不透明であり、通常はアトミック値を指す 1 回限りの使用値です。

したがって、LLM では「Peter」は常に 322 としてトークン化されますが、データ プライバシーでは、Peter Yared レコードの Peter フィールドは 542355235 としてトークン化され、Peter Gabriel レコードの Peter フィールドは 564322667 としてトークン化されます。

AI をグローバルおよびローカルで使用して洞察を得る

データ規制により、グローバル データセットへの人工知能の展開が少し面倒になる可能性がありますが、In Country の上記 2 つのアプローチにより、規制対象データの完全なデータ常駐を維持しながら、グローバルな洞察を獲得し、ローカルなメリットを提供することが可能になります。