エンティティエンリッチメントとは、疎なデータレコード(会社名、化合物識別子、物件住所など)を取り込み、外部ソースの構造化された詳細な情報で拡充するプロセスです。このガイドでは、エンティティエンリッチメントの仕組み、AI を活用したアプローチが従来の手法に取って代わりつつある理由、そしてマルチモデルエンリッチメントがより正確な結果を生み出す方法を説明します。
「エンティティ」とは、詳しく知りたい実世界のあらゆるもの、つまり企業、人物、医薬品化合物、法人、研究論文、不動産などを指します。「エンリッチメント」とは、そのギャップを埋めること、つまり既知の情報(エンティティ識別子)を基に、未知の情報(その属性、関係性、メタデータ)を発見することを意味します。
たとえば「Novartis」という名前だけを与えると、enrichment処理は次のような情報を返す場合があります: 本社所在地(スイス・バーゼル)、従業員数(105,000人以上)、治療領域(オンコロジー、循環器、免疫学)、最近の買収、臨床試験パイプライン、各法域における規制当局への申請などです。
重要な課題は、この情報を見つけることだけではなく、それを構造化することです。エンリッチメントシステムは、下流のアプリケーションがプログラムで利用できる、型付けされ検証された出力を生成します。自由記述の要約ではなく、特定のフィールド、型、関係を持つ構造化された JSON です。
独自データセット(Apollo、ZoomInfo、Clearbit)に対するデータベース検索。事前にキュレーションされたデータベースにクエリを実行し、プロバイダーが提供するフィールドを取得します。
大規模言語モデルは、トレーニングデータと推論能力を用いてエンティティを調査し、スキーマに準拠した構造化された出力を返します。
AIを活用したエンリッチメントは、すべてのユースケースでデータベースルックアップを置き換えるものではありません。検証済みのメールアドレスや電話番号が必要な場合は、キュレーションされたデータベースが今なお適切なツールです。しかし、カスタムフィールド、非標準のエンティティタイプ、または相互検証された構造化データが必要な場合には、AIを活用したエンリッチメントが力を発揮します。多くのチームは両方のアプローチを併用しています。
単一モデルのエンリッチメントには根本的な限界があります:すべてのデータポイントについて、1つのAIの知識と推論を信頼することになります。異なるLLMは異なるデータでトレーニングされ、異なる強みを持ち、異なる誤りを犯します。Claudeが正しく答える事実をGPT-4が見落とすこともあり、その逆もあります。
マルチモデルエンリッチメントは、同じエンティティとスキーマに対して複数のモデルを並列で実行し、その出力をフィールドごとに比較することでこの課題に対処します。すべてのモデルが値について一致した場合、信頼度は高くなります。意見が分かれた場合、システムは競合を検出し、決定論的なルール(多数決、数値の中央値)またはLLMによる構造化された推論に基づく調停のいずれかを用いて解決します。
Entity Enricherがマルチモデルフュージョンと呼ぶこのアプローチは、単一のモデルだけよりも測定可能なほど正確な結果を生み出します。また監査証跡も提供します。フュージョンされた各レコードには、どのモデルが一致し、どのモデルが不一致だったか、そして競合がどのように解決されたかが記録されます。
最新のAIを活用したエンリッチメントパイプラインは、4つの段階で構成されます:
エンティティ識別子(名前、ID、部分的なデータ、その他AIがエンティティを調査するのに役立つ情報)を入力してください。バッチモードは一度に最大100件のエンティティをサポートします。
バッチ処理について学ぶ →複数のAIモデルが、スキーマに基づいて各エンティティを個別にエンリッチメントします。プリフライト分類がエンティティタイプを検証します。専門領域ごとのプロンプトが特化した結果を生成します。
マルチモデルフュージョンについて学ぶ →モデル出力間のコンフリクトが解決されます。結果は、コンフリクトレポートとアービトレーションの根拠を含む構造化 JSON またはマルチシート Excel としてエクスポートされます。
すべての機能を見る →エンティティエンリッチメントは、現実世界のエンティティに関する構造化された情報が必要なあらゆるドメインに適用できます。以下は最も一般的な用途の一部です。
Entity Enricher は、スキーマ駆動でマルチモデルなエンリッチメントのために専用に設計されています。専有データベースから固定のフィールドセットを提供する従来のプラットフォームとは異なり、Entity Enricher では必要な出力構造を正確に定義し、クロスバリデーションのために複数の AI モデルを実行し、コンフリクト解決を伴って結果をフュージョンできます。
型付きプロパティ、ネストされたオブジェクト、配列、$ref 参照を使って、あらゆる出力構造を定義できます。
2つ以上のLLMを同時に実行します。フィールドレベルの競合を検出します。ルールまたはLLMアービトレーションで解決します。
JSONを貼り付けると、エキスパティーズドメインと検索キーを備えた検証済みスキーマが得られます。自己修正機能付きです。
最大100件のエンティティを、リアルタイムの進捗表示とExcel/JSONエクスポートとともに並列にエンリッチします。
スキーマはドメインごとに分割され、より深い結果を生み出す専門的な並列 LLM 呼び出しを行います。
不一致のエンティティでのハルシネーションを防ぐため、enrichmentの前にエンティティタイプを検証します。
schemaを定義し、modelを選択して、数分で構造化されたentityデータを取得できます。サブスクリプションも固定フィールドも不要で、必要なデータを複数のAI modelで検証してお届けします。
無料で始める