Entity Enrichmentとは?完全ガイド | Entity Enricher

Entity Enrichmentとは?

エンティティエンリッチメントとは、疎なデータレコード(会社名、化合物識別子、物件住所など)を取り込み、外部ソースの構造化された詳細な情報で拡充するプロセスです。このガイドでは、エンティティエンリッチメントの仕組み、AI を活用したアプローチが従来の手法に取って代わりつつある理由、そしてマルチモデルエンリッチメントがより正確な結果を生み出す方法を説明します。

entity enrichmentの定義

「エンティティ」とは、詳しく知りたい実世界のあらゆるもの、つまり企業、人物、医薬品化合物、法人、研究論文、不動産などを指します。「エンリッチメント」とは、そのギャップを埋めること、つまり既知の情報(エンティティ識別子)を基に、未知の情報(その属性、関係性、メタデータ)を発見することを意味します。

たとえば「Novartis」という名前だけを与えると、enrichment処理は次のような情報を返す場合があります: 本社所在地(スイス・バーゼル)、従業員数(105,000人以上)、治療領域(オンコロジー、循環器、免疫学)、最近の買収、臨床試験パイプライン、各法域における規制当局への申請などです。

重要な課題は、この情報を見つけることだけではなく、それを構造化することです。エンリッチメントシステムは、下流のアプリケーションがプログラムで利用できる、型付けされ検証された出力を生成します。自由記述の要約ではなく、特定のフィールド、型、関係を持つ構造化された JSON です。

従来型とAI搭載エンリッチメントの比較

従来のアプローチ

独自データセット(Apollo、ZoomInfo、Clearbit)に対するデータベース検索。事前にキュレーションされたデータベースにクエリを実行し、プロバイダーが提供するフィールドを取得します。

  • +高速な参照、高い一貫性
  • +標準的な B2B の企業/連絡先データに適しています
  • -固定のフィールドセット、カスタマイズ不可
  • -プロバイダーがサポートするエンティティタイプに限定されます
  • -データの鮮度はプロバイダーの更新サイクルに依存します
  • -シートあたり、または credit ベースの料金

AIを活用したアプローチ

大規模言語モデルは、トレーニングデータと推論能力を用いてエンティティを調査し、スキーマに準拠した構造化された出力を返します。

  • +カスタムスキーマ: 必要なフィールドを正確に定義できます
  • +あらゆるエンティティタイプ:B2Bデータに限定されません
  • +精度向上のためのマルチモデルクロスバリデーション
  • +トークン従量課金、サブスクリプション不要
  • -知識はモデルのトレーニングデータのカットオフ時点までに限定されます
  • -ハルシネーションを防ぐために検証が必要です

AIを活用したエンリッチメントは、すべてのユースケースでデータベースルックアップを置き換えるものではありません。検証済みのメールアドレスや電話番号が必要な場合は、キュレーションされたデータベースが今なお適切なツールです。しかし、カスタムフィールド、非標準のエンティティタイプ、または相互検証された構造化データが必要な場合には、AIを活用したエンリッチメントが力を発揮します。多くのチームは両方のアプローチを併用しています。

マルチモデルエンリッチメントがより良い結果をもたらす理由

単一モデルのエンリッチメントには根本的な限界があります:すべてのデータポイントについて、1つのAIの知識と推論を信頼することになります。異なるLLMは異なるデータでトレーニングされ、異なる強みを持ち、異なる誤りを犯します。Claudeが正しく答える事実をGPT-4が見落とすこともあり、その逆もあります。

マルチモデルエンリッチメントは、同じエンティティとスキーマに対して複数のモデルを並列で実行し、その出力をフィールドごとに比較することでこの課題に対処します。すべてのモデルが値について一致した場合、信頼度は高くなります。意見が分かれた場合、システムは競合を検出し、決定論的なルール(多数決、数値の中央値)またはLLMによる構造化された推論に基づく調停のいずれかを用いて解決します。

Entity Enricherがマルチモデルフュージョンと呼ぶこのアプローチは、単一のモデルだけよりも測定可能なほど正確な結果を生み出します。また監査証跡も提供します。フュージョンされた各レコードには、どのモデルが一致し、どのモデルが不一致だったか、そして競合がどのように解決されたかが記録されます。

エンリッチメントパイプラインの構造

最新のAIを活用したエンリッチメントパイプラインは、4つの段階で構成されます:

1

スキーマ定義

求める出力の構造を定義します。どのフィールド、どの型、どのネストの深さ、どの専門領域か。これがエンリッチメントが答える「問い」です。

AI スキーマ生成について学ぶ
2

エンティティ入力

エンティティ識別子(名前、ID、部分的なデータ、その他AIがエンティティを調査するのに役立つ情報)を入力してください。バッチモードは一度に最大100件のエンティティをサポートします。

バッチ処理について学ぶ
3

マルチモデルエンリッチメント

複数のAIモデルが、スキーマに基づいて各エンティティを個別にエンリッチメントします。プリフライト分類がエンティティタイプを検証します。専門領域ごとのプロンプトが特化した結果を生成します。

マルチモデルフュージョンについて学ぶ
4

フュージョンとエクスポート

モデル出力間のコンフリクトが解決されます。結果は、コンフリクトレポートとアービトレーションの根拠を含む構造化 JSON またはマルチシート Excel としてエクスポートされます。

すべての機能を見る

業種別のエンティティエンリッチメント

エンティティエンリッチメントは、現実世界のエンティティに関する構造化された情報が必要なあらゆるドメインに適用できます。以下は最も一般的な用途の一部です。

Entity Enricher のエンリッチメントへのアプローチ

Entity Enricher は、スキーマ駆動でマルチモデルなエンリッチメントのために専用に設計されています。専有データベースから固定のフィールドセットを提供する従来のプラットフォームとは異なり、Entity Enricher では必要な出力構造を正確に定義し、クロスバリデーションのために複数の AI モデルを実行し、コンフリクト解決を伴って結果をフュージョンできます。

主な機能

カスタムスキーマ

型付きプロパティ、ネストされたオブジェクト、配列、$ref 参照を使って、あらゆる出力構造を定義できます。

マルチモデルフュージョン

2つ以上のLLMを同時に実行します。フィールドレベルの競合を検出します。ルールまたはLLMアービトレーションで解決します。

AIによるスキーマ生成

JSONを貼り付けると、エキスパティーズドメインと検索キーを備えた検証済みスキーマが得られます。自己修正機能付きです。

バッチ処理

最大100件のエンティティを、リアルタイムの進捗表示とExcel/JSONエクスポートとともに並列にエンリッチします。

マルチ専門領域戦略

スキーマはドメインごとに分割され、より深い結果を生み出す専門的な並列 LLM 呼び出しを行います。

事前 classification

不一致のエンティティでのハルシネーションを防ぐため、enrichmentの前にエンティティタイプを検証します。

続きを読む

エンティティのエンリッチメントを開始

schemaを定義し、modelを選択して、数分で構造化されたentityデータを取得できます。サブスクリプションも固定フィールドも不要で、必要なデータを複数のAI modelで検証してお届けします。

無料で始める