Holofinは、PDFやスキャン画像、複数ページの文書など非構造化ドキュメントを、構造化され検証可能なデータへ変換するドキュメントインテリジェンスプラットフォームです。銀行明細書、請求書、税務書類、医療記録、身分証明書などの文書は、レイアウトが複雑であったり、スキャン品質が低かったり、フォーマットが一貫していない場合が多く、金融、保険、医療、物流、不動産などの業界で共通の課題となっています。Holofinは、データエンジニア、コンプライアンス担当者、リスクアナリスト、自動化専門家など、正確で追跡可能かつ本番環境で利用可能なドキュメント処理を必要とする技術・業務チームを対象としています。
数千件の金融文書の処理経験を持つ実務家によって開発されたHolofinは、現実的な運用条件における信頼性に焦点を当てています。たとえば、分割された表、複数カラムのレイアウト、ページをまたいだ表、および異なるフォーマットが混在する文書などです。テンプレートやルールベースの設定を必要とせず、ゼロショットでの抽出を可能にします。
Holofinは、複数段階からなるレイヤードパイプラインで文書を処理します。まず、高精度OCRが空間的ゾーン内における文字レベルのテキストを抽出し、位置情報を保持します。次に、ビジョン・ランゲージモデルがヘッダー、表、段落、キャプションなどのページ要素を識別・分類し、ピクセル情報を構造化されたデジタル表現へ変換します。最後に、微調整されたモデルがテキストと空間情報の両方を統合して標準化されたJSON出力を生成し、エージェントによる検証フェーズでソース証拠と照合し、カスタム検証ロジックを適用します。
ワークフローは、視覚的なWorkflow Builderを用いて編成されます。このBuilderでは、銀行明細書、請求書、CERFAフォーム、その他の文書タイプへのルーティングといった分岐ロジック、IBANと期間に基づく結合銀行明細書の分割といった条件付きセグメンテーション、Slack通知付きの人手レビューといったオプションステップをサポートします。分類には事前学習済みモデルに加え、ユーザー独自の文書バリエーションに合わせて訓練されたカスタム分類器も利用可能です。セグメンテーションは、マルチページ文書、入れ子構造、ページをまたぐ表に対応し、抽出はinvoice_dateやtotal_amountといった固定フィールドだけでなく、line_itemsのような可変長配列にも対応します。
Holofinは、正確性、コンプライアンス、透明性を維持しつつ、高リスクなドキュメント処理タスクの自動化を可能にします。金融・融資分野では、銀行明細書、損益計算書、KBIS/KYB文書、税務書類を構造化し、与信審査および審査判断システムへ供給します。保険分野では、請求書、医療報告書、損害見積もりを自動処理し、請求処理の迅速化を実現します。物流分野では、運送状、通関書類、輸送請求書をグローバルなパートナーからの多様なフォーマットで処理し、サプライチェーンのワークフローを自動化します。医療分野では、臨床ノート、検査結果、処方箋から患者データを抽出し、プライバシー規制および規制要件への準拠を確保します。不動産分野では、賃貸契約書、入居者申請書、所有権証明書などの主要条項を抽出・検証し、取引および管理プロセスを合理化します。これらのすべてのユースケースにおいて、決定論的なデータ接地、フォレンジック詐欺検出、およびダウンストリームシステムへのエクスポート機能が活用されます。