FluentCapは、ユーザーのコンピューター上で再生されるあらゆる音声をリアルタイムで文字起こし・翻訳するデスクトップアプリケーションです。システム音声(例:映画、ポッドキャスト、ビデオ会議)、マイク入力、または両方を同時にキャプチャでき、特定のアプリケーションやウェブブラウザーに限定されず、OS全体で動作します。言語学習者、多言語対応のミーティングに参加するビジネスパーソン、コンテンツ制作者、教育関係者、アクセシビリティ支援を必要とするユーザーなど、柔軟性・プライバシー重視の文字起こしが必要なユーザーを対象として設計されています。FluentCapは「Bring Your Own Key(BYOK)」モデルを採用しており、サブスクリプションやベンダー依存から解放されます。
ほとんどの字幕ツールが月額課金制を採用していたり、特定プラットフォームでのみ機能したりするのに対し、FluentCapは第三者の音声認識プロバイダーと直接連携します。ユーザーは自身のデータを完全に管理でき、すべての文字起こし結果はローカル端末上にのみ保存され、FluentCap側のサーバーによる処理や保存は一切行われません。
FluentCapはクラウドバックエンドを持たない軽量なデスクトップクライアントとして動作します。初回起動時に、ユーザーは対応プロバイダーを選択し、自身のAPIキーを入力します。このAPIキーは暗号化され、端末内にのみ保存されます。アプリケーションは選択された音声ソース(OSレベルの音声ループバックによるシステム音声、マイク入力、またはその両方)から音声をキャプチャし、生の音声ストリームを直接かつ安全に選択したプロバイダーのAPIエンドポイントへ送信します。FluentCap自体は音声の処理・保存・中継を行わず、一切関与しません。
文字起こしおよび翻訳結果はリアルタイムでストリーミングされ、FluentCapのインターフェースに表示されます。ユーザーは音声の元言語と翻訳先言語をそれぞれ独立して設定でき、必要に応じてプロバイダーをいつでも切り替えることができます。UIの動作(例:映画モードにおけるツールバーの自動非表示)も設定可能です。生成されたすべての文字起こし結果はローカルに保存され、セッション履歴は検索・閲覧・エクスポートが可能です。
FluentCapはプライバシーと柔軟性を損なわずに、実用的かつ多様な文脈で活用できます。言語学習者は、日本語アニメをベトナム語字幕で視聴するといった学習支援に活用できます。ビジネスパーソンは、ローカルおよびリモート参加者が混在するミーティングの音声を一括で記録・文字起こしできます。教育関係者および学生は、講義のノート作成やアクセシビリティ支援に利用します。コンテンツ制作者は、字幕作成、要約生成、SEO向けメタデータ作成などに再利用できます。
本アプリケーションは互換性を重視しており、DRM非対応のメディアプレイヤー、ブラウザベースのストリーミングサービス(YouTube、Vimeo)、ローカル動画ファイル、VoIPアプリケーション(Zoom、Microsoft Teams)、ポッドキャストクライアントなど、幅広い環境で動作します。ブラウザ拡張機能やアプリごとの統合設定は不要です。また、音声および文字起こしデータがFluentCap運営側のインフラを通過しないため、データガバナンスポリシーへの準拠も容易です。