Caption.IMは、macOS、Windows、Linux向けのデスクトップアプリケーションであり、リアルタイムの音声認識(スピーチ・トゥ・テキスト)および音声入力機能を提供します。システム全体の音声出力(例:オンライン会議、ビデオ通話、ポッドキャスト、講義、その他のメディア)から正確な字幕を生成でき、ブラウザ拡張機能やサードパーティ連携を必要としません。専門家、教育関係者、アクセシビリティ支援担当者、多言語チームを対象として設計されており、プライバシーと信頼性を最優先するため、すべての処理を端末上で完結させます。
Zoom、Google Meet、Microsoft Teams、YouTube、Slack Huddles、Discordなど、音声出力を生成するあらゆるアプリケーションと互換性があります。クラウド依存を排除することで、オフライン環境でも安定したパフォーマンスを発揮し、GDPRなどのデータ管理要件にも応えます。
Caption.IMは、オペレーティングシステムレベルで音声出力を直接キャプチャすることにより動作します。起動後、マイクおよび音声入力の権限を要求し、許可されるとデバイス上で生成されるすべての音声ストリームを監視します。その後、端末内蔵のAIモデルを用いて音声を処理し、画面上にリアルタイム字幕を重ね表示または統合インターフェースで表示します。
ユーザーは任意のタイミングで翻訳機能を有効化し、字幕を50以上の対応言語のいずれかに即座に変換できます。スピーカー検出機能は音声の特徴を分析して参加者を識別・ラベル付けします。生成された字幕は、アーカイブ、字幕作成、メモ用途などに活用できるよう、複数の形式(TXT、SRT、VTT)でローカル保存可能です。ワークフローは初期の権限付与のみを必要とし、個別のアプリケーションに依存しません。
Caption.IMは、教育および職場環境におけるアクセシビリティ向上を支援し、ライブおよび録音済みコンテンツに対して即時かつ正確な字幕を提供します。国際会議、遠隔学習、ハイブリッド協働において、言語障壁や難聴による参加制約を緩和します。開発者および技術チームは、オフライン利用が可能なプライバシー準拠型文字起こしを、デバッグセッションや内部デモなどで活用できます。コンテンツ制作者は、迅速な字幕生成および多言語コンテンツ再利用に活用します。企業は、GDPRやHIPAAなどのコンプライアンス要件を満たす一方で、機能を損なわず利用可能です。
| プラン | 無料版 | Pro版 | エンタープライズ版 |
|---|---|---|---|
| 対応言語数 | 3言語 | 50以上 | 50以上 |
| 月間利用時間 | 5時間 | 無制限 | 無制限 |
| 翻訳機能 | 非対応 | 対応 | 対応 |
| 字幕エクスポート形式 | TXTのみ | TXT、SRT、VTT | TXT、SRT、VTT |
| チーム管理機能 | — | — | 対応 |
| SSO/SAML対応 | — | — | 対応 |
| 専任サポート | — | 優先対応 | 対応 |
| サービスレベル合意(SLA)保証 | — | — | 対応 |