ScribeBenchは、音声および動画コンテンツを高精度な編集可能なテキストに変換し、タイムスタンプ付き字幕を生成し、99以上の言語へ翻訳するためのウェブベースのプラットフォームです。コンテンツ制作者、教育者、研究者、アクセシビリティ専門家、ローカライゼーション担当者など、多言語対応の文字起こし・字幕作成機能を必要とする専門職および個人ユーザーを対象としています。高度な技術を活用しながらも、企業向け高額プランや専門的知識を必要としない設計が特徴です。
本プラットフォームは、オープンソースおよび商用の最先端AIモデルを統合し、高品質な結果を提供するとともに、操作の簡便性を維持しています。アーキテクチャはデータプライバシー、予測可能な料金体系、および単一インターフェース内での包括的な編集ワークフローを重視しています。
ユーザーはMP3、MP4、WAV、MOV、AVIなど一般的な形式の音声・動画ファイル(最大5GB)をアップロードします。プラットフォームはWhisper Large V3を用いて、話者分離を含むタイムスタンプ付き文字起こしを実行します。この基盤となる文字起こしから、ユーザーは「文字起こし編集」「字幕作成(放送・ストリーミング向けCPS/CPL最適化対応)」「翻訳(99以上の言語対応)」の3つのモードを切り替えて利用できます。また、バイリンガル編集機能により、原文と翻訳文を並列表示して比較・編集可能です。
すべての編集はブラウザ上でタイムラインベースのインタフェースで実行され、メディア再生とテキストセグメントが正確に同期します。ユーザーはタイムスタンプの調整、セグメントの分割・結合、話者ラベルの付与、動画上への字幕プレビューなどが可能です。完了後、業界標準フォーマット(SRT、VTTなど)で出力をエクスポートしたり、直接共有したりできます。
ScribeBenchは多様な用途に対応します:アクセシビリティ向上のための高精度字幕作成、多言語対応の教育資料や研究インタビューの制作、ポッドキャスターおよび映像制作者のポストプロダクションワークフローの効率化、グローバル配信向けリアルタイムコンテンツローカライゼーション、WCAGおよびADAなどのアクセシビリティ規格への準拠支援などです。クレジット制の料金体系により、利用量に応じたコスト管理が可能であり、永続的なデータ保存を行わない設計とエンタープライズレベルのセキュリティ対策により、規制対応環境における機密性要件にも応えます。
| プラン | 価格 | クレジット数 | 1分あたりの料金 | 主な機能 |
|---|---|---|---|---|
| Lite | 9.90ドル | 500 | 0.020ドル | Whisper V3+GPTモデル、話者識別、3モード統合エディタ、タイムライン編集、1年間のデータ保持 |
| Standard | 29.90ドル | 2000 | 0.015ドル | Liteの全機能に加え、クレジット数増加および同水準のデータ保持期間 |
| Pro | 59.90ドル | 6000 | 0.010ドル | Standardの全機能に加え、最大クレジット数と最も低コストな1分あたり料金 |