Unlimited AI Transcription, Translation, Voiceover, Subtitle
Subtitle Sphereは、ローカル環境で動作するデスクトップアプリケーションであり、音声・動画の文字起こし、翻訳、字幕生成、テキスト読み上げ(TTS)、ボイスクローン、音声・動画編集、ドキュメント処理などの機能を単一の統合インターフェースに収めています。主要な処理はクラウド接続なしで実行可能であり、ユーザーのファイルは端末上から一切送信されません。プライバシーと再現性、長期的な所有権を重視する専門家——コンテンツ制作者、教育者、研究者、ポッドキャスター、アクセシビリティ担当者、編集者——を主な対象としています。
本ソフトウェアはWindows 8/10/11およびmacOS(ARM)に対応しており、サブスクリプションモデルではありません。ユーザーはCAD 50ドルの一括支払いで永久ライセンスを取得でき、新機能追加に伴うアップデートも無償で提供されます。文字起こし、翻訳、TTS、ボイスクローン、音声強調、動画セグメント抽出など、すべての処理は、オープンソースおよび独自開発のモデルを用いてオフラインで実行可能です。
Subtitle Sphereは、自己完結型のデスクトップアプリケーションとして動作します。インストール後、ユーザーはMP4、WAV、MP3、SRT、PDFなどの入力ファイルを選択し、インタフェースから処理タスク(例:音声の文字起こし、字幕の翻訳、テキストの音声化、動画セグメントの抽出など)を指定します。その後、ユーザーの設定およびネットワーク接続状況に応じて、適切なローカルまたはクラウド連携エンジンが適用されます。例えば、オフライン文字起こしにはWhisperまたはWhisper-Google Fusionが使用され、インターネット接続時においてはGoogle、Gemini、OpenAIのAPIキーを用いて高度な翻訳やTTSが利用可能です。
バッチ処理により、複数のインタビュー録音を一括で文字起こししたり、複数のSRTファイルを対象言語に翻訳したり、オーディオブックシリーズ全体に同期されたナレーションを生成することが可能です。Chatterboxによるボイスクローンは、ユーザーが提供した音声サンプルからローカルでカスタムボイスモデルを構築し、外部サーバーを介さずに行います。音声強調にはFFmpegおよびノイズ低減アルゴリズムが活用され、動画処理にはフォーマット変換、解像度アップスケーリング(最大4K)、フレーム精度のトリミングが含まれます。すべての出力はユーザーのファイルシステムに直接保存されます。
教育者は、講義動画の多言語字幕生成、EPUB教科書の構造を維持した翻訳、アクセシビリティ向上のためのAI音声版作成にSubtitle Sphereを活用します。研究者は、インタビュー録音のスピーカーダイアライゼーションや音声セグメンテーションを用いて、話者を自動識別・分離し、質的分析用のクリーンな文字起こしを出力します。コンテンツ制作者は、定期課金やデータ流出リスクを回避しつつ、プロフェッショナルな字幕、ローカライズされた音声吹き替え、ハイライト映像を制作できます。アクセシビリティ担当者は、多言語字幕およびAI音声による包括的デジタルコンテンツを生成します。ポッドキャスターは、音声品質の強調、背景音楽からのボーカル分離、および自動文字起こし・番組概要生成を実現します。すべてのユーザーは、サードパーティサービスの稼働状況や使用制限に依存しない、確実かつ再現可能な処理を享受できます。