TTSLabは、サーバー、APIキー、またはクラウドインフラストラクチャを必要とせずに、ブラウザ上でテキスト・トゥ・スピーチ(TTS)および音声・トゥ・テキスト(STT)モデルをローカルで実行・比較できるアプリケーションです。WebGPUおよびWebAssembly(WASM)を活用してデバイス上での推論を実現し、完全なデータプライバシーと低遅延のインタラクションを保証します。このツールは、モデルのパフォーマンスを評価する開発者、再現可能なベンチマークを行う研究者、および複数の音声特性を比較する製品チーム向けに設計されています。
アプリケーションはKokoro 82M、Whisper Base/Small、Moonshine Base、Supertonic 2などのオープンソースモデルをサポートしており、各モデルは一度ダウンロードされ、ブラウザ内にローカルキャッシュされます。ユーザーは並列での音声比較、推論ベンチマークの実行、あるいは完全にクライアントサイドで動作するVoice Agentとの対話が可能です。すべての処理は外部へのデータ送信なしで完結します。
TTSLabは3段階のワークフローで動作します。まず、ユーザーは統合ディレクトリから1つ以上のモデルを選択します。各モデルはタイプ(TTSまたはSTT)、アーキテクチャ、パラメータ数、ファイルサイズで明記されており、選択時にHTTPS経由でモデル重みが取得され、ブラウザのキャッシュ(例:IndexedDBまたはCache API)に保存されます。以降の使用では、ネットワーク経由での再ダウンロードなくローカルから読み込まれます。
次に、推論は完全にブラウザ内コンテキストで実行されます。WebGPU対応環境ではハードウェアアクセラレーションによるテンソル計算が行われ、非対応環境ではWASMがポータブルな代替ランタイムとして機能します。入力テキストはTTSでは音声に変換され、STTでは音声がテキストに転写され、すべての中間データはメモリ内に留まります。
最後に、結果がUIにレンダリングされます:TTSでは音声再生、STTでは転写テキスト、Voice Agentでは会話形式の応答が表示されます。推論中には一切のネットワークリクエストが発生せず、永続的な識別子や使用状況分析データも収集されません。
TTSLabは、医療記録、法的文書、個人メッセージなど機密性の高いコンテンツを第三者APIに送信できない環境において、スピーチAIの評価を可能にします。研究者は、異なるハードウェア構成間でも標準化・再現可能な推論環境を用いて、公平なモデル比較およびベンチマーク報告を行えます。開発者は、バックエンド連携前のプロトタイピング、モデル挙動の検証、多言語対応のテストなどに活用できます。製品チームは、自然さ、遅延、言語対応範囲といった観点から、最終ユーザー向けアプリケーションに採用するTTS音声を評価する際に並列プレビュー機能を活用します。