Kokoriは、macOS向けのローカルテキスト・トゥ・スピーチ(TTS)アプリケーションであり、バンドルされたローカルAPIサーバーとデスクトップインターフェースを用いて高品質な音声合成を提供します。インターネット接続やクラウドサービスに依存せず、信頼性が高く制限のないTTS機能を必要とする開発者、コンテンツ制作者、および上級ユーザーを対象として設計されています。アプリケーションはユーザーのマシン上で完全に実行されるため、データのプライバシー、低遅延、およびネットワーク状態に左右されない一貫したパフォーマンスを保証します。
Kokoro TTSエンジンを基盤として構築されており、米国英語および英国英語に加え、日本語、中国語(標準語)、スペイン語、フランス語、ヒンディー語、イタリア語、ブラジルポルトガル語など、複数言語にわたる50以上の音声をサポートしています。各音声は性別と品質レベル(A〜F+)で分類されており、用途や精度要件に応じた適切な選択が可能です。
Kokoriは、バックグラウンドで動作するローカルAPIサーバーとグラフィカルなデスクトップアプリケーションという二つのコンポーネントから構成されます。起動時にサーバーが自動的に開始され、localhost:5002でHTTP POSTリクエストを/ttsエンドポイントで受信します。クライアントはテキスト本文および任意のパラメーター(voice、speed)を送信し、高品質な音声(WAVまたはMP3形式)をレスポンスとして受信します。デスクトップアプリは、スタンドアロンのTTSジェネレーターとしてだけでなく、制御センターとしても機能し、ユーザーはコードを書かずに音声合成を実行したり、設定を調整したり、最近の出力を確認したり、ログにアクセスしたりできます。
アプリケーションには必要なすべてのTTSモデルおよびランタイムコンポーネントがバンドルされており、追加のインストール(例:Python環境、Docker、サードパーティエンジン)は一切不要です。音声のメタデータ(言語、性別、品質評価)は音声識別子(例:af_heart、bf_alice、zm_yunxi)に埋め込まれており、インターフェースおよびドキュメンテーションで明示的に記載されています。音声生成履歴はユーザーのLibraryディレクトリにローカルに永続化され、再利用およびバージョン管理が容易になります。
Kokoriは、ローカル開発、アクセシビリティツールの構築、コンテンツのプロトタイピング、および自動ナレーションワークフローに特に適しています。開発者は、クラウドAPIのコストやレート制限を考慮することなく、アプリケーション開発中のTTS統合をテストするためにこれを活用します。コンテンツ制作者は、タイミングや音声選択を完全に制御しながら、ポッドキャスト、チュートリアル、教育資料向けのナレーションを迅速に生成できます。アクセシビリティ専門家は、ネットワーク接続を前提としないカスタムスクリーンリーダー拡張機能や支援ツールを構築するために展開します。また、ネットワークの信頼性が確保できないリアルタイム用途(例:ライブ字幕プレビュー、インタラクティブキオスクシステム)においても、予測可能な低遅延動作が求められるため、本製品が適しています。