Spokenは、Windows専用のプロフェッショナル向け音声認識アプリケーションです。インターネット接続やクラウドサービスを必要とせず、任意のアプリケーションに対してハンズフリーで音声入力が可能です。データプライバシーを最優先する専門家向けに設計されており、ライターや研究者、開発者、法曹関係者、およびアクセシビリティ支援を必要とするユーザーなど、音声入力を生産性向上のために活用する人々を対象としています。
クラウドベースの代替ソリューションとは異なり、Spokenはすべての音声処理をローカルのデバイス上で実行します。これは、ネットワーク状況に左右されない一貫したパフォーマンスを保証し、外部サーバーへの依存を完全に排除します。アプリケーションはWindowsデスクトップ環境にシームレスに統合され、最小限のリソース占有で動作します。
Spokenは選択されたマイクから音声をキャプチャし、ローカルに展開されたWhisper音声認識モデルを用いてリアルタイムで処理します。アプリケーションは軽量なシステムトレイユーティリティとして動作し、リスニング状態、現在アクティブなアプリケーションのコンテキスト、およびクイックアクセスコントロールを表示する最小限のオーバーレイウィンドウを起動します。ユーザーは設定可能なホットキーを押すか、インターフェースをクリックすることで音声入力を開始でき、認識されたテキストは現在フォーカスされているアプリケーションに直接挿入されるか、システムクリップボードにコピーされます。
ソフトウェアは、ユーザーが手動で開始・停止する離散型音声入力モードと、音声検出後に自動的に開始し、設定された無音時間閾値を超えると一時停止する連続モードの2種類をサポートしています。音響モデリング、言語モデリング、句読点生成を含むすべての処理は、外部API呼び出しを行わずにローカルで完結します。マイク選択、モデル設定、ホットキー割り当てなどのユーザー設定はローカルに保存され、セッション間で保持されます。
Spokenは、法律文書作成、医療記録、学術研究、企業内の機密コミュニケーションなど、データ機密性が極めて重要な環境での使用に適しています。オフライン動作により、インターネット接続が制限されている場所や、通信インフラが未整備な地域でも信頼性の高い利用が可能です。コンパクトなインターフェースにより、IDE、プレゼンテーションソフト、クリエイティブツールなどの全画面アプリケーションでもワークフローを途切れさせることなく操作できます。アクセシビリティ支援を必要とするユーザーは、地域ごとの可用性やサービス中断の影響を受けない一貫した音声制御を享受できます。開発者および技術文書作成者は、機密性の高い用語を第三者システムに暴露することなく、迅速なドキュメンテーション、コードコメント、メール作成などの作業に活用できます。