
Vocaは、開発者および技術専門家を対象としたデスクトップ音声認識アプリケーションです。一般的な音声変換ツールが抱える課題——特に「React」や「navbar」などの技術用語を正確に解釈できない点——に対処するために設計されています。開発者のワークフローに最適化されており、リアルタイムのAIによる修正機能を直接入力環境に統合することで、コーディング、ドキュメンテーション、コミュニケーション中のコンテキスト切り替えを最小限に抑え、集中力を維持します。
アプリケーションはローカルまたはユーザーが提供したAPIキー経由で音声を処理し、プライバシーとデータ管理を確保します。WindowsおよびmacOSに対応しており、MITライセンスのもとオープンソースで公開されています。Vocaはクラウド専用サービスではなく、可能な限りローカルでの動作を可能にするとともに、ユーザー自身が音声処理パイプラインを完全に制御できるよう設計されています。
Vocaは軽量なデスクトップエージェントとして動作します。設定されたグローバルショートカットで起動すると、音声の入力を開始し、選択された音声認識エンジン(Deepgram Nova-3またはGroq Whisper)へ音声データを送信します。得られた文字起こし結果は、Gemini 2.0 Flashを活用したAIレイヤーを経て、文法・構文およびソフトウェア開発に関連する専門用語の補正が行われます。補正後のテキストは、ユーザーの現在のカーソル位置に自動的に貼り付けられます。
必要に応じて、貼り付け前に翻訳を有効化できます。フォーマル、カジュアル、開発者モードから選択でき、開発者モードでは技術用語が英語のまま維持され、周囲の文章のみが翻訳されます。その他のアドオン機能として、数値変換およびリスト生成が利用可能です。すべての処理はユーザーのプライバシーを尊重しており、音声データはVocaのサーバーには保存・送信されず、ユーザーが管理するAPIキー経由でのみ処理されます。
Vocaは、コードコメントの記述、技術ドキュメントの作成、技術メールやSlackメッセージの作成、イシュー登録やプルリクエスト説明文の作成など、開発者が日常的に行う反復的なテキスト入力作業を効率化します。技術用語に対する正確な認識能力により、手動での編集時間を削減し、書かれた内容の一貫性を向上させます。翻訳機能は多言語チームを支援し、ローカライズされたドキュメントやユーザ向けコンテンツのリアルタイム作成を可能にします。IDE、エディタ、ブラウザ、コラボレーションツールなど既存のツールチェーン内で完結するため、コピー&ペーストやタブ切り替えを必要とせず、自然に統合されます。また、オープンソースでありローカル優先のアーキテクチャであるため、データ所在や透明性が求められる規制対応やセキュリティ要件の厳しい環境でも利用可能です。
| プラン | 月額料金 | 含まれるクレジット | 最大録音サイズ | 機能 |
|---|---|---|---|---|
| Pro | $3 | $3 | 10 MB | 全音声認識エンジン、翻訳、トーンモード、数値・プランニングアドオン |
| Max | $10 | $10 | 25 MB | Proと同じ機能に加え、より大きなファイルサイズ対応 |
両プランとも全機能が利用可能であり、機能制限はありません。