Spokeは、macOS向けのプライベートかつローカル実行型の音声認識アプリケーションです。ユーザーは、インターネット接続やクラウド処理を必要とせずに、任意のテキストフィールドに直接音声を文字起こしできます。本製品は、プライバシー、効率性、および既存の作業フローへのシームレスな統合を重視する専門職(例:開発者、ライター、研究者、知識労働者)を対象としています。
macOS 14以降およびApple Silicon搭載Mac専用に設計されており、AppleのCore MLフレームワークを活用して、軽量かつ高精度な音声認識モデルを端末上で実行します。音声データはデバイスから一切送信・保存・共有されません。ダウンロード直後から、アカウント登録、メールアドレス入力、または利用状況の追跡なしで使用を開始できます。
Spokeは以下の3つのステップで動作します。まず、ユーザーがカスタマイズ可能なキーショートカット(例:Fnキー)を押し続けると、即時にローカルでの音声入力が開始されます。次に、アプリケーションは入力された音声ストリームを、端末上でのみ実行される音声認識モデル(NVIDIA Parakeet-TDT-0.6B-V3)でリアルタイム処理し、ネットワーク接続を必要とせずに文字列を生成します。最後に、キーを離すと、生成された文字列が現在フォーカス中のアプリケーションのカーソル位置に自動挿入されます。コンテキスト切り替えや手動でのペースト操作は不要です。
AI Skills機能は任意であり、基本的な文字起こしとは独立しています。有効化した場合、外部AIプロバイダーへ送信されるのは最終的な文字起こし結果のみであり、元の音声データは一切送信されません(例:翻訳や再フォーマット処理)。ユーザーは各スキルごとに利用するプロバイダーを選択でき、APIキーも自身で管理します。Spokeはこれらのキーを代理受信・保存・ログ記録することはありません。
Spokeは多様な生産性シナリオに対応します。開発者は技術的指示を音声で入力し、コーディングアシスタント向けに整形されたプロンプトを生成できます。多言語対応の専門家は、リアルタイムで音声を他言語に翻訳できます。ライターや編集者は文法・句読点の自動修正機能を活用して原稿を推敲できます。研究者やノート作成者は、日付・時刻付きで保存・検索可能な文字起こし履歴を利用できます。また、オフライン動作により、インターネット接続が不安定または不可な環境でも信頼性の高い利用が可能です。プライバシー重視の設計は、厳格なデータガバナンス要件にも適合します。性能指標としては、6.34%の単語誤り率(Whisper Large V3と同等)、Apple Siliconにおける60秒音声の約400ミリ秒以内の処理遅延、および600Mパラメータのモデルサイズ(Whisperの1.55Bパラメータ比で2.6倍小型)が確認されています。
| 機能 | 実装方法 |
|---|---|
| 音声認識モデル | NVIDIA Parakeet-TDT-0.6B-V3(Core ML最適化版) |
| 最低システム要件 | macOS 14+、Apple Silicon専用 |
| 試用回数制限 | 購入前は50回の文字起こしが可能 |
| 料金体系 | 一括購入:9.99米ドル(サブスクリプションなし) |
| データ取扱い | 音声は端末内で処理・破棄。AI Skills利用時は文字起こし結果のみ外部送信(音声は送信しない) |