
EchoTextは、macOS向けのリアルタイム音声認識テキスト入力アプリケーションであり、アプリケーションを切り替えたり、コピー&ペーストを行わずに、任意のテキストフィールドに直接音声で入力できます。これは音声トランスクリプションツールではなく、手動によるキーボード入力の代替として設計されており、特に開発者、ライター、エンジニア、知識労働者など、頻繁に文書作成を行う専門家を対象としています。反復性ストレス障害(RSI)への配慮や生産性向上を求めるユーザーにも適しています。
Apple Silicon搭載Mac(M1以降)およびmacOS 15(Sequoia)以降を対象に開発されたEchoTextは、OpenAIのWhisperモデルを完全にデバイス上で実行するWhisperKitを活用し、高精度かつ低遅延の音声認識を実現します。プライバシー保護、オフライン動作、およびシステム全体へのシームレスな統合に重点を置いた設計となっており、飛行機内、セキュアな施設、あるいはネットワーク接続が制限される開発環境など、多様な使用シーンに対応可能です。
EchoTextはメニューバーアプリケーションとして動作し、ユーザーが設定したシステム全体のホットキーを待機します。ホットキーが押されると、システムマイクから音声をキャプチャし、WhisperKitを用いてデバイス上でリアルタイムに音声認識を行います。認識されたテキストは、macOSのアクセシビリティAPIを介してカーソル位置に直接挿入されます。これにより、クリップボード経由のコピー&ペーストやウィンドウ切り替えが不要になります。
修正記憶機能は、ユーザーによる手動修正をローカルかつ暗号化されたマッピングとして保持します。例えば、「super base」と発音した際に「Supabase」と誤認識された場合、一度修正することで、今後同様の発音に対して「Supabase」として自動認識されるようになります。この学習はデバイス上で完結し、セッション間でも継続して有効です。言語検出は各発話ごとに自動的に行われるため、複数言語混在の使用も手動設定なしで可能です。
モデルファイルはセットアップ時に一度ダウンロードされ、ローカルに保存されます。その後の使用ではネットワーク接続は一切不要であり、Apple Neural Engineを活用した最適化により高速かつ省電力な処理が実現されます。
EchoTextは、自然な会話速度(平均150語/分)と典型的なタイピング速度(平均40語/分)の差を活かし、メール、ドキュメンテーション、コードコメント、メモ作成などの作成時間を大幅に短縮します。以下のようなシーンで特に有用です:
主な機能比較表は以下の通りです:
| 機能 | EchoText | Wispr Flow | MacWhisper | macOS音声入力 |
|---|---|---|---|---|
| 価格 | 29米ドル(一括) | 10米ドル/月 | 69米ドル以上 | 無料 |
| オンデバイス処理 | あり | なし | あり | 部分的(一部クラウド処理) |
| オフライン動作 | あり | なし | あり | 制限あり(多くの機能でインターネット接続が必要) |
| 任意アプリへの即時挿入 | あり | あり | なし | あり |
| 認識エンジン | WhisperKit | WhisperKit | WhisperKit | Apple独自モデル |
| サブスクリプション要否 | なし | あり | なし | なし |
| 対応言語数 | 99以上 | 99以上 | 99以上 | 限定的 |
システム要件:macOS 15(Sequoia)以降、Apple Silicon(M1、M2、M3、M4)。