Stop paying for speech-to-text. Local, open-source.
TypeWhisperは、macOSおよびWindows向けのオープンソース・オンデバイス音声認識アプリケーションです。ユーザーの音声データを一切クラウドに送信せず、完全にローカルで文字起こしを行うことを目的としています。このソフトウェアは、プライバシーとオフライン機能を重視するプロフェッショナル、開発者、ライター、教育関係者、およびアクセシビリティ支援を必要とするユーザーを対象としています。
クラウドベースの代替ソリューションとは異なり、TypeWhisperはユーザーのデバイス上で完全に実行され、すべてのAIモデルがローカルで処理されます。文字起こし中はインターネット接続を必要とせず、アカウント登録やテレメトリ、データ収集もありません。GPLv3ライセンスにより、ソースコードの検証、修正、再配布が自由に行えます。
TypeWhisperは以下の3ステップで動作します。まず、ユーザーは任意のアプリケーション内で使用可能な構成可能なグローバルキーボードショートカットを押して録音を開始します。次に、選択されたオンデバイスAIエンジンによって音声がリアルタイムで処理され、WhisperKitではストリーミングプレビューが利用可能です。最後に、生成されたテキストが現在フォーカスされているテキスト入力欄に自動的に挿入され、手動でのコピー&ペーストを不要とします。
ライブ音声認識に加えて、TypeWhisperはファイルベースの文字起こしにも対応しています。ユーザーはオーディオまたは動画ファイルをアプリケーションウィンドウに直接ドラッグすることで、タイムスタンプ付きの文字起こしを生成できます。ローカルHTTP APIはlocalhost上でエンドポイントを提供し、外部ツールやカスタムスクリプトとのプログラム連携を可能にします。エンジン選択、モデル管理(WhisperKitおよびParakeetはアプリ内手動ダウンロード、Apple SpeechはmacOSによる自動管理)、およびプロファイル設定は、アプリケーションのネイティブインターフェースから行います。
TypeWhisperは、ハンズフリー文書作成、運動機能または視覚障害のあるユーザー向けのアクセシビリティ支援、多言語ノート作成、教育用または社内向け動画コンテンツのキャプション生成、およびローカルAPIを活用した開発者向けツールなど、さまざまな実用的な用途に適しています。アプリケーションごとのプロファイル機能により、たとえばメッセージアプリでは日本語翻訳付きWhisperKitを使用し、ワードプロセッサでは英語向けApple Speechを自動で切り替えるといった柔軟な運用が可能です。ファイル文字起こし機能は、ポッドキャストや研修用動画の字幕作成など、コンテンツ制作者のワークフローを支援します。すべての処理がローカルで行われるため、法務、医療、政府機関など、データ所在および機密性が厳格に求められる環境においても、コンプライアンス要件を満たします。
| 機能 | WhisperKit(汎用型) | Parakeet TDT v3(高速型) | Apple Speech(ゼロセットアップ型) |
|---|---|---|---|
| 対応言語 | 99言語以上 | 25の欧州言語 | 約40言語 |
| ストリーミングプレビュー | あり | なし | なし |
| 翻訳対応 | 20言語 | 20言語 | 20言語 |
| 処理速度 | 高速 | 最大5倍高速 | 高速 |
| モデルサイズ選択 | Tiny~Large v3 | 11億パラメータ | システム管理 |
| モデルダウンロード方法 | アプリ内手動 | アプリ内手動 | macOSによる自動 |
| 対応プラットフォーム | macOS、Windows | macOS、Windows | macOS 26+のみ |
| 最適な利用シーン | 多言語対応、翻訳、ストリーミング | 欧州言語向けの高速文字起こし | macOS互換環境での迅速な導入 |