Dictatoは、macOS専用のローカル(オンデバイス)音声認識アプリケーションです。インターネット接続、クラウド処理、またはユーザーアカウントを必要とせずに、リアルタイムで音声をテキストに変換します。このアプリケーションは既存のmacOSワークフローにシームレスに統合され、任意の互換アプリケーション内でカーソル位置に直接変換されたテキストを挿入します。プライバシー、信頼性、および効率性を重視するプロフェッショナル向けに設計されており、ライター、ソフトウェア開発者、法務・医療従事者、およびコミュニケーション、文書作成、コーディング環境を頻繁に切り替える知識労働者を主な対象としています。
Dictatoは、macOS標準の音声入力機能が抱える主な制限——60秒のタイムアウト、デフォルト設定でのクラウド送信依存、アプリケーション間での一貫性のない対応、およびオンデバイスモードにおける限定的な言語対応——を解決します。Apple Silicon搭載Macのニューラルエンジンを活用することで、低遅延の音声認識を実現しつつ、データの完全な所有権を維持します。
Dictatoはユーザーが設定したグローバルホットキーを介して動作します。ホットキーを押し続けると、アプリケーションがシステムマイクからの音声をキャプチャし始めます。音声は選択された認識エンジン(Whisper、Parakeet、またはApple SpeechAnalyzer)により、Macのハードウェア上で完全にローカルに処理されます。変換はリアルタイムで行われ、ホットキーを離すと、生成されたテキストがアクティブアプリケーション内の現在のカーソル位置に即座に挿入されます。別途インターフェースを開く、ウィンドウを切り替える、コピー&ペーストを行うなどの手順は一切不要です。
アプリケーションはmacOSアクセシビリティAPIを用いて、標準テキスト入力をサポートするあらゆるアプリケーションにテキストを挿入します。処理が完全にローカルであるため、ネットワーク接続がない状況(飛行機内、Wi-Fiのないカフェ、セキュアなネットワーク環境など)でも正常に動作します。音声は推論後に直ちに破棄され、録音データや変換結果は保存・送信されません。エンジンモデルは初期設定時にローカルにダウンロードされます(Apple SpeechAnalyzerを除く)。Parakeetは約2.3GB、Whisperは約600MBのストレージ容量を必要とします。
Dictatoは、スピード、プライバシー、信頼性が特に重要なハイエフィシェンシーなワークフローを支援します。ライターはタイムアウト制限のない長文音声入力を利用できます。開発者はVS CodeやXcodeなどのエディタ内で迅速にコードコメントやドキュメンテーション、課題報告を作成できます。法務・医療関係者は、HIPAAやGDPRなどのプライバシー規制に準拠した機密ノート作成に本アプリケーションを活用できます。教育者や研究者は、講義メモやインタビュー録音の文字起こしに利用でき、機密内容を第三者サービスに委ねることなく済みます。
エンジンを動的に切り替える機能により、ユーザーは言語対応範囲(Whisper)、欧州言語における精度と速度(Parakeet)、またはダウンロード不要の簡便性(Apple SpeechAnalyzer)のいずれかを目的に応じて最適化できます。自動言語検出機能により、各セッション開始前に言語を手動で選択する必要はありません。普遍的なアプリケーション対応と明確なライセンスモデルを組み合わせることで、Dictatoはクラウド依存型音声入力ソリューションに対するプライバシー重視の代替手段となります。