DictatorFlowは、音声を用いてコンピューターを制御し、AIエージェントと対話するためのインターフェースプラットフォームです。リアルタイム音声認識、音声コマンド実行、および音声によるテキスト編集を可能にするデスクトップアプリケーションおよび開発者向けAPIとして提供されます。精度、低遅延、プライバシーを重視する専門家——たとえば、開発者、ライター、エンジニア、アクセシビリティ利用者——を対象として設計されており、macOS(Apple SiliconおよびIntel)、Windows、Linuxに対応しています。Electronなどの過剰なフレームワークを採用せず、Zig言語で実装された軽量なネイティブバイナリを提供します。
このシステムは、低遅延・高精度の音声認識を実現する独自の音響モデルに基づいて構築されています。99以上の言語をサポートし、自動言語検出および言語間翻訳機能を備えています。ユーザーの音声データは一切サーバーに送信・保存されず、すべての処理をローカル環境で完結させることが可能です。
DictatorFlowは、ローカルデスクトップ制御とプログラムによるAPI連携という2つの主要なインタラクションモードで動作します。デスクトップモードでは、ユーザーがマイクに向かってコマンドを話すことで、システム操作や選択中のテキスト編集を実行できます。IDE、ウェブブラウザ、テキストエディタなど、あらゆるアプリケーションで利用可能です。音響モデルによる音声処理はローカルで行われ、ホストアプリケーションのコンテキスト内で直接変換が実行されます。
開発者向けには、低遅延のAPIエンドポイントが提供され、生の音声バイトを送信できます。cURL、JavaScript、Python、Goなど、HTTP対応のあらゆるスタックから統合可能です。認証ヘッダーと適切なContent-Typeとともに音声データを送信すると、認識結果のテキストと処理時間のメタデータがレスポンスとして返されます。ブラウザウィジェットは、<textarea>、<input>、またはcontenteditable要素の隣に簡単に配置でき、録音、波形表示、テキスト挿入を自動で処理します。
自動言語検出および翻訳機能により、たとえばフランス語で話して英語出力を得ることが可能です。明示的な言語指定は不要です。ネイティブアプリまたは自己ホスト型API展開を用いる場合、すべての処理を完全にオフラインで実行できます。
DictatorFlowは、多様なユースケースにおいてハンズフリーかつ高精度なコンピューター操作を実現します。ライターや編集者は、文脈を切り替えずに音声コマンドで文章のトーン調整や段落再構成を行えます。ソフトウェア開発者は、自然言語でコードのリファクタリングやコメントの翻訳、処理内容の説明を実行できます。アクセシビリティ利用者は、インターネット接続や第三者サービスへの依存を減らせる完全オフライン動作と、音声データの非送信性によって高いプライバシー保護を享受できます。
開発者は、内部ツール、CLIユーティリティ、定期実行型の文字起こしパイプライン、顧客向けアプリケーションなどへDictatorFlowを統合できます。低遅延設計により、音声制御型ダッシュボード、会議メモ支援ツール、多言語ドキュメンテーションツールなど、インタラクティブなシステムにも適しています。スピーカーダイアライゼーションおよび複数音声フォーマット対応により、企業向けコールセンターアナリティクスや学術研究分野での活用も可能です。
| プラン | 価格 | 内容 |
|---|---|---|
| Pro | 月額9ドル | 月間10時間のクラウド文字起こし、最高精度モデル、無料オフラインモード、継続的なアップデート |
| Pro Lifetime | 一括99ドル | 全プラットフォーム向けネイティブアプリ、99ドル分のAPIクレジット、無制限のローカル文字起こし、終身アップデート |
| APIクレジット | 1秒あたり0.004ドル | RESTおよびWebSocketアクセス、99.99%の稼働率保証(SLA)、スピーカーダイアライゼーション、優先サポート |