Harkuは、AIを活用した音声認識および動画からテキストへの変換サービスであり、音声および動画コンテンツを高精度で編集可能なテキストに変換します。OpenAIのWhisper V3モデルを採用しており、明瞭な英語音声に対して98.5%の認識精度を実現しています。対応入力ソースには、アップロードファイル(音声・動画)、YouTube URL、Vimeoなどの主要動画プラットフォームが含まれます。
Harkuは、クリエイター、ポッドキャスター、研究者、教育者、および信頼性とスケーラビリティのある文字起こしが必要なプロフェッショナル向けに設計されています。サブスクリプションの縛りや隠れたコストを排除し、ソフトウェアのインストール不要、ブラウザ上で完結する使いやすさを重視しています。
Harkuは「アップロード」「処理」「エクスポート」の3ステップで動作します。ユーザーはまず、音声または動画ファイル(無料プランでは最大500MB)をアップロードするか、YouTube、VimeoなどのURLを貼り付けます。制限付き動画の場合は、ローカルダウンロード後にファイルをアップロードすることを推奨します。提出後、システムは音声を抽出・最適化し、言語検出およびスピーカー識別機能を備えたWhisper V3によるAI処理を実行します。
処理はGPUアクセラレーションされたサーバーで実行されるため、高速な結果が出力されます。1時間の録音は通常2分以内で完了します。処理中はリアルタイムの進捗バーで状況を確認できます。完了後、ユーザーは同期再生可能なWebエディタにアクセスし、テキストをレビュー・修正・微調整して、希望の形式でエクスポートできます。
Harkuは多様な分野で実用的な応用が可能です。教育者は講義やYouTubeチュートリアルを文字起こしし、学習ノートやアクセシビリティ対応資料として活用できます。研究者はインタビューおよびグループディスカッションの録音を、話者ラベル付きの構造化された検索可能なテキストに変換できます。ポッドキャスターは動画エピソードからSEO最適化済みのブログ原稿や字幕ファイル(SRT/VTT)を生成できます。ビジネスチームは会議録を文書化し、アクションアイテムを抽出できます。コンテンツクリエイターは長尺動画をMarkdownやDOCX形式で書き起こし、公開用に再利用できます。
本サービスは、人手による文字起こし(同等量で$600以上)への依存を排除し、YouTubeなどのプラットフォーム内自動キャプション(精度が低い)の制約も回避します。コードスイッチングや地域アクセントへの適応を含む多言語対応により、国際共同作業や外国語学習教材の制作にも適しています。エンドツーエンド暗号化、ゼロデータ保持ポリシー、およびオプションのオンプレミス展開といったセキュリティ機能は、規制対応環境でも利用可能です。
| プラン | 料金 | 月間利用可能分 | 主な機能 |
|---|---|---|---|
| 無料 | $0 | 30 | AIチャプター、全エクスポート形式、500MBファイル上限、クレジットカード不要 |
| Basic | $10/月 | 500 | 無料プランの全機能+スピーカー識別、高精度モード |
| Pro | $29/月 | 2000 | Basicの全機能+優先キュー、2GBファイル上限、カスタム語彙 |
| 機能 | Harku | Rev | Otter.ai | Descript |
|---|---|---|---|---|
| 分単位料金 | $0.10 | $1.50 | $0.20 | $0.30 |
| 対応言語数 | 100以上 | 38 | 31 | 23 |
| スピーカー識別 | Basic/Proで利用可能 | あり | あり | あり |
| 一括アップロード | あり | あり | あり | あり |
| インストール不要 | あり | あり | あり | あり |
| APIアクセス | 入力データ未記載 | あり | あり | あり |
| リアルタイム文字起こし | 入力データ未記載 | あり | あり | あり |
| オフラインファイル対応 | あり | あり | あり | あり |