リアルタイム音声認識API

WebSocketベースのストリーミング音声認識で、即時書き起こしを実現。ライブ配信、音声アシスタント、リアルタイム字幕に最適で、多言語に対応しています。

クリックして音声認識体験を開始

言語

高度な機能

話者分離
自動整形
終助詞フィルタリング

話者分離 : 同一音声チャンネルに複数の話者がいる場合、声紋情報で話者を識別します。

自動整形 : 追加のフォーマットを適用して読みやすさを向上させます。有効にすると、日付、時刻、数字が慣用的な形式で表示されます。

終助詞フィルタリング : 有効にすると、認識結果が適切に書き直され、フィラーワードなどがフィルタリングされます。

リアルタイム音声認識結果

話し始めてリアルタイム音声認識結果を確認

話者識別と即時フィードバック付きの音声テキスト変換

より低い利用コスト

他のソリューションと比較して、DolphinVoiceを選択することでコストを80%削減できます。

より低い応答遅延

中間認識結果のリアルタイム更新に対応し、完了時に最終結果を取得。文末の遅延は500msまで低減。

より高い精度

優れた音声認識精度を誇り、中国語と英語の混在、日本語と英語の混在に対応しています。

機能

  • 多分野対応

    コールセンター分野向けにモデルを最適化し、認識精度を向上させます。

  • スマート句読点とITN

    自動句読点予測とテキスト形式の最適化により、自然で読みやすい書き起こしテキストを生成します。

  • 単語登録

    単語登録により、人名、地名、組織名などの専門用語の認識精度を向上させます。

  • 話者識別

    フィラーワードのフィルタリングに対応し、口語の書き起こし原稿の読みやすさを向上させます。

  • フィラーワードフィルタリング

    フィラーワードのフィルタリングに対応し、口語の文字起こし原稿の読みやすさを向上させます。

利用シーン

ライブ字幕

セミナーなどのライブイベントにリアルタイム音声テキスト変換機能を提供し、視聴者に即時字幕を提供して視聴体験を向上させます。

音声アシスタント

カーナビやチャットアプリなど、様々なシーンでの音声入力に利用し、ハンズフリー操作を最大限に活用します。

コールセンター

顧客サービスの通話をリアルタイムで書き起こし、顧客のニーズをより簡単に記録・分析し、サービス品質を向上させます。

会議録音

会議中のリアルタイム書き起こしにより、話者と時間情報を含む議事録を迅速に作成します。

医療文書

リアルタイム音声認識により医療文書の作成効率を向上させ、医療スタッフの事務作業を軽減します。

教育・研修

研修コースにリアルタイム字幕を提供し、学生が授業内容をよりよく理解し、学習効率を高めるのを助けます。

音声コマンド

スマートホームデバイスやIoTアプリケーション向けの音声コマンドを即座に認識します。

法律文書

法廷審理中にリアルタイムで書き起こしを行い、裁判記録の正確性と完全性を確保します。

最も優れたチームに力を注ぐ

構築開始

登録して数分で始めましょう!