音声認識処理速度(二):リアルタイム音声認識
この記事ではリアルタイム音声認識における速度指標であるテイルパケット遅延(TPL)について紹介しています。DolphinVoiceは、TPLを最適化することで、リアルタイム音声認識シーンに最適な使用体験を提供します。

前回の記事 では、録音ファイルの書き起こし速度評価指標であるリReal-time Factor(RTF)を紹介しました。録音時間が最初から決まっているシーンでは、RTFを音声認識速度の評価指標として使用できます。
録音ファイルの書き起こし以外にも、リアルタイム音声認識という一般的な音声認識のシナリオがあります。例えば、リアルタイム音声メモやリアルタイム会議字幕などのシナリオです。リアルタイム音声認識のシナリオでは、音声信号の入力と認識結果の出力が継続的に行われ、ユーザーはこのようなシナリオのリアルタイム性に対して高い要求を持っています。そのため、音声認識結果の出力遅延はしばしばユーザー体験に直接影響を与えます。
このため、リアルタイム音声認識の性能評価には、遅延に関する指標の導入と、ユーザー体験を改善するための知覚的最適化が必要です。
テイルパケット遅延(Tail Packet Latency)
テイルパケット遅延(TPL)は、音声入力の終了から書き起こし結果の出力までの総所要時間を測定するための重要な指標です。リアルタイム音声認識では、クライアントはストリーミングで音声データパケットを送信し、サーバーはストリーミングで音声認識結果を返します。TPLの計算方法は、一連の音声の最後のデータパケットを送信した後にタイミングを取り始め、そのデータパケットに対応する音声認識結果を受け取った時点でタイミングを停止します。TPLは、リアルタイム音声認識のシーンにおけるユーザーの直感的な遅延感を反映しています。
テイルパケット遅延の示意図
リアルタイムのインタラクションシーンでは、テイルパケット遅延をユーザーが許容できる範囲内に制御する必要があります。遅延が長すぎると、音声と転写内容が同期せず、インタラクションの一貫性が損なわれます。DolphinVoiceのリアルタイム音声認識サービスを使用すると、TPLを最小で150ms以内に抑えることができます。
中間結果と最終結果
DolphinVoiceの音声認識において、ストリーミングインターフェイス(一発話認識WebSocketインターフェイス、リアルタイム音声認識)の場合、音声の入力に伴ってリアルタイムで結果が返されます。例えば、「天気がいいね」という言葉では、認識しながらで次のような認識結果が生じる可能性があります:
てんき
天気が
天気がいい
天気がいいね。その中で、最初の3つは「中间結果」と呼ばれ、最後の1つは「最終結果」と呼ばれます。ストリーミング認識プロダクトの enable_intermediate_result パラメータを設定することで、中间結果を返すかどうかを制御できます。中間結果を無効にすると、最終結果のみが返され、ユーザーの視点からは、一度に全文の認識結果を受け取る形になります。中間結果を有効にすると、ユーザーの待ち時間感を軽減し、ユーザー体験を向上させるのに役立ちます。
まとめ
リアルタイム音声認識のシナリオでは、処理速度と遅延制御がユーザー体験を決定する核心要素です。テイルパケット遅延を最適化することで、インタラクションの流暢性と同期性を大幅に向上させることができます。また、中間結果のリアルタイムフィードバック機構は、特に即時応答が求められるアプリケーションシナリオ(リアルタイム会議記録、音声アシスタントなど)で、ユーザーにより自然な使用体験を提供します。この漸進的な出力方式は、ユーザーの待ち時間を効果的に低減することができます。DolphinVoiceはストリーミングインターフェースの設計を通じて、リアルタイム性と正確性を両立させ、開発者とエンドユーザーに効率的で信頼性の高い音声認識ソリューションを提供します。
株式会社DolphinAIは SOC 2 Type 1 認証および ISMS(ISO/IEC 27001)認証を取得しており、安全な環境で高精度の音声認識サービスを提供できます。1日平均約7,000時間の商用利用実績があります。コールセンター業界では、DolphinVoiceのサービスがCloopen株式会社のSimpleConnectプラットフォームに正式に導入され商用化されました。株式会社三通テレコムサービスと協力してAI通話メモサービス を開発・提供しています。
音声認識システムの導入や関連の問題についてご相談がある場合は、お気軽にお問い合わせください。
今すぐスタート
- DolphinVoiceにログイン - 無料トライアルを開始
- ドキュメントを参照 - 技術仕様と実装ガイド
- 公式サイトにアクセス - サービスの詳細と導入事例
著者の紹介
朝倉 匡廣 / Andy Yan
- 株式会社DolphinAI 代表取締役社長
- 株式会社アドバンスト・メディアの(8年間勤務) 元海外事業部長
- 音声AI実施経験:12年
- 実績:30社以上の企業の音声AI導入支援
- 分野:音声認識、音声合成、コールセンターAI、AI会議録、音声対話デバイス
- 市場:日本、中国本土、台湾、香港
- 執筆:100篇以上
公開発表
- 「AI新勢力・プロダクトオープンデー」 by Tokyo Generative AI Development Community(2025年10月25日)
- 「TOPAI国際AIフロンティア・エコシステム 招待者限定イベント」 by TOPAI & インスピランド・インキュベーター(2025年7月29日)
- "Global AI Conference & Hackathon" by WaytoAGI(2025年6月7日)
連絡先
Email: mh.asakura@dolphin-ai.jp
LinkedIn: https://www.linkedin.com/in/14a9b882/
株式会社DolphinAIについて
日本語を中心とした音声認識・音声合成・音声対話技術を開発・提供するAI企業です。
サービス:DolphinVoice(音声対話SaaSプラットフォーム)
提供機能:音声認識(日本語・英語・中国語・日英/中英混合)、音声合成(日本語・英語・中国語)
利用実績:コールセンターやAI議事録業界にて、1日平均約7,000時間の商用利用
■ セキュリティ体制
- ISMS(ISO/IEC 27001)認証取得済み
- SOC2 Type I レポート取得取得済み
- 詳細へ ️
■ 問い合わせ先
️ 03-6161-7298
記事を共有
もっと読む

音声認識処理速度(一):録音ファイル書き起こし
この記事は、録音ファイル書き起こしの速度を定量的に評価する方法と、並行処理が書き起こしの速度を向上させる役割を探ります。

音声認識におけるCERとWER
音声認識システムの性能を評価する際、CERとWERは重要な指標です。この記事では、これらの2つの指標の定義、計算方法、および限界について紹介します。音声認識エンジンの性能を評価する際には、他の指標と組み合わせて総合的に判断する必要があります。

音声認識におけるITN技術について
逆テキスト標準化(略してITN)とは、音声認識によって生成された「標準化」されたテキスト形式を逆に「非標準化」されたテキスト形式に変換するプロセスであり、書かれた表現習慣に適合させることを指します。