音声認識処理速度（一）：録音ファイル書き起こし

この記事は、録音ファイル書き起こしの速度を定量的に評価する方法と、並行処理が書き起こしの速度を向上させる役割を探ります。

DolphinVoiceの録音ファイル書き起こし機能は音声認識技術の一つの応用であり、録音や音声ファイルの内容を自動的にテキストに変換することができ、会議記録、インタビューの整理、カスタマーサービス、監視システムなどの分野で広く利用されています。会議を終えた際に、1時間の録音を保存している場合、この録音を迅速に文字に転写し、後の読み込み、編集、保存を容易にするために、録音ファイル転写機能を使用できます。

音声またはビデオファイルをアップロードして書き起こしを行う際、システムはできるだけ早く音声信号をテキストに変換する必要があり、このプロセスの効率を測るための主要な指標がRTF（Real-time Factor）です。

RTF：非ストリーミング音声認識の速度指標

RTFとは？

RTF（Real-time Factor）は、音声認識システムの処理速度と元の音声の長さの比率であり、計算式は次のとおりです。

RTF = \frac{T_{processing}}{T_{audio}}

$T_{processing}$ ：書き起こしを完了するのに必要な総時間
$T_{audio}$ ：元の録音ファイルの長さ

例：

60秒の録音があり、書き起こしを50秒で完了した場合、 $RTF = 50/60 \approx 0.83$ となり、処理速度がリアルタイムの再生よりも速いことを示します（RTF < 1）。
書き起こしを完了するのに70秒かかる場合、 $RTF = 70/60 \approx 1.17$ となり、処理速度が音声の再生速度に遅れをとっていることを示しています（RTF > 1）。

RTFの意味

上記の説明から分かるように、RTFが高ければ高いほど、音声を処理する速度も速くなります。音声認識システムにおいて、RTFはシステムの応答能力を評価する重要な指標であり、特にリアルタイムの字幕生成、オンライン翻訳、コールセンターなどの迅速なフィードバックが必要なアプリケーションシーンでは、RTFの高低がユーザー体験とサービス効率に直接影響を与えます。

音声認識システムにとって、RTFは主にサーバーハードウェアの性能に制限されます。プロセッサの速度、メモリのサイズ、およびネットワーク帯域幅などのハードウェア条件が、システムが音声を処理する効率を直接決定します。さらに、アルゴリズムの複雑さ、音声ファイルの品質と長さもRTFに影響を与えることがあります。

では、ハードウェア条件が変わらない中で処理速度を向上させるにはどうすれば良いのでしょうか？答えは並列処理です。

並列処理：速度制限突破の鍵

並行処理とは、タスクを同時に処理できる複数の部分に分解することで、処理効率を向上させる方法です。この技術はコンピューター科学のさまざまな分野で広く応用されており、音声認識を含みます。DolphinVoiceサービスでは、主にタスク分割とマルチスレッド処理の方法を用いて並行処理を実現し、処理速度を向上させています。

録音ファイル書き起こしのシーンでは、サーバーがクライアントから送られてきたタスク要求を受け取ると、すべての音声情報を取得します。そのため、システム内部で音声を適切に分割することができます。通常、VADモジュールを使用して音声の無音部分に基づいて音声を分割し、分割された音声スライスの長さが60秒以内であることを保証し、異なるスレッドに割り当てて処理を行います。

通常、システムは最大4つのスレッドを使用してタスクを処理します（分割された音声スライスの数が4つ未満の場合、音声スライスの数に一致するスレッド数を使用して処理します）。録音ファイル書き起こし（急速版）のタスクでは、システムは最大16のスレッドを使用してタスクを処理し、タスク処理速度を大幅に向上させます。

DolphinVoice録音ファイル書き起こし（通常版）サービスでは、1時間の音声を処理するのに通常6〜10分かかります。一方、録音ファイル書き起こし（急速版）サービスでは、1時間の音声を処理するのにわずか1〜2分しかかかりません。顧客はビジネスのニーズや使用シーンに応じて、適切なサービスタイプを選択できます。

録音ファイル書き起こし（急速版）サービスを使用する必要がある場合は、お問い合わせください。

株式会社DolphinAIは SOC 2 Type 1 認証および ISMS（ISO/IEC 27001）認証を取得しており、安全な環境で高精度の音声認識サービスを提供できます。1日平均約7,000時間の商用利用実績があります。コールセンター業界では、DolphinVoiceのサービスがCloopen株式会社のSimpleConnectプラットフォームに正式に導入され商用化されました。株式会社三通テレコムサービスと協力してAI通話メモサービスを開発・提供しています。

音声認識システムの導入や関連の問題についてご相談がある場合は、お気軽にお問い合わせください。