语音识别处理速度（一）：录音文件转写

DolphinVoice的录音文件转写功能是语音识别技术的一项应用，它能够自动将录音或音频文件中的语音内容转换为文本，广泛应用于会议记录、采访整理、客户服务和监控系统等领域。当我们结束了一场会议，可能保存了时长1个小时的录音，此时我们希望快速将录音转写成文字，方便后续的阅读、编辑和存储，这时我们就可以使用录音文件转写功能。

当我们上传一段音视频文件进行转写时，系统需要在最短时间内将音频信号转换为文字，而衡量这一过程效率的核心指标就是实时率（Real-time Factor, RTF）。

实时率（RTF）：非流式语音识别的速度标尺

什么是实时率？

实时率是语音识别系统处理速度与原始语音时长的比值，计算公式为：

RTF = \frac{T_{processing}}{T_{audio}}

$T_{processing}$ ：系统完成语音转写所需的总耗时
$T_{audio}$ ：原始录音文件的时长

举例说明：

若一段60秒的录音，系统用50秒完成转写，则 $RTF = 50/60 \approx 0.83$ ，表示处理速度比实时播放还快（RTF < 1）。
若系统需要70秒完成转写，则 $RTF = 70/60 \approx 1.17$ ，说明处理速度落后于语音播放速度（RTF > 1）。

实时率的意义

从以上介绍可以看出，实时率越高，对于处理一段音频的速度也就越快。在语音识别系统中，实时率是衡量系统响应能力的重要指标，尤其在需要快速反馈的应用场景中，如实时字幕生成、在线翻译和呼叫中心等，实时率的高低直接影响用户体验和服务效率。

对于语音识别系统来说，实时率主要受服务器硬件性能的限制。处理器的速度、内存的大小、以及网络带宽等硬件条件，都直接决定了系统处理音频的效率。此外，算法的复杂程度、音频文件的质量和长度也会对实时率产生影响。

那么，如何在不变的硬件条件下提升处理速度呢？答案是并行处理。

并行处理：突破速度限制的关键

并行处理是一种通过将任务分解为可以同时进行的多个部分，以提高处理效率的方法。这一技术广泛应用于计算机科学的各个领域，包括语音识别。在DolphinVoice服务中，主要使用任务分割和多线程处理方法来实现并行处理，从而实现处理速度的提升。

在录音文件转写场景下，从服务器收到客户端发来的任务请求时，就取得了全部的音频信息，因此在系统内部就可以先对音频进行适当的切分，通常我们使用VAD模块根据音频中的静音位置对音频进行分割，确保分割出来的音频切片时长在60秒以内，然后分配到不同的线程做处理。

通常情况下，系统使用最多4个线程对任务进行处理（如果分割出来的音频切片数量不足4个，将使用与音频切片数量一致的线程数进行处理）。而对于录音文件转写（极速版）的任务，系统将使用最多16个线程对任务进行处理，这样可以大幅提高任务的处理速度。

在DolphinVoice录音文件转写（标准版）服务中，处理1小时音频通常耗时6-10分钟。而在DolphinVoice录音文件转写（极速版）服务中，处理1小时音频只需要耗时1-2分钟。客户可以根据业务需求和使用场景，选择合适的服务类型。

如果您需要使用录音文件转写（极速版）服务，请与我们联系。

株式会社DolphinAI已通过SOC 2 Type 1认证和ISMS(ISO/IEC 27001)认证，可在安全环境中提供高精度语音识别服务，平均每日实际场景使用约7,000小时。在呼叫中心行业，DolphinVoice的服务已被Cloopen株式会社的SimpleConnect平台正式集成商用；与株式会社三通电信服务（株式会社三通テレコムサービス）合作开发推出AI通话纪要服务。

如需咨询语音识别系统的接入或相关问题，请随时联系我们。