实时语音识别 API

基于WebSocket的流式语音识别,实现即时转录。非常适合直播应用、语音助手和实时字幕,支持多种语言。

点击开始语音识别体验

语种

高级功能

角色区分
智能格式化
文本顺滑

角色区分 : 对于同一声道中有多个说话者的音频,通过声纹信息区分角色。

智能格式化 : 通过应用额外格式化提高可读性。启用后,日期、时间和数字将以惯用格式显示。

文本顺滑 : 启用后,对识别结果进行适当改写,包括过滤语气词等。

实时语音识别结果

开始说话以查看实时语音识别结果

具有角色区分和即时反馈的语音转文字

更低的使用成本

与其他方案相比,选择DolphinVoice可为您降低80%的成本。

更低的响应延迟

支持实时更新中间识别结果,完成时获取最终结果,句尾延迟低至500ms。

更高的准确率

卓越的语音识别准确率表现,支持中英混说、日英混说。

功能特性

  • 多领域支持

    支持呼叫中心领域优化模型,以提高识别的准确性。

  • 智能标点与ITN

    自动标点预测和文本格式优化,生成自然易读的转录文本。

  • 自定义热词

    通过自定义词汇提高人名、地名、机构名等术语的识别准确率。

  • 角色区分

    通过声纹信息实现说话人识别。

  • 语气词过滤

    支持语气词过滤,提高口语转写文稿的阅读体验。

应用场景

直播字幕

为研讨会等现场活动提供实时语音转文字功能,为观众提供即时字幕,增强视听体验。

语音助手

用于各场景下的语音输入,如车载导航、聊天应用等,最大限度解放双手。

呼叫中心

实时转录客服通话,更轻松地记录和分析客户需求,提高服务质量。

会议录音

会议期间的实时转录,快速生成带有说话人和时间信息的会议记录。

医疗文档

通过实时语音识别提高医疗文档的书写效率,减少医务人员的文书工作。

教育培训

为培训课程提供实时字幕,帮助学生更好地理解课程内容,提高学习效率。

语音命令

即时识别用于智能家居设备和物联网应用的语音命令。

法律文书

在庭审期间进行实时转写,确保法庭记录的准确性和完整性。

为最优秀的团队提供动力

开始构建

注册并在几分钟内开始!