
什么是ITN?
逆文本标准化(ITN,Inverse Text Normalization)指的是将智能语音识别生成的“标准化”文本形式逆向转换为“非标准化”文本形式的过程。例如,当你说出“二十三点五四”,语音识别模型可能会输出“二十三点五四”这样的文字格式,但ITN会将其转换为“23.54”,以符合书面的表达习惯。
所谓标准化,是相对于语音识别模型训练的建模单元而言的。例如中文语音识别模型的建模单元为汉字,因此汉字的文本形式被视为“标准化”形式(如“二十三点五四”);而相对地,其他形式的文本即为“非标准化”形式(如“23.54”)。
ITN在DolphinVoice中的应用
如果您使用DolphinVoice语音识别API,ITN功能默认就是开启的。您可以通过设置 enable_inverse_text_normalization 参数来手动设置开启或关闭ITN功能。DolphinVoice的ITN功能主要从以下几方面对语音识别结果进行处理:
- 数字和符号转换:ITN可以将数字和符号的口语形式转化为书面形式的数字和符号,如“百分之二十”转换为“20%”。
- 货币和单位转换:ITN可以将货币单位和计量单位的口语表达转换为标准化的格式,如“二十美元”转换为“$20”。
- 日期和时间格式化:日期和时间在口语中的表达方式通常多样化,ITN将这些表达标准化为一致的书面格式,如“二零二五年四月二十三”转换为“2025年4月23日”。
例如:
| 关闭ITN | 开启ITN |
|---|---|
| 百分之二十 | 20% |
| 一千二百三十四元 | 1234元 |
| 四月三日 | 4月3日 |
ITN的实现方式
DolphinVoice使用有限状态转换器(Finite State Transducer,FST),通过定义一系列转换规则来实现ITN。
FST是一种扩展的有限状态机(Finite State Machine),它不仅能够处理状态转换,还可以在状态转换过程中输出相应的字符或符号。每个状态机包含一组状态和状态之间的转换,其中每个转换都有输入和输出。FST通过这些状态和转换规则,将输入映射为输出,其中每条规则包含输入表达式及其对应的输出表达式。
使用FST进行文本转换时,输入文本流通过有限状态转换器,而每个匹配的规则在转换器中执行,生成相应的输出。有些转换可能依赖于上下文,如货币符号或单位,例如将“二十美元”转换为“$20”需要考虑到“美元”的上下文。FST可以通过维护状态来记忆上下文,从而进行更复杂的转换。
这种方法的优势是,随着使用场景的扩展,添加更多复杂的语法和语义规则,不断优化规则集。还可以利用机器学习方法优化FST规则集,以适应更复杂的自然语言处理需求。随着技术的发展,ITN将越来越多地结合数据驱动的方法,进一步提升其准确性和适用性。
ITN的重要性
ITN的重要性体现在它显著提升了文本的可读性。口语在我们的日常交流中往往富有表达灵活性,但这种多样性在直接转换为书面文本时,可能会让人感到不够直观或不符合阅读习惯。尤其是在涉及日期、时间、货币和百分比等领域时,口语表达通常和书面形式有显著差异。例如,人们在口语中说的数字,如不经过转换,直接以文字形式展示,可能会对读者造成困扰。ITN通过将这些口语化的表达转换为习惯化的书面形式,帮助生成的文本更容易被人理解和使用。这一过程不仅使信息传达更精准,而且让读者在阅读文本时无须进行额外的思考,便能迅速理解其含义,从而显著提升信息的可读性和易用性。
常见问题
株式会社DolphinAI已通过SOC 2 Type 1认证和ISMS(ISO/IEC 27001)认证,可在安全环境中提供高精度语音识别服务,平均每日实际场景使用约7,000小时。在呼叫中心行业,DolphinVoice的服务已被Cloopen株式会社的SimpleConnect平台正式集成商用;与株式会社三通电信服务(株式会社三通テレコムサービス)合作开发推出AI通话纪要服务 。
如需咨询语音识别系统的接入或相关问题,请随时联系我们。
立即开始
- 登录DolphinVoice - 开始免费试用
- 查看API文档 - 技术规格与实施指南
- 访问官网 - 服务详情与集成案例
作者简介
朝仓 匡广 / Andy Yan
- 株式会社DolphinAI 首席执行官
- 株式会社Advanced Media(任职8年) 前海外事业部部长
- 语音AI实施经验:12年
- 业绩:30多家企业的语音AI集成支持
- 领域:语音识别、语音合成、呼叫中心AI、AI会议记录、语音对话设备
- 市场:日本、中国大陆、台湾、香港
- 撰文:100篇以上
公开报告
- “AI新势力·产品开放日” by Tokyo Generative AI Development Community(2025年10月25日)
- “TOPAI国际AI前沿·生态系统邀请限定活动” by TOPAI & Inspireland Incubator(2025年7月29日)
- "Global AI Conference & Hackathon" by WaytoAGI(2025年6月7日)
联系方式
Email: mh.asakura@dolphin-ai.jp
LinkedIn: https://www.linkedin.com/in/14a9b882/
关于株式会社DolphinAI
专注于日语等语言的语音识别、语音合成、语音对话技术开发与服务的AI企业。
提供服务:DolphinVoice(语音交互SaaS平台)
主要功能:语音识别(日语、汉语、英语、中英混说、日英混说)、语音合成(日语、汉语、英语)
实际应用:在呼叫中心和AI会议记录行业中,平均每日累计商用时长约7,000小时
■ 安全体系
- 通过 ISMS(ISO/IEC 27001) 认证
- 取得 SOC 2 Type 1 报告
- 了解更多 ️
■ 咨询联系
️ (+81)03-6161-7298

