ブログに戻る
Fundamentals

音声認識におけるITN技術について

逆テキスト標準化(略してITN)とは、音声認識によって生成された「標準化」されたテキスト形式を逆に「非標準化」されたテキスト形式に変換するプロセスであり、書かれた表現習慣に適合させることを指します。

音声認識におけるITN技術について

ITN とは?

逆テキスト標準化(ITN、Inverse Text Normalization)とは、スマート音声認識が生成した「標準化」されたテキスト形式を逆に「非標準化」テキスト形式に変換するプロセスを指します。例えば、「二十三点五四」と言うと、音声認識モデルは「二十三点五四」という文字形式を出力する可能性がありますが、ITNはこれを「23.54」に変換し、書面での表現習慣に合わせます。

標準化とは、音声認識モデルの訓練におけるモデリング単位に対しての相対的な概念です。例えば、日本語の音声認識モデルのモデリング単位は漢字・仮名であるため、漢字・仮名のテキスト形式は「標準化」された形式(例えば「二十三点五四」)と見なされます。一方、他の形式のテキストは「非標準化」された形式(例えば「23.54」)とされます。

DolphinVoiceにおけるITNの適用

DolphinVoice音声認識APIを使用する場合、ITN機能はデフォルトで有効になっています。enable_inverse_text_normalization パラメータを設定することで、ITN機能を手動で有効または無効に設定できます。DolphinVoiceのITN機能は、主に以下の点で音声認識結果を処理します:

  1. 数字と記号の変換:ITNは、数字や記号の口語形式を、書面での形式に変換します。例えば、「百分之二十」は「20%」に変換されます。
  2. 通貨と単位の変換:ITNは、通貨単位や計量単位の口語表現を標準化された形式に変換します。例えば、「二十ドル」は「$20」に変換されます。
  3. 日付と時間のフォーマット:日付と時間の口語での表現は通常多様ですが、ITNはこれらの表現を一貫した書面形式に標準化します。例えば、「千二百五年四月二十三日」は「2025年4月23日」に変換されます。

例えば:

ITNを無効にするITNを有効にする
二十パーセント20%
千二百三十四円1234円
四月三日4月3日

ITNの実装方法

DolphinVoiceは有限状態トランスデューサ(Finite State Transducer、FST)を使用して、ITNを実現するために一連の変換ルールを定義します。

FSTは拡張された有限状態マシン(Finite State Machine)であり、状態の変換を処理するだけでなく、状態変換の過程で対応する文字や記号を出力することもできます。各状態マシンは一連の状態と状態間の変換を含み、各変換には入力と出力があります。FSTはこれらの状態と変換ルールを通じて、入力を出力にマッピングし、各ルールには入力式とそれに対応する出力式が含まれています。

FSTを使用してテキストを変換する際、入力テキストストリームは有限状態トランスデューサを通過し、各マッチするルールが変換器内で実行され、対応する出力が生成されます。いくつかの変換は、通貨記号や単位などの文脈に依存する場合があります。たとえば、「二十ドル」を「$20」に変換するには「ドル」の文脈を考慮する必要があります。FSTは状態を維持することで文脈を記憶し、より複雑な変換を行うことができます。

この方法の利点は、使用シーンの拡張に伴い、より複雑な文法や意味ルールを追加してルールセットを最適化できることです。さらに、機械学習の手法を利用してFSTルールセットを最適化し、より複雑な自然言語処理のニーズに適応させることもできます。技術の発展に伴い、ITNはますますデータ駆動型のアプローチを取り入れ、その精度と適用性をさらに向上させるでしょう。

ITNの重要性

ITNの重要性は、テキストの可読性を著しく向上させることにあります。口語は私たちの日常的なコミュニケーションにおいて表現の柔軟性に富んでいますが、この多様性は書面に直接変換する際に、直感的でない、または読書習慣に合わないと感じられることがあります。特に、日付、時間、通貨、パーセンテージなどの分野に関して、口語表現は通常、書面形式とは著しい違いがあります。例えば、人々が口語で述べる数字は、変換されずに文字で直接表示されると、読者に混乱を引き起こす可能性があります。ITNは、これらの口語的な表現を慣習的な書面形式に変換することによって、生成されたテキストがより理解しやすく、使いやすくなるのを助けます。このプロセスは、情報伝達をより正確にするだけでなく、読者がテキストを読む際に余分な思考をすることなく、速やかにその意味を理解できるようにし、情報の可読性と使いやすさを著しく向上させます。

FAQ


株式会社DolphinAIは SOC 2 Type 1 認証および ISMS(ISO/IEC 27001)認証を取得しており、安全な環境で高精度の音声認識サービスを提供できます。1日平均約7,000時間の商用利用実績があります。コールセンター業界では、DolphinVoiceのサービスがCloopen株式会社のSimpleConnectプラットフォームに正式に導入され商用化されました。株式会社三通テレコムサービスと協力してAI通話メモサービス を開発・提供しています。

音声認識システムの導入や関連の問題についてご相談がある場合は、お気軽にお問い合わせください。

今すぐスタート


著者の紹介

朝倉 匡廣 / Andy Yan

  • 株式会社DolphinAI 代表取締役社長
  • 株式会社アドバンスト・メディアの(8年間勤務) 元海外事業部長
  • 音声AI実施経験:12年
  • 実績:30社以上の企業の音声AI導入支援
  • 分野:音声認識、音声合成、コールセンターAI、AI会議録、音声対話デバイス
  • 市場:日本、中国本土、台湾、香港
  • 執筆:100篇以上

公開発表

  • 「AI新勢力・プロダクトオープンデー」 by Tokyo Generative AI Development Community(2025年10月25日)
  • 「TOPAI国際AIフロンティア・エコシステム 招待者限定イベント」 by TOPAI & インスピランド・インキュベーター(2025年7月29日)
  • "Global AI Conference & Hackathon" by WaytoAGI(2025年6月7日)

連絡先

Email: mh.asakura@dolphin-ai.jp
LinkedIn: https://www.linkedin.com/in/14a9b882/

株式会社DolphinAIについて

日本語を中心とした音声認識・音声合成・音声対話技術を開発・提供するAI企業です。

サービス:DolphinVoice(音声対話SaaSプラットフォーム)
提供機能:音声認識(日本語・英語・中国語・日英/中英混合)、音声合成(日本語・英語・中国語)
利用実績:コールセンターやAI議事録業界にて、1日平均約7,000時間の商用利用

■ セキュリティ体制

  • ISMS(ISO/IEC 27001)認証取得済み
  • SOC2 Type I レポート取得取得済み
  • 詳細へ

■ 問い合わせ先

️ 03-6161-7298

 voice.contact@dolphin-ai.jp

 https://dolphin-ai.jp/

記事を共有