LLMRTC Docs は、リアルタイム音声およびビジョンアプリケーションの構築のための TypeScript SDK である LLMRTC の公式ドキュメントです。このSDKは、WebRTCベースの音声/映像ストリーミングを、大規模言語モデル(LLM)、音声認識(STT)、音声合成(TTS)と、単一かつプロバイダーに依存しないAPIを通じて統合します。対話的で会話型のシステムに適した、低遅延の双方向ストリーミングに焦点を当てています。
このドキュメントは、音声アシスタント、マルチモーダルエージェント、カスタマーサポートフローなど、会話型AI向けの信頼できるインフラが必要な開発者を対象としています。LLMRTCは、セッション管理、プロバイダーのオーケストレーション、音声活動検出(VAD)、再接続などの複雑なランタイム処理を抽象化することで、チームがアプリケーションロジックに集中できるようにします。
LLMRTCは、コアロジック、サーバー機能、ブラウザ連携を分離した3つのパッケージから構成されています:
| パッケージ | 機能 |
|---|---|
@llmrtc/llmrtc-core | 共有タイプ、オーケストレーター、ツール、フック |
@llmrtc/llmrtc-backend | WebRTC、VAD、プロバイダー連携を備えたNode.jsサーバー |
@llmrtc/llmrtc-web-client | 音声/映像の取得および再生のためのブラウザSDK |
実行時には、ユーザーの音声がサーバーにストリーミングされ、VADによって音声の区間が検出され、音声からテキストへ変換されます。その文字起こしデータはLLMによって処理され、必要に応じてJSON Schemaで定義された開発者独自のツールを呼び出すことができます。応答は音声に変換され、クライアントにストリーミングされます。文境界検出により、生成が完了する前に早期かつ自然なTTS再生が可能になります。
開発者は、アプリケーションコードを変更することなく、プロバイダーの切り替えや組み合わせが可能であり、たとえばLLMにはあるプロバイダー、STTには別のプロバイダー、TTSにはさらに別のプロバイダーといった設定が可能です。SDKは、ログ記録、デバッグ、カスタム動作のために20以上のフックポイントを提供し、組み込みのメトリクスも備えています。セッションの耐障害性には再接続と状態の継続性が含まれます。本番環境では、安定したWebRTC接続を確保するためにTURNサーバーの導入が必要です。ドキュメントにはその設定に関するガイダンスが含まれています。
LLMRTCは、会話型およびマルチモーダルなさまざまなユースケースをサポートしています:
主な利点には、プロバイダーに依存しないアーキテクチャ、包括的な型定義を備えた統一されたTypeScript API、検証済みのツール呼び出し、フックとメトリクスによる運用可視性が含まれます。アーキテクチャのストリーミングパイプラインと文脈を意識したTTSにより、体感遅延が低減され、セッション管理および再接続機能によって、実際のネットワーク環境下での信頼性が向上します。