LongCat Avatarは、長時間にわたる動画生成を目的とした音声駆動型アバターモデルです。本人同一性の一貫性、正確なリップシンク、および沈黙中のジェスチャーやアイドルモーションなど、自然な人間の動きに重点を置いています。本システムは、長時間、あるいは理論的には無限の長さにわたって視覚的品質を維持するように設計されています。
LongCat-Videoアーキテクチャに基づいて構築されており、複数の生成モードと効率的な推論をサポートし、プロダクションワークフローに適しています。一貫性があり、現実的なアバター動画を大規模に必要とするクリエイター、スタジオ、教育チーム、研究グループ、SaaSプロバイダーにとって有用です。
ワークフローは、音声入力(スピーチ、音楽、ポッドキャストなど)と任意のリファレンス(画像またはテキスト)から開始します。ユーザーは生成モード(AT2V、ATI2V、音声条件付き動画継続)を選択し、長さ、解像度、複数人物生成の要否を設定します。本システムは、長尺シーケンスにわたり外見の一貫性と安定性を重視して最適化されています。
技術的に、LongCat Avatarは分離されたガイド機構を用いて音声とモーションの役割を明確に区別しています。クロスチャンクラテントステッチングは、長時間にわたる不要なデコード・エンコードサイクルを回避することで、視覚的なドリフトを低減します。リファレンスキップアテンションは、硬直したクローン処理を行わず本人同一性を保持します。粗~精戦略とブロックスパースアテンションを組み合わせることで、720p/30fpsでの実用的かつプロダクション対応の推論を実現しており、最大1080pまでの高解像度出力もサポートしています。
| プラン | 価格 | クレジット | 約再生可能回数 | 解像度 | 音声長(1回あたり) | 複数人物 | 優先度 | 備考 |
|---|---|---|---|---|---|---|---|---|
| Base | $9.9 | 90 | 最大18 | 480p/720p/1080p | 最大60秒 | 未記載 | 標準 | 音声駆動型アバター生成 |
| Pro | $29.9 | 400 | 最大80 | 480p/720p/1080p | 最大60秒 | あり | 優先 | 複数人物対応を想定 |
| Ultimate | $49.9 | 800 | 最大160 | 480p/720p/1080p | 最大60秒 | あり(インタラクション) | 優先 | 長尺動画生成に対応と記載 |
| Creator | $99.9 | 1800 | 最大360 | 480p/720p/1080p | 最大60秒 | あり | 最高 | 「複数人物&無限長対応」と記載。プロダクション対応アーキテクチャ。商用利用許諾 |
備考:本モデルは長尺コンテンツ向けに最適化されており、理論的には無限長のシーケンスをサポートしています。料金プランではクレジット制使用における1回あたりの音声長として最大60秒が記載されていますが、これはサービスレベルの制約を示している可能性があり、モデルの能力そのものを制限するものではありません。