Humo AIは、テキスト、画像、音声の各モダリティを協調的に組み合わせたヒューマンセントリックな動画生成システムです。被写体の同一性を維持しつつ、プロンプトに正確に従い、動きと音声を精密に同期させることで、高品質な人物動画を生成できます。リアルな人の動作や表情、口唇同期が求められる用途に適しており、デジタルヒューマンコンテンツを作成するクリエイターや教育者、開発者にとって有用です。
このモデルの主な利用者は、教育用やプロモーション用のコンテンツを制作するクリエイター、インタラクティブメディアアプリケーションを開発するエンジニア、マルチモーダル生成モデルを研究する研究者です。複数の入力モダリティを統合したフレームワークにより、自然な外観と時間的整合性を保ちながら、動画出力に対するきめ細かな制御が可能になります。
Humo AIは二段階の訓練戦略を採用しています。第一段階では、参照画像からの被写体同一性を学習しつつ、テキストプロンプトへの忠実性を維持します。これにより、生成されるキャラクターが外観、服装、スタイルを動画全体で一貫して保てるようになります。第二段階では、音声クロスアテンション機構と口元を中心とした顔領域への集中監督を通じて、音声と視覚の同期を導入します。これにより、口の動きや表情が入力音声と正確に一致するようになります。
推論時には、フレーム数、解像度(480pまたは720p)、各モダリティのガイドスケールなどのパラメータを設定可能です。主にテキスト+音声(TA)モード(画像なしで音声に基づく動き生成)と、テキスト+画像+音声(TIA)モード(すべての入力を組み合わせた最大制御)をサポートしています。時間適応型ガイド機構により、デノイジングステップごとにテキスト、画像、音声の影響力を動的に調整でき、忠実度、詳細度、タイミング精度のバランスを取ることが可能です。
Humo AIは、被写体の安定性と音声同期が重要なキャラクター中心の動画制作に最適です。具体的な用途として、教育用のトークビデオ生成、歌やスピーチなどのパフォーマンスクリップ作成、外観と行動を指定してシーンを再現するプロンプトベースの再現などが挙げられます。
本システムは研究用途だけでなく、実際の制作現場でも活用可能です。例えば、教育者はナレーションと同期したプレゼンター付きチュートリアルを生成でき、開発者はアバターのアニメーションやバーチャルアシスタントのインターフェースにモデルを統合できます。完全シャーディングデータ並列処理(FSDP)とシーケンス並列処理によるマルチGPU推論をサポートしているため、計算資源があれば、より長尺または高解像度の出力にも対応可能です。