Ovi AIはCharacter.AIが開発したオープンソースのAI動画生成モデルです。テキストまたは画像を入力として、動画と音声を同時に同期して生成し、960×960解像度・24FPSで10秒間のクリップを作成します。開発者、クリエイター、研究者を対象として設計されており、時間的整合性、物理に基づく動きシミュレーション、およびネイティブなマルチモーダル生成に重点を置いています。基本的な利用にはユーザー登録やサブスクリプションは不要です。
このモデルはGitHubおよびHugging Faceを通じて公開されており、ローカル推論およびクラウドベースのAPIアクセスに対応しています。そのアーキテクチャは、マーケティング、プロトタイピング、教育、研究など、正確な音声・映像同期および現実的な動き表現が求められる専門的なクリエイティブワークフローに最適化されています。
Ovi AIはツインバックボーンアーキテクチャを採用しており、一方のブランチが視覚的入力(テキスト埋め込みまたは画像特徴量)を処理し、他方のブランチが音声表現を処理します。双方向密結合アテンションにより、クロスマodal融合が実現され、動画フレームと波形セグメントの同時最適化が可能となり、後処理によるアライメントを必要としないフレーム単位の同期が達成されます。
ユーザーはまず入力モード(テキストプロンプト、アップロード画像、または両方)を選択し、カメラ移動、物体の動き、音声指示などのオプションを構造化タグ(例:話者音声用[S]、効果音用[AUDCAP])で指定できます。その後、モデルは物理法則に基づいた動きを含む時間的に整合性のある動画シーケンスをレンダリングします。Ovi 1.1リリースでは学習データが100%増加し、固定長(10秒)・固定解像度(960×960)での出力が行われ、アスペクト比およびシネマティックスタイルの調整も可能です。
Ovi AIは従来の制作パイプラインを必要とせずに、迅速な動画コンセプトのプロトタイピングを可能にします。デザイナーはストーリーボードのアニメーション化に、教育者は科学的なシミュレーションの作成に、マーケターは短尺のソーシャルメディアコンテンツ制作に、開発者は創造的ツールへの統合に活用できます。
物理に基づく動きエンジンは、ロボティクス可視化、物理学教育、製品デモンストレーションなど、物理的妥当性が求められるアプリケーションに適しています。一般的な動画拡散モデルではしばしば不足する現実的な動きを再現できます。また、ネイティブな音声生成機能により、別途TTSや効果音処理を経る必要がなく、エンドツーエンドのマルチモーダル出力が簡素化されます。Google VeoやOpenAI Soraなどのプロプライエタリなシステムに対するオープンソース代替として、Ovi AIは透明性、再現性、および技術的ユーザーによる拡張性を提供します。