騰訊混元圖生視頻模型上線

2025年3月6日

騰訊混元宣布，圖生視頻模型目前已上線，企業和開發者可在騰訊雲申請使用API接口；用戶通過混元AI視頻官網即可體驗。混元視頻生成開源模型目前在Github、HuggingFace等主流開發者社區均可下載體驗。

基於圖生視頻的能力，用戶只需上傳一張圖片，並簡短描述希望畫面如何運動、鏡頭如何調度等，混元即可按要求讓圖片動起來，變成5秒的短視頻，還能自動配上背景音效。此外，上傳一張人物圖片，並輸入希望「對口型」的文字或音頻，圖片中的人物即可「說話」或「唱歌」；使用「動作驅動」能力，還能一鍵產生同款跳舞視頻。

混元開源技術報告揭露，混元視頻生成模型具備靈活的擴展性，圖生視頻和文生視頻在相同的數據集上開展預訓練工作。在保持超寫實畫質、流暢演繹大幅度動作、原生鏡頭切換等特性的基礎上，讓模型能夠捕捉到豐富的視覺和語義訊息，並結合圖像、文本、音頻和姿態等多種輸入條件，實現對生成視頻的多維度控制。