上云资讯 - 来上云吧，企业上云一站式服务

2025-01-17 17:21:18 308人关注

腾讯AI实验室的项目vta-ldm：输入视频生成对齐音频

随着文本到视频生成技术的显著进步，如何从视频输入生成语义和时间上一致的音频内容成为研究者们关注的热点。近期，腾讯人工智能实验室的研究团队推出了名为“隐含对齐视频到音频生成”的新模型——VTA-LDM，该模型旨在提供高效的音频生成解决方案。