- 上云资讯 -
2025-06-23 15:29:17 83人关注
一个模型实现生成+编辑!通义万相 Wan2.1-VACE 正式开源
通义万相Wan2.1-VACE是一个集图像生成与编辑功能于一体的开源多模态模型,由阿里云团队开发并正式发布。该模型通过统一架构同时支持文生图、图生图、图像修复和局部编辑等任务,显著提升了多任务处理效率。其核心创新在于采用基于扩散模型的可控生成技术,结合细粒度条件控制模块,能够精准理解用户指令并保持编辑区域与整体画面的协调性。模型在多项基准测试中表现优异,尤其在细节保留和语义一致性方面超越同类方案。开源版本提供了完整的训练代码、预训练模型及详细文档,支持研究者和开发者快速部署应用。这一技术突破为AIGC领域提供了更高效的解决方案,降低了多模态内容创作的技术门槛。
通义万相Wan2.1-VACE 开源多模态模型 图像生成与编辑模型 扩散模型可控生成技术 细粒度条件控制模块 AIGC领域解决方案
2025-06-09 16:42:16 97人关注
Mercury:首个商用级别的Diffusion LLM,速度快、手机也能部署
在人工智能领域,一项颠覆性的技术正在悄然兴起。近日,Inception Labs 宣布推出 Mercury 系列扩散大型语言模型(dLLMs),这是一种新一代的语言模型,旨在快速、高效地生成高质量文本。与传统的自回归大型语言模型相比,Mercury 在生成速度上提高了多达10倍,能够在 NVIDIA H100显卡上实现超过每秒1000个标记的速度,这一速度在以往仅依靠定制芯片才能实现。
2025-02-23 14:41:25 261人关注
字节跳动发布Infinity:自回归文生图新突破,性能超越扩散模型
在人工智能领域,字节跳动商业化技术团队的最新成果Infinity模型,以其卓越的性能和创新的技术,成为自回归文生图领域的新王者。这款新开源的模型不仅在图像生成质量上超越了Stable Diffusion3,还在推理速度上展现了显著优势。
2025-01-28 07:21:34 132人关注
Google AI 提出了扩散模型中推理时间缩放的基本框架
来自纽约大学、麻省理工学院和谷歌的研究团队近日提出了一个创新框架,旨在解决扩散模型在推理时间扩展方面的瓶颈问题。这一突破性研究超越了传统简单增加去噪步骤的方法,为提升生成模型性能开辟了新途径。
2025-01-18 19:19:24 190人关注
新颖多模态推荐系统范式DiffMM,让扩散模型也能推荐短视频!
港大与腾讯的研究人员提出了一种全新的多模态推荐系统范式 ——DiffMM,旨在提高短视频推荐的精准度。该系统通过创建一个包含用户和视频信息的图,并利用图扩散和对比学习技术,更好地理解用户和视频之间的关系,从而实现更准确的推荐。
2024-12-22 17:28:10 82人关注
Diffusion 模型也能“举一反三”?阿里IC-LoRA给图像生成模型增加情节记忆力能力
阿里巴巴通义实验室最新研究表明,现有的文生图 Diffusion Transformer 模型其实已经具备生成多张具有特定关系图像的能力,只需稍加“点拨”就能“融会贯通”,生成高质量的多图集。
diffusion models IC-LoRA memory capabilities AI模型内存优化 扩散模型技术
2024-12-19 09:13:25 89人关注
扩散模型也能玩游戏?DIAMOND实现Atari 100k基准测试新SOTA
强化学习在近年来取得了许多成功,但其样本效率低下,限制了其在现实世界中的应用。世界模型作为一种环境生成模型,为解决这一问题提供了希望。它可以作为模拟环境,以更高的样本效率训练强化学习智能体。