- 上云资讯 -
2025-09-02 13:26:14 83人关注
苹果推出 STARFlow:全新 AI 图像生成技术想力压 DALL-E 与 Midjourney
苹果公司的机器学习研究团队最近研发出了一种名为 “STARFlow” 的全新 AI 图像生成系统。这项技术可能会挑战目前主流的扩散模型,后者是像 DALL-E 和 Midjourney 等流行图像生成器的核心。这项突破性进展在上周的一篇研究论文中进行了详细介绍,研究团队在开发过程中与多所学术机构进行了合作。
STARFlow AI 图像生成系统 苹果机器学习研究 AI 图像生成技术 扩散模型挑战者 STARFlow 与 DALL-E 对比 AI 图像生成研究论文
2025-08-22 13:15:29 61人关注
Tinker Diffusion发布:从单一视角到3D编辑,AI重塑多视角一致性!
2025年8月,人工智能领域迎来一项突破性技术——Tinker Diffusion,一款无需逐场景优化的多视角一致性3D编辑工具。这款创新性技术通过扩散模型实现从稀疏输入到高质量3D场景编辑的飞跃,为3D内容创作提供了高效、便捷的解决方案。
Tinker Diffusion 多视角一致性3D编辑 扩散模型3D生成 无需逐场景优化 高质量3D场景编辑 3D内容创作工具
2025-08-11 14:12:19 114人关注
昆仑万维正式发布SkyReels-A3模型:照片可根据语音对口型
昆仑万维集团宣布推出其最新技术成果SkyReels-A3模型,这是一款基于DiT(Diffusion Transformer)视频扩散模型的音频驱动数字人创作工具。SkyReels-A3的发布标志着数字内容创作领域的一大进步,它能够实现任意时长的全模态音频驱动数字人创作,为用户带来全新的体验。
昆仑万维SkyReels-A3 DiT视频扩散模型 音频驱动数字人创作 全模态数字人创作工具 SkyReels-A3技术解析 数字内容创作新体验
2025-06-23 15:29:17 153人关注
一个模型实现生成+编辑!通义万相 Wan2.1-VACE 正式开源
通义万相Wan2.1-VACE是一个集图像生成与编辑功能于一体的开源多模态模型,由阿里云团队开发并正式发布。该模型通过统一架构同时支持文生图、图生图、图像修复和局部编辑等任务,显著提升了多任务处理效率。其核心创新在于采用基于扩散模型的可控生成技术,结合细粒度条件控制模块,能够精准理解用户指令并保持编辑区域与整体画面的协调性。模型在多项基准测试中表现优异,尤其在细节保留和语义一致性方面超越同类方案。开源版本提供了完整的训练代码、预训练模型及详细文档,支持研究者和开发者快速部署应用。这一技术突破为AIGC领域提供了更高效的解决方案,降低了多模态内容创作的技术门槛。
通义万相Wan2.1-VACE 开源多模态模型 图像生成与编辑模型 扩散模型可控生成技术 细粒度条件控制模块 AIGC领域解决方案
2025-06-09 16:42:16 171人关注
Mercury:首个商用级别的Diffusion LLM,速度快、手机也能部署
在人工智能领域,一项颠覆性的技术正在悄然兴起。近日,Inception Labs 宣布推出 Mercury 系列扩散大型语言模型(dLLMs),这是一种新一代的语言模型,旨在快速、高效地生成高质量文本。与传统的自回归大型语言模型相比,Mercury 在生成速度上提高了多达10倍,能够在 NVIDIA H100显卡上实现超过每秒1000个标记的速度,这一速度在以往仅依靠定制芯片才能实现。
2025-02-23 14:41:25 314人关注
字节跳动发布Infinity:自回归文生图新突破,性能超越扩散模型
在人工智能领域,字节跳动商业化技术团队的最新成果Infinity模型,以其卓越的性能和创新的技术,成为自回归文生图领域的新王者。这款新开源的模型不仅在图像生成质量上超越了Stable Diffusion3,还在推理速度上展现了显著优势。
2025-01-28 07:21:34 172人关注
Google AI 提出了扩散模型中推理时间缩放的基本框架
来自纽约大学、麻省理工学院和谷歌的研究团队近日提出了一个创新框架,旨在解决扩散模型在推理时间扩展方面的瓶颈问题。这一突破性研究超越了传统简单增加去噪步骤的方法,为提升生成模型性能开辟了新途径。
2025-01-18 19:19:24 230人关注
新颖多模态推荐系统范式DiffMM,让扩散模型也能推荐短视频!
港大与腾讯的研究人员提出了一种全新的多模态推荐系统范式 ——DiffMM,旨在提高短视频推荐的精准度。该系统通过创建一个包含用户和视频信息的图,并利用图扩散和对比学习技术,更好地理解用户和视频之间的关系,从而实现更准确的推荐。
2024-12-22 17:28:10 109人关注
Diffusion 模型也能“举一反三”?阿里IC-LoRA给图像生成模型增加情节记忆力能力
阿里巴巴通义实验室最新研究表明,现有的文生图 Diffusion Transformer 模型其实已经具备生成多张具有特定关系图像的能力,只需稍加“点拨”就能“融会贯通”,生成高质量的多图集。
diffusion models IC-LoRA memory capabilities AI模型内存优化 扩散模型技术
2024-12-19 09:13:25 137人关注
扩散模型也能玩游戏?DIAMOND实现Atari 100k基准测试新SOTA
强化学习在近年来取得了许多成功,但其样本效率低下,限制了其在现实世界中的应用。世界模型作为一种环境生成模型,为解决这一问题提供了希望。它可以作为模拟环境,以更高的样本效率训练强化学习智能体。