上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-12-03 15:18:11 454人关注

vLLM-Omni开源:把扩散模型、ViT、LLM塞进一条流水线，多模态推理一次跑完

vLLM团队发布首个“全模态”推理框架vLLM-Omni，将文本、图像、音频、视频的统一生成从概念验证变成可落地代码。新框架已上线GitHub与ReadTheDocs，开发者可立即pip安装并调用。

2025-10-29 17:11:16 38人关注

清华与快手联手推出新型SVG扩散模型，训练效率暴增6200%

在近期的科技界，VAE（变分自编码器）正在经历被逐步淘汰的尴尬局面，随着清华大学与快手可灵团队的合作，推出了一款名为 SVG(无 VAE 潜在扩散模型)的新型生成模型。此次创新不仅在训练效率上实现了6200% 的惊人提升，而且在生成速度上更是达到了3500% 的飞跃。

2025-10-19 09:19:16 179人关注

扩散模型新突破：Radical Numerics开源30B参数RND1，AI自我进化迈出关键一步

AI模型架构正在经历一场深刻变革。扩散语言模型凭借其并行生成和高效推理能力，正在成为业界关注的焦点。10月9日，AI研究机构Radical Numerics正式发布RND1-Base，这是迄今为止最大规模的开源扩散语言模型，参数规模达到30B，其中活跃参数为3B，采用稀疏专家混合架构。该模型不仅在基准测试中表现出色，还开源了完整权重、训练配方和推理代码，旨在加速扩散语言模型领域的后训练与推理研究。

2025-10-16 09:42:32 268人关注

蚂蚁 dInfer 框架：扩散模型推理速度提升 10 倍，超越自回归模型

近日，蚂蚁集团开源了全新的 dInfer 框架，专门用于扩散大语言模型的高效推理。这一框架的推出标志着扩散模型在自然语言处理领域的应用取得了重大进展，推理速度提升至以往的10倍，并在同样模型性能下超越了传统的自回归模型。

2025-09-02 13:26:14 375人关注

苹果推出 STARFlow：全新 AI 图像生成技术想力压 DALL-E 与 Midjourney

苹果公司的机器学习研究团队最近研发出了一种名为 “STARFlow” 的全新 AI 图像生成系统。这项技术可能会挑战目前主流的扩散模型，后者是像 DALL-E 和 Midjourney 等流行图像生成器的核心。这项突破性进展在上周的一篇研究论文中进行了详细介绍，研究团队在开发过程中与多所学术机构进行了合作。

STARFlow AI 图像生成系统苹果机器学习研究 AI 图像生成技术扩散模型挑战者 STARFlow 与 DALL-E 对比 AI 图像生成研究论文

2025-08-22 13:15:29 321人关注

Tinker Diffusion发布：从单一视角到3D编辑，AI重塑多视角一致性！

2025年8月，人工智能领域迎来一项突破性技术——Tinker Diffusion，一款无需逐场景优化的多视角一致性3D编辑工具。这款创新性技术通过扩散模型实现从稀疏输入到高质量3D场景编辑的飞跃，为3D内容创作提供了高效、便捷的解决方案。

Tinker Diffusion 多视角一致性3D编辑扩散模型3D生成无需逐场景优化高质量3D场景编辑 3D内容创作工具

2025-08-21 09:14:30 220人关注

浙大团队破解AI生成难题：让机器学会"深思熟虑"而非"冲动决策"

人工智能正在经历一场静悄悄的革命。当我们还在惊叹ChatGPT一个字一个字蹦出答案的神奇时，一种全新的AI思维模式正在悄然崛起——扩散大语言模型就像一个会反复思考的智者，不再急于给出答案，而是在多个时间维度中反复琢磨，最终呈现出更加精准的结果。

扩散大语言模型 AI思维模式多时间维度思考 AI精准推理 AI技术演进扩散模型与ChatGPT对比

2025-08-14 10:27:36 335人关注

华人团队破解Token限制，扩散模型的潜力超越自回归三倍！

在 AI 领域，Token 的数量限制一直是一个亟待解决的问题。最近，一项由华人团队完成的研究引起了广泛关注，研究显示，扩散语言模型在 Token 数量受限的情况下，展现出比自回归模型多三倍的数据学习潜力。这一发现可能会为未来的语言模型训练开辟新局面。

Token数量限制扩散语言模型优势自回归模型比较语言模型训练新技术华人AI团队研究

2025-08-11 14:12:19 432人关注

昆仑万维正式发布SkyReels-A3模型：照片可根据语音对口型

昆仑万维集团宣布推出其最新技术成果SkyReels-A3模型，这是一款基于DiT（Diffusion Transformer）视频扩散模型的音频驱动数字人创作工具。SkyReels-A3的发布标志着数字内容创作领域的一大进步，它能够实现任意时长的全模态音频驱动数字人创作，为用户带来全新的体验。

昆仑万维SkyReels-A3 DiT视频扩散模型音频驱动数字人创作全模态数字人创作工具 SkyReels-A3技术解析数字内容创作新体验

2025-06-23 15:29:17 411人关注

一个模型实现生成+编辑！通义万相 Wan2.1-VACE 正式开源

通义万相Wan2.1-VACE是一个集图像生成与编辑功能于一体的开源多模态模型，由阿里云团队开发并正式发布。该模型通过统一架构同时支持文生图、图生图、图像修复和局部编辑等任务，显著提升了多任务处理效率。其核心创新在于采用基于扩散模型的可控生成技术，结合细粒度条件控制模块，能够精准理解用户指令并保持编辑区域与整体画面的协调性。模型在多项基准测试中表现优异，尤其在细节保留和语义一致性方面超越同类方案。开源版本提供了完整的训练代码、预训练模型及详细文档，支持研究者和开发者快速部署应用。这一技术突破为AIGC领域提供了更高效的解决方案，降低了多模态内容创作的技术门槛。

通义万相Wan2.1-VACE 开源多模态模型图像生成与编辑模型扩散模型可控生成技术细粒度条件控制模块 AIGC领域解决方案

2025-06-09 16:42:16 392人关注

Mercury：首个商用级别的Diffusion LLM，速度快、手机也能部署

在人工智能领域，一项颠覆性的技术正在悄然兴起。近日，Inception Labs 宣布推出 Mercury 系列扩散大型语言模型（dLLMs），这是一种新一代的语言模型，旨在快速、高效地生成高质量文本。与传统的自回归大型语言模型相比，Mercury 在生成速度上提高了多达10倍，能够在 NVIDIA H100显卡上实现超过每秒1000个标记的速度，这一速度在以往仅依靠定制芯片才能实现。

扩散模型商业级大语言模型 Mercury 大模型 LLM 技术应用商业扩散模型

2025-04-28 10:19:18 596人关注

ChatDLM：全球首个扩散语言模型即将开源，引领AI技术新突破

据最新消息，全球首个扩散语言模型（Diffusion Language Model，DLM）ChatDLM即将开源，为全球开发者与研究者提供全新的AI工具，预计将推动生成式AI技术的进一步发展。

ChatDLM 扩散语言模型开源大模型扩散模型技术语言模型开源项目

2025-04-26 10:42:43 489人关注

3DV-TON革新视频试穿，扩散模型驱动纹理3D一致性新体验

一款名为3DV-TON（Textured3D-Guided Consistent Video Try-on via Diffusion Models）的创新技术正式亮相，通过扩散模型实现纹理3D引导的视频试穿体验。据AIbase了解，3DV-TON利用先进的3D几何与纹理建模，结合视频扩散模型，确保服装在动态视频中的一致性与真实感，为电商、时尚和虚拟现实领域带来突破性应用。相关细节已通过学术平台与社交媒体公开。

3D视频试穿扩散模型 3D纹理虚拟试衣技术 AI服装模拟

2025-04-21 16:31:28 241人关注

新框架d1引领扩散模型推理进步，掀起强化学习应用新风潮

在人工智能的不断发展中，扩散模型在推理能力上逐渐崭露头角，现如今，它们不再是自回归模型的 “跟随者”。近日，来自加州大学洛杉矶分校（UCLA）和 Meta 的研究者们联合推出了一种名为 d1的新框架，该框架结合了监督微调(SFT)和强化学习(RL)，使扩散模型具备更强的推理能力，包括数学理解、逻辑推理等。

D1扩散模型强化学习框架扩散模型技术 AI模型框架强化学习应用

2025-03-03 14:37:11 383人关注

字节和中国科大出品！VMix：提升扩散模型美学的扩展，即插即用

在文本生成图像的领域，扩散模型展现出了非凡的能力，但在美学图像生成方面仍存在一定的不足。最近，来自字节跳动和中国科学技术大学的研究团队提出了一种名为 “Cross-Attention Value Mixing Control”（VMix）适配器的新技术，旨在提升生成图像的质量，并保持对各种视觉概念的通用性。

字节跳动中国科大 VMix扩散模型扩散模型美学 AI图像生成技术大模型应用

2025-02-23 14:41:25 534人关注

字节跳动发布Infinity：自回归文生图新突破，性能超越扩散模型

在人工智能领域，字节跳动商业化技术团队的最新成果Infinity模型，以其卓越的性能和创新的技术，成为自回归文生图领域的新王者。这款新开源的模型不仅在图像生成质量上超越了Stable Diffusion3，还在推理速度上展现了显著优势。

2025-01-28 07:21:34 317人关注

Google AI 提出了扩散模型中推理时间缩放的基本框架

来自纽约大学、麻省理工学院和谷歌的研究团队近日提出了一个创新框架，旨在解决扩散模型在推理时间扩展方面的瓶颈问题。这一突破性研究超越了传统简单增加去噪步骤的方法，为提升生成模型性能开辟了新途径。

Google AI Diffusion模型模型推理推理加速 AI模型优化 Google AI技术应用

2025-01-18 19:19:24 494人关注

新颖多模态推荐系统范式DiffMM，让扩散模型也能推荐短视频！

港大与腾讯的研究人员提出了一种全新的多模态推荐系统范式 ——DiffMM，旨在提高短视频推荐的精准度。该系统通过创建一个包含用户和视频信息的图，并利用图扩散和对比学习技术，更好地理解用户和视频之间的关系，从而实现更准确的推荐。

多模态推荐系统推荐系统技术多模态技术应用 DiffMM 推荐系统推荐系统创新

2024-12-22 17:28:10 253人关注

Diffusion 模型也能“举一反三”？阿里IC-LoRA给图像生成模型增加情节记忆力能力

阿里巴巴通义实验室最新研究表明，现有的文生图 Diffusion Transformer 模型其实已经具备生成多张具有特定关系图像的能力，只需稍加“点拨”就能“融会贯通”，生成高质量的多图集。

diffusion models IC-LoRA memory capabilities AI模型内存优化扩散模型技术

2024-12-19 09:13:25 335人关注

扩散模型也能玩游戏？DIAMOND实现Atari 100k基准测试新SOTA

强化学习在近年来取得了许多成功，但其样本效率低下，限制了其在现实世界中的应用。世界模型作为一种环境生成模型，为解决这一问题提供了希望。它可以作为模拟环境，以更高的样本效率训练强化学习智能体。

扩散模型 Atari 100K基准扩散模型SOTA 扩散模型性能优化 Atari游戏AI

- 上云资讯 -

vLLM-Omni开源:把扩散模型、ViT、LLM塞进一条流水线，多模态推理一次跑完

清华与快手联手推出新型SVG扩散模型，训练效率暴增6200%

扩散模型新突破：Radical Numerics开源30B参数RND1，AI自我进化迈出关键一步

蚂蚁 dInfer 框架：扩散模型推理速度提升 10 倍，超越自回归模型

苹果推出 STARFlow：全新 AI 图像生成技术想力压 DALL-E 与 Midjourney

Tinker Diffusion发布：从单一视角到3D编辑，AI重塑多视角一致性！

浙大团队破解AI生成难题：让机器学会"深思熟虑"而非"冲动决策"

华人团队破解Token限制，扩散模型的潜力超越自回归三倍！

昆仑万维正式发布SkyReels-A3模型：照片可根据语音对口型

一个模型实现生成+编辑！通义万相 Wan2.1-VACE 正式开源

Mercury：首个商用级别的Diffusion LLM，速度快、手机也能部署

ChatDLM：全球首个扩散语言模型即将开源，引领AI技术新突破

3DV-TON革新视频试穿，扩散模型驱动纹理3D一致性新体验

新框架d1引领扩散模型推理进步，掀起强化学习应用新风潮

字节和中国科大出品！VMix：提升扩散模型美学的扩展，即插即用

字节跳动发布Infinity：自回归文生图新突破，性能超越扩散模型

Google AI 提出了扩散模型中推理时间缩放的基本框架

新颖多模态推荐系统范式DiffMM，让扩散模型也能推荐短视频！

Diffusion 模型也能“举一反三”？阿里IC-LoRA给图像生成模型增加情节记忆力能力

扩散模型也能玩游戏？DIAMOND实现Atari 100k基准测试新SOTA

推荐阅读

上云服务

- 上云资讯 -

vLLM-Omni开源:把扩散模型、ViT、LLM塞进一条流水线，多模态推理一次跑完

清华与快手联手推出新型SVG扩散模型，训练效率暴增6200%

扩散模型新突破：Radical Numerics开源30B参数RND1，AI自我进化迈出关键一步

蚂蚁 dInfer 框架：扩散模型推理速度提升 10 倍，超越自回归模型

​苹果推出 STARFlow：全新 AI 图像生成技术想力压 DALL-E 与 Midjourney

Tinker Diffusion发布：从单一视角到3D编辑，AI重塑多视角一致性！

浙大团队破解AI生成难题：让机器学会"深思熟虑"而非"冲动决策"

华人团队破解Token限制，扩散模型的潜力超越自回归三倍！

昆仑万维正式发布SkyReels-A3模型：照片可根据语音对口型

一个模型实现生成+编辑！通义万相 Wan2.1-VACE 正式开源

Mercury：首个商用级别的Diffusion LLM，速度快、手机也能部署

ChatDLM：全球首个扩散语言模型即将开源，引领AI技术新突破

3DV-TON革新视频试穿，扩散模型驱动纹理3D一致性新体验

新框架d1引领扩散模型推理进步，掀起强化学习应用新风潮

字节和中国科大出品！VMix：提升扩散模型美学的扩展，即插即用

字节跳动发布Infinity：自回归文生图新突破，性能超越扩散模型

Google AI 提出了扩散模型中推理时间缩放的基本框架

新颖多模态推荐系统范式DiffMM，让扩散模型也能推荐短视频！

Diffusion 模型也能“举一反三”？阿里IC-LoRA给图像生成模型增加情节记忆力能力

扩散模型也能玩游戏？DIAMOND实现Atari 100k基准测试新SOTA

推荐阅读

上云服务

苹果推出 STARFlow：全新 AI 图像生成技术想力压 DALL-E 与 Midjourney