上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-07-24 09:25:14 336人关注

快手与上交大联合推出Orthus模型，打破多模态生成新边界

在刚刚结束的国际机器学习大会（ICML）上，快手与上海交通大学携手推出了一款令人瞩目的多模态生成理解模型 ——Orthus。这款模型以其自回归 Transformer 架构为基础，能够在图文之间自如转换，展现出前所未有的生成能力，目前已正式开源。

多模态生成理解模型 Orthus模型开源自回归Transformer架构图文转换模型快手AI研究成果上海交通大学AI模型

2025-07-17 18:42:26 505人关注

谷歌 DeepMind 推出 MoR 架构：有望大幅提升大型语言模型的效率

在人工智能领域，大型语言模型（LLM）因其出色的表现而受到广泛关注，但其在部署时却面临着巨大的计算和内存开销问题。为了克服这一挑战，谷歌 DeepMind 最近推出了一种新架构 ——Mixture-of-Recursions(MoR)，该架构被认为有潜力成为传统 Transformer 模型的 “杀手”。

大型语言模型 LLM 计算开销 LLM 内存优化 Mixture-of-Recursions 架构 MoR 替代 Transformer DeepMind 新模型架构

2025-07-10 15:21:15 109人关注

循环模型新突破：500 步训练让超长序列不再难！

在深度学习的领域，循环神经网络（RNN）和 Transformer 模型各有千秋。近期研究发现，线性循环模型(如 Mamba)凭借其优越的序列处理能力，正在逐渐挑战 Transformer 的地位。尤其是在处理极长序列的任务上，循环模型展现出了巨大的潜力，远远超出传统 Transformer 模型的局限性。

循环神经网络 Transformer 模型线性循环模型 Mamba 模型长序列处理深度学习模型对比

2025-06-21 10:42:12 190人关注

华为云发布盘古 5.5：三元组编码架构引领预测大模型新潮流！

在刚刚结束的华为开发者大会2025（HDC2025）上，华为常务董事兼华为云计算 CEO 张平安重磅推出了盘古大模型5.5，这一新版本带来了令人振奋的技术升级。张平安表示，此次发布的核心亮点在于采用了华为首创的 “Triplet Transformer” 统一预训练架构。

华为开发者大会2025 盘古大模型5.5 Triplet Transformer 统一预训练架构华为云计算技术升级

2025-06-20 16:33:40 109人关注

阿里云生物基础大模型登上Nature子刊！

阿里云AI for Science团队研发的生物大模型LucaOne登上《Nature Machine Intelligence》期刊，这是业界首个基于DNA、RNA和蛋白质混合训练的基础模型。该模型整合了16万个物种的12亿条核酸序列和6亿条蛋白序列，并引入生物标签信息，能有效挖掘核酸与蛋白质的内在关联。研究采用Transformer-Encoder架构，通过8个半监督学习任务增强模型性能，在中心法则验证等8项任务中表现优于现有模型。目前模型已全面开源，全球已有10余个团队应用。该成果被期刊评价为"对分子生物学中心法则的全新理解"，此前阿里云已发表LucaProt、LucaPCycle等多项生命科学领域突破性研究。作为Nature旗下顶级期刊，《Nature Machine Intelligence》在人工智能领域具有重要影响力。

阿里云AI for Science LucaOne生物大模型 DNA RNA蛋白质混合训练模型 Transformer-Encoder架构半监督学习任务分子生物学中心法则

2025-04-17 14:23:33 107人关注

Meta 创新推出 “连续概念混合” 框架，推动 Transformer 预训练新革命

近年来，随着大型语言模型（LLMs）的快速发展，自然语言处理领域经历了前所未有的变革。这些技术如今广泛应用于代码助手、搜索引擎和个人 AI 助手等场景，展现了强大的能力。然而，传统的 “下一个 token 预测” 范式存在一定局限性，尤其是在处理复杂推理和长期任务时，模型需要经历大量训练才能掌握深层次的概念理解。

Meta创新技术连续概念混合Transformer Transformer模型优化 Meta技术突破 AI模型创新

2025-03-27 16:27:43 257人关注

腾讯发布Hunyuan-TurboS：首款超大型混合Transformer-Mamba MoE模型震撼登场

今日，腾讯在X平台上正式宣布推出其最新AI模型Hunyuan-TurboS，这款被誉为“首款超大型Hybrid-Transformer-Mamba MoE模型”的产品迅速引发全球科技圈的热议。根据X用户披露的信息，Hunyuan-TurboS通过融合Mamba的高效长序列处理能力和Transformer的强大上下文理解能力，成功克服了传统纯Transformer模型在长文本训练和推理上的瓶颈，展现出令人瞩目的性能突破。

腾讯混元 TurboS Transformer Mamba MoE 大模型技术 AI模型架构 Transformer优化

2025-02-22 16:38:30 278人关注

元始智能RWKV获数千万天使轮融资，力求打破Transformer架构的限制

在2022年全球生成式 AI 浪潮的背景下，元始智能（RWKV）于2023年12月完成数千万人民币的天使轮融资，由天际资本投资。此次融资后，公司估值翻倍，资金将用于团队扩展、新架构研发及产品商业化。

2025-01-28 13:41:31 197人关注

Sakana AI发布Transformer²:突破语言模型适应性的新技术

日本人工智能公司Sakana AI近日推出了Transformer²，这是一种创新的方法，旨在帮助语言模型更高效地适应多种任务。与现有的人工智能系统不同，Transformer²能够通过两阶段学习过程解决语言模型在面对新任务时常遇到的局限性，标志着该领域在持续学习技术上的进步。

Sakana AI Transformer2 语言模型适应性 AI模型创新大模型技术演进

2025-01-27 14:10:18 229人关注

新型AI模型Transformer²：像章鱼一样灵活，动态调整权重，自我适应环境

传统的大型语言模型（LLM）微调方法通常计算密集，且在处理多样化任务时显得静态。为了解决这些挑战，Sakana AI 推出了一种名为 Transformer² 的新型自适应框架。Transformer² 能够在推理过程中实时调整LLM的权重，使其能够适应各种未知的任务，就像章鱼一样灵活。

AI大模型 Transformer2模型 AI模型环境适应 AI模型灵活性 AI技术新闻

2025-01-24 11:18:38 306人关注

Sakana AI 的 Transformer² 模型突破 LLM 限制，实现动态推理

Sakana AI 是一家专注于自然启发算法的人工智能研究实验室，近日推出了一种名为 Transformer² （Transformer-squared）的创新自适应语言模型。该模型无需昂贵的微调，即可在推理过程中动态学习并适应新任务，这标志着大型语言模型 (LLM) 技术发展的重要一步。

Sakana AI Transformer2模型 LLM限制突破大语言模型创新 AI模型技术突破

2025-01-19 21:36:31 147人关注

韩国团队提出全新Transformer架构可让大模型解码提速20倍

Transformer模型虽然强大，但它在解码时的效率问题一直是让人头疼的事儿。不过，韩国科学技术研究院、LG和DeepMind的研究人员们，这次可是给我们带来了一个惊喜——他们提出了一种新的Transformer架构，叫做Block Transformer，直接让解码速度提升了10到20倍!

Korean AI团队 Transformer加速技术 20倍性能提升 Transformer模型优化 AI计算效率提升

2025-01-18 18:26:34 156人关注

谷歌TransNAR模型：将Transformer与NAR相结合

谷歌的研究人员近日推出了一项全新的模型，名为 TransNAR，将 Transformer 和神经算法推理（NAR）相结合，实现了在算法任务上的优异表现。

Google Transnar Transformer NAR AI大模型自然语言处理技术神经网络架构机器翻译模型

2025-01-18 09:19:26 325人关注

革命性突破！斯坦福UCSD联合打造TTT架构，5年磨一剑，Transformer时代终结？

在AI的世界里，变革总是在不经意间到来。就在最近，一个名为TTT的全新架构横空出世，它由斯坦福、UCSD、UC伯克利和Meta的研究人员共同提出，一夜间颠覆了Transformer和Mamba，为语言模型带来了革命性的改变。

Stanford UCSD TTT架构革命性突破大模型技术架构

2025-01-18 02:28:26 131人关注

谷歌提出百万专家Mixture 释放进一步扩展 Transformer 的潜力

Google DeepMind提出的百万专家Mixture模型，一个在Transformer架构上迈出了革命性步伐的研究。

Google Mixture Experts Transformer 模型 MoE 技术大模型架构 AI 模型优化 Google AI 技术突破

2025-01-17 18:41:40 177人关注

新的Transformer加速技术FlashAttention-3发布成本直线下降

全新的Transformer加速技术FlashAttention-3震撼发布啦!这可不仅仅是个升级，它预示着咱们的大型语言模型（LLMs）的推理速度直线上升和成本的直线下降!

Transformer FlashAttention 3 成本降低注意力机制优化模型训练效率提升深度学习技术

2025-01-15 12:35:44 195人关注

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

在2024年国际音乐信息检索会议（ISMIR）上，研究人员展示了他们最新研发的MusiConGen模型。这一模型是基于Transformer的文本生成音乐模型，通过引入时间条件机制，显著提升了对音乐节奏和和弦的控制能力。

AI音乐生成模型 Musicongen AI音乐生成技术 AI音乐创作音乐生成模型应用

2025-01-11 20:16:28 262人关注

论文新解！用“画家流水线”揭示Transformer中间层的工作机制

在人工智能的世界里，有一群特殊的"画家"——Transformer模型中的层级结构。它们像一支支神奇的画笔，在语言的画布上描绘出丰富多彩的世界。最近，一篇名为"Transformer Layers as Painters"的论文，为我们理解Transformer中间层的工作机制提供了新的视角。

painter pipeline transformer 中间层 transformer 架构解析 AI 模型中间层优化 transformer 技术原理

2025-01-11 07:42:26 235人关注

Transformer可视化新突破：本地运行GPT-2，还可实时推理

随着技术的发展，我们身边的智能助手越来越多了。它们不仅能听懂我们的话，还能写出不错的文章。但你有没有想过，这些AI助手是如何"读"懂我们的心思，写出那些令人惊叹的文字的呢?

Transformer可视化 GPT-2本地推理 Transformer模型解析 GPT-2技术原理本地推理优化

2024-12-29 15:24:34 140人关注

清华与微软联手打造Differential Transformer，让 AI 的注意力更集中，精度飙升30%！

最近大语言模型（LLM）发展迅猛，其中Transformer模型功不可没。Transformer的核心是注意力机制，它像一个信息过滤器，让模型关注句子中最重要的部分。但即使是强大的Transformer，也会被无关信息干扰，就好比你在图书馆想找本书，结果被一堆无关的书淹没，效率自然低下。

清华微软合作差分Transformer Transformer技术清华微软研究项目差分Transformer应用

- 上云资讯 -

快手与上交大联合推出Orthus模型，打破多模态生成新边界

谷歌 DeepMind 推出 MoR 架构：有望大幅提升大型语言模型的效率

循环模型新突破：500 步训练让超长序列不再难！

华为云发布盘古 5.5：三元组编码架构引领预测大模型新潮流！

阿里云生物基础大模型登上Nature子刊！

Meta 创新推出 “连续概念混合” 框架，推动 Transformer 预训练新革命

腾讯发布Hunyuan-TurboS：首款超大型混合Transformer-Mamba MoE模型震撼登场

元始智能RWKV获数千万天使轮融资，力求打破Transformer架构的限制

Sakana AI发布Transformer²:突破语言模型适应性的新技术

新型AI模型Transformer²：像章鱼一样灵活，动态调整权重，自我适应环境

Sakana AI 的 Transformer² 模型突破 LLM 限制，实现动态推理

韩国团队提出全新Transformer架构可让大模型解码提速20倍

谷歌TransNAR模型：将Transformer与NAR相结合

革命性突破！斯坦福UCSD联合打造TTT架构，5年磨一剑，Transformer时代终结？

谷歌提出百万专家Mixture 释放进一步扩展 Transformer 的潜力

新的Transformer加速技术FlashAttention-3发布成本直线下降

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

论文新解！用“画家流水线”揭示Transformer中间层的工作机制

Transformer可视化新突破：本地运行GPT-2，还可实时推理

清华与微软联手打造Differential Transformer，让 AI 的注意力更集中，精度飙升30%！

推荐阅读

上云服务

- 上云资讯 -

快手与上交大联合推出Orthus模型，打破多模态生成新边界

​谷歌 DeepMind 推出 MoR 架构：有望大幅提升大型语言模型的效率

循环模型新突破：500 步训练让超长序列不再难！

华为云发布盘古 5.5：三元组编码架构引领预测大模型新潮流！

阿里云生物基础大模型登上Nature子刊！

Meta 创新推出 “连续概念混合” 框架，推动 Transformer 预训练新革命

腾讯发布Hunyuan-TurboS：首款超大型混合Transformer-Mamba MoE模型震撼登场

元始智能RWKV获数千万天使轮融资，力求打破Transformer架构的限制

Sakana AI发布Transformer²:突破语言模型适应性的新技术

新型AI模型Transformer²：像章鱼一样灵活，动态调整权重，自我适应环境

Sakana AI 的 Transformer² 模型突破 LLM 限制，实现动态推理

韩国团队提出全新Transformer架构 可让大模型解码提速20倍

谷歌TransNAR模型：将Transformer与NAR相结合

革命性突破！斯坦福UCSD联合打造TTT架构，5年磨一剑，Transformer时代终结？

谷歌提出百万专家Mixture 释放进一步扩展 Transformer 的潜力

新的Transformer加速技术FlashAttention-3发布 成本直线下降

​AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦

论文新解！用“画家流水线”揭示Transformer中间层的工作机制

Transformer可视化新突破：本地运行GPT-2，还可实时推理

清华与微软联手打造Differential Transformer，让 AI 的注意力更集中，精度飙升30%！

推荐阅读

上云服务

谷歌 DeepMind 推出 MoR 架构：有望大幅提升大型语言模型的效率

韩国团队提出全新Transformer架构可让大模型解码提速20倍

新的Transformer加速技术FlashAttention-3发布成本直线下降

AI音乐生成模型MusiConGen:用Transformer生成音乐，精确控制节奏和和弦