- 上云资讯 -
2025-06-21 10:42:12 0人关注
华为云发布盘古 5.5:三元组编码架构引领预测大模型新潮流!
在刚刚结束的华为开发者大会2025(HDC2025)上,华为常务董事兼华为云计算 CEO 张平安重磅推出了盘古大模型5.5,这一新版本带来了令人振奋的技术升级。张平安表示,此次发布的核心亮点在于采用了华为首创的 “Triplet Transformer” 统一预训练架构。
2025-06-20 16:33:40 4人关注
阿里云生物基础大模型登上Nature子刊!
阿里云AI for Science团队研发的生物大模型LucaOne登上《Nature Machine Intelligence》期刊,这是业界首个基于DNA、RNA和蛋白质混合训练的基础模型。该模型整合了16万个物种的12亿条核酸序列和6亿条蛋白序列,并引入生物标签信息,能有效挖掘核酸与蛋白质的内在关联。研究采用Transformer-Encoder架构,通过8个半监督学习任务增强模型性能,在中心法则验证等8项任务中表现优于现有模型。目前模型已全面开源,全球已有10余个团队应用。该成果被期刊评价为"对分子生物学中心法则的全新理解",此前阿里云已发表LucaProt、LucaPCycle等多项生命科学领域突破性研究。作为Nature旗下顶级期刊,《Nature Machine Intelligence》在人工智能领域具有重要影响力。
阿里云AI for Science LucaOne生物大模型 DNA RNA蛋白质混合训练模型 Transformer-Encoder架构 半监督学习任务 分子生物学中心法则
2025-04-17 14:23:33 30人关注
Meta 创新推出 “连续概念混合” 框架,推动 Transformer 预训练新革命
近年来,随着大型语言模型(LLMs)的快速发展,自然语言处理领域经历了前所未有的变革。这些技术如今广泛应用于代码助手、搜索引擎和个人 AI 助手等场景,展现了强大的能力。然而,传统的 “下一个 token 预测” 范式存在一定局限性,尤其是在处理复杂推理和长期任务时,模型需要经历大量训练才能掌握深层次的概念理解。
2025-03-27 16:27:43 75人关注
腾讯发布Hunyuan-TurboS:首款超大型混合Transformer-Mamba MoE模型震撼登场
今日,腾讯在X平台上正式宣布推出其最新AI模型Hunyuan-TurboS,这款被誉为“首款超大型Hybrid-Transformer-Mamba MoE模型”的产品迅速引发全球科技圈的热议。根据X用户披露的信息,Hunyuan-TurboS通过融合Mamba的高效长序列处理能力和Transformer的强大上下文理解能力,成功克服了传统纯Transformer模型在长文本训练和推理上的瓶颈,展现出令人瞩目的性能突破。
腾讯混元 TurboS Transformer Mamba MoE 大模型技术 AI模型架构 Transformer优化
2025-02-22 16:38:30 138人关注
元始智能RWKV获数千万天使轮融资,力求打破Transformer架构的限制
在2022年全球生成式 AI 浪潮的背景下,元始智能(RWKV)于2023年12月完成数千万人民币的天使轮融资,由天际资本投资。此次融资后,公司估值翻倍,资金将用于团队扩展、新架构研发及产品商业化。
2025-01-28 13:41:31 95人关注
Sakana AI发布Transformer²:突破语言模型适应性的新技术
日本人工智能公司Sakana AI近日推出了Transformer²,这是一种创新的方法,旨在帮助语言模型更高效地适应多种任务。与现有的人工智能系统不同,Transformer²能够通过两阶段学习过程解决语言模型在面对新任务时常遇到的局限性,标志着该领域在持续学习技术上的进步。
2025-01-27 14:10:18 155人关注
新型AI模型Transformer²:像章鱼一样灵活,动态调整权重,自我适应环境
传统的大型语言模型(LLM)微调方法通常计算密集,且在处理多样化任务时显得静态。为了解决这些挑战,Sakana AI 推出了一种名为 Transformer² 的新型自适应框架。Transformer² 能够在推理过程中实时调整LLM的权重,使其能够适应各种未知的任务,就像章鱼一样灵活。
2025-01-24 11:18:38 164人关注
Sakana AI 的 Transformer² 模型突破 LLM 限制,实现动态推理
Sakana AI 是一家专注于自然启发算法的人工智能研究实验室,近日推出了一种名为 Transformer² (Transformer-squared) 的创新自适应语言模型。该模型无需昂贵的微调,即可在推理过程中动态学习并适应新任务,这标志着大型语言模型 (LLM) 技术发展的重要一步。
2025-01-19 21:36:31 53人关注
韩国团队提出全新Transformer架构 可让大模型解码提速20倍
Transformer模型虽然强大,但它在解码时的效率问题一直是让人头疼的事儿。不过,韩国科学技术研究院、LG和DeepMind的研究人员们,这次可是给我们带来了一个惊喜——他们提出了一种新的Transformer架构,叫做Block Transformer,直接让解码速度提升了10到20倍!
Korean AI团队 Transformer加速技术 20倍性能提升 Transformer模型优化 AI计算效率提升
2025-01-18 18:26:34 48人关注
谷歌TransNAR模型:将Transformer与NAR相结合
谷歌的研究人员近日推出了一项全新的模型,名为 TransNAR,将 Transformer 和神经算法推理(NAR)相结合,实现了在算法任务上的优异表现。
Google Transnar Transformer NAR AI大模型 自然语言处理技术 神经网络架构 机器翻译模型
2025-01-18 02:28:26 47人关注
谷歌提出百万专家Mixture 释放进一步扩展 Transformer 的潜力
Google DeepMind提出的百万专家Mixture模型,一个在Transformer架构上迈出了革命性步伐的研究。
Google Mixture Experts Transformer 模型 MoE 技术 大模型架构 AI 模型优化 Google AI 技术突破
2025-01-17 18:41:40 65人关注
新的Transformer加速技术FlashAttention-3发布 成本直线下降
全新的Transformer加速技术FlashAttention-3震撼发布啦!这可不仅仅是个升级,它预示着咱们的大型语言模型(LLMs)的推理速度直线上升和成本的直线下降!
2025-01-15 12:35:44 99人关注
AI音乐生成模型MusiConGen:用Transformer生成音乐,精确控制节奏和和弦
在2024年国际音乐信息检索会议(ISMIR)上,研究人员展示了他们最新研发的MusiConGen模型。这一模型是基于Transformer的文本生成音乐模型,通过引入时间条件机制,显著提升了对音乐节奏和和弦的控制能力。
2025-01-11 20:16:28 109人关注
论文新解!用“画家流水线”揭示Transformer中间层的工作机制
在人工智能的世界里,有一群特殊的"画家"——Transformer模型中的层级结构。它们像一支支神奇的画笔,在语言的画布上描绘出丰富多彩的世界。最近,一篇名为"Transformer Layers as Painters"的论文,为我们理解Transformer中间层的工作机制提供了新的视角。
painter pipeline transformer 中间层 transformer 架构解析 AI 模型中间层优化 transformer 技术原理
2025-01-11 07:42:26 125人关注
Transformer可视化新突破:本地运行GPT-2,还可实时推理
随着技术的发展,我们身边的智能助手越来越多了。它们不仅能听懂我们的话,还能写出不错的文章。但你有没有想过,这些AI助手是如何"读"懂我们的心思,写出那些令人惊叹的文字的呢?
2024-12-29 15:24:34 52人关注
清华与微软联手打造Differential Transformer,让 AI 的注意力更集中,精度飙升30%!
最近大语言模型(LLM)发展迅猛,其中Transformer模型功不可没。Transformer的核心是注意力机制,它像一个信息过滤器,让模型关注句子中最重要的部分。但即使是强大的Transformer,也会被无关信息干扰,就好比你在图书馆想找本书,结果被一堆无关的书淹没,效率自然低下。
2024-12-26 04:23:45 47人关注
DeepMind超大规模Transformer棋力惊人,挑战AI规划极限!
最近,DeepMind一篇关于超大规模 Transformer 在国际象棋领域应用的论文,引发了 AI 社区的广泛讨论。研究人员利用名为 ChessBench 的全新数据集,训练了多达2.7亿参数的 Transformer 模型,探索其在棋类这种复杂规划问题上的能力。
DeepMind Transformer AI规划技术 Transformer模型应用 DeepMind AI技术 AI规划算法
2024-12-19 22:28:42 165人关注
彩云小梦V3.5上线!突破性提升Transformer效率
彩云科技日前在北京举办"From Paper to App"主题沟通会,正式发布基于DCFormer架构的通用大模型"云锦天章",并宣布旗下AI RPG平台彩云小梦升级至基于DCFormer的V3. 5 版本。这标志着人工智能领域在模型架构效率方面取得重大突破。
彩云梦境V35 Transformer效率优化 AI模型效率提升 彩云梦境V35技术解析 Transformer架构优化
2024-12-13 10:27:15 59人关注
Liquid AI 推出 STAR 模型架构,效率超越传统 Transformer
在当前大型语言模型(LLM)开发的竞争中,各大人工智能公司面临着越来越多的挑战,因此,越来越多的目光开始转向 “Transformer” 以外的替代架构。Transformer 架构自2017年由谷歌研究人员提出以来,已成为当今生成式人工智能的基础。为了应对这一挑战,由麻省理工学院孵化的初创公司 Liquid AI 推出了一种名为 STAR(Synthesis of Tailored Architectures)的创新框架。