- 上云资讯 -
2025-03-09 10:32:11 169人关注
新开普:星普大模型表现出色,算力消耗显著降低
在最近的一次机构电话交流会上,新开普公司透露了其自研的星普大模型的最新测评结果。该模型采用了 SFT(监督微调)与 RL(强化学习)的训练技术,在智能推理效果上与 DeepSeek-R1相近,且算力消耗仅为 DeepSeek-R1的1/20。这一成果不仅彰显了新开普在人工智能领域的研发实力,同时也为降低硬件投入提供了可能。
2025-01-28 10:44:35 270人关注
国产开源大模型 DeepSeek R1 发布,性能超越o1模、成本降90%
正文:近期,中国的 DeepSeek 团队重磅推出了其最新开源大模型 R1,受到了广泛关注。R1模型的性能表现极其出色,在多项测试中均超越了 OpenAI 的 o1模型,尤其是在数学和编程方面的评估中表现优异。
2025-01-23 13:23:33 51人关注
苹果与NVIDIA联手提升AI模型生产效率,速度提升近三倍
近日,苹果公司在机器学习领域的最新研究显示,他们通过与 NVIDIA 的合作,成功将大型语言模型(LLM)的生成速度提高了近三倍。这一进展的关键在于苹果开源的技术 “Recurrent Drafter”(ReDrafter),它采用了一种推测解码方法,能够显著提升模型训练的效率。
2025-01-14 00:42:14 49人关注
Zyphra推小语言模型Zamba2-2.7B: 速度提高一倍,内存成本降低27%
最近,Zyphra 公司发布了全新的 Zamba2-2.7B 语言模型,这一发布在小型语言模型的发展史上具有重要意义。新模型在性能和效率方面取得了显著提升,它的训练数据集达到了大约3万亿个标记,这使得它在性能上可以与 Zamba1-7B 及其他领先的7B 模型相媲美。
2024-12-25 03:24:43 48人关注
Meta AI新量化版本Llama 3.2:速度提高2倍、体量减少56%,手机就能运行
最近,Meta AI 推出了全新的量化 Llama3.2模型,包含1B 和3B 两个版本,这款模型可以在多种设备上进行微调、蒸馏和部署。