- 上云资讯 -
2025-07-30 10:18:28 69人关注
通义千问开源Qwen3-30B-A3B-Instruct-2507非思考模式模型
7月29日,Qwen3-30B-A3B模型推出了新版本Qwen3-30B-A3B-Instruct-2507。这一新版本在多个关键领域实现了显著提升,标志着该模型在非思考模式(non-thinking mode)下仅激活3B参数,就能达到与Gemini2.5-Flash(non-thinking)、GPT-4o等顶尖闭源模型相媲美的性能。
2025-07-26 12:21:12 35人关注
讯飞星火X1升级版发布:翻译、推理、文本生成能力大幅跃升!
近日,科大讯飞正式推出了升级版的星火 X1深度推理大模型,标志着国内人工智能技术的又一重大突破。此次升级不仅使星火 X1在翻译、推理、文本生成、数学等领域的综合能力实现了质的飞跃,更是将其性能提升至与国际一流模型如 OpenAI o3相媲美的水平。
科大讯飞星火 X1 深度推理大模型 AI大模型性能提升 星火 X1与国际模型对比 AI大模型技术突破 国内人工智能重大进展
2025-03-09 10:32:11 219人关注
新开普:星普大模型表现出色,算力消耗显著降低
在最近的一次机构电话交流会上,新开普公司透露了其自研的星普大模型的最新测评结果。该模型采用了 SFT(监督微调)与 RL(强化学习)的训练技术,在智能推理效果上与 DeepSeek-R1相近,且算力消耗仅为 DeepSeek-R1的1/20。这一成果不仅彰显了新开普在人工智能领域的研发实力,同时也为降低硬件投入提供了可能。
2025-01-28 10:44:35 326人关注
国产开源大模型 DeepSeek R1 发布,性能超越o1模、成本降90%
正文:近期,中国的 DeepSeek 团队重磅推出了其最新开源大模型 R1,受到了广泛关注。R1模型的性能表现极其出色,在多项测试中均超越了 OpenAI 的 o1模型,尤其是在数学和编程方面的评估中表现优异。
2025-01-23 13:23:33 100人关注
苹果与NVIDIA联手提升AI模型生产效率,速度提升近三倍
近日,苹果公司在机器学习领域的最新研究显示,他们通过与 NVIDIA 的合作,成功将大型语言模型(LLM)的生成速度提高了近三倍。这一进展的关键在于苹果开源的技术 “Recurrent Drafter”(ReDrafter),它采用了一种推测解码方法,能够显著提升模型训练的效率。
2025-01-14 00:42:14 83人关注
Zyphra推小语言模型Zamba2-2.7B: 速度提高一倍,内存成本降低27%
最近,Zyphra 公司发布了全新的 Zamba2-2.7B 语言模型,这一发布在小型语言模型的发展史上具有重要意义。新模型在性能和效率方面取得了显著提升,它的训练数据集达到了大约3万亿个标记,这使得它在性能上可以与 Zamba1-7B 及其他领先的7B 模型相媲美。
2024-12-25 03:24:43 93人关注
Meta AI新量化版本Llama 3.2:速度提高2倍、体量减少56%,手机就能运行
最近,Meta AI 推出了全新的量化 Llama3.2模型,包含1B 和3B 两个版本,这款模型可以在多种设备上进行微调、蒸馏和部署。