LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-04-28 10:24:34 124人关注

全球最快推理速度模型!Qafind Labs 发布 ChatDLM 技术

近日,Qafind Labs发布了其最新研发的ChatDLM模型,这一创新成果在人工智能领域引起了广泛关注。ChatDLM是首个将“区块扩散(Block Diffusion)”和“专家混合(MoE)”深度融合的模型,其在GPU上实现了惊人的2,800tokens/s超高推理速度,支持131,072tokens的超大上下文窗口,开启了文档级生成和实时对话的新纪元。

fastest inference model ChatDLM QAFind 模型推理速度优化 高效推理技术

2025-01-07 20:41:34 157人关注

号称全球最快AI推理服务问世!速度提升20倍 成本极低

性能 AI 计算领域的先驱 Cerebras Systems 推出了一种开创性的解决方案,该解决方案将彻底改变 AI 推理。2024年8月27日,该公司宣布推出 Cerebras Inference,这是世界上最快的 AI 推理服务。Cerebras Inference 的性能指标使基于 GPU 的传统系统相形见绌,以极低的成本提供20倍的速度,为 AI 计算树立了新的标杆。

AI推理服务 AI推理速度优化 AI推理成本控制 最快AI推理服务 AI推理性能提升

2025-01-05 13:14:42 257人关注

Llama3天瘦成Mamba!推理速度提升1.5倍

最近,Mamba 团队的研究令人瞩目:来自康奈尔和普林斯顿等高校的研究者们成功将 Llama 这一大型 Transformer 模型 “蒸馏” 成了 Mamba,并设计了一种新型的推理解码算法,显著提高了模型的推理速度。

Llama 3 Mamba 推理速度优化 大模型推理加速 LLM性能提升

2024-12-19 02:24:19 101人关注

阿里云发布逆天大模型Qwen2.5-Turbo 一口气读完十本小说,推理速度提升4.3倍!

阿里云重磅推出全新升级的Qwen2.5-Turbo大语言模型,其上下文长度突破至惊人的100万Token。这相当于什么概念?相当于10部《三体》,150小时的语音转录或3万行代码的容量!这回可真是“一口气读完十本小说”不是梦了!

阿里云通义千问2.5 Turbo模型 大模型推理速度优化 大模型阅读性能提升 通义千问2.5 Turbo技术解析 AI大模型性能优化

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10