- 上云资讯 -
2025-02-19 10:33:31 182人关注
NVIDIA联合高校发布 “FlashInfer”:提升大语言模型推理效率的全新内核库
随着大语言模型(LLM)在现代人工智能应用中的广泛应用,诸如聊天机器人和代码生成器等工具依赖于这些模型的能力。然而,随之而来的推理过程中的效率问题也日益突出。
2025-01-28 07:21:34 95人关注
Google AI 提出了扩散模型中推理时间缩放的基本框架
来自纽约大学、麻省理工学院和谷歌的研究团队近日提出了一个创新框架,旨在解决扩散模型在推理时间扩展方面的瓶颈问题。这一突破性研究超越了传统简单增加去噪步骤的方法,为提升生成模型性能开辟了新途径。