上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-08-23 10:16:23 494人关注

kimi-k2-turbo-preview模型输出速度已提升至每秒 60 Tokens

8月22日，Moonshot AI宣布其Kimi K2模型的输出速度再次取得重大突破。经过工程师团队的不懈努力，kimi-k2-turbo-preview模型的输出速度已经提升至每秒60个Tokens，最高可达每秒100个Tokens。这一显著的速度提升，将进一步优化用户体验，满足更多场景下的高效需求。

Kimi K2模型提速 Moonshot AI模型升级每秒60个Tokens AI输出速度优化 Kimi K2-turbo-preview性能提升 AI大模型加速技术

2025-07-12 11:19:33 228人关注

无需CUDA代码！H100加速提升33%-50%，Flash Attention作者新作引发热议

据最新报道，Flash Attention 的共同作者 Tri Dao 与普林斯顿大学的两位博士生联合推出了一个名为 QuACK 的新内核库，令人瞩目的是，他们仅使用 Python 和 CuTe-DSL 开发，完全没有涉及 CUDA C++ 代码。这一创新不仅打破了传统的编程框架，还在强大的 H100显卡上实现了比 PyTorch 中的 torch.compile 和 Liger 等库快33%-50% 的速度提升。

Flash Attention QuACK 内核库 Python 和 CuTe-DSL 开发 GPU 加速库 H100 显卡性能优化 AI 模型加速技术

2025-01-13 09:16:45 251人关注

aiOla推超高速开源语音识别模型Whisper-Medusa，比OpenAI的Whisper快50%

以色列人工智能初创公司 aiOla 近日搞了个大动作，宣布推出一款新的开源语音识别模型 Whisper-Medusa。

Ola Whisper Medusa OpenAI AI大模型模型加速技术

- 上云资讯 -

kimi-k2-turbo-preview模型输出速度已提升至每秒 60 Tokens

无需CUDA代码！H100加速提升33%-50%，Flash Attention作者新作引发热议

aiOla推超高速开源语音识别模型Whisper-Medusa，比OpenAI的Whisper快50%

推荐阅读

上云服务