上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-07-12 11:19:33 167人关注

无需CUDA代码！H100加速提升33%-50%，Flash Attention作者新作引发热议

据最新报道，Flash Attention 的共同作者 Tri Dao 与普林斯顿大学的两位博士生联合推出了一个名为 QuACK 的新内核库，令人瞩目的是，他们仅使用 Python 和 CuTe-DSL 开发，完全没有涉及 CUDA C++ 代码。这一创新不仅打破了传统的编程框架，还在强大的 H100显卡上实现了比 PyTorch 中的 torch.compile 和 Liger 等库快33%-50% 的速度提升。

Flash Attention QuACK 内核库 Python 和 CuTe-DSL 开发 GPU 加速库 H100 显卡性能优化 AI 模型加速技术

2025-03-19 16:14:13 131人关注

大模型长文推理迎来“核弹级”提速！清华APBB框架狂飙10倍，Flash Attention直接被秒

还在为大模型处理长文本“龟速”而抓狂?别急!清华大学祭出“王炸”技术——APB 序列并行推理框架，直接给大模型装上“涡轮增压”引擎!实测显示，这项黑科技在处理超长文本时，速度竟比肩 Flash Attention 快10倍!没错，你没听错，是10倍!

大模型推理加速清华APBB技术大模型性能优化推理速度提升方案大模型技术突破

- 上云资讯 -

无需CUDA代码！H100加速提升33%-50%，Flash Attention作者新作引发热议

大模型长文推理迎来“核弹级”提速！清华APBB框架狂飙10倍，Flash Attention直接被秒

推荐阅读

上云服务