- 上云资讯 -
2025-07-12 11:19:33 36人关注
无需CUDA代码!H100加速提升33%-50%,Flash Attention作者新作引发热议
据最新报道,Flash Attention 的共同作者 Tri Dao 与普林斯顿大学的两位博士生联合推出了一个名为 QuACK 的新内核库,令人瞩目的是,他们仅使用 Python 和 CuTe-DSL 开发,完全没有涉及 CUDA C++ 代码。这一创新不仅打破了传统的编程框架,还在强大的 H100显卡上实现了比 PyTorch 中的 torch.compile 和 Liger 等库快33%-50% 的速度提升。
Flash Attention QuACK 内核库 Python 和 CuTe-DSL 开发 GPU 加速库 H100 显卡性能优化 AI 模型加速技术