- 上云资讯 -
2025-07-12 15:26:13 72人关注
微软全新 Phi-4-mini 版发布:推理效率提升 10 倍,轻松适配笔记本
微软今天凌晨在官网上开源了最新版本的 Phi-4家族模型 ——Phi-4-mini-flash-reasoning。这一新版本在继承了 Phi-4系列参数小、性能强的优点基础上,专为受到计算能力、内存和延迟限制的场景设计,能够在单个 GPU 上运行,非常适合笔记本和平板电脑等边缘设备。
微软Phi-4 Phi-4-mini-flash-reasoning 边缘设备AI模型 轻量级AI模型 单GPU运行AI模型 Phi-4系列性能优化
2025-07-12 11:19:33 63人关注
无需CUDA代码!H100加速提升33%-50%,Flash Attention作者新作引发热议
据最新报道,Flash Attention 的共同作者 Tri Dao 与普林斯顿大学的两位博士生联合推出了一个名为 QuACK 的新内核库,令人瞩目的是,他们仅使用 Python 和 CuTe-DSL 开发,完全没有涉及 CUDA C++ 代码。这一创新不仅打破了传统的编程框架,还在强大的 H100显卡上实现了比 PyTorch 中的 torch.compile 和 Liger 等库快33%-50% 的速度提升。
Flash Attention QuACK 内核库 Python 和 CuTe-DSL 开发 GPU 加速库 H100 显卡性能优化 AI 模型加速技术
2025-07-07 17:21:43 125人关注
英伟达收购AI初创公司CentML,95后华人团队再创辉煌
最近,英伟达以4亿美元的价格收购了位于多伦多的 AI 初创公司 CentML,这家由95后华人王尚和其导师共同创立的公司专注于优化 AI 应用程序的性能。王尚作为首席技术官,此次不仅带领自己创立的团队重返英伟达,还为英伟达的 CUDA 工具链注入了新动力。
2025-06-09 10:28:18 97人关注
搜狗输入法推出AI汪仔“快捷搜索”功能:接入混元快思考模型Turbo S
近日,搜狗输入法Windows版迎来重大升级,全新推出AI汪仔“快捷搜索”功能,为用户带来了更高效便捷的办公学习体验。
2025-06-08 16:43:15 88人关注
秘塔AI搜索全新 “极速” 模型上线,实现400 tokens /秒极速响应
秘塔 AI 搜索推出了全新的 “极速” 模型,标志着其在人工智能搜索技术上的重大突破。通过创新的技术手段,秘塔 AI 搜索的响应速度达到了令人惊叹的400tokens / 秒,确保大部分问题在2秒内就能得到答案。这一进步不仅提升了用户体验,也显著提高了信息获取的效率。
2025-06-08 10:36:27 76人关注
Chrome v137 开发者工具重磅升级 Gemini 智能标注让性能分析秒变神器!
Google 近日发布了 Chrome v137开发者工具(Chrome DevTools)的重大更新,集成了 Gemini AI 智能助手,为开发者带来前所未有的性能分析和调试体验。从智能标注性能追踪到 CSS 修改保存,Chrome v137的新功能极大提升了开发效率。AIbase 综合整理最新信息,为您详细解析此次更新的亮点与应用前景。
2025-06-07 08:16:16 81人关注
GPT-4.5发布:价格飙升30倍 能力提升引发热议
2025 年 2 月 27 日,OpenAI正式发布了其最新聊天模型GPT-4.5,这一消息迅速在Twitter(现为X平台)上引发了广泛讨论。作为OpenAI迄今为止最强大的对话模型,GPT-4. 5 在性能上实现了显著突破,但其高昂的价格也让用户和开发者们议论纷纷。与此同时,业内人士针对其能力与现有模型的对比展开了激烈争论。
2025-05-29 16:31:34 221人关注
可灵2.1重磅上线:价格降65%,性能显著提升
备受关注的 AI 视频生成工具可灵2.1正式上线。这次更新不仅在性能上实现了显著提升,还大幅降低了价格,吸引了众多用户的目光。根据反馈,可灵2.1的效果、速度与性价比都令人惊艳,用户普遍表示这款新版本将大大改善他们的创作体验。
2025-05-19 18:15:29 67人关注
Claude 3.7 Sonnet登陆Perplexity Pro,带来性能新提升
2025年2月24日,Perplexity 平台宣布支持新的 AI 模型 Claude3.7Sonnet (Anthropic 发布 Claude3.7Sonnet)。官方 X 帖子称,该模型已进行内部测试一段时间,观察到代理工作流程和代码生成的显著改进。
2025-04-21 16:15:23 120人关注
谷歌发布 Gemma 3 QAT 模型:一张3090显卡也能轻松驾驭
谷歌近期推出了 Gemma3系列的全新版本,这一消息让众多 AI 爱好者为之振奋。仅在上线一个月后,谷歌便发布了经过量化感知训练(QAT)优化的 Gemma3,旨在显著降低内存需求的同时,保持模型的高质量。
Google Gemma 3 QAT(量化感知训练) RTX 3090 训练优化 大模型量化技术 Google Gemma 3 性能优化
2025-04-20 10:15:22 187人关注
AMD显卡性能飞跃!Stable Diffusion 模型迎来优化大提升
AMD 在 AI 领域的进展值得关注,尤其是其最新发布的针对 Stable Diffusion 模型的优化。近日,Stability AI 推出了基于 ONNX 框架优化的 Stable Diffusion 版本,这意味着 AMD 的 Radeon 显卡和锐龙集显在运行 AI 任务时性能提升显著,最高可达3.8倍。这一进展不仅缩小了与 NVIDIA 在生态系统优化方面的差距,也为 AMD 用户带来了实实在在的好处。
AMD GPU性能提升 Stable Diffusion优化 AMD显卡优化 Stable Diffusion性能优化 AMD GPU深度学习优化
2025-04-07 10:31:39 90人关注
Meta被指AI模型"双标":评测版与公开版Maverick表现大相径庭
Meta周六发布了其新旗舰AI模型Maverick,该模型在LM Arena评测中排名第二。LM Arena是一项依靠人类评分者比较不同模型输出并选择偏好的测试平台。然而,多位AI研究人员很快发现,Meta部署到LM Arena的Maverick版本似乎与开发人员广泛使用的版本存在显著差异。
2025-04-03 16:12:22 159人关注
OpenAI o3 模型运行成本飙升:单次任务费用从 3000 美元涨至 30000 美元
近日,Arc Prize Foundation 对 OpenAI 的 o3“推理” 人工智能模型的运行成本进行了大幅度修订,令人瞩目的是,单次任务的费用从最初的3000美元骤升至30000美元。这一变化让许多人意识到,最先进的 AI 模型在执行特定任务时所需的高昂费用,已成为行业一个不容忽视的挑战。
2025-04-02 14:35:40 115人关注
LangChain 研究揭示AI代理在工具使用上面临瓶颈
随着人工智能(AI)技术的不断进步,企业开始探讨是否应该依赖单一的 AI 代理,还是构建一个涵盖更多职能的多代理网络。近日,Orchestration 框架公司 LangChain 进行了相关实验,旨在探讨 AI 代理在面对过多指令和工具时的表现极限。
2025-03-20 16:24:39 112人关注
谷歌开源新一代多模态模型 Gemma-3:性能卓越、成本降低 10 倍
谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)在一场发布会上宣布,谷歌开源了最新的多模态大模型 Gemma-3,该模型以低成本、高性能为特点,备受关注。
2025-03-07 10:41:29 176人关注
Light-R1-32B:低成本高性能的数学解题新星闪耀登场
2025年3月6日,一款名为 **Light-R1-32B** 的全新语言模型正式亮相。这款基于 **Qwen2.5-32B-Instruct** 模型打造的数学解题利器,经过特别训练,以其卓越的数学解题能力、低廉的训练成本以及可复现性,成为人工智能领域的一大亮点。开发团队xAI表示,Light-R1-32B不仅在性能上超越同类模型,还为学术研究和实际应用提供了极具价值的参考。
2025-02-23 16:45:27 138人关注
Sakana AI发布“AI CUDA工程师”:自动化优化CUDA内核,速度提升高达100倍
日本人工智能初创公司Sakana AI宣布推出“AI CUDA工程师”(AI CUDA Engineer),这一创新性的AI智能体系统旨在自动化生产高度优化的CUDA内核,显著提升机器学习操作的运行效率。根据X平台上的最新消息,该系统通过进化的大型语言模型(LLM)驱动代码优化技术,将常见PyTorch操作的运行速度提高了10至100倍,标志着AI技术在GPU性能优化领域的重大突破。