- 上云资讯 -
2025-09-03 17:20:43 113人关注
苹果重磅开源FastVLM与MobileCLIP2:85倍速度飙升,iPhone秒变AI神器!
近日,苹果公司低调地在Hugging Face平台上开源了两款重量级视觉语言模型(VLM)——FastVLM和MobileCLIP2,引发了AI领域的广泛关注。这两款模型以其惊艳的性能优化和高效的本地运行能力,为边缘设备AI应用开辟了新的可能性。AIbase编辑团队深入分析了这两款模型的技术亮点与潜在应用场景,为读者带来最新解读。
苹果开源视觉语言模型 FastVLM 性能优化 MobileCLIP2 本地运行能力 边缘设备AI应用 视觉语言模型技术亮点
2025-08-29 16:37:23 169人关注
SuperCLUE多模态视觉8月评测榜:Gemini-2.5-Pro位居第一
在8月28日发布的中文多模态视觉语言模型测评基准(SuperCLUE-VLM)榜单中,Gemini-2.5-Pro 以总分74.99分位居第一,OpenAI 的 GPT-5(high) 以68.59分排在第二位。
Gemini-2.5-Pro 登顶 SuperCLUE-VLM 榜单 多模态模型评测 GPT-5(high) 排名第二 视觉语言模型性能对比 大模型多模态能力评估
2025-08-07 18:35:18 119人关注
小红书发布开源多模态大模型 dots.vlm1,以 NaViT 视觉编码器领跑行业
小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器 和 DeepSeek V3大语言模型,从零开始完全训练,其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型,如 Gemini2.5Pro 和 Seed-VL1.5,标志着开源多模态模型的性能达到了新的高度。
小红书多模态大模型 dots.vlm1开源模型 NaViT视觉编码器 DeepSeek V3大语言模型 多模态视觉理解与推理 开源多模态模型性能
2025-07-04 11:30:21 229人关注
小鹏 G7 Ultra 重磅登场!全新智能驾驶大模型震撼发布
在新能源汽车市场上,小鹏汽车再度引发关注。7月3日,小鹏 G7Ultra 正式上市,成为首款搭载本地端 “VLA+VLM” 大模型的智能汽车。这一创新技术的推出,标志着小鹏在智能驾驶领域迈出了重要一步。
2025-05-16 00:26:59 183人关注
Seed VLM 技术报告首次公开:图像、视频、GUI、Game 完全体
📌 原文链接:https://mp.weixin.qq.com/... Seed1.5-VL 是字节跳动 Seed 团队最新发布的视觉-语言多模态大模型,具备更强的通用多模态理解和推理能力,且推理成本显著降低,在60 个公开评测基准中的 38 个上取得 SOTA 表现。 目前,Seed1.5-VL 已在火山引擎上开放 API 供用户体验。 技术报告: h...
2025-01-17 20:42:11 112人关注
GPT-4o和Sonnet-3.5在视力测试中败北,VLM们竟是“盲人”?
视觉语言模型(VLMs)大家应该都听说过,这些AI界的小能手不仅能读懂文字,还能“看”懂图片。但事实并非如此,今天,我们来扒一扒它们的“底裤”,看看它们是不是真的像我们人类一样能“看”懂图像。
GPT-4 Sonnet 3.5 Vision测试失败 GPT-4测试结果 GPT-4 Sonnet性能评估 GPT-4 Vision功能缺陷
2025-01-17 17:33:33 187人关注
智谱AI宣布开源视频理解模型CogVLM2-Video
智谱AI宣布CogVLM2-Video模型开源升级,这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入,解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色,为视频生成和摘要等任务提供了强大工具。