上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-09-28 16:15:21 462人关注

小型VLM黑马逆袭：Moondream 3.0仅2B激活参数，碾压GPT-5和Claude 4

在视觉语言模型（VLM）领域，一场“小而美”的革命正在上演。最新发布的Moondream3.0(预览版)以其高效的混合专家(MoE)架构，凭借总9B参数、激活仅2B的轻量设计，实现了前沿级视觉推理能力。这一升级版模型不仅在复杂场景下表现出色，甚至在多项基准测试中超越了GPT-5、Gemini和Claude4等头部模型，引发AI社区热议。相较于今年1-2月推出的Moondream2版本(擅长验证码识别)，3.0版扩展了应用边界，支持32K上下文长度，适用于实时交互和代理工作流。

2025-09-03 17:20:43 360人关注

苹果重磅开源FastVLM与MobileCLIP2：85倍速度飙升，iPhone秒变AI神器！

近日，苹果公司低调地在Hugging Face平台上开源了两款重量级视觉语言模型（VLM）——FastVLM和MobileCLIP2，引发了AI领域的广泛关注。这两款模型以其惊艳的性能优化和高效的本地运行能力，为边缘设备AI应用开辟了新的可能性。AIbase编辑团队深入分析了这两款模型的技术亮点与潜在应用场景，为读者带来最新解读。

苹果开源视觉语言模型 FastVLM 性能优化 MobileCLIP2 本地运行能力边缘设备AI应用视觉语言模型技术亮点

2025-08-29 16:37:23 507人关注

SuperCLUE多模态视觉8月评测榜：Gemini-2.5-Pro位居第一

在8月28日发布的中文多模态视觉语言模型测评基准（SuperCLUE-VLM）榜单中，Gemini-2.5-Pro 以总分74.99分位居第一，OpenAI 的 GPT-5(high) 以68.59分排在第二位。

Gemini-2.5-Pro 登顶 SuperCLUE-VLM 榜单多模态模型评测 GPT-5(high) 排名第二视觉语言模型性能对比大模型多模态能力评估

2025-08-11 17:42:13 222人关注

人工智能助力医疗影像分析，减轻放射科医师负担

随着人工智能（AI）技术的不断发展，越来越多的澳大利亚人开始在日常生活中使用 AI。CSIRO(联邦科学与工业研究组织)下属的澳大利亚电子健康研究中心(AEHRC)正在积极探索如何将 AI 应用于医疗领域，以提升医疗服务质量。研究团队通过一种称为视觉语言模型(VLM)的技术，正在对医疗影像，特别是胸部 X 光片的分析进行创新。

AI医疗应用澳大利亚AI医疗研究视觉语言模型VLM 医疗影像AI分析胸部X光片AI诊断 AEHRC医疗创新

2025-08-08 08:14:17 348人关注

AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

AI日报 AI领域热点 AI技术趋势 AI开发者指南创新AI产品应用人工智能世界探索

2025-08-07 18:35:18 336人关注

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器和 DeepSeek V3大语言模型，从零开始完全训练，其卓越性能在多模态视觉理解与推理能力上已接近当前领先的闭源模型，如 Gemini2.5Pro 和 Seed-VL1.5，标志着开源多模态模型的性能达到了新的高度。

小红书多模态大模型 dots.vlm1开源模型 NaViT视觉编码器 DeepSeek V3大语言模型多模态视觉理解与推理开源多模态模型性能

2025-07-04 11:30:21 576人关注

小鹏 G7 Ultra 重磅登场！全新智能驾驶大模型震撼发布

在新能源汽车市场上，小鹏汽车再度引发关注。7月3日，小鹏 G7Ultra 正式上市，成为首款搭载本地端 “VLA+VLM” 大模型的智能汽车。这一创新技术的推出，标志着小鹏在智能驾驶领域迈出了重要一步。

小鹏G7Ultra 本地端VLA+VLM大模型智能驾驶技术新能源汽车创新小鹏汽车智能驾驶

2025-05-16 00:26:59 373人关注

Seed VLM 技术报告首次公开：图像、视频、GUI、Game 完全体

📌 原文链接：https://mp.weixin.qq.com/... Seed1.5-VL 是字节跳动 Seed 团队最新发布的视觉-语言多模态大模型，具备更强的通用多模态理解和推理能力，且推理成本显著降低，在60 个公开评测基准中的 38 个上取得 SOTA 表现。目前，Seed1.5-VL 已在火山引擎上开放 API 供用户体验。技术报告： h...

2025-05-08 18:27:18 375人关注

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

近日，VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移，意味着 AI 对视觉内容的理解将进入一个全新的阶段。

视觉语言模型多模态AI VLM-R1模型多模态AI技术视觉语言模型应用

2025-01-28 08:11:33 335人关注

MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

在多模态任务中，视觉语言模型（VLMs）起着至关重要的作用，如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐，以实现更高效的信息处理。然而，目前的 VLMs 在理解否定方面仍面临重大挑战。

MIT DeepMind VLM 视觉语言模型否定理解人工智能研究视觉语言模型技术

2025-01-17 20:42:11 237人关注

GPT-4o和Sonnet-3.5在视力测试中败北，VLM们竟是“盲人”？

视觉语言模型（VLMs）大家应该都听说过，这些AI界的小能手不仅能读懂文字，还能“看”懂图片。但事实并非如此，今天，我们来扒一扒它们的“底裤”，看看它们是不是真的像我们人类一样能“看”懂图像。

GPT-4 Sonnet 3.5 Vision测试失败 GPT-4测试结果 GPT-4 Sonnet性能评估 GPT-4 Vision功能缺陷

2025-01-17 17:33:33 355人关注

智谱AI宣布开源视频理解模型CogVLM2-Video

智谱AI宣布CogVLM2-Video模型开源升级，这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入，解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法，生成了3万条与时间相关的视频问答数据，从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色，为视频生成和摘要等任务提供了强大工具。

CogVLM2 开源视频模型多模态大模型视觉语言模型视频理解技术 CogVLM2开源

2024-12-15 15:43:11 340人关注

Hugging Face推2B参数视觉语言模型SmolVLM：在普通设备就能飞速运行

近年来，机器学习模型在视觉和语言任务方面的应用需求日益增长，但大多数模型都需要庞大的计算资源，无法在个人设备上高效运行。尤其是像笔记本电脑、消费级 GPU 和移动设备等小型设备，在处理视觉语言任务时面临巨大的挑战。

Hugging Face SmolVLM 2B参数模型视觉语言模型多模态AI 开源AI模型

- 上云资讯 -

小型VLM黑马逆袭：Moondream 3.0仅2B激活参数，碾压GPT-5和Claude 4

苹果重磅开源FastVLM与MobileCLIP2：85倍速度飙升，iPhone秒变AI神器！

SuperCLUE多模态视觉8月评测榜：Gemini-2.5-Pro位居第一

人工智能助力医疗影像分析，减轻放射科医师负担

AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

小鹏 G7 Ultra 重磅登场！全新智能驾驶大模型震撼发布

Seed VLM 技术报告首次公开：图像、视频、GUI、Game 完全体

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

GPT-4o和Sonnet-3.5在视力测试中败北，VLM们竟是“盲人”？

智谱AI宣布开源视频理解模型CogVLM2-Video

Hugging Face推2B参数视觉语言模型SmolVLM：在普通设备就能飞速运行

推荐阅读

上云服务

- 上云资讯 -

小型VLM黑马逆袭：Moondream 3.0仅2B激活参数，碾压GPT-5和Claude 4

苹果重磅开源FastVLM与MobileCLIP2：85倍速度飙升，iPhone秒变AI神器！

SuperCLUE多模态视觉8月评测榜：Gemini-2.5-Pro位居第一

人工智能助力医疗影像分析，减轻放射科医师负担

AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

小鹏 G7 Ultra 重磅登场！全新智能驾驶大模型震撼发布

Seed VLM 技术报告首次公开：图像、视频、GUI、Game 完全体

VLM-R1引领视觉语言模型新纪元 多模态AI迎来新突破

​MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

GPT-4o和Sonnet-3.5在视力测试中败北，VLM们竟是“盲人”？

智谱AI宣布开源视频理解模型CogVLM2-Video

​Hugging Face推2B参数视觉语言模型SmolVLM：在普通设备就能飞速运行

推荐阅读

上云服务

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

Hugging Face推2B参数视觉语言模型SmolVLM：在普通设备就能飞速运行