上云资讯 - 来上云吧，企业上云一站式服务

2025-09-03 17:20:43 322人关注

苹果重磅开源FastVLM与MobileCLIP2：85倍速度飙升，iPhone秒变AI神器！

近日，苹果公司低调地在Hugging Face平台上开源了两款重量级视觉语言模型（VLM）——FastVLM和MobileCLIP2，引发了AI领域的广泛关注。这两款模型以其惊艳的性能优化和高效的本地运行能力，为边缘设备AI应用开辟了新的可能性。AIbase编辑团队深入分析了这两款模型的技术亮点与潜在应用场景，为读者带来最新解读。

苹果开源视觉语言模型 FastVLM 性能优化 MobileCLIP2 本地运行能力边缘设备AI应用视觉语言模型技术亮点

2025-09-03 16:28:21 393人关注

Liquid AI 推出 LFM2-VL 模型，为手机带来「小巧又灵敏」的AI 视觉语言能力

Liquid AI 最新发布了 LFM2-VL 系列视觉语言基础模型（Vision-Language Foundation Models），这标志着多模态 AI 正朝着「精简、快速、可部署在设备端」的方向加速发展。

Liquid AI LFM2-VL 视觉语言基础模型多模态AI 设备端AI部署轻量化视觉语言模型边缘计算AI

2025-08-29 16:37:23 445人关注

SuperCLUE多模态视觉8月评测榜：Gemini-2.5-Pro位居第一

在8月28日发布的中文多模态视觉语言模型测评基准（SuperCLUE-VLM）榜单中，Gemini-2.5-Pro 以总分74.99分位居第一，OpenAI 的 GPT-5(high) 以68.59分排在第二位。

Gemini-2.5-Pro 登顶 SuperCLUE-VLM 榜单多模态模型评测 GPT-5(high) 排名第二视觉语言模型性能对比大模型多模态能力评估

2025-08-12 13:11:10 188人关注

英伟达发布全新 Cosmos Reason 模型，加速机器人与物理 AI 发展

英伟达周一在 SIGGRAPH 大会上发布了一系列面向机器人开发者的全新世界 AI 模型、库及基础设施，其中最引人关注的是参数规模达70亿的“推理型”视觉语言模型 Cosmos Reason，专为物理 AI 应用与机器人设计。

英伟达SIGGRAPH大会机器人开发者AI模型 Cosmos Reason视觉语言模型物理AI应用 70亿参数推理模型机器人AI基础设施

2025-08-11 17:42:13 193人关注

人工智能助力医疗影像分析，减轻放射科医师负担

随着人工智能（AI）技术的不断发展，越来越多的澳大利亚人开始在日常生活中使用 AI。CSIRO(联邦科学与工业研究组织)下属的澳大利亚电子健康研究中心(AEHRC)正在积极探索如何将 AI 应用于医疗领域，以提升医疗服务质量。研究团队通过一种称为视觉语言模型(VLM)的技术，正在对医疗影像，特别是胸部 X 光片的分析进行创新。

AI医疗应用澳大利亚AI医疗研究视觉语言模型VLM 医疗影像AI分析胸部X光片AI诊断 AEHRC医疗创新

2025-06-07 10:21:44 227人关注

视觉语言模型新突破！Visual ARFT 助力多模态智能体能力

随着人工智能的迅猛发展，尤其是在大型推理模型领域，如 OpenAI 的 o3，研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理，更扩展到了图像理解与操作。近日，来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT（视觉智能体强化微调）的新方法，旨在提升视觉语言模型的多模态智能体能力，使其能够更灵活地执行复杂任务。

视觉语言模型多模态AI AI技术突破视觉语言模型应用多模态AI发展趋势

2025-05-08 18:27:18 347人关注

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

近日，VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移，意味着 AI 对视觉内容的理解将进入一个全新的阶段。

视觉语言模型多模态AI VLM-R1模型多模态AI技术视觉语言模型应用

2025-05-07 12:41:20 223人关注

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日，谷歌宣布推出一款全新的视觉 - 语言模型（Vision-Language Model， VLM），名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力，能够同时理解视觉信息和文本输入，并根据需求生成相应的输出，标志着人工智能技术在多任务处理方面的进一步突破。

Google PaLI-Gemma-2 视觉语言模型多模态AI模型 Google AI技术视觉与语言融合模型 AI模型应用场景

2025-05-03 10:14:42 254人关注

快手All in AI视觉！成立可灵AI事业部，加速大模型商业化

4 月 30 日，快手发布组织架构调整公告，宣布正式成立可灵AI事业部，进一步强化其在人工智能领域的战略布局。

快手AI视觉模型 AI视觉模型技术快手AI技术解析视觉语言模型应用快手AI视觉语言模型

2025-02-09 16:20:14 374人关注

IBM发布视觉语言模型Granite-Vision-3.1-2B，轻松解析复杂文档

随着人工智能技术的不断发展，视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档，这一限制影响了自动内容提取和理解能力，进而影响了数据分析、信息检索和决策等应用。面对这一需求，IBM 近期发布了 Granite-Vision-3.1-2B，一款专为文档理解设计的小型视觉语言模型。

IBM Granite IBM Granite Vision 3 1.2B 文档解析 IBM 大模型文档解析技术 IBM Granite 应用场景

2025-01-28 08:11:33 305人关注

MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

在多模态任务中，视觉语言模型（VLMs）起着至关重要的作用，如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐，以实现更高效的信息处理。然而，目前的 VLMs 在理解否定方面仍面临重大挑战。

MIT DeepMind VLM 视觉语言模型否定理解人工智能研究视觉语言模型技术

2025-01-24 21:20:34 303人关注

智谱AI开源Agent任务模型CogAgent-9B：通过屏幕截图预判操作

智谱AI旗下的GLM-PC基座模型CogAgent-9B现已开源，以促进大模型Agent生态的发展。CogAgent-9B是基于GLM-4V-9B训练而成的专用Agent任务模型，能够仅通过屏幕截图作为输入，根据用户指定的任意任务结合历史操作，预测下一步的GUI操作。这一模型的普适性使其可广泛应用于个人电脑、手机、车机设备等多种基于GUI交互的场景。

智谱AI CogAgent9B 截图预测 AI大模型多模态模型视觉语言模型

2025-01-17 17:33:33 316人关注

智谱AI宣布开源视频理解模型CogVLM2-Video

智谱AI宣布CogVLM2-Video模型开源升级，这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入，解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法，生成了3万条与时间相关的视频问答数据，从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色，为视频生成和摘要等任务提供了强大工具。

CogVLM2 开源视频模型多模态大模型视觉语言模型视频理解技术 CogVLM2开源

2025-01-16 23:20:18 382人关注

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

近期，多模态大模型的研究和应用取得了显著进展。国外公司如OpenAI、Google、Microsoft等推出了一系列先进的模型，国内也有智谱AI、阶跃星辰等机构在该领域取得了突破。这些模型通常依赖视觉编码器来提取视觉特征并与大语言模型结合，但存在训练分离导致的视觉归纳偏置问题，限制了多模态大模型的部署效率和性能。

EVE编码器无编码器视觉语言模型多模态模型技术视觉语言融合模型多模态AI架构

2025-01-16 08:37:34 333人关注

格灵深瞳开源视觉语言表示学习模型RWKV-CLIP

格灵深瞳开源了RWKV-CLIP模型，这是一个结合了Transformer和RNN优点的视觉语言表征学习器。该模型通过图文预训练任务，使用从网站获取的图像-文本对扩展数据集，显著提高了视觉和语言任务的性能。

RWKV CLIP 视觉语言模型多模态模型大模型技术应用视觉与语言融合技术

2025-01-07 04:33:26 505人关注

阿里重磅开源超强AI模型Qwen2-VL：能理解超 20 分钟视频

阿里巴巴的云计算部门刚刚发布了一款全新的 AI 模型 ——Qwen2-VL。这款模型的强大之处在于它能够理解视觉内容，包括图片和视频，甚至可以实时分析长达20分钟的视频，可以说相当强悍。

阿里通义千问2.0视觉语言模型通义千问VL模型 Qwen2-VL技术解析阿里巴巴AI大模型视觉语言模型应用场景

2025-01-06 14:19:15 986人关注

通义千问开源视觉语言模型Qwen2-VL 2B、7B尺寸API可直接调用

9月2日，通义千问宣布开源其第二代视觉语言模型Qwen2-VL，并在阿里云百炼平台上推出2B、7B两个尺寸及其量化版本模型的API，供用户直接调用。

Qwen2-VL-2B Qwen2-VL-7B Qwen2-VL API 大模型API Qwen2-VL 应用场景 Qwen2-VL 技术解析

2024-12-15 15:43:11 312人关注

Hugging Face推2B参数视觉语言模型SmolVLM：在普通设备就能飞速运行

近年来，机器学习模型在视觉和语言任务方面的应用需求日益增长，但大多数模型都需要庞大的计算资源，无法在个人设备上高效运行。尤其是像笔记本电脑、消费级 GPU 和移动设备等小型设备，在处理视觉语言任务时面临巨大的挑战。

Hugging Face SmolVLM 2B参数模型视觉语言模型多模态AI 开源AI模型

- 上云资讯 -

苹果重磅开源FastVLM与MobileCLIP2：85倍速度飙升，iPhone秒变AI神器！

Liquid AI 推出 LFM2-VL 模型，为手机带来「小巧又灵敏」的AI 视觉语言能力

SuperCLUE多模态视觉8月评测榜：Gemini-2.5-Pro位居第一

英伟达发布全新 Cosmos Reason 模型，加速机器人与物理 AI 发展

人工智能助力医疗影像分析，减轻放射科医师负担

视觉语言模型新突破！Visual ARFT 助力多模态智能体能力

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

快手All in AI视觉！成立可灵AI事业部，加速大模型商业化

IBM发布视觉语言模型Granite-Vision-3.1-2B，轻松解析复杂文档

MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

智谱AI开源Agent任务模型CogAgent-9B：通过屏幕截图预判操作

智谱AI宣布开源视频理解模型CogVLM2-Video

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

格灵深瞳开源视觉语言表示学习模型RWKV-CLIP

阿里重磅开源超强AI模型Qwen2-VL：能理解超 20 分钟视频

通义千问开源视觉语言模型Qwen2-VL 2B、7B尺寸API可直接调用

Hugging Face推2B参数视觉语言模型SmolVLM：在普通设备就能飞速运行

推荐阅读

上云服务

- 上云资讯 -

苹果重磅开源FastVLM与MobileCLIP2：85倍速度飙升，iPhone秒变AI神器！

Liquid AI 推出 LFM2-VL 模型，为手机带来「小巧又灵敏」的AI 视觉语言能力

SuperCLUE多模态视觉8月评测榜：Gemini-2.5-Pro位居第一

英伟达发布全新 Cosmos Reason 模型，加速机器人与物理 AI 发展

人工智能助力医疗影像分析，减轻放射科医师负担

视觉语言模型新突破！Visual ARFT 助力多模态智能体能力

VLM-R1引领视觉语言模型新纪元 多模态AI迎来新突破

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

快手All in AI视觉！成立可灵AI事业部，加速大模型商业化

IBM发布视觉语言模型Granite-Vision-3.1-2B，轻松解析复杂文档

​MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

智谱A​I开源Agent任务模型CogAgent-9B：通过屏幕截图预判操作

智谱AI宣布开源视频理解模型CogVLM2-Video

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

格灵深瞳开源视觉语言表示学习模型RWKV-CLIP

阿里重磅开源超强AI模型Qwen2-VL：能理解超 20 分钟视频

通义千问开源视觉语言模型Qwen2-VL 2B、7B尺寸API可直接调用

​Hugging Face推2B参数视觉语言模型SmolVLM：在普通设备就能飞速运行

推荐阅读

上云服务

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

智谱AI开源Agent任务模型CogAgent-9B：通过屏幕截图预判操作

Hugging Face推2B参数视觉语言模型SmolVLM：在普通设备就能飞速运行