LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-09-03 17:20:43 113人关注

苹果重磅开源FastVLM与MobileCLIP2:85倍速度飙升,iPhone秒变AI神器!

近日,苹果公司低调地在Hugging Face平台上开源了两款重量级视觉语言模型(VLM)——FastVLM和MobileCLIP2,引发了AI领域的广泛关注。这两款模型以其惊艳的性能优化和高效的本地运行能力,为边缘设备AI应用开辟了新的可能性。AIbase编辑团队深入分析了这两款模型的技术亮点与潜在应用场景,为读者带来最新解读。

苹果开源视觉语言模型 FastVLM 性能优化 MobileCLIP2 本地运行能力 边缘设备AI应用 视觉语言模型技术亮点

2025-09-03 16:28:21 50人关注

Liquid AI 推出 LFM2-VL 模型,为手机带来「小巧又灵敏」的AI 视觉语言能力

Liquid AI 最新发布了 LFM2-VL 系列视觉语言基础模型(Vision-Language Foundation Models),这标志着多模态 AI 正朝着「精简、快速、可部署在设备端」的方向加速发展。

Liquid AI LFM2-VL 视觉语言基础模型 多模态AI 设备端AI部署 轻量化视觉语言模型 边缘计算AI

2025-08-29 16:37:23 169人关注

SuperCLUE多模态视觉8月评测榜:Gemini-2.5-Pro位居第一

在8月28日发布的中文多模态视觉语言模型测评基准(SuperCLUE-VLM)榜单中,Gemini-2.5-Pro 以总分74.99分位居第一,OpenAI 的 GPT-5(high) 以68.59分排在第二位。

Gemini-2.5-Pro 登顶 SuperCLUE-VLM 榜单 多模态模型评测 GPT-5(high) 排名第二 视觉语言模型性能对比 大模型多模态能力评估

2025-08-12 13:11:10 68人关注

英伟达发布全新 Cosmos Reason 模型,加速机器人与物理 AI 发展

英伟达周一在 SIGGRAPH 大会上发布了一系列面向机器人开发者的全新世界 AI 模型、库及基础设施,其中最引人关注的是参数规模达70亿的“推理型”视觉语言模型 Cosmos Reason,专为物理 AI 应用与机器人设计。

英伟达SIGGRAPH大会 机器人开发者AI模型 Cosmos Reason视觉语言模型 物理AI应用 70亿参数推理模型 机器人AI基础设施

2025-08-11 17:42:13 33人关注

人工智能助力医疗影像分析,减轻放射科医师负担

随着人工智能(AI)技术的不断发展,越来越多的澳大利亚人开始在日常生活中使用 AI。CSIRO(联邦科学与工业研究组织)下属的澳大利亚电子健康研究中心(AEHRC)正在积极探索如何将 AI 应用于医疗领域,以提升医疗服务质量。研究团队通过一种称为视觉语言模型(VLM)的技术,正在对医疗影像,特别是胸部 X 光片的分析进行创新。

AI医疗应用 澳大利亚AI医疗研究 视觉语言模型VLM 医疗影像AI分析 胸部X光片AI诊断 AEHRC医疗创新

2025-06-07 10:21:44 89人关注

视觉语言模型新突破!Visual ARFT 助力多模态智能体能力

随着人工智能的迅猛发展,尤其是在大型推理模型领域,如 OpenAI 的 o3,研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理,更扩展到了图像理解与操作。近日,来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT(视觉智能体强化微调)的新方法,旨在提升视觉语言模型的多模态智能体能力,使其能够更灵活地执行复杂任务。

视觉语言模型 多模态AI AI技术突破 视觉语言模型应用 多模态AI发展趋势

2025-05-08 18:27:18 195人关注

VLM-R1引领视觉语言模型新纪元 多模态AI迎来新突破

近日,VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移,意味着 AI 对视觉内容的理解将进入一个全新的阶段。

视觉语言模型 多模态AI VLM-R1模型 多模态AI技术 视觉语言模型应用

2025-05-07 12:41:20 121人关注

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。

Google PaLI-Gemma-2 视觉语言模型 多模态AI模型 Google AI技术 视觉与语言融合模型 AI模型应用场景

2025-05-03 10:14:42 144人关注

快手All in AI视觉!成立可灵AI事业部,加速大模型商业化

4 月 30 日,快手发布组织架构调整公告,宣布正式成立可灵AI事业部,进一步强化其在人工智能领域的战略布局。

快手AI视觉模型 AI视觉模型技术 快手AI技术解析 视觉语言模型应用 快手AI视觉语言模型

2025-02-09 16:20:14 239人关注

IBM发布视觉语言模型Granite-Vision-3.1-2B,轻松解析复杂文档

随着人工智能技术的不断发展,视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档,这一限制影响了自动内容提取和理解能力,进而影响了数据分析、信息检索和决策等应用。面对这一需求,IBM 近期发布了 Granite-Vision-3.1-2B,一款专为文档理解设计的小型视觉语言模型。

IBM Granite IBM Granite Vision 3 1.2B 文档解析 IBM 大模型 文档解析技术 IBM Granite 应用场景

2025-01-28 08:11:33 169人关注

​MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

在多模态任务中,视觉语言模型(VLMs)起着至关重要的作用,如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐,以实现更高效的信息处理。然而,目前的 VLMs 在理解否定方面仍面临重大挑战。

MIT DeepMind VLM 视觉语言模型 否定理解 人工智能研究 视觉语言模型技术

2025-01-24 21:20:34 176人关注

智谱A​I开源Agent任务模型CogAgent-9B:通过屏幕截图预判操作

智谱AI旗下的GLM-PC基座模型CogAgent-9B现已开源,以促进大模型Agent生态的发展。CogAgent-9B是基于GLM-4V-9B训练而成的专用Agent任务模型,能够仅通过屏幕截图作为输入,根据用户指定的任意任务结合历史操作,预测下一步的GUI操作。这一模型的普适性使其可广泛应用于个人电脑、手机、车机设备等多种基于GUI交互的场景。

智谱AI CogAgent9B 截图预测 AI大模型 多模态模型 视觉语言模型

2025-01-17 17:33:33 186人关注

智谱AI宣布开源视频理解模型CogVLM2-Video

智谱AI宣布CogVLM2-Video模型开源升级,这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入,解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色,为视频生成和摘要等任务提供了强大工具。

CogVLM2 开源视频模型 多模态大模型 视觉语言模型 视频理解技术 CogVLM2开源

2025-01-16 23:20:18 194人关注

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

近期,多模态大模型的研究和应用取得了显著进展。国外公司如OpenAI、Google、Microsoft等推出了一系列先进的模型,国内也有智谱AI、阶跃星辰等机构在该领域取得了突破。这些模型通常依赖视觉编码器来提取视觉特征并与大语言模型结合,但存在训练分离导致的视觉归纳偏置问题,限制了多模态大模型的部署效率和性能。

EVE编码器 无编码器视觉语言模型 多模态模型技术 视觉语言融合模型 多模态AI架构

2025-01-16 08:37:34 173人关注

格灵深瞳开源视觉语言表示学习模型RWKV-CLIP

格灵深瞳开源了RWKV-CLIP模型,这是一个结合了Transformer和RNN优点的视觉语言表征学习器。该模型通过图文预训练任务,使用从网站获取的图像-文本对扩展数据集,显著提高了视觉和语言任务的性能。

RWKV CLIP 视觉语言模型 多模态模型 大模型技术应用 视觉与语言融合技术

2025-01-07 04:33:26 327人关注

阿里重磅开源超强AI模型Qwen2-VL:能理解超 20 分钟视频

阿里巴巴的云计算部门刚刚发布了一款全新的 AI 模型 ——Qwen2-VL。这款模型的强大之处在于它能够理解视觉内容,包括图片和视频,甚至可以实时分析长达20分钟的视频,可以说相当强悍。

阿里通义千问2.0视觉语言模型 通义千问VL模型 Qwen2-VL技术解析 阿里巴巴AI大模型 视觉语言模型应用场景

2025-01-06 14:19:15 624人关注

通义千问开源视觉语言模型Qwen2-VL 2B、7B尺寸API可直接调用

9月2日,通义千问宣布开源其第二代视觉语言模型Qwen2-VL,并在阿里云百炼平台上推出2B、7B两个尺寸及其量化版本模型的API,供用户直接调用。

Qwen2-VL-2B Qwen2-VL-7B Qwen2-VL API 大模型API Qwen2-VL 应用场景 Qwen2-VL 技术解析

2024-12-15 15:43:11 183人关注

​Hugging Face推2B参数视觉语言模型SmolVLM:在普通设备就能飞速运行

近年来,机器学习模型在视觉和语言任务方面的应用需求日益增长,但大多数模型都需要庞大的计算资源,无法在个人设备上高效运行。尤其是像笔记本电脑、消费级 GPU 和移动设备等小型设备,在处理视觉语言任务时面临巨大的挑战。

Hugging Face SmolVLM 2B参数模型 视觉语言模型 多模态AI 开源AI模型

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10