- 上云资讯 -
2025-09-03 17:20:43 113人关注
苹果重磅开源FastVLM与MobileCLIP2:85倍速度飙升,iPhone秒变AI神器!
近日,苹果公司低调地在Hugging Face平台上开源了两款重量级视觉语言模型(VLM)——FastVLM和MobileCLIP2,引发了AI领域的广泛关注。这两款模型以其惊艳的性能优化和高效的本地运行能力,为边缘设备AI应用开辟了新的可能性。AIbase编辑团队深入分析了这两款模型的技术亮点与潜在应用场景,为读者带来最新解读。
苹果开源视觉语言模型 FastVLM 性能优化 MobileCLIP2 本地运行能力 边缘设备AI应用 视觉语言模型技术亮点
2025-08-29 16:37:23 169人关注
SuperCLUE多模态视觉8月评测榜:Gemini-2.5-Pro位居第一
在8月28日发布的中文多模态视觉语言模型测评基准(SuperCLUE-VLM)榜单中,Gemini-2.5-Pro 以总分74.99分位居第一,OpenAI 的 GPT-5(high) 以68.59分排在第二位。
Gemini-2.5-Pro 登顶 SuperCLUE-VLM 榜单 多模态模型评测 GPT-5(high) 排名第二 视觉语言模型性能对比 大模型多模态能力评估
2025-08-12 13:11:10 68人关注
英伟达发布全新 Cosmos Reason 模型,加速机器人与物理 AI 发展
英伟达周一在 SIGGRAPH 大会上发布了一系列面向机器人开发者的全新世界 AI 模型、库及基础设施,其中最引人关注的是参数规模达70亿的“推理型”视觉语言模型 Cosmos Reason,专为物理 AI 应用与机器人设计。
英伟达SIGGRAPH大会 机器人开发者AI模型 Cosmos Reason视觉语言模型 物理AI应用 70亿参数推理模型 机器人AI基础设施
2025-05-07 12:41:20 121人关注
谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者
近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。
Google PaLI-Gemma-2 视觉语言模型 多模态AI模型 Google AI技术 视觉与语言融合模型 AI模型应用场景
2025-05-03 10:14:42 144人关注
快手All in AI视觉!成立可灵AI事业部,加速大模型商业化
4 月 30 日,快手发布组织架构调整公告,宣布正式成立可灵AI事业部,进一步强化其在人工智能领域的战略布局。
2025-02-09 16:20:14 239人关注
IBM发布视觉语言模型Granite-Vision-3.1-2B,轻松解析复杂文档
随着人工智能技术的不断发展,视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档,这一限制影响了自动内容提取和理解能力,进而影响了数据分析、信息检索和决策等应用。面对这一需求,IBM 近期发布了 Granite-Vision-3.1-2B,一款专为文档理解设计的小型视觉语言模型。
IBM Granite IBM Granite Vision 3 1.2B 文档解析 IBM 大模型 文档解析技术 IBM Granite 应用场景
2025-01-17 17:33:33 186人关注
智谱AI宣布开源视频理解模型CogVLM2-Video
智谱AI宣布CogVLM2-Video模型开源升级,这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入,解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色,为视频生成和摘要等任务提供了强大工具。
2025-01-16 23:20:18 194人关注
智源研究院推出新一代无编码器视觉语言多模态大模型EVE
近期,多模态大模型的研究和应用取得了显著进展。国外公司如OpenAI、Google、Microsoft等推出了一系列先进的模型,国内也有智谱AI、阶跃星辰等机构在该领域取得了突破。这些模型通常依赖视觉编码器来提取视觉特征并与大语言模型结合,但存在训练分离导致的视觉归纳偏置问题,限制了多模态大模型的部署效率和性能。
2025-01-07 04:33:26 327人关注
阿里重磅开源超强AI模型Qwen2-VL:能理解超 20 分钟视频
阿里巴巴的云计算部门刚刚发布了一款全新的 AI 模型 ——Qwen2-VL。这款模型的强大之处在于它能够理解视觉内容,包括图片和视频,甚至可以实时分析长达20分钟的视频,可以说相当强悍。
2025-01-06 14:19:15 624人关注
通义千问开源视觉语言模型Qwen2-VL 2B、7B尺寸API可直接调用
9月2日,通义千问宣布开源其第二代视觉语言模型Qwen2-VL,并在阿里云百炼平台上推出2B、7B两个尺寸及其量化版本模型的API,供用户直接调用。
Qwen2-VL-2B Qwen2-VL-7B Qwen2-VL API 大模型API Qwen2-VL 应用场景 Qwen2-VL 技术解析