LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-06-07 10:21:44 52人关注

视觉语言模型新突破!Visual ARFT 助力多模态智能体能力

随着人工智能的迅猛发展,尤其是在大型推理模型领域,如 OpenAI 的 o3,研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理,更扩展到了图像理解与操作。近日,来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT(视觉智能体强化微调)的新方法,旨在提升视觉语言模型的多模态智能体能力,使其能够更灵活地执行复杂任务。

视觉语言模型 多模态AI AI技术突破 视觉语言模型应用 多模态AI发展趋势

2025-05-08 18:27:18 145人关注

VLM-R1引领视觉语言模型新纪元 多模态AI迎来新突破

近日,VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移,意味着 AI 对视觉内容的理解将进入一个全新的阶段。

视觉语言模型 多模态AI VLM-R1模型 多模态AI技术 视觉语言模型应用

2025-05-07 12:41:20 81人关注

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。

Google PaLI-Gemma-2 视觉语言模型 多模态AI模型 Google AI技术 视觉与语言融合模型 AI模型应用场景

2025-05-03 10:14:42 94人关注

快手All in AI视觉!成立可灵AI事业部,加速大模型商业化

4 月 30 日,快手发布组织架构调整公告,宣布正式成立可灵AI事业部,进一步强化其在人工智能领域的战略布局。

快手AI视觉模型 AI视觉模型技术 快手AI技术解析 视觉语言模型应用 快手AI视觉语言模型

2025-02-09 16:20:14 191人关注

IBM发布视觉语言模型Granite-Vision-3.1-2B,轻松解析复杂文档

随着人工智能技术的不断发展,视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档,这一限制影响了自动内容提取和理解能力,进而影响了数据分析、信息检索和决策等应用。面对这一需求,IBM 近期发布了 Granite-Vision-3.1-2B,一款专为文档理解设计的小型视觉语言模型。

IBM Granite IBM Granite Vision 3 1.2B 文档解析 IBM 大模型 文档解析技术 IBM Granite 应用场景

2025-01-28 08:11:33 123人关注

​MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

在多模态任务中,视觉语言模型(VLMs)起着至关重要的作用,如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐,以实现更高效的信息处理。然而,目前的 VLMs 在理解否定方面仍面临重大挑战。

MIT DeepMind VLM 视觉语言模型 否定理解 人工智能研究 视觉语言模型技术

2025-01-24 21:20:34 120人关注

智谱A​I开源Agent任务模型CogAgent-9B:通过屏幕截图预判操作

智谱AI旗下的GLM-PC基座模型CogAgent-9B现已开源,以促进大模型Agent生态的发展。CogAgent-9B是基于GLM-4V-9B训练而成的专用Agent任务模型,能够仅通过屏幕截图作为输入,根据用户指定的任意任务结合历史操作,预测下一步的GUI操作。这一模型的普适性使其可广泛应用于个人电脑、手机、车机设备等多种基于GUI交互的场景。

智谱AI CogAgent9B 截图预测 AI大模型 多模态模型 视觉语言模型

2025-01-17 17:33:33 136人关注

智谱AI宣布开源视频理解模型CogVLM2-Video

智谱AI宣布CogVLM2-Video模型开源升级,这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入,解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色,为视频生成和摘要等任务提供了强大工具。

CogVLM2 开源视频模型 多模态大模型 视觉语言模型 视频理解技术 CogVLM2开源

2025-01-16 23:20:18 125人关注

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

近期,多模态大模型的研究和应用取得了显著进展。国外公司如OpenAI、Google、Microsoft等推出了一系列先进的模型,国内也有智谱AI、阶跃星辰等机构在该领域取得了突破。这些模型通常依赖视觉编码器来提取视觉特征并与大语言模型结合,但存在训练分离导致的视觉归纳偏置问题,限制了多模态大模型的部署效率和性能。

EVE编码器 无编码器视觉语言模型 多模态模型技术 视觉语言融合模型 多模态AI架构

2025-01-16 08:37:34 102人关注

格灵深瞳开源视觉语言表示学习模型RWKV-CLIP

格灵深瞳开源了RWKV-CLIP模型,这是一个结合了Transformer和RNN优点的视觉语言表征学习器。该模型通过图文预训练任务,使用从网站获取的图像-文本对扩展数据集,显著提高了视觉和语言任务的性能。

RWKV CLIP 视觉语言模型 多模态模型 大模型技术应用 视觉与语言融合技术

2025-01-07 04:33:26 255人关注

阿里重磅开源超强AI模型Qwen2-VL:能理解超 20 分钟视频

阿里巴巴的云计算部门刚刚发布了一款全新的 AI 模型 ——Qwen2-VL。这款模型的强大之处在于它能够理解视觉内容,包括图片和视频,甚至可以实时分析长达20分钟的视频,可以说相当强悍。

阿里通义千问2.0视觉语言模型 通义千问VL模型 Qwen2-VL技术解析 阿里巴巴AI大模型 视觉语言模型应用场景

2025-01-06 14:19:15 515人关注

通义千问开源视觉语言模型Qwen2-VL 2B、7B尺寸API可直接调用

9月2日,通义千问宣布开源其第二代视觉语言模型Qwen2-VL,并在阿里云百炼平台上推出2B、7B两个尺寸及其量化版本模型的API,供用户直接调用。

Qwen2-VL-2B Qwen2-VL-7B Qwen2-VL API 大模型API Qwen2-VL 应用场景 Qwen2-VL 技术解析

2024-12-15 15:43:11 134人关注

​Hugging Face推2B参数视觉语言模型SmolVLM:在普通设备就能飞速运行

近年来,机器学习模型在视觉和语言任务方面的应用需求日益增长,但大多数模型都需要庞大的计算资源,无法在个人设备上高效运行。尤其是像笔记本电脑、消费级 GPU 和移动设备等小型设备,在处理视觉语言任务时面临巨大的挑战。

Hugging Face SmolVLM 2B参数模型 视觉语言模型 多模态AI 开源AI模型

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10