- 上云资讯 -
2025-05-07 12:41:20 81人关注
谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者
近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。
Google PaLI-Gemma-2 视觉语言模型 多模态AI模型 Google AI技术 视觉与语言融合模型 AI模型应用场景
2025-05-03 10:14:42 94人关注
快手All in AI视觉!成立可灵AI事业部,加速大模型商业化
4 月 30 日,快手发布组织架构调整公告,宣布正式成立可灵AI事业部,进一步强化其在人工智能领域的战略布局。
2025-02-09 16:20:14 191人关注
IBM发布视觉语言模型Granite-Vision-3.1-2B,轻松解析复杂文档
随着人工智能技术的不断发展,视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档,这一限制影响了自动内容提取和理解能力,进而影响了数据分析、信息检索和决策等应用。面对这一需求,IBM 近期发布了 Granite-Vision-3.1-2B,一款专为文档理解设计的小型视觉语言模型。
IBM Granite IBM Granite Vision 3 1.2B 文档解析 IBM 大模型 文档解析技术 IBM Granite 应用场景
2025-01-17 17:33:33 136人关注
智谱AI宣布开源视频理解模型CogVLM2-Video
智谱AI宣布CogVLM2-Video模型开源升级,这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入,解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色,为视频生成和摘要等任务提供了强大工具。
2025-01-16 23:20:18 125人关注
智源研究院推出新一代无编码器视觉语言多模态大模型EVE
近期,多模态大模型的研究和应用取得了显著进展。国外公司如OpenAI、Google、Microsoft等推出了一系列先进的模型,国内也有智谱AI、阶跃星辰等机构在该领域取得了突破。这些模型通常依赖视觉编码器来提取视觉特征并与大语言模型结合,但存在训练分离导致的视觉归纳偏置问题,限制了多模态大模型的部署效率和性能。
2025-01-07 04:33:26 255人关注
阿里重磅开源超强AI模型Qwen2-VL:能理解超 20 分钟视频
阿里巴巴的云计算部门刚刚发布了一款全新的 AI 模型 ——Qwen2-VL。这款模型的强大之处在于它能够理解视觉内容,包括图片和视频,甚至可以实时分析长达20分钟的视频,可以说相当强悍。
2025-01-06 14:19:15 515人关注
通义千问开源视觉语言模型Qwen2-VL 2B、7B尺寸API可直接调用
9月2日,通义千问宣布开源其第二代视觉语言模型Qwen2-VL,并在阿里云百炼平台上推出2B、7B两个尺寸及其量化版本模型的API,供用户直接调用。
Qwen2-VL-2B Qwen2-VL-7B Qwen2-VL API 大模型API Qwen2-VL 应用场景 Qwen2-VL 技术解析