- 上云资讯 -
2025-07-04 11:30:21 99人关注
小鹏 G7 Ultra 重磅登场!全新智能驾驶大模型震撼发布
在新能源汽车市场上,小鹏汽车再度引发关注。7月3日,小鹏 G7Ultra 正式上市,成为首款搭载本地端 “VLA+VLM” 大模型的智能汽车。这一创新技术的推出,标志着小鹏在智能驾驶领域迈出了重要一步。
2025-05-16 00:26:59 121人关注
Seed VLM 技术报告首次公开:图像、视频、GUI、Game 完全体
📌 原文链接:https://mp.weixin.qq.com/... Seed1.5-VL 是字节跳动 Seed 团队最新发布的视觉-语言多模态大模型,具备更强的通用多模态理解和推理能力,且推理成本显著降低,在60 个公开评测基准中的 38 个上取得 SOTA 表现。 目前,Seed1.5-VL 已在火山引擎上开放 API 供用户体验。 技术报告: h...
2025-01-17 20:42:11 83人关注
GPT-4o和Sonnet-3.5在视力测试中败北,VLM们竟是“盲人”?
视觉语言模型(VLMs)大家应该都听说过,这些AI界的小能手不仅能读懂文字,还能“看”懂图片。但事实并非如此,今天,我们来扒一扒它们的“底裤”,看看它们是不是真的像我们人类一样能“看”懂图像。
GPT-4 Sonnet 3.5 Vision测试失败 GPT-4测试结果 GPT-4 Sonnet性能评估 GPT-4 Vision功能缺陷
2025-01-17 17:33:33 136人关注
智谱AI宣布开源视频理解模型CogVLM2-Video
智谱AI宣布CogVLM2-Video模型开源升级,这是一个在视频理解领域取得显著进展的模型。CogVLM2-Video通过引入多帧视频图像和时间戳作为编码器输入,解决了现有视频理解模型在处理时间信息丢失问题上的局限。模型利用自动化的时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,从而训练出在公共视频理解基准上达到最新性能的模型。CogVLM2-Video在视频字幕生成和时间定位方面表现出色,为视频生成和摘要等任务提供了强大工具。