- 上云资讯 -
2025-05-28 18:34:15 29人关注
微软开源多模态AI Agent “Magma”:为购物和机器人操作带来新体验
微软在其官网上正式发布了多模态 AI Agent 基础模型 “Magma”,并进行了开源。这一新兴技术相较于传统的智能助手,展现出了更为强大的多模态能力,能够处理图像、视频、文本等多种数据形式,打破了数字与物理世界之间的壁垒。
2025-05-12 10:35:24 34人关注
首个智能文档处理基准发布:Gemini领跑但短板待补,多模态AI面临现实挑战
5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。
2025-05-08 18:27:18 47人关注
VLM-R1引领视觉语言模型新纪元 多模态AI迎来新突破
近日,VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移,意味着 AI 对视觉内容的理解将进入一个全新的阶段。
2025-05-05 08:26:13 43人关注
微软团队推多模态AI模型Magma:整合视觉、语言和动作决策技能
近日,微软研究团队联合多所高校的研究人员,发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型,以便在数字和物理环境中执行复杂任务。随着科技的不断进步,多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。
2025-05-01 16:25:20 52人关注
阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%
在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。
2025-04-06 16:37:19 42人关注
Meta 官宣开源原生多模态 Llama 4,性能强劲引关注
美国科技巨头 Meta 推出了其最强大的开源人工智能模型 Llama4。此次首批发布共两款,分别是 Llama4Scout 和 Llama4Maverick 。
2025-01-23 21:10:21 195人关注
李飞飞团队前瞻性研究 多模态AI模型初显空间智能
有“AI教母”之称的斯坦福大学教授李飞飞及其团队近日发布了一项关于多模态大模型“空间智能”的研究,揭示这些模型在记忆和回忆空间方面已经具备初步能力,并展现出形成局部世界模型的潜力。
2025-01-23 04:43:39 63人关注
谷歌:AI智能体、多模态AI、企业搜索将在2025年占据主导地位
谷歌云近日发布了一份趋势报告,指出2025年企业将进入 AI 全面应用的新时代,AI 智能体、多模态 AI 以及企业搜索将成为主流趋势。报告中提到,2024年是 AI 实验的阶段,而2025年则是企业大规模应用 AI 的关键年。
2025-01-16 16:42:18 49人关注
Meta暂停在欧盟推出多模态AI模型 引发科技监管讨论
Meta周三向Axios发表声明,宣布由于欧盟法规不明确,该公司将不会向欧盟国家的客户发布其新的多模态AI模型或未来版本。这一决定引发了对欧盟AI监管环境的广泛讨论,同时也反映了美国科技巨头在面对全球不同监管要求时的策略调整。
2025-01-14 22:44:15 157人关注
我国研究团队开发首个糖尿病诊疗多模态AI系统DeepDR-LLM
近日,一个由中国和新加坡科研人员组成的国际团队成功开发出全球首个面向糖尿病诊疗的多模态人工智能系统DeepDR-LLM。该研究成果于2024年7月19日在《自然医学》(Nature Medicine)上发表。
2025-01-13 20:34:42 104人关注
挑战ChatGPT版Her 国内玩家在多模态AI拟人互动领域也支棱起来了
人工智能在理解人类情感方面取得了显著进展。本月初,第二届多模态情感识别挑战赛(MER24)成功落下帷幕,这场高规格赛事由多位国际知名学者联合发起,旨在推动AI情感识别技术在真实人机交互场景中的应用。
2025-01-11 19:26:14 199人关注
腾讯混元领跑多模态AI:全方位领先GPT-4/Claude-3.5等
在人工智能的多模态领域,国产大模型正展现出强劲的实力。最新发布的中文多模态大模型测评基准SuperCLUE-V榜单显示,腾讯的hunyuan-vision和上海AI Lab的InternVL2-40B分别成为国内闭源和开源界的两大领跑者,甚至超越了国际知名的Claude-3.5-Sonnet和谷歌的Gemini-1.5-Pro。