- 上云资讯 -
2025-07-16 18:41:14 37人关注
前OpenAI CTO Mira Murati新公司完成20亿美元融资,推进多模态AI研发
前OpenAI首席技术官Mira Murati创立的人工智能初创公司Thinking Machines Lab宣布完成20亿美元种子轮融资,由Andreessen Horowitz(a16z)领投,NVIDIA、AMD、Accel、ServiceNow、Cisco和Jane Street等知名机构参投。此次融资使公司估值达到120亿美元,成为AI领域最大规模的早期投资之一,凸显了Murati在AI行业的强大影响力
AI初创公司 Thinking Machines Lab融资 Mira Murati创业 AI领域早期投资 Andreessen Horowitz领投 AI行业影响力
2025-07-12 17:21:44 99人关注
阿里HumanOmniV2震撼发布:多模态AI新王者,准确率飙升至69.33%
阿里巴巴集团近期正式推出其最新多模态大语言模型HumanOmniV2,在AI领域再掀波澜。这款模型以其强大的全局上下文理解能力和多模态推理能力,标志着阿里巴巴在人工智能技术的又一次重大突破。
2025-07-12 09:10:12 82人关注
谷歌DeepMind开源GenAI Processors:一键构建实时AI工作流
谷歌DeepMind近日宣布开源全新Python库“GenAI Processors”,为开发者提供了一个轻量级、高效的工具,用于构建异步、可组合的生成式AI工作流。这一开源库旨在简化复杂多模态AI应用的开发过程,支持实时处理音频、视频和文本等多模态数据,显著提升了基于Gemini API的应用程序开发效率。
谷歌DeepMind GenAI Processors开源库 生成式AI工作流 多模态AI应用开发 Gemini API开发效率
2025-06-23 10:24:30 130人关注
Google Gemini 2.5 Flash-Lite炸裂登场!点击瞬间生成UI,未来交互从此不同!
Google DeepMind推出全新Gemini2.5Flash-Lite模型,以其超低延迟和实时生成交互界面的能力引发业界热议。这款模型不仅继承了Gemini2.5系列的多模态和长上下文窗口特性,还展现了前所未有的UI设计创新潜力,被认为是未来交互界面的雏形。以下是AIbase整理的最新资讯,带您一探究竟。
Google DeepMind Gemini2.5Flash-Lite模型 超低延迟AI模型 实时生成交互界面 多模态AI技术 长上下文窗口特性
2025-05-12 10:35:24 307人关注
首个智能文档处理基准发布:Gemini领跑但短板待补,多模态AI面临现实挑战
5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。
2025-05-07 12:41:20 80人关注
谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者
近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。
Google PaLI-Gemma-2 视觉语言模型 多模态AI模型 Google AI技术 视觉与语言融合模型 AI模型应用场景
2025-05-05 08:26:13 84人关注
微软团队推多模态AI模型Magma:整合视觉、语言和动作决策技能
近日,微软研究团队联合多所高校的研究人员,发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型,以便在数字和物理环境中执行复杂任务。随着科技的不断进步,多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。
2025-05-01 16:25:20 123人关注
阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%
在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。
2025-04-06 16:37:19 93人关注
Meta 官宣开源原生多模态 Llama 4,性能强劲引关注
美国科技巨头 Meta 推出了其最强大的开源人工智能模型 Llama4。此次首批发布共两款,分别是 Llama4Scout 和 Llama4Maverick 。