LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-02-23 16:42:14 281人关注

阿里国际开源Ovis2系列多模态大语言模型 共有六个版本

2025 年 2 月 21 日,阿里巴巴国际化团队宣布其新型多模态大语言模型Ovis2 系列正式开源。

阿里国际 多模态大模型 Ovis2 AI大模型 多模态LLM 阿里国际AI技术

2025-02-21 12:39:26 340人关注

ScreenSpot-Pro:专为高分辨率环境设计的多模态 LLM 基准工具!

在专业环境中,图形用户界面(GUI)代理面临着三大关键挑战。首先,专业应用程序的复杂性远高于一般软件,要求对复杂布局有深入理解;其次,专业工具通常具备更高的分辨率,导致目标尺寸较小,从而降低了定位准确性;最后,工作流程往往依赖于额外工具和文档,增加了操作的复杂性。这些挑战凸显了开发更先进的基准和解决方案以提升 GUI 代理在这些严苛场景中的性能的必要性。

高分辨率多模态LLM基准 ScreenSpot Pro评测 多模态大模型基准测试 ScreenSpot Pro应用场景 高分辨率多模态基准

2025-01-20 06:14:42 119人关注

GPTPdf:使用类似GPT-4o的多模态LLM分析PDF文件

近日,一款名为gptpdf的开源项目名在github赞火了1.1k星星,它使用了类似 GPT-4o 的 VLLM 模型来解析 PDF 文件并将其转换为 Markdown 格式。

GPT PDF分析 多模态大模型 LLM技术解析 GPT技术应用 PDF文档处理

2025-01-19 00:15:13 99人关注

上海AI lab开源超强多模态LLM InternLM-XComposer-2.5

昨天,上海AI实验室给我们带来了一个巨大的惊喜——开源了一款名为InternLM-XComposer-2.5(简称IXC-2.5)的多模态大型语言模型。这不是一个普通的模型,它在多个方面展现出了超凡的能力,特别是在超高分辨率图像理解、细粒度视频理解和多轮图像对话上,它的表现让人印象深刻。

上海AI实验室 InternLM-XComposer 2.5 AI大模型 多模态模型 AI技术进展

2025-01-10 14:45:31 157人关注

腾讯推首个开源多模态大语言模型VITA 可与用户进行无障碍沟通

最近,腾讯优图实验室等机构的研究者们推出了首个开源的多模态大语言模型VITA,它能够同时处理视频、图像、文本和音频,而且,它的交互体验也是一流的。

腾讯Vita 多模态大模型 腾讯多模态LLM Vita大模型技术 多模态LLM应用

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10