- 上云资讯 -
2025-06-09 16:42:16 20人关注
Mercury:首个商用级别的Diffusion LLM,速度快、手机也能部署
在人工智能领域,一项颠覆性的技术正在悄然兴起。近日,Inception Labs 宣布推出 Mercury 系列扩散大型语言模型(dLLMs),这是一种新一代的语言模型,旨在快速、高效地生成高质量文本。与传统的自回归大型语言模型相比,Mercury 在生成速度上提高了多达10倍,能够在 NVIDIA H100显卡上实现超过每秒1000个标记的速度,这一速度在以往仅依靠定制芯片才能实现。
2025-05-29 16:18:26 23人关注
Meta 发布 Multi-SpatialMLLM:引领多模态 AI 的空间理解革命
科技巨头 Meta 与香港中文大学的研究团队联合推出了 Multi-SpatialMLLM 模型,这一新框架在多模态大语言模型(MLLMs)的发展中取得了显著进展,尤其是在空间理解方面。该模型通过整合深度感知、视觉对应和动态感知三大组件,突破了以往单帧图像分析的限制,为更复杂的视觉任务提供了强有力的支持。
Meta Multi-Spatial MLLM AI 革命 多空间大语言模型 Meta AI 技术突破 MLLM 应用场景
2025-05-27 10:22:14 46人关注
谷歌推出 LMEval:统一评估大语言与多模态模型的新工具
近日,谷歌宣布推出 LMEval,这是一个开源框架,旨在简化和标准化对大型语言和多模态模型的评估。该工具为研究人员和开发者提供了一个统一的评估流程,可以方便地对来自不同公司的 AI 模型进行比较,比如 GPT-4o、Claude3.7Sonnet、Gemini2.0Flash 和 Llama-3.1-405B 等。
2025-04-16 16:32:40 40人关注
微软发布 OmniParser V2.0:把屏幕截图转化成LLM可处理的结构化格式
微软近日发布了 OmniParser V2.0,这是一个旨在将用户界面(UI)截图转换为结构化格式的全新解析工具。OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能,帮助用户更好地理解和操作屏幕上的信息。
Microsoft OmniParser V2 截图结构化格式 Microsoft OmniParser 应用 结构化数据提取 OmniParser V2 功能
2025-04-08 16:40:34 222人关注
Qwen3即将来袭:阿里云新模型相关支持已正式合并至vLLM代码库
近日,阿里云旗下人工智能大模型系列Qwen迎来重要进展,其下一代模型Qwen3的相关支持已正式合并至vLLM(高效大语言模型推理框架)的代码库中。这一消息迅速引发了科技圈的热烈讨论,标志着Qwen3的发布已进入倒计时阶段。据悉,Qwen3将包含至少两个版本:Qwen3-8B和Qwen3-MoE-15B-A2B,分别代表不同规模和架构的创新尝试,为开发者与企业用户带来了更多期待。
2025-03-22 14:44:36 45人关注
Meta AI推出MILS系统 教导 LLMs无需专门培训即可处理多媒体数据
Meta AI的研究人员与学术伙伴共同开发了一种创新系统——MILS(多模态迭代LLM求解器),该系统能在无需经过专门训练的情况下,教大型语言模型处理图像、视频和音频。MILS依赖于语言模型的自然问题解决能力,而非大量的数据训练,展现了其独特的优势。
2025-03-05 16:26:37 69人关注
开源框架BioChatter助力生物医学研究,降低LLM使用门槛
近年来,大型语言模型(LLMs)在各个领域的应用日益广泛,从内容创作到编程辅助,再到搜索引擎优化,无不展现出其强大的能力。然而,在生物医学研究中,这些模型的应用仍面临着透明度、可重复性和定制化等方面的挑战。
2025-02-27 12:14:19 124人关注
NVIDIA发布ChipAlign:实现LLM与芯片专用模型完美融合
在当今科技迅速发展的背景下,大型语言模型(LLM)在多个行业中扮演着重要角色,帮助自动化任务和提升决策效率。然而,在芯片设计等专业领域,这些模型面临着独特的挑战。NVIDIA 最近推出的 ChipAlign 正是为了应对这些挑战而设计,旨在将通用指令对齐的 LLM 与芯片特定的 LLM 的优势相结合。
2025-02-21 12:39:26 202人关注
ScreenSpot-Pro:专为高分辨率环境设计的多模态 LLM 基准工具!
在专业环境中,图形用户界面(GUI)代理面临着三大关键挑战。首先,专业应用程序的复杂性远高于一般软件,要求对复杂布局有深入理解;其次,专业工具通常具备更高的分辨率,导致目标尺寸较小,从而降低了定位准确性;最后,工作流程往往依赖于额外工具和文档,增加了操作的复杂性。这些挑战凸显了开发更先进的基准和解决方案以提升 GUI 代理在这些严苛场景中的性能的必要性。
高分辨率多模态LLM基准 ScreenSpot Pro评测 多模态大模型基准测试 ScreenSpot Pro应用场景 高分辨率多模态基准
2025-02-19 10:33:31 182人关注
NVIDIA联合高校发布 “FlashInfer”:提升大语言模型推理效率的全新内核库
随着大语言模型(LLM)在现代人工智能应用中的广泛应用,诸如聊天机器人和代码生成器等工具依赖于这些模型的能力。然而,随之而来的推理过程中的效率问题也日益突出。
2025-02-17 08:14:43 87人关注
基于LLM自动图构建框架 AutoGraph,推动推荐系统革新
随着用户体验的提升和留存率的增强,推荐系统在电商、流媒体和社交媒体等多个行业中愈发受到重视。这些系统需要分析用户、商品及其背景因素之间的复杂关系,以精准地推荐用户可能感兴趣的内容。