- 上云资讯 -
2025-10-21 16:15:38 115人关注
Andrej Karpathy评DeepSeek-OCR论文:图像输入可能成为大语言模型新方向
特斯拉前自动驾驶负责人、OpenAI联合创始人Andrej Karpathy近日在推特上评论了开源的DeepSeek-OCR论文,提出了一个颇具启发性的观点:相比传统文本输入,图像作为大语言模型(LLM)的输入形式可能更加高效。这一观点在AI研究社区引发了关于模型输入方式未来演进方向的讨论。
2025-10-19 10:26:30 68人关注
蚂蚁集团重磅推出 dInfer:让扩散语言模型的推理速度飙升 10 倍!
近日,蚂蚁集团正式开源了业内首个高性能扩散语言模型推理框架 ——dInfer。这一框架的推出,不仅意味着扩散语言模型在推理速度上取得了重大突破,也标志着这一新兴技术向实际应用迈出了重要一步。
2025-10-14 09:37:24 45人关注
首次超越自回归模型!蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer
10月13日,蚂蚁集团正式开源业界首个高性能扩散语言模型推理框架dInfer。
2025-10-13 09:40:41 211人关注
AI日报:Veo 3.1可生成1分钟视频;蚂蚁发布万亿参数语言模型 Ling-1T;Lovart可免费玩Sora2
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
2025-10-13 09:20:15 229人关注
蚂蚁发布万亿参数语言模型 Ling-1T,推理速度与能力引领行业新标杆
近日,蚂蚁集团正式推出其首款旗舰语言模型 ——Ling-1T,参数数量高达一万亿,成为国产开源模型中的一大亮点。Ling-1T 不仅在各类推理任务中表现出色,还在代码生成、数学计算和逻辑推理等多个领域树立了新的标杆。
2025-10-12 09:42:21 36人关注
AI安全警报:只需250份文件即可 “投毒” 大语言模型
近日,人工智能研究公司 Anthropic 发布了一项震惊业界的研究,揭示了对大语言模型进行 “数据投毒” 攻击的新可能性。以往,大家普遍认为,攻击者需要占训练数据中一定比例的 “毒药” 样本才能成功,但该研究颠覆了这一观念。实际上,只需 250 份 “投毒” 文档就足以对任何规模的大模型实施攻击。
2025-10-06 16:34:31 74人关注
Anthropic 语言模型成网络安全新锐力量:Claude4.5漏洞发现能力实现飞跃
Anthropic 公司正在力推其大型语言模型(LLM)在网络安全领域的巨大潜力,并以实战数据证明了 AI 在发现软件漏洞方面的快速进步。公司引用 CyberGym 排行榜的结果,表明其最新的模型在提高网络防御效率方面迈出了关键一步。
2025-09-27 14:33:30 62人关注
LeCun 新提案:用CV思路重塑语言模型,性能大幅提升!
在当今的人工智能领域,Yann LeCun 提出的 JEPA(联合嵌入预测架构)正在重新定义大语言模型(LLM)的训练方式。这位诺贝尔奖得主不是在批评现有的 LLM,而是亲自出手进行改造。传统的 LLM 训练方法主要依赖于输入空间中的重构与生成,如预测下一个单词,这种方法在视觉领域已被证明存在局限性。
2025-09-20 18:14:29 78人关注
解锁 LLM Agent 力量!Anthropic 发布工具编写指南,助你玩转大语言模型!
近日,人工智能公司 Anthropic 在其官方博客上发布了一份重磅指南《Writing effective tools for LLM agents—using LLM agents》。这份指南详细阐述了如何利用 Model Context Protocol(MCP)为大语言模型(LLM)代理(Agent)设计高效工具,提供了一个系统化的 “原型 - 评估 - 协作” 三步迭代流程,旨在帮助开发者更好地构建和优化工具。
2025-09-12 17:18:45 117人关注
挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型
蚂蚁集团和人民大学联合研发原生MoE架构扩散语言模型(dLLM) LLaDA-MoE,在约20T数据上完成了从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;效果超过此前发布稠密扩散语言模型LLaDA1.0/1.5和Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。模型将在近期完全开源,以推动全球AI社区在dLLM上的技术发展。
MoE架构扩散语言模型 LLaDA-MoE模型开源 dLLM技术发展 工业级大规模训练 扩散语言模型推理速度优势 AI社区技术推动
2025-09-11 18:34:14 263人关注
腾讯开源图检索增强生成框架Youtu-GraphRAG
9月11日,腾讯优图实验室开源了Youtu-GraphRAG,这是一个全新的图检索增强生成框架,旨在通过大语言模型+RAG模式,将知识组织成图谱,再交给大语言模型进行检索和推理,从而提高模型在处理复杂问答任务时的准确性和可追溯性。Youtu-GraphRAG特别适用于企业知识库问答、科研文档解析、个人知识管理等知识密集型场景。
腾讯优图实验室 Youtu-GraphRAG开源 图检索增强生成框架 大语言模型+RAG模式 知识图谱组织 企业知识库问答 科研文档解析 个人知识管理
2025-09-05 13:13:19 414人关注
瑞士重磅发布自主开源AI大模型Apertus
在全球人工智能技术蓬勃发展的背景下,瑞士于近日正式推出了其首个完全开源的大语言模型 ——Apertus。这一模型由瑞士联邦理工学院(EPFL)、苏黎世联邦理工学院(ETH Zurich)以及国家超级计算中心(CSCS)共同研发,标志着瑞士在人工智能领域的自主创新迈出了重要一步。
瑞士Apertus大语言模型 开源AI模型 瑞士人工智能创新 EPFL人工智能研究 ETH Zurich语言模型 CSCS超级计算 瑞士自主AI技术
2025-09-04 17:14:38 96人关注
DeepL 推出企业级 AI 智能体,挑战 OpenAI 与微软
德国初创公司 DeepL 宣布将业务从翻译拓展至 企业通用 AI 智能体 领域。新推出的 DeepL 智能体 能跨人力资源、市场营销等部门执行重复性和耗时任务,支持自然语言指令操作。该产品基于 DeepL 自研大型语言模型,并整合外部模型。
DeepL AI 智能体 DeepL 企业 AI 应用 DeepL 语言模型 企业 AI 智能体 DeepL 业务拓展 自然语言指令 AI
2025-09-04 13:22:41 229人关注
Meta 推出 DeepConf 技术,智能平衡大型语言模型的推理成本与准确性
近日,Meta AI 联合加州大学圣地亚哥分校(UCSD)推出了一种名为 Deep Think with Confidence(DeepConf) 的新技术,旨在帮助企业在大语言模型(LLM)的复杂推理任务中,有效降低算力成本的同时保持高准确率 。
大语言模型推理优化 DeepConf 技术解析 LLM 算力成本降低 复杂推理任务效率提升 Meta AI 与 UCSD 合作研究 企业级 AI 应用优化
2025-09-04 10:40:15 117人关注
法国 AI 巨头 Mistral 即将获得 140 亿美元估值
法国初创公司 Mistral AI 正在完成一轮20亿欧元的投资,预计其后市估值将达到140亿美元。这使得 Mistral 成为欧洲最具价值的科技初创公司之一。Mistral 成立于两年前,由前 DeepMind 和 Meta 的研究人员创办,专注于开发开源语言模型以及针对欧洲市场的 AI 聊天机器人 “Le Chat”。
2025-09-03 17:20:43 193人关注
苹果重磅开源FastVLM与MobileCLIP2:85倍速度飙升,iPhone秒变AI神器!
近日,苹果公司低调地在Hugging Face平台上开源了两款重量级视觉语言模型(VLM)——FastVLM和MobileCLIP2,引发了AI领域的广泛关注。这两款模型以其惊艳的性能优化和高效的本地运行能力,为边缘设备AI应用开辟了新的可能性。AIbase编辑团队深入分析了这两款模型的技术亮点与潜在应用场景,为读者带来最新解读。
苹果开源视觉语言模型 FastVLM 性能优化 MobileCLIP2 本地运行能力 边缘设备AI应用 视觉语言模型技术亮点
