上云资讯 - 来上云吧，企业上云一站式服务

2025-10-18 18:30:17 161人关注

苹果即将在2025年国际计算机视觉大会亮相

在全球科技界备受瞩目的国际计算机视觉大会（ICCV）即将于2025年10月19日至23日在美丽的檀香山召开，苹果公司确认将携带多项重要研究成果亮相这一盛会。此次大会旨在聚焦计算机视觉领域的前沿技术和研究进展，苹果也不例外，将展示他们在多模态模型和视频生成等热点领域的最新研究。

AI

2025-08-16 13:14:13 680人关注

Meta重磅开源DINOv3！无需人工标注的AI视觉神器，颠覆图像识别新未来

Meta AI于近日正式开源了全新一代通用图像识别模型DINOv3，引发了全球开发者和研究人员的广泛关注。这款基于自监督学习的计算机视觉模型，以其无需人工标注即可实现卓越性能的特性，被认为是AI视觉技术的新里程碑。

Meta AI开源模型 DINOv3模型特性自监督学习计算机视觉 AI视觉技术新里程碑无标注图像识别模型

2025-07-21 10:18:25 305人关注

Stability AI发布0.7秒单图像实时重建模型 SPAR3D，颠覆3D重建

在计算机视觉领域，单图像3D 重建技术以其从二维图像中恢复三维物体形状和结构的能力，成为了一个备受关注的研究方向。近日，著名开源大模型平台 Stability-AI 推出了一款名为 SPAR3D 的创新模型，使得这一技术的实现速度达到了前所未有的0.7秒，为行业带来了巨大的变革。

单图像3D重建 SPAR3D模型计算机视觉3D重建 Stability-AI开源平台 3D重建技术突破快速3D建模

2025-06-21 10:32:30 504人关注

华为发布盘古大模型5.5：五大基础模型升级深度思考模型将上线

在今日下午举行的华为开发者大会HDC2025主题演讲中，华为常务董事、华为云计算CEO张平安宣布正式发布盘古大模型5.5，标志着自然语言处理（NLP）、计算机视觉(CV)、多模态、预测、科学计算五大基础模型迎来全面升级。

华为盘古大模型5.5 盘古大模型升级 NLP模型计算机视觉模型多模态模型预测模型

2025-06-14 16:38:13 571人关注

腾讯宣布混元3D 2.1大模型对外开源

在计算机视觉领域顶会之一CVPR2025上，腾讯宣布混元3D2.1大模型对外开源，此为首个全链路开源的工业级3D生成大模型，在行业内处于领先地位。

CVPR2025 腾讯混元3D2.1大模型 3D生成大模型开源工业级3D生成模型计算机视觉顶会成果全链路开源3D模型

2025-05-06 16:38:17 369人关注

芝浦工大创新Vote-based框架，大幅提升手持物体姿态估计精度

在增强现实（AR）等应用中，手持物体的姿态估计是一项至关重要但颇具挑战性的任务。近期，日本芝浦工业大学的研究团队提出了一种基于 Vote 机制的多模态融合框架，显著提高了这一领域的准确性，令人瞩目地提升了13.9% 的姿态估计精度。

Shibaura投票框架手势姿态估计手部姿势识别计算机视觉技术姿态估计算法

2025-01-28 12:42:16 241人关注

AI 视觉初创企业 Metropolis 以1. 25 亿美元收购 Oosto

最近，AI 领域的热潮并未让所有公司受益，部分初创企业仍在寻找出路。Metropolis，一家基于 AI 的停车平台，已收购了有争议的计算机视觉公司 Oosto，后者曾以 AnyVision 而闻名。此次交易为全股票交易，估值为1.25亿美元，远低于 Oosto 多年来从投资者那里筹集的3.8亿美元的资金，也显然低于其巅峰估值。

AI视觉初创公司 Metropolis收购Oosto AI视觉技术并购 Metropolis战略收购计算机视觉企业整合

2025-01-27 01:15:29 383人关注

震撼登场！英伟达开源图像生成模型Sana ，1秒生图、支持中英文和emoji

近日，英伟达开源了一款名为 Sana 的图像生成模型，这一模型仅有0.6亿个参数，极大降低了运行门槛。

NVIDIA Sana图像生成模型 AI图像生成技术深度学习模型应用计算机视觉技术 GPU加速图像处理

2025-01-26 21:45:27 522人关注

开源动作预估模型ViTPose：可以预估每一帧动作，并进行标注

ViTPose是一个开源的动作预估模型，它特别擅长识别人体姿态，就像能看懂你在做什么动作一样。这个模型最厉害的地方在于它的简洁和高效，它没有采用复杂的网络结构，而是直接使用了一种叫做视觉Transformer的技术。

VitPose 动作估计帧标注动作识别技术 AI动作分析计算机视觉应用

2024-12-21 21:26:32 245人关注

新AI方法DELTA：10倍速度精确追踪单镜头视频中的每个像素

在视频处理领域，如何从单镜头视频中高效追踪三维运动一直是一项难题，尤其是在需要对长序列进行像素级精确追踪时。传统方法面临多重挑战，往往只能跟踪少量关键点，无法实现完整场景的细致理解。

AI大模型 Delta Pixel Tracking技术 AI方法创新图像处理技术计算机视觉算法 AI新闻动态

2024-12-18 21:29:22 421人关注

Roboflow完成4000万美元B轮融资，视觉AI开发平台引领行业变革

视觉AI开发平台Roboflow近日宣布完成4000万美元B轮融资。本轮融资由GV领投，Craft Ventures、Y Combinator以及Vercel AI创始人Guillermo Rauch、谷歌高管Jeff Dean和Replit创始人Amjad Masad等知名投资者参投。

RoboFlow B轮融资视觉AI平台 4000万美元融资计算机视觉技术 AI视觉平台发展

2024-12-17 10:11:37 302人关注

零样本学习颠覆“分割一切”！SAMURAI 突破视频追踪瓶颈，实时锁定目标无压力！

Meta 推出的“分割一切”模型 SAM 在图像分割领域可谓是所向披靡，但一碰到视频物体追踪，它就有点力不从心了，尤其是在人山人海、目标快速移动或玩“躲猫猫”的场景下，SAM 就会犯迷糊。这是因为 SAM 模型的记忆机制就像个“固定窗口”，只顾着记录最近的画面，而忽略了记忆内容的质量，导致在视频中出现误差传播，追踪效果大打折扣。

zero-shot learning 视频追踪 SAMURAI算法无监督学习计算机视觉技术

2024-12-13 11:42:44 236人关注

李飞飞创业首秀：一张图生成交互式 3D 世界，AIGC 进入全新时代！

还记得掀起人工智能热潮的“AI女神”李飞飞吗?她带着她的第一个创业项目强势回归了!这一次，她要颠覆的是3D 世界。你只需要提供一张图片，甚至一句话，就能创造出一个栩栩如生的3D 场景，而且你还能实时与它互动!

李飞飞交互式3D世界 AIGC 3D世界生成技术 AI生成内容计算机视觉

- 上云资讯 -

苹果即将在2025年国际计算机视觉大会亮相

Meta重磅开源DINOv3！无需人工标注的AI视觉神器，颠覆图像识别新未来

Stability AI发布0.7秒单图像实时重建模型 SPAR3D，颠覆3D重建

华为发布盘古大模型5.5：五大基础模型升级深度思考模型将上线

腾讯宣布混元3D 2.1大模型对外开源

芝浦工大创新Vote-based框架，大幅提升手持物体姿态估计精度

AI 视觉初创企业 Metropolis 以1. 25 亿美元收购 Oosto

震撼登场！英伟达开源图像生成模型Sana ，1秒生图、支持中英文和emoji

开源动作预估模型ViTPose：可以预估每一帧动作，并进行标注

新AI方法DELTA：10倍速度精确追踪单镜头视频中的每个像素

Roboflow完成4000万美元B轮融资，视觉AI开发平台引领行业变革

零样本学习颠覆“分割一切”！SAMURAI 突破视频追踪瓶颈，实时锁定目标无压力！

李飞飞创业首秀：一张图生成交互式 3D 世界，AIGC 进入全新时代！

推荐阅读

上云服务

- 上云资讯 -

苹果即将在2025年国际计算机视觉大会亮相

Meta重磅开源DINOv3！无需人工标注的AI视觉神器，颠覆图像识别新未来

Stability AI发布0.7秒单图像实时重建模型 SPAR3D，颠覆3D重建

华为发布盘古大模型5.5：五大基础模型升级 深度思考模型将上线

腾讯宣布混元3D 2.1大模型对外开源

芝浦工大创新Vote-based框架，大幅提升手持物体姿态估计精度

AI 视觉初创企业 Metropolis 以1. 25 亿美元收购 Oosto

震撼登场！英伟达开源图像生成模型Sana ，1秒生图、支持中英文和emoji

开源动作预估模型ViTPose：可以预估每一帧动作，并进行标注

新AI方法DELTA：10倍速度精确追踪单镜头视频中的每个像素

Roboflow完成4000万美元B轮融资，视觉AI开发平台引领行业变革

零样本学习颠覆“分割一切”！SAMURAI 突破视频追踪瓶颈，实时锁定目标无压力！

李飞飞创业首秀：一张图生成交互式 3D 世界，AIGC 进入全新时代！

推荐阅读

上云服务

华为发布盘古大模型5.5：五大基础模型升级深度思考模型将上线