世界杯手机app
2026世界杯官方网站 老黄吹的Cosmos 3, 在一个北大团队作念的榜单上拿了第一
发布日期:2026-06-07 07:49:05 点击次数:152

2026世界杯官方网站 老黄吹的Cosmos 3, 在一个北大团队作念的榜单上拿了第一

刚刚昔日的GTC Taipei上,最备受海涵的,莫过于Cosmos 3。

这是一个全都开源的物理AI全模态模子。老黄暗示,Cosmos 3辞天下生成这项上,在Artificial Analysis、Physics-IQ、PAI-Bench、R-Bench四个开源榜单上均列第一。

前三个bench都算业界比较眼熟的,而R-bench——我脱落查了查,这个让Cosmos 3霸榜的榜单,竟出自一支北大团队。

这篇职责已被ICML 2026摄取,名字叫《Rethinking Video Generation Model for the Embodied World》,来自北京大学、字节逾越Seed等机构的筹划团队。

他们残酷了面向具身天下的视频生成评测与数据基础设施:R-Bench+RoVid-X。

值得留心的是,在作家列内外,字节Seedance 2.0的预老师矜重东谈主曾妍,也显著在列。

R-Bench:专门给机器东谈主视频生成请的“考官”

Cosmos 3是英伟达此次GTC Taipei的主角之一。

按老黄的说法,它是人人首个全都开源的物理AI全模态模子,基于一种mixture-of-transformers架构,能在一个模子里同期说明和生成文本、图像、视频、环境声息,乃至机器东谈主的动作。

Nano和Super两个尺寸,都也曾挂上了Hugging Face。

换句话说,Cosmos 3要作念的不是“拍出顺眼的视频”,而是给机器东谈主、自动驾驶这些要在真实天下里干活的系统,生成“物理上说得通”的数据。

但问题它就来了。

一个模子生成的机器东谈主视频,到底是不是“物理上说得通”,该用什么来臆想?

昔日一年,视频生成的故事险些都绕着并吞个问题张开:谁能拍得更了了、更褂讪、更有电影感。

但在机器东谈主场景里,画质顺眼是一趟事,能不成用又是另一趟事。

如若一个模子能生成传神的机械臂,却让夹爪穿过物体;能让机器东谈主看起来“动起来”,却无法完成抓取、放手、回身、合作等任务,那么它距离Physical AI需要的“天下模子”,仍然隔着一条鸿沟。

R-Bench的中枢起点,便是把视频生成模子从“视觉生成器”放到“物理天下模拟器”的语境下再行评估。

它不单看画面是否传神,而是系统性臆想模子是否能生成允洽具身任务逻辑和物理不休的视频。

具体而言,R-Bench是一个以机器东谈主为中心的视频生成评测基准,包含650个图像-文本评测样本,从5类任务才气和4类机器东谈主形态两个维度构建。

在职务维度上,博亚体育2026世界杯中国官网R-Bench隐蔽操作履行、空间关系、多主体合作、万古狡计和视觉推理;在机器东谈主形态维度上,隐蔽单臂、双臂、四足和东谈主形机器东谈主。

这么的假想让R-Bench不再只问“视频像不像”,而是进一步追问:

机器东谈主有莫得果真战役到认识物体?

任务要津要领是否好意思满出现?

多个物体或多个主体之间的关系是否合理?

机器东谈主形态在畅通历程中是否保持褂讪?

易游娱乐app2026世界杯中国官方下载

万古序动作是否允洽任务逻辑?

因此,R-Bench不仅仅一个排名榜,更可以看成机器东谈主视频生成数据的“物理质地过滤器”:

它能够评估生成视频是否餍足战役关系、动作步调、形态褂讪性和任务完成度等物理不休,从而匡助筛选出更允洽物理规则、可用于具身智能老师的数据。

为了捕捉这些问题,R-Bench假想了一套可复现的自动化评测目的体系,能够识别机器东谈主形态畸变、物体属性漂移、部件飘浮或穿模、无战役抓取、捏造出现物体、要津动作缺失等常见失败模式。

值得留心的是,R-Bench的自动打分,和东谈主工评测的Spearman关系扫数达到0.96。

这意味着它不仅仅个自动跑分器具,在很猛进程上对都了东谈主类对“物理合分歧理”“任务完没完成”的判断。

榜单上还能看到什么?

在最新R-Bench Leaderboard中,Cosmos 3系列也曾成为开源社区最亮眼的模子之一。

Cosmos3-Nano以0.584的轮廓得分位列RBench开源模子第一,Cosmos3-Super紧随其后,拿到0.581。

放到通盘榜单里看,这传递出两个信号。

一所以物理AI为认识老师的视频天下模子,也曾开动在机器东谈主图像到视频生成上展现竞争。

比拟传统通用视频模子,它的上风不单在画质,更在于更接近具身智能需要的物理模拟与动作延展才气。

二是闭源交易模子轮廓才气仍然发轫,2026世界杯比赛APP官网下载首页但开源正在快速追逐。

对筹划社区来说,这种“开源能打”的信号,比单个模子更强更广宽。

而比排名更有价值的,是RBench照出来的几处共性短板:

精采操作如故老浩劫。挪动、回身这类大幅动作模子也曾作念得可以,但抓、握、拧、插、放手这些对战役建模条件高的动作,最容易出错。

万古狡计仍是弱项。视频看起来连贯,不代表任务逻辑正确,模子可能动作畅通却漏掉要津要领,或者把步调搞反。

通用学问和机器东谈主数据没“合上”。纯通用视频有丰富的天下学问但缺机器东谈主交互,纯机器东谈主数据又经惯例模有限、形态单一。

从这个角度看,R-Bench更像一面镜子,把视频模子在物理天下里的真实软肋照了出来。

RoVid-X:400万条机器东谈主视频,开源了

发现了问题,下一步便是喂数据。这恰是RoVid-X要料理的事。

团队也曾在Hugging Face上开源了RoVid-X的广宽子集(300万条机器东谈主视频),上线后热度攀升很快——它在Datasets Trending 的Video模态大规模数据市欢排名第一,在一谈6.5万多个Video模态数据集的举座Trending里也位列第九。

这反应了RoVid-X看成面向机器东谈主视觉/视频说明的大规模数据资源,在开源社区中的快速影响力。

数据集的好意思满版规模达到400万条机器东谈主视频片断、1300+细粒度手段、1万+小时施行,分离率720P,并附带RGB、深度、光流等多模态物理标注。

和通用互联网视频不同,RoVid-X要让模子战役的是更接近真实的机器东谈主交互历程:物体怎样被抓取、机械臂怎样接近认识、任务怎样被说明、动作和环境怎样共同酿成物理不休。

这种数据关于视频天下模子尤其要津。因为物理说明不是苟简靠提醒词补出来的,而需要模子在多数交互数据中学习战役、步调、力学关系和结构褂讪性。

实验杀青也知道,引入RoVid-X数据后,模子在具身任务中的说明能够赢得褂讪普及。

举例在Wan系列模子上,经过RoVid-X微调后,模子在操作履行、万古狡计和空间说明等维度均有彰着改善。

这讲解高质地、结构化的机器东谈主视频数据,照实能够普及视频生成模子面向具身场景的可履行性与褂讪性。

这项职责的道理道理,不单在于多了一个benchmark和一个dataset,而是把视频生成放进了物理AI的语境里再行扫视。

昔日视频生成更多业绩于施行创作:告白、短片、殊效。往后,它可能成为机器东谈主老师、仿真环境构建和具身智能数据闭环的基础设施。

当模子开动说明战役、步调、结构褂讪性和动作后果,“生成一段看起来合理的视频”就在向“可用于物理天下推演的天下模拟引擎”围聚。

R-Bench和RoVid-X是在这个转向中补上两块要津拼图:一个复兴“怎样评估”,一个复兴“怎样老师”。

跟着Cosmos 3等Physical AI视频天下模子干与R-Bench榜单并取得开源Top-1,具身视频生成的竞争也正在从单纯比拼视觉后果,转向更接近真实天下的物理说明和任务履行才气。

关于开源社区而言,这大约是一个更广宽的信号:Physical AI的进展,不单属于闭源模子和交易系统,也可以诞生在敞开评测、敞开数据和敞开模子共同演化的基础之上。

按团队的狡计,下一步还会去作念从生成视频反推可履行径作的Inverse Dynamics Model,进一步买通视频生成、政策学习和真机部署之间的闭环。

视频生成模子的下一站,大约真的不仅仅拍电影,而是模拟、说明,并参与真实的物理天下。

团队配景

这支团队叫DAGroup,来自北京大学,矜重东谈主是周大权。

周大权的经历,偶合踩在此次职责的题眼上。

他从2022年就开动作念视频生成,是最早一批入场的东谈主之一——

代表作MagicVideo是业界最早的隐空间扩散视频模子之一,其后还有MagicVideo-V2、StoryDiffusion、Magic-Me等一系列职责。

在腾讯混元视频模子HunyuanVideo中,他率领了模子预老师与扩散算法假想团队。

更早之前,他在模子与硬件效用标的也颇有累积,Coordinate Attention曾被列为CVPR 2020最具影响力论文第2名。

如今回到北大作念助深刻释,他把筹划要点放到了机器东谈主、AIGC和VLA上。

他自述,我方的筹划长期带着一条“用最少的算力和内存,跑最强的算法”的干线。

除R-Bench/RoVid-X外,DAGroup还在鼓吹HumanNet、StableVLA等多个具身与天下模子标的的开源花样。

论文地址:https://arxiv.org/abs/2601.15282

Project Page:https://dagroup-pku.github.io/ReVidgen.github.io/

GitHub地址:https://github.com/DAGroup-PKU/HumanNet

R-Bench Leaderboard:https://huggingface.co/spaces/DAGroup-PKU/Leaderboard

RoVid-X Dataset:https://huggingface.co/datasets/DAGroup-PKU/RoVid-X/2026世界杯官方网站

友情链接: