扫码体验VIP
网站公告:为了给家人们提供更好的用户体验和服务,股票复盘网V3.0正式上线,新版侧重股市情报和股票资讯,而旧版的复盘工具(连板梯队、热点解读、市场情绪、主线题材、复盘啦、龙虎榜、人气榜等功能)将全部移至VIP复盘网,VIP复盘网是目前市面上最专业的每日涨停复盘工具龙头复盘神器股票复盘工具复盘啦官网复盘盒子股票复盘软件复盘宝,持续上新功能,目前已经上新至V6.56版本,请家人们移步至VIP复盘网 / vip.fupanwang.com

扫码VIP小程序
返回 当前位置: 首页 热点财经 阿里首个世界模型:快乐…生蚝

股市情报:上述文章报告出品方/作者:量子位;仅供参考,投资者应独立决策并承担投资风险。

阿里首个世界模型:快乐…生蚝

时间:2026-04-17 11:10
上述文章报告出品方/作者:量子位;仅供参考,投资者应独立决策并承担投资风险。

什么情况?!世界模型成果这几天扎堆上线了。

就在刚刚,成立恰满一个月的阿里ATH(Alibaba Token Hub)事业群,发布全球首个主动式实时互的世界模型产品

名也挺有趣的,叫HappyOyster(快乐生蚝)

据官方介绍,HappyOyster搭载原生多模态架构,背后是支持多模态输入与音视频联合生成的流式生成世界模型,核心主打漫游Wander)导演Direct)创造(Create)分享(Share)

怎么个漫游法,请看VCR:

输入生成滑雪场景的Prompt,HappyOyster立马给你造一个可交互小世界。你用WASD和上下左右方向键,就能实时控制角色位移、调整镜头视角,沉浸式穿梭在雪场里。

那“导演”又是什么玩法?

导演即实时AI视频导演引擎。传统AI视频是“输入prompt→等渲染→拿到一个固定成片”。HappyOyster让用户可以在视频生成的任意节点,用文字指令实时控镜头、调角色、改剧情走向

画面即时响应,实现“边拍边改”:

至于“创造”,指的是把生成体验从“生成一段视频”,进化到“创造一个世界”。你不再是旁观者,而是能深度参与、全程掌控的创造者。

最后,你亲手创建的世界还能分享,让别人进来探索、二次创作。

不过,有一个坏消息:HappyOyster现在还需要申请邀请码才能体验。

但好消息是,量子位已经抢先解锁,这就带大家先来尝个鲜。

玩起来,玩起来

一张图总结Wandering漫游、Directing导演这两个核心玩法:

先具体来看Wandering漫游模式,持文本、图片输入

你可以直接输一句Prompt造世界,也能精细化控制,分别设定“角色(Character)”和“场景(Scene)”,还能自由切换第一人称或第三人称

我们先浅试了一个海边小镇,一起来看效果:

让人眼前一亮的是,HappyOyster生成的世界自带BGM;而且不只是能生成场景——小镇里竟然还有NPC在走动,代入感拉满。

P.S. HappyOyster可在你探索世界的时候自动帮你录制视频,在个人主页的My videos可查看。录制好的视频支持下载。

目前,Wandering模式分辨率480p,而且探索时长目前有1分钟限制(时间到了需要重新进入)

我们还试了一下像素风格:

HappyOyster也能轻松驾驭,让你直接化身像素小人。

不得不提一嘴,HappyOyster生成速度是真的快,be like:

此外,Gallery(画廊)中还有别人分享出来的很多世界,也都可以点开探索:

比如梵高的油画世界,超梦幻:

下面再来看一下Directing导演玩法。

Directing同样支持文本、图片多模态输入。

用户可调整分辨率(720p、480p),设定视频画面的叙事风格与情感基调(Regular、Peaceful、Dramatic),控制视频的运镜方式与画面稳定度(Steady、Fast)

一句话总结玩法,你可在任意节点用prompt改变你眼前的内容,改变剧情走向。

举个例子,男孩正在熟睡,在输入框中输入“一只猫跳到了床上,男孩被吵醒”:

下一幕直接呈现你所描述的画面:

咱又找着别人造的奇幻世界了,一起来探索一下吧:

这里还有来自官方的更多展示:

当然,HappyOyster应用并不止屏幕里的沉浸式生成和交互。

在阿里ATH团队看来,HappyOyster的核心能力是对开放世界状态进行持续建模、预测与响应,生就适合延伸到需要“实时感知—实时生成—实时反馈”闭环的现实场景中

比如在文旅展陈、线下娱乐、机器人训练、数字人陪伴、教育演练、智能空间交互等方向,模型都可以作为一个实时演化的世界引擎,与摄像头、麦克风、空间传感器、显示终端、机械装置或可穿戴设备连接,根据人的位置、动作、语言和环境变化,动态生成对应的视觉内容、事件反馈或交互结果。

要是再和硬件系统结合,HappyOyster承载的就不只是“内容生成”,而是一个能被现实输入持续驱动的生成式环境系统。只能说,未来的应用场景打开了。

原生多模态架构与流式生成世界模型

新产品发布的同时,阿里ATH事业群也向我们揭秘了其背后核心技术。

阿里ATH事业群,是阿里今年3月16日正式成立的创新事业群。团队打出的核心目标是“创造Token、输送Token、应用Token”。

ATH旗下涵盖通义实验室、MaaS业务线、千问事业部、悟空事业部及AI创新事业部,从基础模型研发、模型服务平台,到个人与企业端AI应用,布局得明明白白。

团队表示,HappyOyster的核心能力,源于其背后的原生多模态架构与流式生成世界模型,重点突破了三大核心技术难点,才实现了“实时交互、长时连贯、音画同步”的体验。

第一,长时世界建模,解决“生成久了就错乱”的问题。

HappyOyster采用长时间跨度的世界演化建模方式,靠海量长视频训练数据,深度学习真实世界的运行规律,捕捉世界持续运行中的状态转移逻辑,能稳定输出高保真、高一致性的动态场景。

针对长时间生成容易出现的内容漂移、结构退化问题,团队还加入了持续状态复用机制,强化时序连贯性。

流式生成时,模型不用每一步都重建完整上下文,而是通过历史注意力状态的连续传递,高效继承已生成信息、渐进更新,使生成始终沿既有时序语境扩展。

这种方式使其减少了上下文重建带来的不稳定性,在更长时间尺度上可维持稳定的场景结构与动态连贯性。

第二,实时交互控制响应

HappyOyster在建模初期就设计了多样的控制信号(文本、Action、图像等),让世界生成和实时交互深度绑定。外部指令不再只作用于初始条件,而是持续影响后续的世界演化。

由此,模型能够在统一的时序框架下同时实现生成质量、长时一致性与实时可控性的协同优化。

团队表示,这一能力让模型从“被动生成内容”,升级到“主动模拟世界、让用户参与演化”,也为构建可交互的通用世界模拟器,提供了关键技术路径。

为了解决实时性训练难题,HappyOyster用流式生成框架实现实时世界演化:

模型通过对世界状态进行高度压缩的隐式建模,将高维视频与多模态信息映射为紧凑的动态latent state,大幅降低单步生成的计算开销,让推理能低延迟持续推进;

同时,文本、图像与wandering指令等控制信号被设计为可在线注入的条件变量,确保模型在无需重置生成过程的情况下即可实时响应外部交互。

第三,音视频联合生成,让世界更有“沉浸感”。

针对音画协同这一训练难点,团队并未采用将音视频分阶段建模的思路,而是采用统一的音视频生成框架,在同一世界状态下同步生成视觉与听觉信号。

在该机制下,音频作为世界动态的一部分参与联合生成,自然建立跨模态时间对齐关系;同时,通过共享条件约束与协同解码机制,保障音画同步与语义一致。

这些技术突破,让HappyOyster真正区别于传统文生视频模型。

正如团队所强调的,过去几年生成式AI完成了“文本→图像→视频”的跃迁,但始终停留在“生成像素”的阶段,用户只能观看,无法真正参与其中,这便是横亘在用户与数字世界之间的“第四面墙”。

而HappyOyster的核心目标,就是打破这道墙:

真正的下一代生成式AI,不再仅仅是把画面生成得更清晰,在那之上会进化到可以生成一个完整的、可进入的世界。这个世界有空间、有物理、有因果、有角色、有故事。你可以推门而入,可以亲手改写,可以离开又回来,也可以带朋友进去。

One More Thing

为啥取快乐生蚝这么个名?这背后还有小巧思呢。

官方解释:

四百年前,莎士比亚在The Merry Wives of Windsor里写下一句传世之言:

The world is your oyster.Open it.(世界是你的生蚝,等你亲手打开).”

四百年后,Happy Oyster让这句话第一次成为字面意义上的现实:说一句话,就能拥有一个完整的、可漫游、可导演、可分享的数字世界。

股票复盘网
当前版本:V3.0