关注我们: 微信公众号

扫码关注我们

OpenAI 前 CTO 的 TML 首秀!AI 开始“插嘴”了!模型边听边答边行动!

云头条 2026-05-12 14

OpenAI 前 CTO Mira Murati 新公司首秀:不做聊天机器人,要让 AI 像真人一样实时协作。

10.jpg

Mira Murati 创办的 Thinking Machines Lab,终于公布了第一个核心技术方向。

11.png

2026 年 5 月 12 日,Thinking Machines Lab 发布研究预览 Interaction Models“交互模型”。

它的目标不是再做一个更会聊天的 AI,而是改变人和 AI 的协作方式,让 AI 能连续接收音频、视频和文本输入,并在同一过程中实时思考、回应和行动。

按照 Thinking Machines 的说法,今天的大多数 AI 模型仍然停留在“一问一答”的轮次模式。

用户说完或输入完,模型才开始处理;模型生成回答时,对外部世界的感知又会暂停。结果就是,人和 AI 的沟通像在发邮件,而不是面对面协作。

Interaction Models 想解决的正是这个问题。

Thinking Machines 认为,未来的 AI 应该能像真人协作一样工作。

一边听、一边看、一边理解用户意图,同时还能插话、回应、调用工具或继续处理后台任务。

AI 不再只是等用户发出完整指令后再回答,而是可以在对话、演示、写代码、翻译、看视频等场景中持续参与。

在技术路径上,Thinking Machines 提出了 multi-stream、micro-turn 设计。

简单说,它将实时交互切成约 200ms 的小片段,让模型以连续流的方式处理输入和输出。音频、视频、文本不再被压成一个完整回合,而是在时间线上持续进入模型。

这样,沉默、打断、重叠说话、视觉变化,都可以成为模型理解上下文的一部分。

这和当前很多实时语音系统有明显区别。

现有产品通常是在传统大模型外面加一层语音识别、语音合成、轮次检测等组件,让系统“看起来”像实时对话。

Thinking Machines 的思路则是,把实时交互能力直接做进模型本身,而不是靠外部脚手架拼出来。

该公司还设计了前台交互模型和后台模型的分工。

前台 Interaction Model 负责保持实时在场,持续接收用户输入并回应;当任务需要更长时间推理、搜索或调用工具时,再交给后台模型异步处理。后台结果生成后,再由前台模型自然接回对话中。

Thinking Machines 给出的示例包括:

1)模型可以在用户讲故事时识别动物相关内容;

2)可以在双方说话重叠的情况下做实时翻译;

3)也可以通过视频输入发现用户坐姿不对并主动提醒。

这些能力展示了 Thinking Machines 想做的不是传统聊天机器人,而是一种更接近“实时协作者”的 AI。

从公开信息看,这项技术目前还没有正式开放。

Thinking Machines 表示,未来几个月将启动有限研究预览,并计划在今年晚些时候进行更大范围发布。

这也是 Mira Murati 离开 OpenAI 后创办 Thinking Machines Lab 以来,外界第一次看到该公司的清晰产品和技术方向。

Murati 曾任 OpenAI CTO,参与过 ChatGPT、DALL·E 等核心产品。

Thinking Machines 成立于 2025 年 2 月,但过去一年也经历了部分核心成员流向 Meta 和 OpenAI 等公司的人员波动。

Thinking Machines 不打算直接卷“谁的模型更聪明”这一条主线,而是押注另一个方向 —— 谁能让 AI 更自然地进入真实工作流。

如果这一路线走通,AI 产品的竞争重点可能会从“回答质量”进一步转向“协作体验”。

真正的变化不只是 AI 回答得更快,而是它能否在用户说话、展示、操作、犹豫、打断和修改想法的过程中,一直跟得上人。

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

关键词:

网友留言2

未查询到任何数据!
◎欢迎您留言咨询,请在这里提交您想咨询的内容。