OpenAI 前 CTO 的 TML 首秀！AI 开始“插嘴”了！模型边听边答边行动！

云头条 2026-05-12 14

OpenAI 前 CTO Mira Murati 新公司首秀：不做聊天机器人，要让 AI 像真人一样实时协作。

Mira Murati 创办的 Thinking Machines Lab，终于公布了第一个核心技术方向。

2026 年 5 月 12 日，Thinking Machines Lab 发布研究预览 Interaction Models“交互模型”。

它的目标不是再做一个更会聊天的 AI，而是改变人和 AI 的协作方式，让 AI 能连续接收音频、视频和文本输入，并在同一过程中实时思考、回应和行动。

按照 Thinking Machines 的说法，今天的大多数 AI 模型仍然停留在“一问一答”的轮次模式。

用户说完或输入完，模型才开始处理；模型生成回答时，对外部世界的感知又会暂停。结果就是，人和 AI 的沟通像在发邮件，而不是面对面协作。

Interaction Models 想解决的正是这个问题。

Thinking Machines 认为，未来的 AI 应该能像真人协作一样工作。

一边听、一边看、一边理解用户意图，同时还能插话、回应、调用工具或继续处理后台任务。

AI 不再只是等用户发出完整指令后再回答，而是可以在对话、演示、写代码、翻译、看视频等场景中持续参与。

在技术路径上，Thinking Machines 提出了 multi-stream、micro-turn 设计。

简单说，它将实时交互切成约 200ms 的小片段，让模型以连续流的方式处理输入和输出。音频、视频、文本不再被压成一个完整回合，而是在时间线上持续进入模型。

这样，沉默、打断、重叠说话、视觉变化，都可以成为模型理解上下文的一部分。

这和当前很多实时语音系统有明显区别。

现有产品通常是在传统大模型外面加一层语音识别、语音合成、轮次检测等组件，让系统“看起来”像实时对话。

Thinking Machines 的思路则是，把实时交互能力直接做进模型本身，而不是靠外部脚手架拼出来。

该公司还设计了前台交互模型和后台模型的分工。

前台 Interaction Model 负责保持实时在场，持续接收用户输入并回应；当任务需要更长时间推理、搜索或调用工具时，再交给后台模型异步处理。后台结果生成后，再由前台模型自然接回对话中。

Thinking Machines 给出的示例包括：

1）模型可以在用户讲故事时识别动物相关内容；

2）可以在双方说话重叠的情况下做实时翻译；

3）也可以通过视频输入发现用户坐姿不对并主动提醒。

这些能力展示了 Thinking Machines 想做的不是传统聊天机器人，而是一种更接近“实时协作者”的 AI。

从公开信息看，这项技术目前还没有正式开放。

Thinking Machines 表示，未来几个月将启动有限研究预览，并计划在今年晚些时候进行更大范围发布。

这也是 Mira Murati 离开 OpenAI 后创办 Thinking Machines Lab 以来，外界第一次看到该公司的清晰产品和技术方向。

Murati 曾任 OpenAI CTO，参与过 ChatGPT、DALL·E 等核心产品。

Thinking Machines 成立于 2025 年 2 月，但过去一年也经历了部分核心成员流向 Meta 和 OpenAI 等公司的人员波动。

Thinking Machines 不打算直接卷“谁的模型更聪明”这一条主线，而是押注另一个方向 —— 谁能让 AI 更自然地进入真实工作流。

如果这一路线走通，AI 产品的竞争重点可能会从“回答质量”进一步转向“协作体验”。

真正的变化不只是 AI 回答得更快，而是它能否在用户说话、展示、操作、犹豫、打断和修改想法的过程中，一直跟得上人。

云头条声明：如以上内容有误或侵犯到你公司、机构、单位或个人权益，请联系我们说明理由，我们会配合，无条件删除处理。

关键词：

突发！Sam Altman 遭美国国会调查

没有了！

网友留言2

未查询到任何数据！

◎欢迎您留言咨询，请在这里提交您想咨询的内容。

OpenAI 前 CTO 的 TML 首秀！AI 开始“插嘴”了！模型边听边答边行动！

关键词：

网友留言2