j9九游会声网行动 RTE 范围的企业-九游娱乐(中国)有限公司-官方网站

发布日期：2026-02-14 06:33 点击次数：112

大模子正在更动及时互动时期。

声网行动全球音视频时期龙头，2020 年在纳斯达克上市，现在是全球最大的及时互动云管事商，平台单月音视频使用时长达 700 亿分钟。

同期，声网昆季公司 Agora 亦然 OpenAI Realtime API 的互助伙伴，在国内声网也与 MiniMax 正在打磨国内首个 Realtime API。

在 MEET 2025 智能以前大会大会现场，声网首席运营官刘斌共享了一个看似离大模子有点距离，实则却不成或缺的法子：

RTE（Real Time Engagement）在 AI Agent 期间的全新价值。

为了无缺体现刘斌的想考，在不更动答允的基础上，量子位对演讲内容进行了剪辑整理，但愿能给你带来更多启发。

MEET 2025 智能以前大会是由量子位主持的行业峰会，20 余位产业代表与会询查。线下参会不雅众 1000+，线上直播不雅众 320 万 +，得回了主流媒体的普通祥和与报说念。

中枢不雅点

多模态对话体验的两个枢纽：延长是否低于 1.7 秒，能否打断

多模态对话 AI Agent 运用居品化落地的枢纽：端到端、全球肆意方位、弱网环境、多样终局下的低时延

不管是语音 , 照旧视频 , 只若是多模态有交互的 AI Agent 运用 , 离不开 RTE 才智的支握

演讲全文

今天十分欢腾有这么契机来到现场跟共享，声网行动 RTE 范围的企业，和 AI 范围的大模子与运用厂商，和当下的大模子关系是什么，RTE 演进怎样助力 AI Agent 运用落地。

第一，声网到底是谁。

声网于 2020 年在纳斯达克上市，专注于提供及时互动云管事。经过多年的发展，该公司在该行业取得了一定的跳动。

咱们公司的标语纯粹明了，即让及时互动像空气和水雷同，无处不在。

这一理念旨在终了以前不管身处何地，皆能得回如同濒临面般的互动体验。经过多年的极力，咱们在阛阓占有率方面位居第一，并领有大批注册开发者运用。

单月音视频分钟数约为 700 亿，这意味着每天在咱们平台上的分钟数约为 20 多亿。在这种情况下，全球高出 60% 的泛文娱运用经受声网行动其互助伙伴。咱们波及的范围包括泛文娱、教练和物联网等，均领有相应的互助伙伴。

第二，咱们作念的事到底和 AI Agent 有什么关系，怎样去助力它。

率先，值得祥和的是，OpenAI 于 10 月 1 日在官方网站发布 Realtime API 时，曾在互助伙伴中说起 Agora，即咱们声网的昆季公司。

其次，在 10 月份的 RTE 大会上，咱们文书与 MiniMax 正在打磨国内第一个 Realtime APl。

第三，AI Agent 期间到底何如样作念才智作念的更好。

咱们不错不雅察到，在简直多模态模子推出或对话时，相较于原先的纯文本交互，仍是发生了变化。

原先的交互实质上是异步的，即我不错发送信息，说完后恭候管制并复返浪漫。可是，在简直多模态交互中，要务及时性和双工性，即我说他听，他听完后我再听。

在这个经过中，有几个枢纽成分会影响效果。

率先，公共较为闇练的口吻、心理、心理和口音等成分在模子中得到了大批管制。

其次，延长亦然一个十分关键的成分。顺服公共皆有关连的感受。

从执行测量数据来看，简直达到实用效果的延长一般在 1.7 秒傍边。如果低于这个值，东说念主们会以为与 Agent 调换很当然；而如果延长达到 2 秒多或 3 秒，东说念主们就会嗅觉到有些卡顿，响应稍显缓缓。这是一个十分关键的枢纽点。

另一个枢纽点是，能否终了打断功能以及怎样更好地进行主动交互。

要终了这些功能，除了模子才智外，还需商量运用的落地时势。是在实验室的 PC 上进行演示，照旧将其运用于多样手机终局、物联网终局以相当他诱骗上？

当有此需求时，在居品化落地的经过中会发现，除了之前提到的低时延等才智外，还需要在端到端皆能终了。此外，还需在不同方位、不同收集环境下以及多样终局诱骗上皆能得到支握，这并非易事。

对于这张图，尽管公共可能不太祥和，但咱们其时十分怜爱。这是 5 月份 OpenAI GPT-4o 发布时的情况，公共不错看那根网线，这是要保证收集的知晓性。

在 4o 发布之后，公共皆在恭候 API 的推出，正本预期一周或两周内会推出，但执行上并非如斯，直至 10 月份才发布。原因在于，一运行公共认为这件事很毛糙，只需对原有的 RTP Server 进行修改，将文本传输改为语音传输即可。

可是，执行情况并非如斯毛糙。咱们与他们互助，直至 10 月份才细腻推出。恰是咱们在其中阐扬作用，使其简直落地终了。

在此，我向公共展示声网多年来的职责浪漫。

率先，咱们领有一张遍布全球的 SD-RTN 收集，确保在这张收集上音视频传输皆能在圭臬的 400 毫秒内端到端到达，这是收集扶助。其次，咱们多年的积蓄使咱们大要在 30 多个平台的框架和 30000 多终局机型上提供 SDK 支握，涵盖多样操作系统。您只需很快地成就这个才智。包括物联网的多样诱骗终局，皆有相应的 SDK。

此外，在执走运用中，如咱们在这个会场，如果我要与 AI 对话，收集情况和环境噪声并非固定不变。如安在顶点弱网下保证效果，这亦然咱们多年时期积蓄的浪漫。

恰是咱们在这一范围的深厚积蓄，使得咱们大要构建一个具有执走运用价值的 Voice 对话 Agent。惟有将这两者细密无间，才智终了这一指标。这也讲明了为什么在发布 Realtime API 时，咱们需要寻找这么的互助伙伴共同推动。

咱们还发现，现存的 RTC 时期栈和基础设施存在大批矫正空间。惟有通过矫正，大型模子才有可能在多样场景、形态和模子下大范围参与到东说念主类的谈话对话中，其参与着手也将从云霄膨大到终局，再到更低延长的旯旮。基于这些才智的矫正和普及，以前 RTE 必将成为生成式 AI 期间 AI 基础设施（AI Infra）的枢纽构成部分。

如图右侧红色部分所示，Realtime API 频繁由大型模子厂商发布。可是，在左侧这一圈，包括中间的收集和声网的 Linux Server SDK，以及前端的 SDK，如果莫得这么的基础，咱们将很难终了这一整套效果。这恰是我之前所讲明的原因。如果中间的这些法子未能终了，那么效果将无法表示。

在此，咱们将从面前视角登程，探讨以前的行动标的以及怎样进一步升迁效果。近期，咱们一直在真切接洽和参预资源，以优化东说念主与东说念主之间的对话体验。可是，在东说念主与模子之间的对话中，体验的升迁需要充分商量模子的特点。

举例，咱们从传统的 QoS、QoE 发展到如今的 AI QoE，乃至多模态 AI QoE，这其中涵盖了 VAD 时期、杂音摈斥才智以及关连收集优化等方面。这些新的步协调时势使得咱们与模子的对话愈加逼近执行情况。以一个毛糙的例子来证据，东说念主与东说念主交谈时不会羼杂其他信息，但东说念主与模子对话时则可能不同，语音传输经过中可能还包含其他信息。因此，在弱网环境和运用场景中怎样终了邃密适配，便显得尤为关键。

咱们曾在 RTE 大会上展示过一个实例，其时的会场范围较大，东说念主数宽广且环境嘈杂，咱们在现场使用了一个 5G 诱骗进行演示。

咱们想作念到的是从 60 分升迁到 90 分，这不仅波及模子难度的提高，还包括邻近工程配套的完善，以便将居品从演示阶段发展为更具实用性的运用。

对于声网的居品体系，咱们正不停加强其功能，如 Linux SDK、AI VAD 才智以及 AI Agent Service 的补充与优化。通过声网 RTE+AI 才智全景图，咱们不错看到咱们的举座想路，包括从基础设施到 Agent，再到场景的演进，旨在成为生成式 AI 期间的 AI 基础设施，这亦然咱们的愿景。

终末，我想强调少许：

任何波及大模子多模态及时交互的运用，不管是语音照旧视频，只须存在多模态交互，这类 Agent 运用的落地皆离不开 RTC 时期的支握。

在这种情况下，如果公共有这么的需求，请来找声网，咱们一定给公共更好的体验。

谢谢公共，今天就到这里。

— 完 —

点这里� � 祥和我，牢记标星哦～

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日重逢 ~

上一篇：九游娱乐(中国)有限公司-官方网站于1915年12月12日称帝-九游娱乐(中国)有限公司-官方网站
下一篇：j9九游会豆包电脑版不错是一个及格上岗的浏览器了-九游娱乐(中国)有限公司-官方网站