
大模子正在更动及时互动时期。
声网行动全球音视频时期龙头,2020 年在纳斯达克上市,现在是全球最大的及时互动云管事商,平台单月音视频使用时长达 700 亿分钟。
同期,声网昆季公司 Agora 亦然 OpenAI Realtime API 的互助伙伴,在国内声网也与 MiniMax 正在打磨国内首个 Realtime API。
在 MEET 2025 智能以前大会大会现场,声网首席运营官刘斌共享了一个看似离大模子有点距离,实则却不成或缺的法子:
RTE(Real Time Engagement)在 AI Agent 期间的全新价值。

为了无缺体现刘斌的想考,在不更动答允的基础上,量子位对演讲内容进行了剪辑整理,但愿能给你带来更多启发。
MEET 2025 智能以前大会是由量子位主持的行业峰会,20 余位产业代表与会询查。线下参会不雅众 1000+,线上直播不雅众 320 万 +,得回了主流媒体的普通祥和与报说念。
中枢不雅点
多模态对话体验的两个枢纽:延长是否低于 1.7 秒,能否打断
多模态对话 AI Agent 运用居品化落地的枢纽:端到端、全球肆意方位、弱网环境、多样终局下的低时延
不管是语音 , 照旧视频 , 只若是多模态有交互的 AI Agent 运用 , 离不开 RTE 才智的支握
演讲全文
今天十分欢腾有这么契机来到现场跟共享,声网行动 RTE 范围的企业,和 AI 范围的大模子与运用厂商,和当下的大模子关系是什么,RTE 演进怎样助力 AI Agent 运用落地。
第一,声网到底是谁。
声网于 2020 年在纳斯达克上市,专注于提供及时互动云管事。经过多年的发展,该公司在该行业取得了一定的跳动。
咱们公司的标语纯粹明了,即让及时互动像空气和水雷同,无处不在。
这一理念旨在终了以前不管身处何地,皆能得回如同濒临面般的互动体验。经过多年的极力,咱们在阛阓占有率方面位居第一,并领有大批注册开发者运用。
单月音视频分钟数约为 700 亿,这意味着每天在咱们平台上的分钟数约为 20 多亿。在这种情况下,全球高出 60% 的泛文娱运用经受声网行动其互助伙伴。咱们波及的范围包括泛文娱、教练和物联网等,均领有相应的互助伙伴。

第二,咱们作念的事到底和 AI Agent 有什么关系,怎样去助力它。
率先,值得祥和的是,OpenAI 于 10 月 1 日在官方网站发布 Realtime API 时,曾在互助伙伴中说起 Agora,即咱们声网的昆季公司。
其次,在 10 月份的 RTE 大会上,咱们文书与 MiniMax 正在打磨国内第一个 Realtime APl。

第三,AI Agent 期间到底何如样作念才智作念的更好。
咱们不错不雅察到,在简直多模态模子推出或对话时,相较于原先的纯文本交互,仍是发生了变化。
原先的交互实质上是异步的,即我不错发送信息,说完后恭候管制并复返浪漫。可是,在简直多模态交互中,要务及时性和双工性,即我说他听,他听完后我再听。
在这个经过中,有几个枢纽成分会影响效果。
率先,公共较为闇练的口吻、心理、心理和口音等成分在模子中得到了大批管制。
其次,延长亦然一个十分关键的成分。顺服公共皆有关连的感受。
从执行测量数据来看,简直达到实用效果的延长一般在 1.7 秒傍边。如果低于这个值,东说念主们会以为与 Agent 调换很当然;而如果延长达到 2 秒多或 3 秒,东说念主们就会嗅觉到有些卡顿,响应稍显缓缓。这是一个十分关键的枢纽点。
另一个枢纽点是,能否终了打断功能以及怎样更好地进行主动交互。

要终了这些功能,除了模子才智外,还需商量运用的落地时势。是在实验室的 PC 上进行演示,照旧将其运用于多样手机终局、物联网终局以相当他诱骗上?
当有此需求时,在居品化落地的经过中会发现,除了之前提到的低时延等才智外,还需要在端到端皆能终了。此外,还需在不同方位、不同收集环境下以及多样终局诱骗上皆能得到支握,这并非易事。
对于这张图,尽管公共可能不太祥和,但咱们其时十分怜爱。这是 5 月份 OpenAI GPT-4o 发布时的情况,公共不错看那根网线,这是要保证收集的知晓性。

在 4o 发布之后,公共皆在恭候 API 的推出,正本预期一周或两周内会推出,但执行上并非如斯,直至 10 月份才发布。原因在于,一运行公共认为这件事很毛糙,只需对原有的 RTP Server 进行修改,将文本传输改为语音传输即可。
可是,执行情况并非如斯毛糙。咱们与他们互助,直至 10 月份才细腻推出。恰是咱们在其中阐扬作用,使其简直落地终了。
在此,我向公共展示声网多年来的职责浪漫。
率先,咱们领有一张遍布全球的 SD-RTN 收集,确保在这张收集上音视频传输皆能在圭臬的 400 毫秒内端到端到达,这是收集扶助。其次,咱们多年的积蓄使咱们大要在 30 多个平台的框架和 30000 多终局机型上提供 SDK 支握,涵盖多样操作系统。您只需很快地成就这个才智。包括物联网的多样诱骗终局,皆有相应的 SDK。

此外,在执走运用中,如咱们在这个会场,如果我要与 AI 对话,收集情况和环境噪声并非固定不变。如安在顶点弱网下保证效果,这亦然咱们多年时期积蓄的浪漫。

恰是咱们在这一范围的深厚积蓄,使得咱们大要构建一个具有执走运用价值的 Voice 对话 Agent。惟有将这两者细密无间,才智终了这一指标。这也讲明了为什么在发布 Realtime API 时,咱们需要寻找这么的互助伙伴共同推动。
咱们还发现,现存的 RTC 时期栈和基础设施存在大批矫正空间。惟有通过矫正,大型模子才有可能在多样场景、形态和模子下大范围参与到东说念主类的谈话对话中,其参与着手也将从云霄膨大到终局,再到更低延长的旯旮。基于这些才智的矫正和普及,以前 RTE 必将成为生成式 AI 期间 AI 基础设施(AI Infra)的枢纽构成部分。
如图右侧红色部分所示,Realtime API 频繁由大型模子厂商发布。可是,在左侧这一圈,包括中间的收集和声网的 Linux Server SDK,以及前端的 SDK,如果莫得这么的基础,咱们将很难终了这一整套效果。这恰是我之前所讲明的原因。如果中间的这些法子未能终了,那么效果将无法表示。

在此,咱们将从面前视角登程,探讨以前的行动标的以及怎样进一步升迁效果。近期,咱们一直在真切接洽和参预资源,以优化东说念主与东说念主之间的对话体验。可是,在东说念主与模子之间的对话中,体验的升迁需要充分商量模子的特点。
举例,咱们从传统的 QoS、QoE 发展到如今的 AI QoE,乃至多模态 AI QoE,这其中涵盖了 VAD 时期、杂音摈斥才智以及关连收集优化等方面。这些新的步协调时势使得咱们与模子的对话愈加逼近执行情况。以一个毛糙的例子来证据,东说念主与东说念主交谈时不会羼杂其他信息,但东说念主与模子对话时则可能不同,语音传输经过中可能还包含其他信息。因此,在弱网环境和运用场景中怎样终了邃密适配,便显得尤为关键。
咱们曾在 RTE 大会上展示过一个实例,其时的会场范围较大,东说念主数宽广且环境嘈杂,咱们在现场使用了一个 5G 诱骗进行演示。
咱们想作念到的是从 60 分升迁到 90 分,这不仅波及模子难度的提高,还包括邻近工程配套的完善,以便将居品从演示阶段发展为更具实用性的运用。
对于声网的居品体系,咱们正不停加强其功能,如 Linux SDK、AI VAD 才智以及 AI Agent Service 的补充与优化。通过声网 RTE+AI 才智全景图,咱们不错看到咱们的举座想路,包括从基础设施到 Agent,再到场景的演进,旨在成为生成式 AI 期间的 AI 基础设施,这亦然咱们的愿景。
终末,我想强调少许:
任何波及大模子多模态及时交互的运用,不管是语音照旧视频,只须存在多模态交互,这类 Agent 运用的落地皆离不开 RTC 时期的支握。
在这种情况下,如果公共有这么的需求,请来找声网,咱们一定给公共更好的体验。
谢谢公共,今天就到这里。
— 完 —
点这里� � 祥和我,牢记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日重逢 ~
