实时互动场景爆发，声网2021的成绩与进展

2022-01-07 16:55:25 来源：财讯网

小大

2021 年过去了，回顾这一年，实时互动行业正在加速发展。作为实时互动云服务开创者和引领者，声网Agora也未曾停歇，不断通过技术的创新、场景体验的提升，探索着实时互动场景的更多可能性。

这份年终回顾，包含了声网Agora 2021 年在技术探索中“摸黑”走过的路，将所有技术组件链接后的成果，还有声网与开发者们、为开发者们做过的项目，以及 2021 年那些值得铭记的事件。

声网Agora年度大事件

· 实时互动行业风向标大会 RTE2021圆满落幕

10月22日-23日，由声网主办的 RTE2021 实时互联网大会在北京举行，为期两天的大会聚集RTE技术领袖、行业大佬、知名投资人、优秀创业者，带来20+前沿论坛及活动、近百场精彩分享。本次大会以“万象频道”为主题，围绕实时互动行业一年来的行业变迁、趋势展望进行深度分享与探讨，从场景、技术、产品、生态等多个维度展现实时互联网万象纷呈。

RTE实时互联网大会是声网主办的实时互动行业风向标大会，也是全球规模最大最权威的RTE盛会，每年一届，致力于为开发者布道实时互动技术，并为全行业带来最前沿的前瞻观察。今年大会给参会者带来了前所未有的体验，声网将这一年最受行业关注的热点都“搬”到了大会现场。无论是酷炫的展区、独特的开场方式还是令人难忘的开发者Party，每一个环节都带来全新体验。

· 发布《RTE万象图谱》行业首个RTE全场景雏形

在RTE2021实时互联网大会上，声网发布了基于实时互动场景的“RTE万象图谱”，共覆盖教育、泛娱乐、IoT、金融、医疗、企业协作、数字政府、智慧城市等20+行业赛道，200+场景。这也是RTE行业首个全场景的雏形，为行业开发者和创业者挖掘场景，做产品和技术创新提供更多可能性。

· 超音速计划打造RTE赛道首个最有影响力的创业者社区

2021年7月，声网再次联合五源资本，推出创业伙伴系列活动--「超音速计划」。帮助实时互动领域的创业企业加速成长，共同定义和扩大实时互动赛道，建立实时互动领域顶尖创业社群。在超音速计划中，声网携手顶级投资机构、跨国企业的创业生态部门、云市场伙伴等生态力量，为创业者提供创业课程和创业伙伴营、生态产品免费套餐包、技术支持、投资咨询等资源扶持，赋能开发者以更低成本、更高效的实现创新创业。经过二十多天的招募和甄选，最终20个项目从133个报名项目中脱颖而出，成为首期「超音速计划」创业伙伴。

· RTE2021编程挑战赛圆满收官

2021年6月，由声网与环信联合主办的“RTE 2021 编程挑战赛”圆满落幕。从 200+ 支参赛队伍中冲出重围的 46 支决赛队伍用精彩的答辩为历时 2 个多月的大赛划下了圆满的句号。

本次大赛的决赛和颁奖通过 Agora Video Call App 在线上进行，全程通过 B 站进行了直播。最终，决赛共诞生了应用创新赛道的一、二、三等奖团队各一名，“环信专项奖”一名，以及“优秀奖” 六名；技术创新赛道“技术创新专项奖”一名，“优秀奖”一名。

· 声网收购环信强强联合打造RTC+IM产品组合

2021年第一季度，声网完成收购中国领先的即时通讯云和客服云服务商环信Easemob 。双方在产品层面进行深度结合，基于声网在 RTC 领域和环信在即时通讯（IM）领域的领先优势，共同打造实时互动云行业最强 RTC+IM 产品组合。

· 全品类、全球范围安全合规认证

近日，声网Agora正式获得由国际权威的质量认证和风险管理机构DNV颁发的ISO/IEC 27701隐私信息管理体系认证证书。这也是声网继获得ISO/IEC 27001、ISO/IEC 27017、ISO/IEC 27018体系认证、公安部信息安全等级保护三级认证、SOC2 Type II服务鉴证报告后，再次获得的一项全球隐私保护领域的权威认证，这标志着声网的信息安全及隐私相关管理体系管控已进入全球范围内的先进行列，也将为客户带来更坚实的信息安全保障。

新产品落地

· 教育行业首款aPaaS产品灵动课堂

2021年1月，声网发布了教育行业首款aPaaS产品灵动课堂，节省 90%+ 开发时间，15 分钟即可上线自有品牌的全功能在线互动教学平台，满足灵活定制和低代码接入的开发需求。同期，声网还正式发布业界首个支持H5课件的白板PaaS产品“互动白板”，帮助提升课堂实时互动体验，增强教学场景的趣味性。

· 全链路加速FPA

2021年8月，声网正式发布“全链路加速FPA(Full-Path Accelerator)”，基于声网的软件定义实时网络SD-RTN™，通过覆盖全球的多点端到端传输优化，全面提升了包含最后一公里（Last Mile）在内的全网传输性能和可靠性，并通过“云”和“端”的高效协同优化，为企业的应用加上网络QoS保障。平均提升终端用户访问性能 100%，实现全球高质量网络覆盖，只需要3行代码。

· 融合 CDN 直播

2021年10月，声网推出全新直播产品“融合CDN直播”，可提供卡顿率低于1%的超流畅 CDN 直播服务，同时还提供All-in-one的SDK，最大程度降低开发者的开发门槛，开发者可以在一个SDK内，自由组合使用超低延时直播、低延时直播和标准 CDN 直播等各类功能，顺畅切换，这也标志着声网可以通过一个 SDK拉通所有延迟等级的直播需求。

· 水晶球3.0 上线

2021年，声网正式上线水晶球3.0版本，新增“实时监控”、“告警通知”两大功能，能帮助开发者和企业用更为主动的方式来监测实时音视频用量、质量情况，时刻做到对项目运行状况”心里有数“，及时发现异常问题，并高效解决问题，最终实现产品质量保障，提升客户的运营效率和用户的体验。

· 全新云市场

2021年10月，声网发布了全新云市场，全新升级的云市场具备三大核心亮点：为开发者构建RTE应用提供丰富的国内外第三方插件和一站式插件管理系统；开发者集成RTE模块效率提升95%；针对提供插件的合作伙伴，接入云市场的效率提升了超过90%。

场景与行业突破

· MetaChat元语聊

2021年12月，声网发布 MetaChat 元语聊解决方案，提供了一种全新的语聊方式——用户以虚拟形象参与到畅聊中，每个语聊房可以支持16位玩家，每位玩家都可以看到其他玩家的Avatar，且可以与任一玩家进行动作互动，还可以在任意空座位上就坐，在吧台喝饮料、起舞等。同时，还支持 360° 空间音频，可以为语聊房中的玩家带来身临其境的聊天体验和更为沉浸的在场参与感，让沟通更高效、更有趣。

· 在线K歌房

2021年9月，声网在北京举办主题为“K歌有声 · 想唱就唱”的发布会，正式发布了在线 K 歌房场景化解决方案，开发者与企业可一站式接入海量正版曲库与K歌组件、场景功能，快速构建在线 K 歌房，并广泛应用在在线音乐、语聊房、直播、视频相亲等各类社交泛娱乐场景，为产品带来更多创新与增长空间。

· 全息虚拟偶像演唱会

去年8月，在上海Vapollo Theater，国内首场虚拟偶像神乐七奈实时跨国演唱会成功落地，现场上座率超95%。支持这场演出的技术公司正是创幻科技，其背后虚拟偶像演出音频的实时远程传输技术则由声网提供，并给予了高质量、高可靠、低延时的解决方案。

· 电商直播

声网与全球领先的电商平台之一合作，为其提供稳定可靠、低延时的电商直播连麦解决方案。以往的电商直播中，最常见的带货方式为单个直播间内1-2位主播直播带货，而从去年开始，直播连麦带货正受到越来越多主播与观众的喜爱。而在声网的技术支持下，电商平台可以通过嘉宾连麦、观众连麦、PK带货等多种互动方式，来提升直播间的引流效果与销售额。

· 音频直播

围绕播客场景，Castbox 近年来推出了一系列基于内容的互动评论区、社区以及音频直播（Livecast）等场景，而声网Agora 正是其背后的实时音视频服务提供商。声网自建的软件定义实时网 SD-RTN™ 覆盖了 200+ 国家与地区，拥有超低延时、高并发、高可用等特性，为Livecast 场景在全球范围内的高流畅、高稳定和高并发需求，提供了有力支撑。

· VR/XR远程协作

2021年5月，声网Agora宣布其视频 SDK 现已集成到领先的 VR/XR 远程协作及会议应用 HTC VIVE Sync App 中。通过集成声网Agora 的视频 SDK，HTC VIVE Sync App 可以支持 HTC VIVE 用户和非 VR 用户在同一虚拟环境中进行更紧密无缝的远程协作，用户在不需要穿戴 VR 设备的情况下也能够与其他 VR 用户共享沉浸式体验。

· 互动播客

2021年 1 月，“互动播客”在 RTC 技术，以及 Elon Musk “流量”的加持下火爆全球，“互动播客”是全新的线上兴趣/话题式语聊互动场景，不论是名人/大V，还是普通网友都可以随时开启或参与一场海阔天空的互动交流，而且听众可以随时“举手”上麦参与实时互动交流。声网通过基于网络传输、编解码、降噪与回声消除、码率自适应、弱网对抗等一系列完备的技术推出了业内成熟的“互动播客场景解决方案”。

· 远程超声

声网助力广州铱度在全国多个县城上线远程实时超声检查系统，在远程超声的场景中，县医院的超声科医生通过“铱度”的远程会诊系统连线百公里外的基层卫生院的医师，对多名患者进行一场线上“面对面”的超声会诊，整个会诊过程，借助声网的实时音视频技术，远程会诊系统可以实现高清医疗超声影像的实时传输，医生再根据实时的超声图像对患者进行实时诊断，诊断过程可以做到超低延时、高流畅。

· 在线自习室

声网为“同桌App”等多家教育和社交平台提供了自习直播+自习课两种场景的实时互动解决方案，支持在线自习室创新场景的上线。同桌在初版开始连麦自习室的音视频模块就选择了声网，低延迟，高稳定性，成熟领先的技术架构使同桌用户在线上感受到面对面、积极良好的学习氛围。

· 视频办医保

在声网助力下，2020 年 12 月，黑龙江省医保局上线了全国首个医保系统视频远程服务平台，从此前的“网上办“升级为更加便捷的“视频办”，用户只需通过APP或者小程序向工作人员发起视频通话，并通过人脸识别技术就能快速办理医保。

技术探索与落地

· ClearVision 1.0 方案，深耕实时视频画质增强

在实时互动场景中，视频画质很大程度上决定了用户体验的好坏。声网视频技术团队在过去一年中，深耕实时视频画质增强，上线了 ClearVision 1.0 方案。

ClearVision 1.0 充分利用了视频采集播放端设备的平台能力，在影响视频画质的色彩、清晰度、风格化等方向上提供了一站式的解决方案。ClearVision 1.0 支持动态裁剪，可被用于视频处理模块，通过多种功能的动态组合，为用户提供适用于不同场景的高清视频通信体验。ClearVision 1.0 包含的功能有：

1）暗光增强功能可以有效的对暗部区域进行智能补光，同时避免过度增强正常曝光的区域，最大化平衡性能和画质效果。为了对抗增强后的负作用，暗光增强功能融合了色彩饱和度恢复算法和视频降噪算法。同时，该功能还支持了智能场景检测，根据光照条件动态自适应地开启和关闭。

2）色彩增强功能，可以整体提升画面色彩的还原度和自然度，使得画面色彩更加丰富和逼真，提升主观视觉效果。该功能融合了多种肤色识别算法，确保人物肤色不因为色彩增强而变得突兀。

3）视频降噪功能，大幅降低闪烁噪点，同时最小化拖影等常见的视频降噪负作用。ClearVision 1.0 的视频降噪功能已应用于客户的低码高清场景，开启后可节省 28% - 35%的传输码率。在保证画质效果的前提下，视频降噪算法在移动平台单帧处理时间低至 1ms，在主流PC平台可以支持实时处理 1080P 60 帧场景。

另外，ClearVision 1.0 针对人像美颜做了更精细的优化。通过多图融合磨皮，动态肤色检测，非线性肤色美白映射，分区锐化等图像技术，ClearVision1.0 给用户提供了更高清自然的人像美颜效果。目前，以上功能已集成于最新版本的声网 SDK 中，具体功能的使用方法，可参考声网文档中心。

· 全平台支持背景分割/替换功能

在线会议和单主播等场景中，实现虚拟背景、背景虚化功能，可增加趣味性和私密性。目前，声网在 Native 和 Web 浏览器端都实现了背景分割/替换功能。未来，还会不断优化该功能的性能与效果表现。

· Agora SDK 支持 AV1 编解码格式

AV1 是一个开源、免版权费的视频编码格式，出自 Google 主导的开放媒体联盟(AOM)。声网在 2019 年就加入了 AOM 联盟。开始灰度上线 AV1 编码。经过测试，屏幕共享场景同等画质下AV1 的码率大约为 H.264 的 1/3 至 1/2。同时在弱网情况下，清晰度相比H264有明显提升。

· 移动端支持 3 倍超分辨率

声网在 2019 年开始在移动端实时互动场景中，通过超分辨率技术，让处于低带宽、低码率的用户也能得到高分辨率、高清晰度的画质。在最新的版本中，进一步优化了超分辨率算法的复杂度，可为部分低端机型用户带来更好的体验。同时，在去年还实现了 3 倍超分辨率，可以让所有场景都获得更好的视觉体验。

· Web 与 Native 视频互通可用性提升

在一些连麦场景中，可能主播与用户分别使用 Naitve、Web 端接入。为了进一步提升 Web 端与 Native 端视频互通时的可用性，以及视频质量，引入了新的编解码器。全年无声黑屏可用性问题比例减少 80% 以上。

· 全球首创全自动多场景模拟声学实验室

XR 又迎来了一轮爆发式的成长。为了实现高质量的沉浸式的体验，音频、视频、网络等技术都将面对更多挑战和机遇。为此，声网搭建实时互动行业首个全自动多场景模拟声学实验室。它配备了声网独创的自动化场景模拟环境，并符合国际标准，可保证工程师高效且严谨地针对不同互动场景，进行声学测试与研究。

同期，声网还建设了行业第一座负本底（-1dB）噪声声学实验室，为声学信号的深入研究提升新高度，这也是行业里前所未有的。

这些实验室不仅只用于声网自身的音频和声音信号测试，同时也具备为行业中硬件和软件合作伙伴提供认证测试的能力。

· 基于机器学习的语音编解码器——声网Agora Silver

去年 7 月，声网在国内率先正式推出基于机器学习的语音编解码器（语音 AI Codec）——声网Agora Silver。它可以在超低码率下，提供 32KHz 采样率的超宽带编码音质，并通过 AI 降噪算法来进一步优化音质与语音自然听感。实测 Silver 在高通 855 单核上，解码 40ms 的语音信号只需要 5ms 的计算时间，流畅支持各种实时互动场景。码率最低可达 2.7kpbs，更省带宽。

· 声网Agora 实时音频 MoS 方法上线

声网基于在全球大规模商用的客观实时数据和实践总结，在去年年初正式推出自研的用于评价实时音频用户体验的无参考客观评价方法——声网Agora 实时音频 MoS 方法。开发者在调用该方法后，可实时地客观判断当前用户的音频互动体验，给自身业务、运营的优化提供重要的参考数据。

· SD-RTN™ 传输质量持续优化，用户体验更上一层楼

过去的一年中, 声网持续迭代 SD-RTN™的质量观测和优化体系，进一步改善终端用户的接入质量。相较于去年的 34.35%, 目前全球 68.06%的用户享有优秀的接入体验。

对于区域内（即互动用户在同一个地区网络下）的网内传输也进行了进一步优化, 主要区域内已经能做到 99.5%的时间 jitter 200 到达率 99.9%.

· AI Ops 落地，为高质量的 RTC 服务无间断保驾护航

随着用户规模的增长和网络覆盖工作的深入, 声网 SD-RTN™的规模在不断扩张。

如今行业都有一个共识，即运维复杂度在迅速增加，然而传统运维已经捉襟见肘。但是，声网对SD-RTN™网络质量和用户体验的追求却从未松懈。

为此, 声网投入了巨大的资源和人力，克服了 AI 工程化落地的难点，将智能运维全面应用于 SD-RTN™的日常运维中，解决了传统运维的痛点:

· 7*24H 不间断保障；

· 高一致性和高质量的执行结果；

· 统一高效的运维效率。

得益于 AI Ops 的落地，声网在SD-RTN™规模不断增长的同时，提供了更高质量的 RTC 服务。在下一阶段，将继续深挖算法的潜力并将其价值在更多的运维场景上展现。

· 自研传输协议在多个业务场景落地

声网自研的传输协议 AUT (Agora Universal Transport) 在 RTC，FPA等多个业务场景落地，在异构网络下为这些场景提供了针对性的弱网对抗，安全保护和网络评估能力。

在协议对比测试中，在带宽受限情况下，20～500ms 的 RTT，3%~50%的丢包条件下，大文件传输时相比于 QUIC，传输速度提升 10%~100%，实时数据传输性能相比于 SRT，到达率提升 3%～25% 升，抖动降低 10%～70%。通过连接层面对移动和有线网络的特性适配以及流级别独立信道编码能力，配合声网媒体层面优化，可以做到 80% 丢包不卡顿。AUT 可为用户带来更好的实时互动体验。

· 自研 FEC 算法，并提交国际 RFC 草案

FEC（Forward Error Correction），前向纠错，是一种通过在网络传输中增加数据包的冗余信息，使得接收端能够在网络发生丢包后利用这些冗余信息直接恢复出丢失的数据包的一种方法。FEC 也是实时传输中最常用的丢包处理策略之一。声网也有一套自研的 FEC 算法可配合视频 SVC 编码实现不对等保护。在相同的丢包率下，声网自研 FEC 比广泛使用的 RS 编码恢复效率高 50%。不仅如此，声网还将这套 FEC 算法作为 RFC 草案，提交给了 IETF 。

提升体验，开源与共建

· 持续支持跨平台开发

近两年 Flutter 的热度不减。跨平台框架对于开发者们的重要意义不言而喻。去年 Flutter 发布了 2.2 版本，针对 Flutter 在 iOS、Android、Web 等平台有大量的优化更新。而声网 Flutter SDK 也在随之进行了迭代，目前已支持 Flutter 全平台。

同时，声网仍一如既往地持续支持跨平台开发框架。去年更新、优化了面向 Flutter、Unity、React Native、Electron 等框架、平台的声网 SDK。希望可以帮助更多跨平台框架的开发者，快速构建实时互动场景。

· 自研搜索算法，优化文档体验

声网进一步优化了示例项目 Readme 内容，以及海外用户的文档体验。同时，文档中心上架了自研的搜索算法，通过语义分析、近义词匹配等方法，很大程度上改善了文档内容搜不到、搜不准的问题。

· 上线问答机器人，7*12 小时技术支持

为了提升技术支持方面的体验，声网 console 上线了两个新模块：智能客服模块与聊天对话模块，并将工单技术支持时间延长至 7*12 小时。

为了让开发者可以多一个新的方式，能使问题得到更快速地解决。声网在 console 增了智能客服模块。

同时，为了提升工单沟通效率，声网还在工单支持页面中增加了「在线支持」，开发者可直接与声网的工程师对话，平均 10 分钟以内会得到回复。

开源之行，积于跬步

声网从最初的开源技术（WebRTC）传播者，到后来一步步开始尝试开源自研的一些算法（例如编解码器 SOLO）。希望可以通过开源为实时互动行业带来更多实用、有诚意的项目。

去年声网开源了两个项目，一个是iOS/Mac 上的轻量化的性能测试组件——Moonlight。它可以单独集成在任何 App 中实现自动化性能数据的采集，你可以非常轻松的获取到 App CPU、System CPU、App Memory、System GPU 以及 GPU Info 的数据。

另一个是开源教室项目 Flat。其产品是基于各种成熟的云服务搭建的，具备可以直接用于实际业务的能力。而且，该项目不绑定特定的云服务，开发者可使用 WebRTC 或自研技术替换其中的组件。目前 Flat 已获得 3.3k Star。

· 与开发者共建实时互动开源项目 YOMO VHQ

除了不断提升自身产品与服务的硬实力，声网也在通过社区开源合作的形式，与合作伙伴一起探索实时互动技术的边界。声网与面向实时数据交互应用的开源开发框架 YOMO 达成了合作，共同开发了线上虚拟空间 VHQ 项目。

在这个线上虚拟空间中，你可以集结位于全球各地的同事或朋友，让你们仿佛置身于同一个房间。声网为 VHQ 提供了低延时而稳定的实时音视频支持，你可以在空间中随意走动，彼此交谈的音量也会随着虚拟空间中两个人的距离而改变。

· 与开发者互动，多维度改进开发体验

去年声网通过多种维度的方式与开发者互动：有每个月至少一次的 Agora Talk 直播课，邀请音视频领域、大前端、移动开发等方面的工程师，为开发者们分享技术经验；与津津乐道联合出品「编码人声」播客，聊聊程序员的生活与成长；还组织社区开发者一起参与内容共建，共同交流与分享。

同时，为了不断改进的开发者体验，在过去的一年中，声网开设了各种各样的渠道来收集开发者的反馈，包括问卷、线上访谈、线下的 U1S1 开发者交流会、SDK 集成体验活动等形式。

通过这些活动，声网收集了大量在以往难以发现的开发者体验相关的改进点。后续也将不仅会根据开发者的意见和反馈来改进，还会在与开发者们形成长期持续的交流和互动。

· NG SDK 与开发者的第一次亲密接触

声网的架构师与工程师们，在总结以往经验的基础上，收集了大量来自开发者的意见与反馈，进行了许多的设计尝试与调整，经过内部的长期打磨后，首次推出下一代实时音视频 API。

声网在 RTE2021 大会上，还举办了一场 Workshop。开发者们体验了声网下一代的 API。现场多位开发者，顺利用新一代 API 实现了实时音视频通话的搭建，并根据自己的兴趣实现了更多进阶功能，例如配合摄像头、屏幕共享、媒体播放器，实现多路视频流同时发送，以及使用相芯科技、云知声的云市场插件，体验插件系统接入。