多场景实时音视频通信激增背后,RTC 技术大爆发

作者:OSCHINA2021.08.03 14:32浏览量:188

简介:为何市场需要快速集成实时音视频的能力?

音视频社交软件 Clubhouse 的估值较 3 个月前又翻了两番。当地时间 4 月 19 日,Clubhouse 宣布完成 C 轮融资,估值已达 40 亿美元。

而这只是实时音视频通信大爆发中的冰山一角。

在马斯克“直播带货”的催化下,越来越多的语聊房产品出现,Facebook 也被爆出即将推出 Clubhouse 同类竞品。不仅如此,在线办公、在线教育、泛娱乐场景中对实时音视频的需求也在激增。

得益于 5G、RTC 等技术的发展,一间语聊房、或是活动直播间、在线课堂等都可以快速完成搭建并发布,进一步刺激实时音视频市场。以融云实时音视频服务为例,开发者只需三步,就可以在 30 分钟内快速集成音视频能力:

  • 第一步,申请开发者注册,官网会发送 App key 等信息,下载 SDK。这一步骤通常十分钟内可以完成。
  • 将下载好的 SDK 集成到自己的开发工具里,初始化 SDK,然后加入房间。初始化 SDK 可帮助初始化设备、音视频相关参数等。
  • 发布自己的音视频流和订阅别人的音视频流。

5G 时代需要更便捷的 RTC 技术服务

为何市场需要快速集成实时音视频的能力?

一方面,在 5G 的作用下,许多传统互联网场景中正在嵌入实时音视频功能。另一方面,专注应用层面的厂商需要以最小的成本,最快的速度上线功能,以支撑产品的发布和运营。

融云 CTO 任杰认为,5G 给 RTC 市场带来两大方面的变化。

一是 5G 的宽带和延时有较大提升,所以未来高清的、低延迟的音视频通话将会成为主流。在 4G 网络之下,实时音视频通话主流的为 720p,1080p 稳定性略有不足。而在 5G来临之后 ,1080p 甚至是更高清的 4K、8K 通话场景会普遍增加。

二是增加各种物联网设备接入。此前 RTC 实时音视频领域中,主要是移动端、PC 端应用。其他物联网设备如车机、摄像头、大屏设备等接入较少。任杰认为,在 5G 到来之后,各种物联网设备的接入场景也会增加。从技术层面看,5G 解决延迟问题之后,大量设备都可接入,许多实时操作系统 ATOS ,以及 Linux 在 RTC 领域的应用场景也会变得更加主流。

5G 的到来孕育了许多新生的实时音视频应用场景,这也意味着,RTC 技术服务商需要提供更好的支持。

“我们无论何时何地都****能提供高清、稳定、流畅的音视频体验。”任杰总结,RTC 领域相关技术很多,但融云的业务目标仅此一个。当然,在呈现给用户优质的音视频体验背后,融云会去解决网络带宽限制、音视频处理等等技术问题。

RTC 技术服务商在做什么?

在高清、稳定、流畅的音视频服务,以及“30 分钟快速集成”背后,RTC 技术服务商要做的工作很多。

通常,RTC 技术栈可以分为两方面:端上的处理和 server 端的处理。

端上的处理,主要为声音和视频的编解码。编解码完成后会进行系列声音和视频的前处理,前处理包括回声、降噪,啸叫抑制,声音增益,3A 算法等。server 端类似端上处理技术,如录音录像等,但更侧重传输层面,如网络的优化等。

网络优化又可以分成两大部分:对抗弱网,分布式网络和调度。无论是5G、4G 还是 WiFi,只要是无线信号,都会遇到信号遮挡、衰减的问题,表现为网络不太稳定,经常在瞬时的丢包会比较大,延迟也可能会突然变大。

另外,端点设备接入网络路由之后,在两个端或是多个端之间进行实时音视频流的传输,需要经过多个网络节点。那么哪一套路径能让端点更好地接入,使传输流更稳定,便是网络路由的策略,也是分布式网络与调度要解决的问题。

对于这些问题,融云从以下三方面做了优化:

第一,弱网对抗相关算法的优化,包括重新定义一些算法,对随机丢包和带宽受限,要严格区分并且能够快速反应等。

第二,动态路由策略方面,融云会做一些提前探测,动态检查链路。大概可在3~4秒之内发现链路变坏的情况,并立即重新调度,包括服务端、负载的一些调度,即分布式部署。

第三,全球网络的部署,融云音视频使用大量 IaaS,也和全球的一些机房合作,尽可能多地部署节点。同时对这些节点的状态进行实时监控、扩容、增加节点等。后台也有音视频质量的 QoE 系统监控整个的网络,实时进行调优。

做开发者的支持方,而非竞争对手

“我们是 PaaS 提供方,会向上做 aPaaS,但不会直接做 to c 的产品”,任杰表示,只要复用程度较高,融云就会考虑将其向上封装,帮助开发者的使用更加贴近场景化,但融云始终是面向开发者服务,因此不会做 to c 产品,和开发者客户形成竞争关系。

以语聊房为例,融云为语聊房应用提供的支持集中在技术层面,使其呈现出的声音效果更好。

在开发者花了 30 分钟快速集成一个语聊房应用之后,融云还会再根据业务场景做 SDK 调用和开发,以便开发者可以更快速地实现使用混音、添加背景音乐、麦位管理、网络信号展示等各种功能。

一是语聊房中麦位的相关控制。任杰表示,麦位支持依靠信令管理,因为有多年 IM 领域的积累,信令是融云的传统优势,并且在语聊房方面融云也有一套完整的技术支持,可以更容易、更轻松地完成麦位管理。二是实时音视频中声音的相关处理,包括美声、变声,各种音效,混音之后的声音效果等等。

任杰指出,由于 RTC 领域涉及到许多具体的音视频概念,以及音视频相关的质量控制,开发环境有一定复杂度。SDK 本身越场景化,就会越容易集成,因为这对于开发者来说是隐藏技术细节的,所以大家提出应该往 SaaS 化方向发展。

“在一定程度上我非常同意。对于我们 PaaS 能力的提供方 ,也最希望降低开发者成本,所以我们也在往上做,往 SaaS 和 PaaS 之间,做 aPaaS 能力。比如我们在提供音视频能力之外,也提供 MeetingLib 整套的控制信令体系,和音视频流的一些操作直接相关。 ”

此时开发者使用这种 SDK,就无需太关注音视频流的一些处理。比如需要禁麦时,就在MeetingLib里通过一个标准接口操作。反之,如果没有MeetingLib,开发者也可以用RTCLib自己做,但是就需要自己在应用侧发禁令,或者调用 IM 能力去给每个人发禁令,禁掉每个人的麦克风。

“所以我们往上做一层,开发者就不用关注每一道具体流程,每一个用户的状态。”任杰表示,这就是他们目前正在做的。

此外,在客户支持层面,融云也总结出最需要支持的两类问题。

一类是 SDK 接入,即开发集成相关问题。任杰透露,客户一般会先看文档,或者是融云提供服务的支持体系,工单、支持群,以这种方式去帮助客户完成集成工作。但由于大多数开发者对音视频技术栈较为陌生,在遇到一些非通用的具体开发概念时会有难处。

对此,融云会在相关文档中提供概要性说明,如编码、帧率、码率等基本概念的说明等。此外还有一些程序性说明,详细描述 SDK 集成流程;提供 quick demo 以辅助开发者快速使用和集成。

另一类则是质量相关的支持。因为音视频在实时通话过程中受网络影响相对较大,端点网络可能出现问题。“在这个过程中可能需要排查一系列的问题,我们也有自助平台——北极星。”任杰称,北极星本质上是音视频的一套 QoE 体系。这套体系会记录每一通通话;全部过程中音视频流的传输情况,包括传输的码率,卡顿率,是否有黑屏等系列数据指标,数据曲线;开发者也可以在平台上自助查询通话质量,统计指标等。

下一代 RTC 市场

作为 RTC 市场技术服务商,融云最近正在做更新鲜的尝试。

5G 催生了更多 VR 应用,很快,VR 直播应用也会到来。融云已和 VR 行业多家企业达成合作,目前为其提供远程维修、技术指导等服务。“随着 5G 的推广,娱乐业真正大规模的 to C 场景会逐渐出现。”

泛娱乐应用是下一代 RTC 应用的一大场景,除了正在爆发的语音房之外,还有直播、狼人杀、剧本杀、KTV 等等,以及不久的将来与 VR 融合的新场景。

此外还有办公类应用,包括会议场景,监控场景等。任杰举例,比如在公安、保安,应急指挥工作的监控场景中,也会涉及到一些设备的接入,包括 GB28181 的支持,SIP 的支持等等。在线教育场景中也涉及到许多细分应用,如小班课、大班课、大直播、双师等等。

近期,为了更好的赋能开发者探索更多新鲜应用,融云还发起 20 万分钟免费音视频通享活动。凡是开通实时音视频功能的用户,立享每月免费200,000分钟,视频最高可支持1080P 超高清分辨率。点击参与活动。

在 RTC 应用爆发的当下,融云作为通信云领域引领者,结合多年 IM 领域能力,已经可提供覆盖全通讯场景的技术服务。

任杰表示,融云的优势来自多方面:融云是公有云的 PaaS 提供方,IM 也做了很多年,而 99% 以上的 RTC 场景中都会用到 IM 相关能力,二者结合,融云会有很大的优势;此外,融云拥有非常专业的大规模团队,并且在音视频技术上大力投入,不断迭代技术。“我们一家服务商可以通过‘RTC+IM+PUSH’的整合通信能力,以一套SDK覆盖所有通信场景,只要找我们融云一家就可以完成这件事。”