东京奥运会已落下帷幕。比赛期间,全球亿万观众蜂拥至各大转播平台观看奥运赛事,平台直播能力显的尤为重要。阿里云作为视频直播平台的技术提供商,凭借在产品技术、资源带宽、服务保障等方面优势,可为各大转播平台提供全链路技术支持和保障,确保极致观赛体验。本文分享阿里云视频直播技术是如何实现的。
根据第三方机构艾媒咨询预测,从2017年至2020年,整个视频直播始终处于高速的发展阶段,2020年视频直播带动市场营收规模达到万亿元,覆盖用户总数达到5.26亿。
视频直播应用场景从泛互联网行业的视频娱乐、电商购物等,向在线教育、视频安防、广电传媒、医疗服务等传统行业延伸,“直播+”成为新趋势。视频直播市场空间巨大,参与方众多,竞争激烈。为了能够吸引到更多用户,这就要求直播厂商能够做到直播内容精细化、直播场景丰富化、营销模式创新化,而实现这些效果是需要直播平台支持实时加互动并在直播的基础上结合短视频,从而实现直播整体效果创新。
直播厂商如果选择自建直播平台,必然会面临极大挑战:
阿里云视频直播是基于领先的内容接入与分发网络和大规模分布式实时视频处理技术打造的音视频直播平台,提供易接入、低延迟、高并发、高清流畅的音视频直播服务。
如上图,主播通过采集设备采集直播内容后,通过推流SDK推送直播流,视频直播服务通过边缘推流的方式将直播流推送至阿里云直播中心,推送的视频流通过CDN边缘节点进行加速保证上行传输的稳定性。视频流推送至阿里云直播中心后,可按需对视频流进行转码、时移、录制、截图等处理。处理好的视频流通过CDN内容分发网络,下发至观众的设备中进行播放。移动端的播放设备可以集成阿里云提供的播放器SDK进行开发。直播视频除了可以进行转码截图等操作外,还可以进行直播转点播的操作,将录制下来的视频转至点播系统中再进行点播播放和短视频云剪辑。方便直播与短视频内容生产和传播的联动。
1 全球加速:一张覆盖全球的边缘云节点网络
阿里云拥有遍布全球2800+边缘云节点,9大直播中心,支持海外业务无缝布局,通过阿里云搭建的全球实时音视频通信网(GRTN),全世界各地的直播流可实现就近接入,通过高速通道快速传输至指定直播中心进行内容分发。
2 极致视听:自研音视频技术确保最佳体验
阿里云窄带高清技术 ,针对视频画面场景、动作、内容、纹理等细节进行智能分析,例如针对足球赛事中的足球、队员、草地进行不同策略的编码优化,在画质输出的同时,降低码率,节省带宽成本20%~40%。
左图人物画面是普通转码,右图人物画面是窄带高清转码。当观众看到这幅画面时,焦点在人物脸部,智能分析会把更多的码率分配在人脸上从而实现整个人脸的纹理识别,让细节更加清晰。然后看下对应码率分析,当画面非常复杂的时候,比如左边画面非常复杂的时候,码率是在1.5M~2M之间。当整个画面慢慢的趋于平静,比如说足球集团中场休息的时候,就可以通过智能识别来降低这个码率的消耗。这样的话平均下来看,整体带宽就降低了30%~40%。即前面所说在保证画面更加清晰的前提下节省带宽,这就是阿里云的窄带高清2.0技术 。
同时,阿里云还有自研实时高性能视频编码Ali S265,全面支持H265 1080P高质量实时转码,支持视频增强算法处理,提升视频画质。直播编场景下编码,有一个非常关键的条件,就是说编码必须达到实时,也就是1小时要能把1小时的视频转码,或者更精细的比如1秒,需要把1秒1个的视频的内容给实现转码,要保证到实时。阿里云S265就能保证1080P高质量实时转码,并且支持视频的一个增强处理算法,提升整个画面的一个画质。通过对比发现,经过Ali S265处理后的,动物后面的那个树树的那个雪花的细节明显就是做了一些增强。在保证实时和图像质量的情况之下做了一个增强的算法处理的,使得画面整体变得更加清晰,富有层次感。
3 技术领先:直播技术不断创新
低延时直播是在阿里云视频直播的基础上,进行全链路延时监控、CDN传输协议改造、UDP等底层技术优化,通过集成直播播放端SDK,支持千万级并发场景下的节点间毫秒级延时直播能力,弥补了传统直播3~6秒延时的问题,保障低延时、低卡顿、秒开流畅的极致直播观看体验。超低延时直播RTS具有多重的技术优势,可广泛应用于各行业场景,拥有数百家客户实践经验,低延时直播为业务提升带来巨大价值。
云导播依托视频直播、媒体处理服务,对传统视频生产工具进行云端再造,融合视频AI识别、双语翻译、多种互动能力,进行视频导播效果创新,无需采购硬件,随时随地使用。云导播提供控制台、API、Web SDK三类产品,按需接入,便于二次开发或直接使用,控制台交互简单易于上手,低学习成本。支持直播、点播视频源,及图片、文档、页面等多种内容源,最大6路视频源实时混编。多视角、实时图文包装组件、多语翻译字幕、视频AI等能力,对直播随时包装制作,一键同步线上,帮助打造精彩沉浸式的直播体验。
多机位功能针对活动现场的多个机位进行多路流的融合、切换播放,不同机位流通过视频帧级别的同步播放,使用户同时拥有多个观看视角,不错过任何精彩画面。基于深度算法的实时自动抠像技术实现虚拟演播厅,支持多种设备、多机位、异地开播,通过云端抠像合成能力,实现双屏幕、分屏、画中画等开播场景,打造沉浸式直播体验。用于快速聚合多个视频节目,创建轮播台类型直播间,丰富直播场景和内容形态。支持节目单的增删改查功能,支持节目内容的编辑设置。灵活调用、高效协同业务场景落地。
导播台ET实时字幕,集成导播台、达摩院ASR、翻译服务,提供直播流实时多语言语音转字幕服务,支持直播录制对翻译字幕的持久化存储,支持字体、背景、效果、显示时间等多种参数设置,支持中、英、法、西、俄多语言模版灵活调用,字幕实时叠加,将直播语音转为文字,翻译以字幕形式融入直播流中进行展示。
云导播还支持对直播素材、点播素材、图片、文字、动态H5组件素材、AI能力进行融合,重构视频内容生产链路,以多维度数据信息,增强用内容丰富度、拓展流量曝光和广告变现价值。
4 视频智能:视频AI功能应用
视频审核服务基于海量标注数据和深度学习算法实现,从语音、文字、视觉等多维度精准识别媒体文件中包含的违禁内容,包括色情、暴恐、广告、不良场景识别等多个功能模块,同时支持视频图像文件内容质量审核功能,保障内容安全。
推流SDK是基于阿里云产品的内容分发网络和音视频实时通讯技术,提供简单易用的开放接口、网络自适应的流畅体验、多节点的低延迟优化、功能强大的实时美颜等音视频直播技术服务。智能美颜是基于智能视觉算法、海量规模的人脸检测和识别技术,提供美颜、美型、美妆、滤镜贴纸等编辑加工能力。自研的人脸关键点定位技术,涵盖106个基础点位、280个高精度点位,效果真实。持续优化的智能视觉算法和实时渲染技术,保证自然流畅的使用体验。持续升级的美颜美型、滤镜贴纸玩法,不断扩充的素材库,创造更多乐趣。完善的开发者支持,快速响应客户需求,提供优质可靠的服务。
5 安全稳定:多种安全策略确保直播视频安全
视频直播支持访问控制,如Refer UA黑白名单、IP黑白名单等。支持播放中心鉴权和业务方远程鉴权,播放中心鉴权即推流和播放的URL鉴权,安全URL鉴权支持自定义的鉴权Key和鉴权失效时间,动态生成鉴权URL。业务方远程鉴权是透传业务请求信息给客户自定义的鉴权中心判断合法性。
通过主备流切换,实现正常直播的可靠稳定,整个切换过程简单易操作。阿里云视频直播服务还支持通过EdgeScript实现自定义鉴权,简单方便,客户可以根据业务特征自定义,部署上线快。EdgeScript可在直播CDN边缘节点执行自行编写,客户无需关心代码部署的机器硬件配置、部署region、调度和弹性扩容,代码一经上传,即可完成全球阿里云直播边缘云节点的部署,在全球边缘执行,根据代码逻辑个性化处理全球各地的请求。
直播视频加密是云端一体的视频加密解决方案,采用私有加密算法,对视频流加密确保视频流安全传输。支持行业通用DRM加密,支持多终端、多平台、全方位进行版权保护。该加密方法拥有独立加密密钥,避免单一密钥泄密引起大范围的安全问题,支持加密转码+解密播放,动态密钥管理更安全地保护视频资源,可有效防止视频泄露和盗链问题。数字水印技术在直播视频中应用,实现大型赛事直播版权视频内容搬运侵权的取证、溯源和追责。
为满足客户运维需求,阿里云支持对直播推流质量,观看用量,错误状态,观看人数,播放流量带宽,播放质量等秒级实时的管理,超低的延时率可及时获知直播过程中的异常状况。通过实时日志推送功能,将直播域名日志实时推送至日志服务,并进行日志分析,便于快速发现和定位主播推流问题,或者分析直播观看用户数据为运营策略提供依据。
按照应用分类,视频直播典型场景有大型体育赛事直播、泛娱乐直播(秀场、游戏、社交)、电商直播、晚会活动直播、在线教育直播、企业直播等。
1 大型赛事直播
2 泛娱乐直播
3 电商直播
4 晚会活动直播
5 在线教育直播
6 企业直播