您好,欢迎进入u8国际电动伸缩门有限公司官网!
u8国际|u8国际官方网站|u8国际网址最新

联系我们

邮箱:youweb@admin.com
电话:@HASHKFK
地址:广东省广州市番禺经济开发区 在线咨询

u8国际常见问题

u8国际-u8国际官方网站-网址最新音视频技术原理及应用

发布日期:2024-11-04 18:53 浏览次数:

  u8国际,u8国际官方网站,u8国际网站最新,u8国际网站,u8国际网址,u8国际链接麦克风收集到的音源在本质上属于模拟信号。采样过程是将时间连续的模拟信号转变为时间离散、幅度连续的抽样信号,从而在时间轴上实现对信号的数字化操作。量化则是把时间离散且幅度连续的抽样信号进一步转换为时间离散、幅度离散的数字信号,在幅度轴上完成对信号的数字化处理。编码是把量化后的信号进行编码,形成由多位二进制码组成的码组来表示抽样值,以此完成从模拟信号到数字信号的转换,即按照特定格式记录采样和量化后的数字信息。编码后的二进制码组通过数字信道进行传输,在接收端,经过译码和滤波等操作,最终还原为模拟信号。

  理论上任何数字音频都无法做到完全还原模拟信号。而 PCM 编码作为模拟信号转换为数字信号时的原始编码,代表着数字音频的最 佳保真水平,因此被约定为 “无损编码”。音频压缩是对 PCM 编码进行的二次编码,其目的在于减小原始 PCM 编码的存储体积。音频二次编码分为两类,即有损编码和无损编码,也称为有损压缩和无损压缩。其中,无损意味着与 PCM 编码相对比,音质完全相同。而有损则是相较于 PCM 编码,会损失一部分音频质量。

  人耳能感知的声音信号频率范围为 20Hz~20KHz,在此范围之外的频率信号均可视为冗余信息。人耳听觉还具有生理和心理声学现象,当强音信号与弱音信号同时存在时,弱音信号会被强音信号所屏蔽,此时弱音信号就可以视为冗余信息。这便是人耳听觉的掩蔽效应,主要表现在频谱掩蔽效应和时域掩蔽效应。在各大音乐平台的无损音质和高品音质对应的就是无损压缩和有损压缩,无损音质具有更高的保真度和还原度,适合专业音乐制作、高端音频设备等领域;无损压缩具有更高的码率和传输效率,适合大多数非专业的普通听众。通常情况下,高品音质的存储空间一般只有无损音质的三分之一。

  帧内压缩,亦称为空间压缩。在对一帧图像进行压缩时,仅仅考虑本帧的数据,而不涉及相邻帧之间的冗余信息,这在实际操作中与静态图像压缩较为相似。帧内通常采用有损压缩算法,因为帧内压缩是对一个完整的图像进行编码,所以能够独立地进行解码和显示。不过,帧内压缩一般难以达到很高的压缩率,其效果与编码 JPEG 大致相当。帧间压缩的原理在于:相邻的几帧数据具有很大的相关性,或者说前后两帧的信息变化非常小。也就是说,连续的视频中其相邻帧之间存在冗余信息。根据这一特性,对相邻帧之间的冗余量进行压缩,就能够进一步提高压缩量,减小压缩比。

  一帧图片经过 H.264 编码器之后,会被编码为一个或多个切片(Slice)。而 NALU(Network Abstraction Layer Unit,网络抽象层单元)则是这些切片的载体。切片的存在主要是为了限制误码的扩散和传输。切片头中包含着诸多重要信息,如切片类型、切片中的宏块类型、切片帧的数量、切片所属的图像以及对应的帧的设置和参数等。切片体所包含的数据则是宏块。宏块作为视频信息的主要承载者,除了含有宏块类型、预测类型、编码块模式和量化参数之外,还包含着每一个像素的亮度分量(Y)以及色度信息(蓝度分量 Cb、红度分量 Cr)。视频解码的主要工作就在于提供高效的方式,从码流中获取宏块中的像素阵列,从而实现视频的播放和显示。

  H.265 引入了编码树单元(Coding Tree Unit,CTU)和编码树块(Coding Tree Block,CTB)。在 H.265 中,CTU 的概念与 H.264 的宏块有一定的相似性,但也存在明显区别。H.264 的宏块采用固定的 16×16 的离散余弦变换(DCT),而 H.265 的 CTU 则同时运用了离散余弦变化(DCT)和离散正弦变化(DST),并且像素大小为 4×4 到 64×64 的动态可变块,这种设计使得 H.265 在处理不同类型的图像内容时更加灵活高效。其中,每个 CTU 也是由一个亮度 CTB(Y)、两个色度 CTB(Cb 和 Cr)以及一些关联的语法元素组成。这些语法元素为解码器提供了必要的信息,以便正确地解析和重建视频图像。通过这种方式,H.265 能够在保证图像质量的前提下,进一步提高压缩效率,减少视频文件的大小,适应不同的网络环境和存储需求。

  时域去噪算法,基于时间域的滤波过程,发生在时间轴上,常见的包括移动平均法、中位值法、标准差法等。移动平均滤波器主要通过计算信号的移动平均值来达到消除噪声的目的。其算法的主要思想是对信号进行滑动窗口处理,将窗口内的数据进行平均化操作,从而得到平滑后的信号。这种方式能够有效地去除周期性噪声和高频噪声,因为这些噪声在短时间内的波动较大,通过平均化处理可以降低其影响。同时,移动平均法还能保留信号的整体趋势,不会使信号在去噪过程中失去其主要特征。

  频域去噪算法,基于频谱分析的滤波过程,发生在频率轴上,常见的包括傅里叶变化、离散余弦变换等。对于音频信号而言,离散傅里叶变换(DFT)是信号分析的最基本方法,它能把信号从时间域变换到频率域,进而研究信号的频谱结构和变化规律。通常会对音频资源进行一次快速傅里叶变换(FFT),然后再用滤波器过滤噪声,常用的包括低通滤波器、高通滤波器、带通滤波器和带阻滤波器等。低/高通滤波器分别削弱高/低频信号而保留低/高频信号;带通/阻滤波器是将某个频率范围的信号通过/削弱而削弱/通过其他频率范围内的信号。

  小波去噪算法,对含噪声信号进行小波变换,将信号从时域转换到小波域;对变换得到的小波系数进行某种处理,根据设定的阈值,将小于阈值的小波系数视为噪声并进行相应的处理,而保留大于阈值的小波系数,认为它们主要代表信号的特征;对处理后的小波系数进行小波逆变换,得到去噪后的信号。小波去噪问题的本质是一个函数逼近问题,即如何在由小波母函数伸缩和平移版本所展成的函数空间中,根据提出的衡量准则,寻找对原信号的最 佳逼近(阈值)。通过这种方式,能够尽可能地区分原信号和噪声信号,从而实现有效的去噪。

  维纳滤波算法是一种以最小平方为最优准则的线性滤波算法,利用输入信号与量测信号的统计特性,通过求解维纳-霍夫方程获得在最小均方误差准则下的最 优解。由于维纳滤波器要求得到半无限时间区间内的全部观察数据的条件很难满足,同时它也不能用于噪声为非平稳的随机过程的情况,所以在实际问题中应用不多。卡尔曼滤波算法是维纳滤波算法的发展,它解决没有期望响应作为参考信号和通信环境为非平稳时的状态估计问题,因此卡尔曼滤波器在各种最优滤波和最优控制问题中得到极其广泛的应用。

  自适应去噪算法,根据噪声的特征来自动调整滤波器的系数,主要算法有 SDA、LMS、RLS 等。自适应滤波是近年以来发展起来的一种最 佳滤波方法,原理是利用前一时刻获得的滤波结果,自动调节现时刻的滤波器参数,以适应信号和噪声的未知特性,它是在维纳滤波、卡尔曼滤波等线性滤波基础上发展起来的一种最 佳滤波方法。其滤波器分为线性自适应滤波器和非线性自适应滤波器。绝大多数自适应滤波器皆为线性滤波器,而非线性自适应滤波器包括 Voetlrra 滤波器和基于神经网络的自适应滤波器。

  在麦克风与扬声器互相作用影响的双工通信系统中极易产生声学回声。声学回声信号根据传输途径的差别可以分别直接回声信号(线性回声) 和间接回声信号(非线性回声) 。近端扬声器将语音信号播放出来后,被近端麦克风直接采集后得到的回声为直接回声。直接回声不受环境的影响,主要与扬声器到麦克风的距离及位置有很大的关系,因此直接回声是一种线性信号。而近端扬声器将语音信号播放出来后,语音信号经过复杂多变的墙面反射后由近端麦克风采集,这种回声为间接回声。间接回声的大小与房间环境、物品摆放以及墙面吸引系数等等因素有关,所以间接回声是一种非线性信号。

  衡量声音的大小往往会用到“音量 Volume”和“响度 Loudness”,分贝(dB/dBSPL)不能像赫兹、克、米那样给出一个客观的量,而只能给出两个相同物理量的比值,所以是一种相对的概念。人耳对不同频率的“响度”感受存在差异,如下图的“等响曲线”图。其中 phon 是响度级的单位,规定在 1000Hz 时,1dBSPL=1phon。在 40phon 以上的区域,当声压提高十倍时,人类的听觉感知只会提高两倍。为了让响度和听觉感知尽量呈线性关系,需要引入另一个响度单位 sone,40phon 等同于 1sone。

  过去,工程师们常常结合使用峰值表、VU 表以及他们的耳朵来确定音轨的真实感知响度,然而,这种方式存在一定的局限性。2000 年,Katz 提出了一种 K-Metering 的计量标准,该标准将过去的最 佳概念与当前的心理声学相结合。虽然不同类型的音乐需要不同的动态余量,但这种方式能够将音乐的平均水平标准化。在此基础上,将 K-Metering 进一步完善后,现代标准计量方法 LKFS 被国际电信联盟(ITU)制定并发布,从而实现了视频格式音频电平的标准化。如今,大多数广播、电影和视频游戏公司都采用 LKFS 作为测量响度的标准。LKFS 的采用使得音频制作和播放更加规范和统一,有助于提高音频质量和用户体验。同时,它也为不同平台和设备之间的音频兼容性提供了保障。

  时间差的存在以及声功率随传播距离衰减的特性,双耳和音源的距离差异以及头部的遮挡,会使得到达左耳与右耳声音的声压级不同,进而形成声级差 ILD(Interaural Level Difference)。ILD 同样是人类判断声音方位的重要依据之一。当声音从不同方向传来时,由于距离和遮挡等因素,左右耳接收到的声音强度会有所不同。大脑通过对这种声级差的感知和分析,可以进一步确定声音的来源方向。例如,当声音从右侧传来时,右耳接收到的声音强度通常会比左耳大一些。

  人体滤波效应是指头部、肩颈、躯干会对不同方向的声音产生不同的作用,形成反射、遮挡或衍射。尤其是外耳,通过耳廓上不同的褶皱结构,对不同方向的声音产生不同的滤波效果,大脑通过这些滤波效果产生对声源方位的判断。当声音从不同方向传入耳朵时,耳廓会对声音进行特定的改变。不同方向的声音经过耳廓的反射、衍射等作用后,其频率特性会发生变化。大脑通过识别这些滤波效果,能够产生对声源方位的判断。例如,声音从前方传来时,耳廓对声音的改变相对较小;而当声音从后方传来时,耳廓会对声音进行较大程度的改变。

  时间差、声级差、人体滤波效应这三个要素合称为头部相关传输函数(Head-Related Transfer Functions, HRTFs)。而头部的晃动会改变时间差、声级差或人体滤波效应。Y轴 - 左右定位 = 时间差 + 声级差 + 头部晃动;X轴 - 前后定位 = 人体滤波效应 + 头部晃动;Z轴 - 上下定位 = 人体滤波效应 + 头部晃动。头部的晃动与时间差、声级差、人体滤波效应相互配合,共同帮助人类在三维空间中准确地定位声音的来源。

  杜比全景声(Dolby Atmos)作为杜比实验室研发的 3D 环绕声技术,是目前空间音频最为成功的应用之一。杜比全景声突破了传统意义上 5.1 声道、7.1 声道的概念,不再局限于固定的声道布局。它能够紧密结合影片内容,呈现出极具动态的声音效果。在观影过程中,声音可以随着画面中的情节发展而变化,从轻柔的低语到震撼的巨响,都能精准地传达,让观众仿佛置身于影片的世界之中。更真实地营造出由远及近的音效是杜比全景声的一大特色。通过对声音的精细处理,观众可以清晰地感受到声音从远处逐渐靠近,或者从近处渐渐远去,极大地增强了沉浸感。配合顶棚加设音箱,杜比全景声实现了声场包围。声音不再仅仅从前方和两侧传来,而是从各个方向包括上方包围观众,展现出更多的声音细节。无论是雨滴落下的细微声响,还是飞机从头顶飞过的轰鸣声,都能被清晰地捕捉到,从而极大地提升了观众的观影感受。

  带宽预测是实现码率自适应的基础,原理是根据网络实时状况或客户端延时自动调整流媒体码率。带宽预测通过控制音视频发送的数据量,避免在网络带宽不足时发送超出网络带宽的数据,导致长延时和高丢包等问题。包括基于延时的带宽预测算法、基于丢包的带宽预测算法以及最大带宽探测算法等。而码率自适应包括两种主流算法:基于速率的码率自适应算法 Rate-based ABR Algorithms:衡量网络连接速度、根据速度改变视频加载质量;基于缓冲的码率自适应算法 Buffer-based ABR Algorithms:提前加载视频未播放的部分。

  JitterBuffer 本质上是用时间换稳定性,以增大端到端的延迟为代价来换取视频通话的流畅性。主要工作流程包括接收数据包、排序数据包、缓冲数据包,WebRTC 上述过程称为组帧处理逻辑,分为包的排序(PacketBuffer)、帧的排序(RtpFrameReferenceFinder)以及 GOP 的排序(FrameBuffer)。当网络抖动时,增加 Buffer 的容量,多缓存一些数据作为缓冲池;当网络稳定时,减小 Buffer 的容量,降低资源传输端到端的延迟。

  MPEG 和 ITU-T 两个组织在 2000 年组成联合视频工作组 JVT,在原 H.264 的基础上共同研发,颁布更为成熟的 H.264/AVC 协议。ITU-T 更愿意称之为 H.264,而 MPEG 组织则称之为 MPEG-AVC。H.264/AVC 的压缩方法大致包括:分组,把几帧图像分为一组(GOP),防止运动变化;定义帧,每组内各帧图像定义为三种类型,即 I帧、B帧 和 P帧;预测帧,以 I帧做为基础帧,预测 P帧,再由 I帧和 P帧预测 B帧;数据传输,最后将 I帧数据与预测的差值信息进行传输。

  2018 年 MPEG 和 VCEG 成立的联合视频探索小组(JVET)开始将 H.266/VVC 标准化。新标准要求在相同的体验质量的前提下,同 H.265/HEVC 相比,压缩率优化 30% 到 50%,并支持无损压缩;最大宏块从 64х64 增加到 128х128,支持 4K 到 16K 分辨率以及 VR 360°;支持具有 4:4:4、4:2:2 和 4:2:0 量化的 YCbCr 色彩空间;每个组件颜色深度为 8 位到 16 位;BT.2100 和 16+ 步高动态范围 (HDR);辅助通道,如深度通道、阿尔法通道等;从 0 到 120 Hz 的可变帧率;具有时间(帧速率变化)和空间(分辨率变化)可伸缩性的可伸缩编码;SNR、立体/多视图编码、全景格式和静止图像编码。

  AV1 是由 AOM(Alliance for Open Media,开放媒体联盟)于 2018 年制定的一个开源、免版权费的视频编码格式,是 Google VP10、Mozilla Daala 以及 Cisco Thor 三款开源编码项目共同研发的成果,目标是解决 H.265 昂贵的专利费用和复杂的专利授权问题并成为新一代领先的免版权费的编码标准(保持实际解码复杂性和硬件可行性的同时,在最 先进的编解码器上实现显著的压缩增益)。此外,AV1 是 VP9 标准的继任者,也是 H.265 强有力的竞争者。AV1 第一次引入仿射变换运动模型,打破传统的二维运动矢量模型的限制,不仅可以描述平移运动,同时能够表述如旋转、缩放等更加复杂的运动,有效的提升视频编码效率。AV1 比 H265/HEVC 压缩率提升约 27%。目前,硬件设备的兼容性问题是阻碍其大范围推广的主要因素之一。

  AVS 是基于我国创新技术和部分公开技术的自主标准,主要应用于超高清电视节目的传输。AVS1 编码(2006年)效率比原视频编码国家标准(等同于 MPEG-2)高 2-3 倍,与 H.264/AVC 相当,达到第二代信源标准的最高水平;AVS1 通过简洁的一站式许可政策,解决 H.264/AVC 专利许可问题死结,是开放式制订的国家、国际标准,易于推广;AVS2 编码(2016年)效率比第一代标准提高一倍以上,压缩效率超越国际标准 H.265/HEVC。AVS3 编码(2021年)采用更具复杂视频内容适应性的扩展四叉树划分,主要面向 8K 超高清,2022 年 1 月 1 日北京电视台冬奥纪实频道就是采用 AVS3 视频标准播出的。

  AVS 产品形态包括:1)芯片:高清晰度/标准清晰度 AVS 解码芯片和编码芯片,国内需求量在未来十多年的时间内年均将达到 4000 多万片;2)软件:AVS 节目制作与管理系统,Linux 和 Window 平台上基于 AVS 标准的流媒体播出、点播、回放软件;3)整机:AVS 机顶盒、AVS 硬盘播出服务器、AVS 编码器、AVS 高清晰度激光视盘机、AVS 高清晰度数字电视机顶盒和接收机、AVS 手机、AVS 便携式数码产品等。

  MP4 是最常见的数字多媒体容器格式,几乎可以用来描述所有的媒体结构,常用到 H.264/H.265 视频编解码器和 AAC 音频编解码器。MP4 文件是由一个个 Box 组成的,可以将其理解为一个数据块,由 Header+Data 组成,Data 存储媒体元数据和实际的音视频码流数据。Box 可以直接存储数据块,也可包含其它 Box,把包含其它 Box 的Box 称为 Container Box。每个 MP4 文件有多个 Track,每个 Track 由多个 Chunk 组成,每个 Chunk 包含一组连续的 Sample。Track 对于媒体数据而言就是一个视频序列或者音频序列,除 Video Track 和 Audio Track 外,还有非媒体数据,比如 Hint Track,这种类型的 Track 包含媒体数据的指示信息或者字幕信息。Sample 即采样,对应视频的一帧数据,音频的一段固定时长数据。Sample 是媒体流的基本单元,Chunk 是数据存储的基本单位。不管是 Track,还是 Chunk 和 Sample,都是以 Box 的形式存在。

  AVI(Audio Video Interleaved)音频视频交错格式,由 Microsoft 推出的一种多媒体文件格式,是 MOV 格式的竞品。AVI 曾经是一种非常流行的格式,几乎所有的播放器都支持这种格式。但 AVI 缺乏对有损编解码器的原生支持导致不兼容性,微软已经放弃了 AVI 容器,转而使用更新的、功能更丰富的 WMV 容器。WAV 则是 Microsoft 推出的一款标准数字音频文件,优点不失真,缺点体积大。

  WebRTC 是 RTC 在 Web 的一种实现形式,适用于各种实时通信场景,包括:点对点通讯,支持浏览器之间进行音视频通话,例如语音通话、视频通话等;电话会议,支持多人音视频会议,例如腾讯会议、钉钉会议等;屏幕共享,支持实时共享屏幕;直播,用于构建实时直播,用户可以通过浏览器观看直播内容。IM 即时通信,常用于文字聊天、语音消息发送、文件传输等方式通信,考虑的是可靠性(TCP);而 RTC 实时通信,常用于音视频通话、电话会议,考虑的是低延时(UDP)。

  M3U8/TS 是 HLS 协议的封装格式,分别表示播放列表文件和资源分片文件。.m3u8 的索引文件 是一个播放列表文件,且文件编码必须是 UTF-8 格式。TS 流最早应用于数字电视领域,包含十几个配置信息项,TS 流中的视频格式是 MPEG-2 TS。Apple 公司推出的 HLS 协议对 MPEG-2 TS 流做了精减,只保留了两个最基本的配置表 PAT 和 PMT,再加上音视频数据流就形成了现在的 HLS 协议,即由 PAT + PMT + TS 数据流组成。其中,TS 数据中的视频数据采用 H.264/H.265 编码,而音频数据采用 AAC/MP3 编码。

  FLV 是 RTMP 的媒体封装协议,由 FLV Header 和 RTMP 数据构成。FLV 文件是一种流式文件格式,意味着任何音视频数据都能随时添加到文件末尾,而不会破坏整体结构。像 MP4、MOV 等媒体封装格式都是结构化的,即音频数据和视频数据是单独存放。与其他主流直播协议相比,FLV 均具有不可替代的优势。与 HLS 技术相比,RTMP 协议在传输时延上要比 HLS 小得多;相对于 RTP 协议,RTMP 底层是基于 TCP 协议的,所以它不用考虑数据丢包、乱序、网络抖动等问题;与 WebRTC 技术相比,对于实时性要求并没有那么高的传统直播来说,RTMP 协议具有更好的音视频服务质量。FLV 也因此特别适用于涉及录制的相关应用场景。

  HLS(HTTP Live Streaming)是 Apple 公司提出的基于 HTTP 的流媒体网络传输协议,QuickTime X 和 iPhone 软件系统的一部分,由三部分组成:HTTP、M3U8、TS,其中 HTTP 是传输协议,M3U8 是索引文件,TS 是音视频的媒体信息。工作原理是把整个流根据索引文件(.m3u8)分成一个个小的基于 HTTP 的切片文件(.ts),每次只下载一些切片。当媒体流正在播放时,客户端可以选择从许多不同的备用源中以不同的速率下载同样的资源,允许流媒体会话适应不同的数据速率。在开始一个流媒体会话时,客户端会下载一个包含元数据的扩展 M3U 播放视频文件列表,用于寻找可用的媒体流 TS 切片。HLS 只请求基本的 HTTP 报文,与实时传输协议 RTP 不同,HLS 可以穿过任何允许 HTTP 数据通过的防火墙或者代理服务器。

  RTMP(Real Time Messaging Protocol)是基于 TCP 的流媒体网络传输协议,设计初衷是服务于流媒体服务器和 Adobe Flash Player 之间的音视频数据传输。因为是建立在 TCP 长连接协议的基础上,所以客户端向服务端推流这些操作的延时性很低约 5s。至于 HLS 起播理论上至少需要 1 个 TS 切片,而切片大小通常会在 10s 左右,因此延时也至少在 10s 以上,实际延时会在 20~30s,这是由于 HLS 使用的是 HTTP 短连接,频繁的处理握/挥手造成延迟比较久的现状。但 Apple 公司认为 RTMP 协议在安全方面有重要缺陷,所以 iOS 不支持该协议,在 Apple 公司的不断施压下, Adobe 已经停止对 RTMP 协议的更新。

  国内的部分直播平台如斗鱼、虎牙、B 站等,其实时直播技术主要分为 HLS(M3U8/TS)和 RTMP(FLV)两种。斗鱼采用的是在 HTTP-FLV 技术基础上的优化方案,在网络请求中能够搜索到.xs文件。虎牙的网络请求里仅存在一份 M3U8 文件以及后续的若干 TS 切片,属于较为成熟的 HLS 成套解决方案。而 B 站则是多份 M3U8 文件以及后续的若干 M4S 切片,这是经过格式转换的 HLS 技术优化方案。

  在附文“腾讯会议如何构建实时视频传输算法架构”腾讯强调自 QQ 时代起,在音视频实时传输系统的搭建与优化方面已有多年积累,并重新编写了一个跨平台而且高效的引擎-xCast,引擎之间以 Pere 作为网络层传输协议。结合附文“TRTC 实践,音视频互动 Demo、即时通信 IM 服务搭建”。xCast-Pere 的架构目前仅在腾讯会议生态间支持传输与解析,当数据到达媒体服务器后会在转码服务器里转换为 SIP、TencentRTC 或 WebRTC 进行传输。

联系方式

全国服务热线

@HASHKFK

手 机:@HASHKFK

地 址:广东省广州市番禺经济开发区

扫一扫,加微信

Copyright © 2002-2024 u8国际电动伸缩门有限公司 版权所有 非商用版本 备案号: