音视频技术

声波的三要素:频率、振幅和波形;频率代表音阶的高低,振幅代表响度,波形代表音色。

频率越高,波长越短;而波长的声音能够轻易绕过障碍物,能量衰减较小,传递的距离更远。

视频

帧,是视频的一个基本概念,表示一张画面;一个视频就是有许许多多的帧组成的。

帧率一般为以下几个典型值

  1. 24/25 fps 一般的电影帧率
  2. 30/60 fps 游戏的帧率

85 fps 以上肉眼基本就无法察觉出来了,更高的帧率并不能带来太大的收益。

编码 (压缩)

  • 空间冗余:图像相邻像素之间有较强的相关性
  • 时间冗余:视频序列的相邻图像之间内容相似
  • 编码冗余:不同像素值出现的概率不同
  • 视觉冗余:人的视觉系统对某些细节不敏感
  • 知识冗余:规律性的结构可由先验知识和背景知识得到

音频

PCM 的采集步骤:模拟信号 -> 采样 -> 量化 -> 编码 -> 数字信号

根据奈奎斯特采样定理:为了不失真地恢复模拟信号,采样频率应该不小于模拟信号频谱中最高频率的 2 倍。

采样率、采样位数

人耳的听力范围,大约是 20~20kHz

人耳能听到的最高频率为 20kHz,所以为了满足人耳的听觉要求,采样率至少为 40kHz,通常为 44.1kHz,更高的通常为 48kHz。

采样位数,涉及到上面提到的振幅量化。波形振幅在模拟信号上也是连续的样本值,而在数字信号中,信号一般是不连续的,所以模拟信号量化以后,只能取一个近似的整数值,为了记录这些振幅值,采样器会采用一个固定的位数来记录这些振幅值,通常有 8 位、16 位、32 位。

编码

.

声道数

指支持能不同发声(注意是不同声音)的音响的个数。

码率

指一个数据流中每秒钟能通过的信息量,单位 bps(bit per second)。

$$码率 = 采样率 * 采样位数 * 声道数$$

色彩空间

  1. RGB 三原色,可以混合出所有的颜色
  2. YUV
    1. Y 亮度,灰度值;除表示亮度信号外,还含有较多的绿色通道量
    2. U 蓝色通道与亮度的差值
    3. V 红色通道与亮度的差值

人眼对亮度敏感,对色度不敏感,因此减少部分 UV 的数据量,人眼却无法感知出来,这样可以通过压缩 UV 的分辨率,在不影响观感的前提下,减小视频的体积。

1
2
3
4
5
6
7
Y = 0.299R + 0.587G + 0.114B
U = -0.147R - 0.289G + 0.436B
V = 0.615R - 0.515G - 0.100B
——————————————————
R = Y + 1.14V
G = Y - 0.39U - 0.58V
B = Y + 2.03U

References

Licensed under CC BY-NC-SA 4.0
Get Things Done
Built with Hugo
Theme Stack designed by Jimmy