声波的三要素:频率、振幅和波形;频率代表音阶的高低,振幅代表响度,波形代表音色。
频率越高,波长越短;而波长的声音能够轻易绕过障碍物,能量衰减较小,传递的距离更远。
视频
帧,是视频的一个基本概念,表示一张画面;一个视频就是有许许多多的帧组成的。
帧率一般为以下几个典型值:
- 24/25 fps 一般的电影帧率
- 30/60 fps 游戏的帧率
85 fps 以上肉眼基本就无法察觉出来了,更高的帧率并不能带来太大的收益。
编码 (压缩)
- 空间冗余:图像相邻像素之间有较强的相关性
- 时间冗余:视频序列的相邻图像之间内容相似
- 编码冗余:不同像素值出现的概率不同
- 视觉冗余:人的视觉系统对某些细节不敏感
- 知识冗余:规律性的结构可由先验知识和背景知识得到
音频
PCM 的采集步骤:模拟信号 -> 采样 -> 量化 -> 编码 -> 数字信号
根据奈奎斯特采样定理:为了不失真地恢复模拟信号,采样频率应该不小于模拟信号频谱中最高频率的 2 倍。
采样率、采样位数
人耳的听力范围,大约是 20~20kHz
人耳能听到的最高频率为 20kHz,所以为了满足人耳的听觉要求,采样率至少为 40kHz,通常为 44.1kHz,更高的通常为 48kHz。
采样位数,涉及到上面提到的振幅量化。波形振幅在模拟信号上也是连续的样本值,而在数字信号中,信号一般是不连续的,所以模拟信号量化以后,只能取一个近似的整数值,为了记录这些振幅值,采样器会采用一个固定的位数来记录这些振幅值,通常有 8 位、16 位、32 位。
编码
声道数
指支持能不同发声(注意是不同声音)的音响的个数。
码率
指一个数据流中每秒钟能通过的信息量,单位 bps(bit per second)。
$$码率 = 采样率 * 采样位数 * 声道数$$
色彩空间
- RGB 三原色,可以混合出所有的颜色
- YUV
- Y 亮度,灰度值;除表示亮度信号外,还含有较多的绿色通道量
- U 蓝色通道与亮度的差值
- V 红色通道与亮度的差值
人眼对亮度敏感,对色度不敏感,因此减少部分 UV 的数据量,人眼却无法感知出来,这样可以通过压缩 UV 的分辨率,在不影响观感的前提下,减小视频的体积。
|
|