[IMAGE: https://cdn.steemitimages.com/DQmdfhjyGAM2SHc225dj1jw7PaDtWvUNtrcWdHajCYNsHMY/MakeNoise-title.png]
- MakeNoise01 - 声音是什么?
- MakeNoise02 - 频率和音高
- MakeNoise03 - 振幅/响度/音量/增益 大乱斗
- MakeNoise04 - 波形和相位
- MakeNoise05 - Envelope 包络(ADSR)
- MakeNoise06 - 音色和均衡器(EQ)
在 MakeNoise03 中,我们区分了第一捆容易混淆的概念:振幅/响度/音量/增益。
今天来捋一捋第二捆概念们——Sample rate / Bit depth / Dynamic range / Bit rate,它们影响了声音的分辨率。
图像的分辨率是大家比较熟悉的概念。在一个固定尺寸的图像里包含多少像素,决定了图像的分辨率。
[IMAGE: http://www.andor.com/Portals/0/Intro_10_Small.jpg]
由此可以类比声音的「分辨率」。
一个声音信号的质量由两个变量决定:采样速率 Sample rate 和 比特深度(位深度)Bit depth。
图像分辨率由横纵坐标的像素数量所决定。对应到声音,Sample rate 设定了能够捕捉音频信号的最高频率,可以看做横坐标;Bit depth 决定了每一个 sample 的精度,可以看做纵坐标。两者在两个维度上共同决定了音频的分辨率。
[IMAGE: https://cdn.steemitimages.com/DQmQP57yAnb12tTo97pZ5tZRm4ZFdgDTNeKCA3fTcEebTDp/bit-depth-low.png]

[IMAGE: https://cdn.steemitimages.com/DQmQ4bzNEUwHVC9kmq68uMx2LY5EgMQ9LX3uqooqUBj3XNY/bit-depth-high.png]
采样率 Sample rate
> The sampling frequency or sampling rate, fs, is the average number of samples obtained in one second (samples per second) — wiki
采样率决定了每一秒内会从音频信号中采集多少样本。
在现实世界中的音频采样,是不连续或离散的信号,每个梯级值都是一个数值,表示一个单一时间点上的幅度。
多少采样点算是足够多,能够精确编码一个声音信号呢?这就要提到 The Nyquist Theorem (尼奎斯特定理)了:
> States that the signal’s sample rate must be at least two times greater than the highest desired frequency.
采样率/2是一个特殊数字,被称为奈奎斯特点 Nyquist point,它是在任何声音中能够被一个给定采样率所编码的最高频率。 也就是说,每秒的采样至少是信号中的最高频率的 2 倍,就可以完美地还原声音信号。
所以,为了覆盖人类的听觉范围(20Hz~20kHz),每秒需要 40000 个采样点。
那么问题来了,既然 40 kHz 就够了,为什么现在音频 CD 的标准采样率是 44.1 kHz 呢?
一方面原因是工程的需要。
现实中,麦克风所能接收、采集到的空气振动的频率范围非常大,远远超过人耳听力。如果直接采样会出现混叠。所以要先使用一个低通滤波器,把高于阈值的信号过滤掉。超过 40 kHz 的频段,给低通滤波器留出空间,使得那一段不怎么完美的下降曲线落在 20KHz 之外,不影响音频效果。
另一方面是技术历史问题。
在数字存储媒介被发明之前,早期的数字音频录制在模拟录像带上。当时世界上的录像机主要有二大制式:欧洲的 PAL 和美国日本的 NTSC。当时的 CD 是 SONY(美日制式)与 PHILIPS(欧洲制式)合作的。适用于 PAL 制式录像机的编码器采样频率是 44.1kHz。适用于 NTSC 制式录像机的编码器采样频率是 44.056。
[IMAGE: https://cdn.steemitimages.com/DQmUbmj8hzfJvPxQpkj4m2rJWKT2far9ozxFwCiV8NGJjhY/cd.png]
那么 44.1 和 44.056kHz 这两个数字是怎么来的呢?
> 44,100=294 x 50 x 3
>
> 44,056=245 x 59.94 x 3
50Hz 和 59.94Hz 分别是 PAL 和 NTSC 的场频, PAL 制式下可用扫描线数是 294 线,而 NTSC 则是 245 线。至于x3,则是在一条视频扫描线的磁迹中,纪录三个数码音频数据块。44.056KHz 标准并不能很好地被 NTSC 系统兼容,有一定的误差,所以没有被市场接受。索尼提出了以 44.1KHz/16bit 的方式录制,在数字信号和模拟信号的过渡期,大获全胜。哪怕最后出现了数字CD,也没有敌得过用户的使用惯性。
更多这个话题的讨论,可以参考知乎问题:人耳 20kHz 封顶,为什么数字音频都要记录和解析到更高的频率上去?
那该用什么样的采样率呢?
> The Audio Engineering Society recommends 48 kHz sampling rate for most applications but gives recognition to 44.1 kHz for CD and other consumer uses, 32 kHz for transmission-related applications, and 96 kHz for higher bandwidth or relaxed anti-aliasing filtering. — wiki
比特深度 Bit Depth
> In digital audio using pulse-code modulation (PCM), bit depth is the number of bits of information in each sample, and it directly corresponds to the resolution of each sample. --- Wiki
在 CD 的采样标准中,44.1 kHz 的 Sample Rate 我们有所了解了。那么 16 Bit Depth 又是什么意思呢?
在音频采样中,每个采样的 amplitude 用二进制数字编码。这个编码的分辨率就是比特深度。
把数据存储成二进制,意味着如果用 n 个二进制位来存储每个幅度值,总共可以表示的数值数量为 2 的 n 次方-1。1 bit 代表采样的值: 0 或 1。如果是 2 bit,采样值范围就是 0, 1, 2, 3。2 的 16 次方是 65536,所以 16 bit 的采样深度分辨率是 -32768~32768。
[IMAGE: https://cdn.steemitimages.com/DQmea5scXuzcT9fuSwk7SatvHoUQu57zXWeJVMDFRyBBHvg/bit%20depth.png]
Bit depth 实际上决定的是 dynamic range 的分辨率。
动态范围 Dynamic Range
> Dynamic range is the ratio between the largest and smallest values that a certain quantity can assume. It is measured either as a ratio or as a base-10 (decibel) or base-2 (doublings, bits or stops) logarithmic value of the difference between the smallest and largest signal values.
声音的 dynamic range 由信号的最大值和最小值所决定。
在音频处理中,dynamic range 与最大振幅和 noise floor 的比值有关:
假设 1 bit 表示听觉的门限,16 位 bit depth 可以给出 98 dB 的 dynamic range,32 位为 192 dB,64 位为 385 dB。现在很多数字音频系统都用 64 位。
比特率 Bit Rate
还有一个容易与采样率、比特深度混淆的概念,叫比特币,哦不对,比特率。
>在数字多媒体领域,比特率是单位时间播放连续的媒体(如压缩后的音频或视频)的比特数量,常用码流或码率表示,单位是kbps(千位每秒)。——wiki
高音质 MP3 的 Bit rate 可达 256-320 kbps ,低音质的 MP3 大概在 100 kbps 。
音频数据的比特率文件大小计算公式如下:
> Bit rate = sample rate * bit depth * channels
> Size in bits = sample rate * bit depth * channels * length of time
所以,Sample rate 和 Bit depth 会影响 Bit rate 和文件大小。
一般原始的多媒体文件都比较大,为了便于使用需要对其进行压缩,而码流就对应了压缩时的取样率。单位时间内取样率越大,精度就越高,处理出来的文件就越接近原始文件,但是文件也会越大。
小结
今天我们又梳理了一捆容易混淆的概念们:
- Sample rate:每秒采集的音频信号样本
- Bit depth:每个信号样本的幅度范围分辨率
- Dynamic range:信号的范围极限值区间
- Bit rate:单位时间传送的媒体信号量
以后,看见 DAW 里面相关的选项,就心里有数啦:
[IMAGE: https://cdn.steemitimages.com/DQmSH9XH8WyHjVupEhMCn1jkzPKvPg2u9wfq5FRnJM2cupN/[Ableton]export.png]
附录
在数字音频领域,常用的采样率有:
Sample Rate Use 8,000 Hz 电话所用采样率,对于人的说话已经足够 22,050 Hz 无线电广播所用采样率 32,000 Hz miniDV数码视频camcorder、DAT(LP mode)所用采样率 44,100 Hz 音频CD,也常用于MPEG-1音频(VCD, SVCD, MP3)所用采样率 47,250 Hz Nippon Columbia(Denon)开发的世界上第一个商用PCM录音机所用采样率 48,000 Hz miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率 50,000 Hz 二十世纪七十年代后期出现的3M和Soundstream开发的第一款商用数字录音机所用采样率 50,400 Hz 三菱X-80数字录音机所用所用采样率 96,000或者192,000 Hz DVD-Audio、一些LPCM DVD音轨、Blu-ray Disc(蓝光碟)音轨、和HD-DVD(高清晰度DVD)音轨所用所用采样率 2.8224 MHz SACD、索尼和飞利浦联合开发的称为Direct Stream Digital的1位sigma-delta modulation过程所用采样率。Ref
- Audio Engineering 101 - A Beginner's Guide to Music Production
- 设计声音
- Max_MSP_Jitter for music _ a practical guide to developing interactive music systems for education and more
- Sampling (signal processing) - Wikiwand
- Audio bit depth - Wikiwand
- Dynamic range - Wikiwand
- Bit rate - Wikiwand
- Nyquist rate - Wikiwand
- 采样率 - Wikiwand
- 人耳 20kHz 封顶,为什么数字音频都要记录和解析到更高的频率上去?- 知乎
- CD为什么采用44.1kHz采样频率? - 知乎