ALSA音频应用

哚哚 · 发表于 2018-10-10 02:52:50

一、前序

1)这里了解一下各个参数的含义以及一些基本概念。

声音是连续模拟量，计算机将它离散化之后用数字表示，就有了以下几个名词术语。

样本长度(sample)：样本是记录音频数据最基本的单位，计算机对每个通道采样量化时数字比特位数，常见的有8位和16位。

通道数(channel)：该参数为1表示单声道，2则是立体声。

帧(frame)：帧记录了一个声音单元，其长度为样本长度与通道数的乘积，一段音频数据就是由苦干帧组成的。

采样率(rate)：每秒钟采样次数，该次数是针对帧而言，常用的采样率如8KHz的人声， 44.1KHz的mp3音乐, 96Khz的蓝光音频。

周期(period)：音频设备一次处理所需要的桢数，对于音频设备的数据访问以及音频数据的存储，都是以此为单位。

交错模式(interleaved)：是一种音频数据的记录方式

  在交错模式下，数据以连续桢的形式存放，即首先记录完桢1的左声道样本和右声道样本（假设为立体声格式），再开始桢2的记录。

  而在非交错模式下，首先记录的是一个周期内所有桢的左声道样本，再记录右声道样本，数据是以连续通道的方式存储。

  不过多数情况下，我们只需要使用交错模式就可以了。

period(周期): 硬件中中断间的间隔时间。它表示输入延时。

比特率（Bits Per Second）：比特率表示每秒的比特数，比特率=采样率×通道数×样本长度

2)它们相关的关系为：

一个周期(period)存储一些帧(frames)。每一帧包含时间上一个点所抓取的样本。对于立体声设备，一个帧会包含两个信道上的样本。

上图展示了分解过程：一个缓存区分解成周期，然后是帧，然后是样本。图中包含一些假定的数值。图中左右信道信息被交替地存储在一个帧内。这称为交错 (interleaved)模式。在非交错模式中，一个信道的所有样本数据存储在另外一个信道的数据之后。

3)周期period说明：

period是每次硬件中断的number,用来存数据的是一个环形buffer, buffer size一定要被period size大，一般来说是两倍的period size, 有的硬件可以是8个period size,buffer可以不是period size的整数倍。如果硬件采样率是48k, 有两个period,一个是1024帧，那么buffer size就是2048帧，硬件会触发两次中断，第一帧被播放之后，第三帧会存放在第一帧的buffer位置，这也是ring buffer的特性。

period代表了输入延时，因为当缓存区很大时，一次传输操作可能会导致不可接受的延迟。因此ALSA通过将缓存区拆分成一系列周期并以period为单元来传送数据来减缓延迟。

二、ALSA介绍

1、ALSA声音编程介绍

ALSA表示高级Linux声音体系结构(Advanced Linux Sound Architecture)。

它由一系列内核驱动，应用程序编译接口(API)以及支持Linux下声音的实用程序组成。

这篇文章里，我将简单介绍 ALSA项目的基本框架以及它的软件组成。主要集中介绍PCM接口编程，包括您可以自动实践的程序示例。

您使用ALSA的原因可能就是因为它很新，但它并不是唯一可用的声音API。如果您想完成低级的声音操作，以便能够最大化地控制声音并最大化地提高性能，或者如果您使用其它声音API没有的特性，那么ALSA是很好的选择。如果您已经写了一个音频程序，你可能想要为ALSA声卡驱动添加本地支持。如果您对音频不感兴趣，只是想播放音频文件，那么高级的API将是更好的选择，比如SDL,OpenAL以及那些桌面环境提供的工具集。另外，您只能在有ALSA 支持的Linux环境中使用ALSA。

2、ALSA历史

ALSA项目发起的起因是Linux下的声卡驱动(OSS/Free drivers)没有得到积极的维护。并且落后于新的声卡技术。Jaroslav Kysela早先写了一个声卡驱动，并由此开始了ALSA项目，随便，更多的开发者加入到开发队伍中，更多的声卡得到支持，API的结构也得到了重组。

Linux内核2.5在开发过程中，ALSA被合并到了官方的源码树中。在发布内核2.6后，ALSA已经内建在稳定的内核版本中并将广泛地使用。

3、数字音频基础

声音由变化的气压组成。它被麦克风这样的转换器转换成电子形式。

模/数(ADC)转换器将模拟电压转换成离散的样本值。

声音以固定的时间间隔被采样，采样的速率称为采样率。把样本输出到数/模(DAC)转换器，比如扩音器，最后转换成原来的模拟信号。

样本大小以位来表示。样本大小是影响声音被转换成数字信号的精确程度的因素之一。

另一个主要的因素是采样率。奈奎斯特(Nyquist)理论中，只要离散系统的奈奎斯特频率高于采样信号的最高频率或带宽，就可以避免混叠现象。

4、ALSA基础

ALSA由许多声卡的声卡驱动程序组成，同时它也提供一个称为libasound的API库。

应用程序开发者应该使用libasound而不是内核中的 ALSA接口。因为libasound提供最高级并且编程方便的编程接口。并且提供一个设备逻辑命名功能，这样开发者甚至不需要知道类似设备文件这样的低层接口。

相反，OSS/Free驱动是在内核系统调用级上编程，它要求开发者提供设备文件名并且利用ioctrl来实现相应的功能。

为了向后兼容，ALSA提供内核模块来模拟OSS，这样之前的许多在OSS基础上开发的应用程序不需要任何改动就可以在ALSA上运行。另外，libaoss库也可以模拟OSS，而它不需要内核模块。

ALSA包含插件功能，使用插件可以扩展新的声卡驱动，包括完全用软件实现的虚拟声卡。ALSA提供一系列基于命令行的工具集，比如混音器(mixer)，音频文件播放器(aplay)，以及控制特定声卡特定属性的工具。

5、ALSA体系结构

ALSA API可以分解成以下几个主要的接口：

1)控制接口：提供管理声卡注册和请求可用设备的通用功能

2)PCM接口：管理数字音频回放(playback)和录音(capture)的接口。本文后续总结重点放在这个接口上，因为它是开发数字音频程序最常用到的接口。

3)Raw MIDI接口:支持MIDI(Musical Instrument Digital Interface),标准的电子乐器。这些API提供对声卡上MIDI总线的访问。这个原始接口基于MIDI事件工作，由程序员负责管理协议以及时间处理。

4)定时器(Timer)接口：为同步音频事件提供对声卡上时间处理硬件的访问。

5)时序器(Sequencer)接口

6)混音器(Mixer)接口

6、设备命名

API库使用逻辑设备名而不是设备文件。设备名字可以是真实的硬件名字也可以是插件名字。硬件名字使用hw:i,j这样的格式。其中i是卡号，j是这块声卡上的设备号。

第一个声音设备是hw:0,0.这个别名默认引用第一块声音设备并且在本文示例中一真会被用到。

插件使用另外的唯一名字，比如 plughw:,表示一个插件，这个插件不提供对硬件设备的访问，而是提供像采样率转换这样的软件特性，硬件本身并不支持这样的特性。

7、声音缓存和数据传输

每个声卡都有一个硬件缓存区来保存记录下来的样本。

当缓存区足够满时，声卡将产生一个中断。

内核声卡驱动然后使用直接内存(DMA)访问通道将样本传送到内存中的应用程序缓存区。类似地，对于回放，任何应用程序使用DMA将自己的缓存区数据传送到声卡的硬件缓存区中。

这样硬件缓存区是环缓存。也就是说当数据到达缓存区末尾时将重新回到缓存区的起始位置。

ALSA维护一个指针来指向硬件缓存以及应用程序缓存区中数据操作的当前位置。

从内核外部看，我们只对应用程序的缓存区感兴趣，所以本文只讨论应用程序缓存区。

应用程序缓存区的大小可以通过ALSA库函数调用来控制。

缓存区可以很大，一次传输操作可能会导致不可接受的延迟，我们把它称为延时(latency)。

为了解决这个问题，ALSA将缓存区拆分成一系列周期(period)(OSS/Free中叫片断fragments).ALSA以period为单元来传送数据。

一个周期(period)存储一些帧(frames)。每一帧包含时间上一个点所抓取的样本。对于立体声设备，一个帧会包含两个信道上的样本。

分解过程：一个缓存区分解成周期，然后是帧，然后是样本。

左右信道信息被交替地存储在一个帧内。这称为交错 (interleaved)模式。

在非交错模式中，一个信道的所有样本数据存储在另外一个信道的数据之后。

8、Over and Under Run

当一个声卡活动时，数据总是连续地在硬件缓存区和应用程序缓存区间传输。

但是也有例外。

在录音例子中，如果应用程序读取数据不够快，循环缓存区将会被新的数据覆盖。这种数据的丢失被称为"over run".

在回放例子中，如果应用程序写入数据到缓存区中的速度不够快，缓存区将会"饿死"。这样的错误被称为"under run"。

在ALSA文档中，有时将这两种情形统称为"XRUN"。适当地设计应用程序可以最小化XRUN并且可以从中恢复过来。

XRUN状态又分有两种，在播放时，用户空间没及时写数据导致缓冲区空了，硬件没有可用数据播放导致"under run"; 录制时，用户空间没有及时读取数据导致缓冲区满后溢出，硬件录制的数据没有空闲缓冲可写导致"over run".

当用户空间由于系统繁忙等原因，导致hw_ptr>appl_ptr时，缓冲区已空，内核这里有两种方案：

停止DMA传输，进入XRUN状态。这是内核默认的处理方法。继续播放缓冲区的重复的音频数据或静音数据。

用户空间配置stop_threshold可选择方案1或方案2,配置silence_threshold选择继续播放的原有的音频数据还是静意数据了。个人经验，偶尔的系统繁忙导致的这种状态，重复播放原有的音频数据会显得更平滑，效果更好。

9、音频参数（ALSA 用户空间之 TinyAlsa）

TinyAlsa是 Android 默认的 alsalib, 封装了内核 ALSA 的接口，用于简化用户空间的 ALSA 编程。

合理的pcm_config可以做到更好的低时延和功耗，移动设备的开发优为敏感。

struct pcm_config {
unsigned int channels;
unsigned int rate;
unsigned int period_size;
unsigned int period_count;
enum pcm_format format;
unsigned int start_threshold;
unsigned int stop_threshold;
unsigned int silence_threshold;
int avail_min;
};
解释一下结构中的各个参数，每个参数的单位都是frame(1帧 = 通道*采样位深)：

period_size. 每次传输的数据长度。值越小，时延越小，cpu占用就越高。
period_count. 缓之冲区period的个数。缓冲区越大，发生XRUN的机会就越少。
format. 定义数据格式，如采样位深，大小端。
start_threshold. 缓冲区的数据超过该值时，硬件开始启动数据传输。如果太大，从开始播放到声音出来时延太长，甚至可导致太短促的声音根本播不出来;如果太小，又可能容易导致XRUN.
stop_threshold. 缓冲区空闲区大于该值时，硬件停止传输。默认情况下，这个数为整个缓冲区的大小，即整个缓冲区空了，就停止传输。但偶尔的原因导致缓冲区空，如CPU忙，增大该值，继续播放缓冲区的历史数据，而不关闭再启动硬件传输(一般此时有明显的声音卡顿)，可以达到更好的体验。
silence_threshold. 这个值本来是配合stop_threshold使用，往缓冲区填充静音数据，这样就不会重播历史数据了。但如果没有设定silence_size,这个值会生效吗？求解？？
avail_min. 缓冲区空闲区大于该值时，pcm_mmap_write()才往缓冲写数据。这个值越大，往缓冲区写入数据的次数就越少，面临XRUN的机会就越大。Android samsung tuna 设备在screen_off时增大该值以减小功耗，在screen_on时减小该值以减小XRUN的机会。

在不同的场景下，合理的参数就是在性能、时延、功耗等之间达到较好的平衡。

有朋友问为什么在pcm_write()/pcm_mmap_write()，而不在pcm_open()调用pcm_start()? 这是因为音频流与其它的数据不同，实时性要求很高。作为 TinyAlsa的实现者，不能假定在调用者open之后及时的write数据，所以只能在有数据写入的时候start设备了。

Mixer的实现很明了，通过ioctl()调用访问kcontrols.

10、一个典型的声音程序

1) 使用PCM的程序通常类似下面的伪代码：

2)打开回放或录音接口

3)设置硬件参数(访问模式，数据格式，信道数，采样率，等等)

4) while 有数据要被处理：

5)读PCM数据(录音) 或写PCM数据(回放)

6)关闭接口

账号		自动登录	找回密码
密码			快速注册

[解码器] ALSA音频应用

浏览过的版块