音频文件格式

PCM 音频文件格式

1.WAV

是微软与IBM公司所开发在个人计算机存储音频流的编码格式，在Windows平台的应用软件受到广泛的支持。一般来说，都是将 WAV 当做无损格式。

2.AIFF

音频交换文件格式（Audio Interchange File Format，缩写为AIFF）是用于在个人电脑和其他电子音频设备中存储音频数据一种音频格式。这种格式由苹果公司于1988年在艺电公司的交换档案格式（Interchange File Format，缩写为 IFF，广泛使用于Amiga系统）基础上开发而成，并被用在苹果公司的OS X操作系统上。

参考资料：
https://zh.wikipedia.org/zh-tw/%E9%9F%B3%E9%A2%91%E4%BA%A4%E6%8D%A2%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F

3.APE

Monkey's Audio，是一种常见的无损音频压缩编码格式，扩展名为.ape。 Monkey's Audio 是一种快速便捷的数字音乐压缩方式。不同于mp3、ogg 或 wma 等传统方法会永久放弃质量以节省空间，Monkey 的音频仅能完美地复制音乐。这意味着它听起来总是完美的与原始版本完全一样。即使声音是完美的，它仍然可以节省很多空间（可以将它看作是完善的Winzip™音乐）。另一个很棒的事情是，您始终可以将 Monkey 的音频文件解压缩回准确的原始文件。这样，您将无需重新复制 CD 集合即可切换格式，并且始终可以完美地重新创建原始音乐 CD。

参考文档：
https://zh.wikipedia.org/wiki/Monkey%27s_Audio
https://monkeysaudio.com/index.html
https://monkeysaudio.com/theory.html

4.FLAC

FLAC（发音： /ˈflæk/；全称：Free Lossless Audio Codec），中文直译为自由无损音频压缩编码（注：这里“Free”指的是自由软件——而并不仅是免费）。FLAC是一款的自由音频压缩编码，其特点是可以对音频文件无损压缩。不同于其他有损压缩编码（如MP3 、AAC等），压缩后不会有任何音质损失，现在已被很多软件及硬件音频产品所支持。

参考文档：
https://zh.wikipedia.org/wiki/FLAC
https://xiph.org/flac
https://xiph.org/flac/format.html
https://xiph.org/flac/comparison.html

5.ALAC

Apple Lossless Audio Codec（ALAC）为苹果的无损音频压缩编码格式，可将非压缩音频格式（WAV、AIFF）压缩至原先容量的 40% 至 60% 左右，编解码速度很快。也因为是无损压缩，听起来与原文件完全一样，不会因解压缩和压缩而改变。

参考文档：
https://zh.wikipedia.org/wiki/Apple_Lossless

6.ASF

Advanced Systems Format（以前称为Advanced Streaming Format、Active Streaming Format）是Microsoft专有的数字音频/数字视频容器格式，特别适用于流媒体。ASF是媒体基础框架的一部分。

ASF基于序列化对象，这些对象本质上是由GUID标记标识的字节序列。该格式没有规定视频或音频应如何编码（即使用哪个编解码器）；它只指定视频/音频流的结构。这与 QuickTime 文件格式、AVI 或 Ogg 格式执行的功能类似。ASF 的目标之一是支持数字媒体服务器、HTTP 服务器和本地存储设备（如硬盘）的播放。 ASF 文件中最常见的媒体是 Windows Media Audio（WMA）和Windows Media Video（WMV）。ASF 文件最常见的文件扩展名是扩展名 .WMA（使用Windows Media audio的纯音频文件，具有MIME类型 audio/x-ms-WMA ）和 .WMV（包含视频的文件，使用Windows Media音频和视频编解码器，具有MIME类型 video/x-ms-ASF ）。这些文件与旧的 .ASF 文件相同，但扩展名和MIME类型不同。使用不同的扩展名可以更容易地识别媒体文件的内容。[3]ASF文件还可以包含表示元数据的对象，例如音频曲目的艺术家、标题、专辑和流派，或者视频曲目的导演，很像MP3文件的ID3标记。它支持可扩展的媒体类型和流优先级；因此，它是一种为流媒体优化的格式。 ASF容器为Windows Media音频和Windows Media视频中的数字权限管理提供了框架。对WMA中使用的一个旧方案的分析表明，该方案结合使用了椭圆曲线密码、密钥交换、DES分组密码、自定义分组密码、RC4流密码和SHA-1散列函数。基于ASF容器的媒体有时仍然通过MMS协议或RTSP协议在internet上传输。然而，大多数情况下，它们包含为“渐进式下载”编码的材料，这些材料可以由任何Web服务器分发，然后提供与流媒体相同的优点：只要接收到最小字节数，文件就开始播放，当一个人观看或收听时，其余的下载继续在后台进行。国会图书馆数字保存项目认为ASF实际上是RIFF的继承者[2] 2010年，Google选择RIFF作为WebP的容器格式。

参考文档：
https://en.wikipedia.org/wiki/Advanced_Systems_Format

7.WavPack(WV)

WavPack是由 David Bryant 开发的一个自由、开放源代码的无损音频压缩格式，其文件的后缀名为.wv。

参考文档：
https://zh.wikipedia.org/wiki/WavPack

8.WMA

WMA（Windows Media Audio）是微软公司开发的一系列音频编解码器，也指相应的数字音频编码格式。WMA包括四种不同的编解码器：（1） WMA，原始的WMA编解码器，作为MP3和RealAudio编解码器的竞争者[1][2]；（2） WMA Pro，支持更多声道和更高质量的音频[3]；（3） WMA Lossless，无损编解码器；（4）WMA Voice，用于储存语音，使用的是低码率压缩[3]。一些使用Windows Media Audio编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。

WMA格式最初为微软公司所开发，但是随着众多播放器对它的支持，这个格式正在成为MP3格式的竞争对手之一。它兼容MP3的ID3元数据标签，同时支持额外的标签。另外，一般情况下相同音质的WMA和MP3音频，前者文件体积较小。

WMA可以用于多种格式的编码文件中。应用程序可以使用Windows Media Format SDK进行WMA格式的编码和解码。一些常见的支持WMA的应用程序包括Windows Media Player、Windows Media Encoder、RealPlayer、Winamp等等。其它一些平台，例如Linux和移动设备中的软硬件也支持此格式。

参考文档：
https://zh.wikipedia.org/zh-hans/Windows_Media_Audio

9.MP3

LAME Ain't an MP3 Encoder（LAME不是MP3编码器）动态图像专家组-1或动态图像专家组-2 音频层III（英语：MPEG-1 or MPEG-2 Audio Layer III），常简称为 MP3 ，是当今流行的一种数字音频编码和有损压缩格式，它被设计来大幅降低音频数据量，通过舍弃PCM音频数据中对人类听觉不重要的部分，达成压缩成较小文件的目的。而对于大多数用户的听觉感受来说，MP3的音质与最初的不压缩音频相比没有明显的下降。它是在1991年，由位于德国埃尔朗根的研究组织弗劳恩霍夫协会的一组工程师发明和标准化的。MP3的普及，曾对音乐产业造成冲击与影响。

MP3是一个数据压缩格式。它舍弃脉冲编码调制（PCM）音频数据中，对人类听觉不重要的数据（类似于JPEG，是一个有损图像的压缩格式），从而达到了压缩成小得多的文件大小。

在MP3中使用了许多技术，其中包括心理声学，以确定音频的哪一部分可以丢弃。MP3音频可以按照不同的比特率进行压缩，提供了权衡数据大小和音质之间的依据。

MP3格式使用了混合的转换机制将时域信号转换成频域信号：

32波段多相积分滤波器（PQF） 36或者12 tap 改良离散余弦滤波器（改进的离散余弦变换）；每个子波段大小可以在0...1和2...31之间独立选择混叠衰减后处理尽管有许多创造和推广其他格式的重要努力，如 MPEG 标准中的 AAC（Advanced Audio Coding）和 IETF 开放标准中的 Opus。然而，由于MP3的空前的流通，在目前来说，其他格式不可能威胁其地位。MP3不仅有广泛的用户端软体支持，也有很多的硬件支持，比如便携式数位音频播放器（泛指MP3播放器）、移动电话、数字多功能影音光盘和CD播放器。

参考文档：
https://zh.wikipedia.org/wiki/MP3
https://zh.wikipedia.org/wiki/LAME

10.AAC

高级音频编码（英语：Advanced Audio Coding，AAC），出现于1997年，为一种基于MPEG-2的有损数字音频压缩的专利音频编码标准，由Fraunhofer IIS、杜比实验室、AT&T、Sony、Nokia等公司共同开发。2000年，MPEG-4标准在原本的基础上加上了PNS（Perceptual Noise Substitution）等技术，并提供了多种扩展工具。为了区别于传统的MPEG-2 AAC又称为MPEG-4 AAC。其作为MP3的后继者而被设计出来，在相同的比特率之下，AAC相较于MP3通常可以达到更好的声音质量。

AAC由国际标准化组织及国际电工委员会标准化为MPEG-2及MPEG-4规格的一部分。部分的AAC、HE-AAC(AAC+)为MPEG-4音频的一部分，并且被采用在数字声音广播、世界数字广播两个数字广播标准中以及DVB-H、ATSC-M/H两个移动电视标准中。

参考文档：
https://zh.wikipedia.org/wiki/%E9%80%B2%E9%9A%8E%E9%9F%B3%E8%A8%8A%E7%B7%A8%E7%A2%BC

11.Ogg

Ogg是一个自由且开放标准的多媒体文件格式，由Xiph.Org基金会所维护。Ogg格式并不受到软件专利的限制，并设计用于有效率地流媒体和处理高质量的数字多媒体。

“Ogg”意指一种文件格式，可以纳入各式各样自由和开放源代码的编解码器，包含音效、视频、文字（像字幕）与元数据的处理。

在Ogg的多媒体框架下，Theora提供有损的影像层面，而通常用音乐导向的Vorbis编解码器作为音效层面。针对语音设计的压缩编解码器Speex和无损的音效压缩编解码器FLAC与OggPCM也可能作为音效层面使用。

参考文档：
https://zh.wikipedia.org/wiki/Ogg

12.Vorbis

Vorbis是一种有损音频压缩格式，由Xiph.Org基金会所领导并开放源代码的一个免费的开源软件项目。该项目为有损音频压缩产生音频编码格式和软件参考编码器╱解码器（编解码器）。Vorbis 通常以 Ogg 作为容器格式，所以常合称为Ogg Vorbis。

参考文档：
https://zh.wikipedia.org/wiki/Vorbis

13.Opus

Opus 是一个有损声音编码的格式，由 Xiph.Org 基金会开发，之后由 IETF 互联网工程任务组进行标准化，目标是希望用单一格式包含声音和语音，取代 Speex 和 Vorbis ，且适用于网络上低延迟的即时声音传输，标准格式定义于 RFC 6716 文件。Opus 格式是一个开放格式，使用上没有任何专利或限制。

Opus 集成了两种声音编码的技术：以语音编码为导向的 SILK 和低延迟的 CELT 。Opus 可以无缝调节高低比特率。在编码器内部它在较低比特率时使用线性预测编码，在高比特率时候使用变换编码（在高低比特率交界处也使用两者结合的编码方式）。Opus 具有非常低的算法延迟（默认为 22.5 ms），非常适合用于低延迟语音通话的编码，像是网络上的即时声音流、即时同步声音旁白等等，此外 Opus 也可以透过降低编码比特率，达成更低的算法延迟，最低可以到 5ms。在多个听觉盲测中，Opus 都比 MP3、AAC、HE-AAC 等常见格式，有更低的延迟和更好的声音压缩率。

参考文档：
https://zh.wikipedia.org/wiki/Opus_(%E9%9F%B3%E9%A2%91%E6%A0%BC%E5%BC%8F

14.DTS

数字影院系统（DTS，Digital Theater Systems）由DTS公司（DTS Inc.，NASDAQ：DTSI）开发，为多声道音频格式中的一种，广泛应用于DVD音效上。其最普遍的格式为5.1声道。与杜比数字为主要竞争对手。要实现DTS音效输出，需在硬件上及软件上匹配DTS的规格，多数会在产品上标示DTS的商标。

参考文档：
https://zh.wikipedia.org/zh/DTS

15.DxD

Digital eXtreme Definition是一种数字音频格式，最初是为编辑DSD（SACD上使用的音频标准）中记录的高分辨率录音而开发的。由于SACD上使用的1 bit DSD格式不适合编辑，因此在母带制作阶段必须使用DXD或DSD-Wide等替代格式。

参考文档：
https://en.wikipedia.org/wiki/Digital_eXtreme_Definition

16.HLS

HTTP Live Streaming，缩写为 HLS ，是由苹果公司提出基于 HTTP 的流媒体网络传输协议。是苹果公司 QuickTime X 和 iPhone 软件系统的一部分。它的工作原理是把整个流分成一个个小的基于HTTP的文件来下载，每次只下载一些。当媒体流正在播放时，客户端可以选择从许多不同的备用源中以不同的速率下载同样的资源，允许流媒体会话适应不同的数据速率。在开始一个流媒体会话时，客户端会下载一个包含元数据的扩充 M3U (m3u8) 播放列表文件，用于寻找可用的媒体流。

HLS只请求基本的HTTP报文，与实时传输协议（RTP）不同，HLS可以穿过任何允许HTTP数据通过的防火墙或者代理服务器。它也很容易使用内容分发网络来传输媒体流。

苹果公司把HLS协议作为一个互联网草案（逐步提交），在第一阶段中已作为一个非正式的标准提交到IETF。2017年8月，RFC 8216发布，描述了HLS协议第7版的定义。

参考文档：
https://zh.wikipedia.org/zh-hans/HTTP_Live_Streaming

17.TS

MPEG2-TS 传输串流（MPEG-2 Transport Stream；又称MPEG-TS、MTS、TS）是一种标准数字封装格式,用来传输和储存视讯、音讯与频道、节目信息，应用于数位电视广播系统，如DVB、ATSC、ISDB:118、IPTV等。

参考资料：
https://zh.wikipedia.org/zh-hans/MPEG2-TS

DSD 音频文件格式

1.DFF

DFF 全称是 DSDIFF（Direct Stream Digital Interchange File Format ），是由 Philips 定义的封装 DSD 流的一种文件系统，和封装 PCM 的 wav 类似。

2.DSF

DSF 是 DSD Stream File 的缩写，是由 Sony 定义的封装 DSD 流的一种文件格式。

3.SACD

Super Audio CD（SACD）是一种用于音频存储的只读光盘格式，于1999年推出。它由索尼和飞利浦电子公司联合开发，旨在成为光盘（CD）格式的继任者。 SACD 格式允许多个音频通道（即环绕声或多通道声音）。它还提供了比传统CD更高的比特率和更长的播放时间。SACD 设计用于在 SACD 播放器上播放。混合 SACD 包含红皮书光盘数字音频（CDDA）层，可在标准CD播放器上播放。

SACD 的数字版本一般都是 ISO 后缀。其实就是 SACD 抓取之后，保存成了 ISO 文件。

参考资料：
https://en.wikipedia.org/wiki/Super_Audio_CD

4. DST

为了减少 DSD 的空间和带宽需求，使用了一种称为直接流传输（DST）的无损数据压缩方法。DST 压缩对于多通道区域是强制性的，对于立体声区域是可选的。它通常压缩2到3倍，允许一张光盘同时包含 80 分钟的 2 声道和 5.1 声道声音。直接流传输压缩在2005年作为MPEG-4音频标准（ISO/IEC 14496-3:2001/Amd 6:2005–过样音频无损编码）的一项修正案被标准化。它包含 SACD 中描述的 DSD 和 DST 定义规范。MPEG-4 DST 提供过采样音频信号的无损编码。DST 的目标应用是归档和存储 1 位过采样音频信号和SA-CD。2007年，MPEG-4 DST 的参考实现发布为ISO/IEC 14496-5:2001/Amd.10:2007。

参考资料：
https://en.wikipedia.org/wiki/Super_Audio_CD#Direct_Stream_Transfer

参考资料

https://www.owlapps.net/owlapps_apps/articles?id=2316&lang=en