查看“︁深度学习语音合成”︁的源代码

{{机器学习导航栏}}
'''[[深度学习]][[语音合成]]'''用[[深度学习#深度神经网络|深度神经网络]]（DNN）从文本（TTS）或频谱（声码器）生成人工语音。DNN使用大量录制语音进行训练，若是TTS系统，则要使用相关标签和/或输入文本。

有些基于DNN的语音合成器已经接近人声的自然度。

== 表述 ==
给定输入文本或语言单位序列<math>Y</math>，目标语音<math>X</math>可如下求得

<math display=block>X=\arg\max P(X|Y, \theta)</math>

其中<math>\theta</math>是模型参数。

一般来说输入文本会先传给声学特征生成器，声学特征再传给神经声码器。对前者，[[损失函数]]通常是L1或L2损失，它们施加了约束条件：输出必须遵循高斯分布或拉普拉斯分布。在实际应用中，由于人声频率约在300到4000 Hz之间，因此损失函数会对这一范围有更多惩罚：

<math display=block>loss=\alpha \text{loss}_{\text{human}} + (1 - \alpha) \text{loss}_{\text{other}}</math>

其中<math>\text{loss}_{\text{human}}</math>是人声频段的损耗，<math>\alpha</math>是0.5附近的标量。声学特征通常是[[梅尔刻度]]的[[时频谱]]，捕捉了语音信号的时域关系，因此足够输出智能输出。用于语音识别的[[梅尔倒频谱]]特征信息太少，不适合用于语音合成。

== 简史 ==
<!-- 檔案不存在 [[File:WaveNet_animation.gif|thumb|right|WaveNet中使用的扩张随意卷积层堆栈<ref name="deepmind">{{cite web|url=https://www.deepmind.com/blog/high-fidelity-speech-synthesis-with-wavenet|title=High-fidelity speech synthesis with WaveNet|last=van den Oord|first=Aäron|date=2017-11-12|website=[[DeepMind]]|access-date=2022-06-05}}</ref>]] ，可從英文維基百科取得 -->
2016年9月，[[DeepMind]]推出了基于原始音频波形的深度生成模型[[WaveNet]]，证明基于深度学习的模型能对原始波形进行建模，并从[[时频谱]]梅尔时频谱等声学特征生成语音。WaveNet最初被认为计算成本高、速度慢，无法用于当时的消费类产品，但一年后，DeepMind推出了“并行WaveNet”，生成速度比原模型快一千倍。<ref name="deepmind" />

2017 年初，Mila提出了[https://mila.quebec/en/publication/char2wav-end-to-end-speech-synthesis/ char2wav] {{Wayback|url=https://mila.quebec/en/publication/char2wav-end-to-end-speech-synthesis/ |date=20231001182106 }}，一种以端到端方法生产原始波形的模型。同年，[[谷歌]]和[[Facebook]]分别推出了[https://arxiv.org/abs/1703.10135 Tacotron] {{Wayback|url=https://arxiv.org/abs/1703.10135 |date=20240206013010 }}和[https://arxiv.org/abs/1707.06588 VoiceLoop] {{Wayback|url=https://arxiv.org/abs/1707.06588 |date=20230623005359 }}，直接从输入文本生成声学特征；几个月后，谷歌又提出了[https://arxiv.org/abs/1712.05884 Tacotron2] {{Wayback|url=https://arxiv.org/abs/1712.05884 |date=20240119045601 }}，将WaveNet声码器与修改后的Tacotron架构相结合，进行端到端语音合成。Tacotron2可以生成接近人声的高质量语音。那时起，端到端方法成了最热门的研究课题，世界各地的许多研究人员开始注意到端到端语音合成的强大性能。<ref>{{cite arXiv |last=Hsu |first=Wei-Ning |eprint=1810.07217 |title=Hierarchical Generative Modeling for Controllable Speech Synthesis |class=cs.CL |date=2018 }}</ref><ref>{{cite arXiv |last=Habib |first=Raza |eprint=1910.01709 |title=Semi-Supervised Generative Modeling for Controllable Speech Synthesis |class=cs.CL |date=2019 }}</ref>

== 半监督学习 ==

目前，[[自监督学习]]因能更好利用无标注数据而备受关注。研究表明，<ref>{{cite arXiv |last=Chung |first=Yu-An |eprint=1808.10128 |title=Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis |class=cs.CL |date=2018 }}</ref><ref>{{cite arXiv |last=Ren |first=Yi |eprint=1905.06791 |title=Almost Unsupervised Text to Speech and Automatic Speech Recognition |class=cs.CL |date=2019 }}</ref>在自监督损失的帮助下，对配对数据的需求会减少。

== 零样本语者调适 ==

零样本语者调适很有前景，因为一个模型就能生成具有各种风格和特征的语音。2018年6月，谷歌提出使用预训练语者验证模型作为语者编码器，提取语者嵌入。<ref>{{cite arXiv |last=Jia |first=Ye |eprint=1806.04558 |title=Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis |class=cs.CL |date=2018 }}</ref>然后，语者编码器成为神经TTS模型的一部分，可以确定输出语音的风格和特征。这表明，只用一个模型就能生成多种风格的语音。

== 神经声码器 ==
[[File:Larynx-HiFi-GAN speech sample.wav|thumb|使用HiFi-GAN神经声码器的语音合成示例]]
在基于深度学习的语音合成中，神经声码器在根据声学特征生成高质量语音方面发挥重要作用。2016年提出的[[WaveNet]]模型在语音质量方面表现出色。Wavenet将波形<math>\mathbf{x}=\{x_1,...,x_T\}</math>的联合概率因子化为为条件概率的乘积，如下所示

<math>p_{\theta}(\mathbf{x})=\prod_{t=1}^{T}p(x_t|x_1,...,x_{t-1})</math>

其中<math>\theta</math>是模型参数，包括许多扩张卷积层。因此，每个音频样本<math>x_t</math>都以之前所有时间步的样本为条件。然而，WaveNet的自回归性质使得推理过程非常缓慢。为解决这个问题，提出了并行WaveNet<ref>{{cite arXiv |last=van den Oord |first=Aaron  |eprint=1711.10433 |title=Parallel WaveNet: Fast High-Fidelity Speech Synthesis |class=cs.CL |date=2018 }}</ref>，是一种基于逆自回归流的模型，通过[[知识蒸馏]]和预先训练好的教师WaveNet模型一起训练出来。由于这种模型在推理时不是自回归的，因此推理速度比实时推理更快。同时，Nvidia提出了基于流的WaveGlow<ref>{{cite arXiv |last=Prenger |first=Ryan |eprint=1811.00002 |title=WaveGlow: A Flow-based Generative Network for Speech Synthesis |class=cs.SD |date=2018 }}</ref>模型，生成语音的速度也比实时模型快。不过，并行WaveNet虽然推理速度快，但也有需要预训练WaveNet模型的局限性，因此在计算设备有限的情况下，WaveGlow需要数周时间才能收敛。并行WaveGAN解决了这一问题，<ref>{{cite arXiv |last=Yamamoto |first=Ryuichi |eprint=1910.11480 |title=Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram |class=eess.AS |date=2019 }}</ref>通过多分辨率频谱损失和GAN策略学习生成语音。

{{listen
| filename    = The Chaos synthesized by VITS.ogg
| title       = Synthesis example
| description = [[The Chaos]] (short version) synthesized by [https://arxiv.org/abs/2106.06103 VITS], a research deep-learning-based end-to-end text-to-speech method, using the [https://keithito.com/LJ-Speech-Dataset/ LJ Speech] dataset.
}}

== 参考文献 ==
{{Reflist}}

{{Differentiable computing}}
{{语音合成}}

[[Category:语音合成]]
[[Category:人工智能应用]]
[[Category:辅助技术]]
[[Category:计算语言学]]