查看“︁深度学习语音合成”︁的源代码
←
深度学习语音合成
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
{{机器学习导航栏}} '''[[深度学习]][[语音合成]]'''用[[深度学习#深度神经网络|深度神经网络]](DNN)从文本(TTS)或频谱(声码器)生成人工语音。DNN使用大量录制语音进行训练,若是TTS系统,则要使用相关标签和/或输入文本。 有些基于DNN的语音合成器已经接近人声的自然度。 == 表述 == 给定输入文本或语言单位序列<math>Y</math>,目标语音<math>X</math>可如下求得 <math display=block>X=\arg\max P(X|Y, \theta)</math> 其中<math>\theta</math>是模型参数。 一般来说输入文本会先传给声学特征生成器,声学特征再传给神经声码器。对前者,[[损失函数]]通常是L1或L2损失,它们施加了约束条件:输出必须遵循高斯分布或拉普拉斯分布。在实际应用中,由于人声频率约在300到4000 Hz之间,因此损失函数会对这一范围有更多惩罚: <math display=block>loss=\alpha \text{loss}_{\text{human}} + (1 - \alpha) \text{loss}_{\text{other}}</math> 其中<math>\text{loss}_{\text{human}}</math>是人声频段的损耗,<math>\alpha</math>是0.5附近的标量。声学特征通常是[[梅尔刻度]]的[[时频谱]],捕捉了语音信号的时域关系,因此足够输出智能输出。用于语音识别的[[梅尔倒频谱]]特征信息太少,不适合用于语音合成。 == 简史 == <!-- 檔案不存在 [[File:WaveNet_animation.gif|thumb|right|WaveNet中使用的扩张随意卷积层堆栈<ref name="deepmind">{{cite web|url=https://www.deepmind.com/blog/high-fidelity-speech-synthesis-with-wavenet|title=High-fidelity speech synthesis with WaveNet|last=van den Oord|first=Aäron|date=2017-11-12|website=[[DeepMind]]|access-date=2022-06-05}}</ref>]] ,可從英文維基百科取得 --> 2016年9月,[[DeepMind]]推出了基于原始音频波形的深度生成模型[[WaveNet]],证明基于深度学习的模型能对原始波形进行建模,并从[[时频谱]]梅尔时频谱等声学特征生成语音。WaveNet最初被认为计算成本高、速度慢,无法用于当时的消费类产品,但一年后,DeepMind推出了“并行WaveNet”,生成速度比原模型快一千倍。<ref name="deepmind" /> 2017 年初,Mila提出了[https://mila.quebec/en/publication/char2wav-end-to-end-speech-synthesis/ char2wav] {{Wayback|url=https://mila.quebec/en/publication/char2wav-end-to-end-speech-synthesis/ |date=20231001182106 }},一种以端到端方法生产原始波形的模型。同年,[[谷歌]]和[[Facebook]]分别推出了[https://arxiv.org/abs/1703.10135 Tacotron] {{Wayback|url=https://arxiv.org/abs/1703.10135 |date=20240206013010 }}和[https://arxiv.org/abs/1707.06588 VoiceLoop] {{Wayback|url=https://arxiv.org/abs/1707.06588 |date=20230623005359 }},直接从输入文本生成声学特征;几个月后,谷歌又提出了[https://arxiv.org/abs/1712.05884 Tacotron2] {{Wayback|url=https://arxiv.org/abs/1712.05884 |date=20240119045601 }},将WaveNet声码器与修改后的Tacotron架构相结合,进行端到端语音合成。Tacotron2可以生成接近人声的高质量语音。那时起,端到端方法成了最热门的研究课题,世界各地的许多研究人员开始注意到端到端语音合成的强大性能。<ref>{{cite arXiv |last=Hsu |first=Wei-Ning |eprint=1810.07217 |title=Hierarchical Generative Modeling for Controllable Speech Synthesis |class=cs.CL |date=2018 }}</ref><ref>{{cite arXiv |last=Habib |first=Raza |eprint=1910.01709 |title=Semi-Supervised Generative Modeling for Controllable Speech Synthesis |class=cs.CL |date=2019 }}</ref> == 半监督学习 == 目前,[[自监督学习]]因能更好利用无标注数据而备受关注。研究表明,<ref>{{cite arXiv |last=Chung |first=Yu-An |eprint=1808.10128 |title=Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis |class=cs.CL |date=2018 }}</ref><ref>{{cite arXiv |last=Ren |first=Yi |eprint=1905.06791 |title=Almost Unsupervised Text to Speech and Automatic Speech Recognition |class=cs.CL |date=2019 }}</ref>在自监督损失的帮助下,对配对数据的需求会减少。 == 零样本语者调适 == 零样本语者调适很有前景,因为一个模型就能生成具有各种风格和特征的语音。2018年6月,谷歌提出使用预训练语者验证模型作为语者编码器,提取语者嵌入。<ref>{{cite arXiv |last=Jia |first=Ye |eprint=1806.04558 |title=Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis |class=cs.CL |date=2018 }}</ref>然后,语者编码器成为神经TTS模型的一部分,可以确定输出语音的风格和特征。这表明,只用一个模型就能生成多种风格的语音。 == 神经声码器 == [[File:Larynx-HiFi-GAN speech sample.wav|thumb|使用HiFi-GAN神经声码器的语音合成示例]] 在基于深度学习的语音合成中,神经声码器在根据声学特征生成高质量语音方面发挥重要作用。2016年提出的[[WaveNet]]模型在语音质量方面表现出色。Wavenet将波形<math>\mathbf{x}=\{x_1,...,x_T\}</math>的联合概率因子化为为条件概率的乘积,如下所示 <math>p_{\theta}(\mathbf{x})=\prod_{t=1}^{T}p(x_t|x_1,...,x_{t-1})</math> 其中<math>\theta</math>是模型参数,包括许多扩张卷积层。因此,每个音频样本<math>x_t</math>都以之前所有时间步的样本为条件。然而,WaveNet的自回归性质使得推理过程非常缓慢。为解决这个问题,提出了并行WaveNet<ref>{{cite arXiv |last=van den Oord |first=Aaron |eprint=1711.10433 |title=Parallel WaveNet: Fast High-Fidelity Speech Synthesis |class=cs.CL |date=2018 }}</ref>,是一种基于逆自回归流的模型,通过[[知识蒸馏]]和预先训练好的教师WaveNet模型一起训练出来。由于这种模型在推理时不是自回归的,因此推理速度比实时推理更快。同时,Nvidia提出了基于流的WaveGlow<ref>{{cite arXiv |last=Prenger |first=Ryan |eprint=1811.00002 |title=WaveGlow: A Flow-based Generative Network for Speech Synthesis |class=cs.SD |date=2018 }}</ref>模型,生成语音的速度也比实时模型快。不过,并行WaveNet虽然推理速度快,但也有需要预训练WaveNet模型的局限性,因此在计算设备有限的情况下,WaveGlow需要数周时间才能收敛。并行WaveGAN解决了这一问题,<ref>{{cite arXiv |last=Yamamoto |first=Ryuichi |eprint=1910.11480 |title=Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram |class=eess.AS |date=2019 }}</ref>通过多分辨率频谱损失和GAN策略学习生成语音。 {{listen | filename = The Chaos synthesized by VITS.ogg | title = Synthesis example | description = [[The Chaos]] (short version) synthesized by [https://arxiv.org/abs/2106.06103 VITS], a research deep-learning-based end-to-end text-to-speech method, using the [https://keithito.com/LJ-Speech-Dataset/ LJ Speech] dataset. }} == 参考文献 == {{Reflist}} {{Differentiable computing}} {{语音合成}} [[Category:语音合成]] [[Category:人工智能应用]] [[Category:辅助技术]] [[Category:计算语言学]]
该页面使用的模板:
Template:Cite arXiv
(
查看源代码
)
Template:Differentiable computing
(
查看源代码
)
Template:Listen
(
查看源代码
)
Template:Reflist
(
查看源代码
)
Template:Wayback
(
查看源代码
)
Template:机器学习导航栏
(
查看源代码
)
Template:语音合成
(
查看源代码
)
返回
深度学习语音合成
。
导航菜单
个人工具
登录
命名空间
页面
讨论
不转换
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息