TTS | LazySheep's Blog

和之前的不同，是直接音素 → 离散编码 → 波形; 音频编解码器编码作为中间表示，利用大规模且多样化的数据任务总览音频线（相当于label）原始 waveform → EnCodec encoder → latent z → RVQ → token C 同时还将label分层使用了，第一层c[:,1]是大颗粒度的（一般认为是speaker信息），使用自回归；后面的2-8层是一些小部分，使用NAR。文本线（TTS LM训练）音素 x + prompt token → Transformer LM → 预测 token C 其中prompt token是和上面使用同一个EnCodec编码出来的，过往TTS 利用Mel Spectrogram做中间表示，再生成波形。有几个概念： Speaker encoder 主要是“提供说话人条件”，可以zero-shot clone Acoustic Model 负责内容（词、韵律）变成频谱 Vocoder 负责音质（把频谱变成声波） Speech Quantization 如果直接表示raw audio的话，首先要2^16来表示一个timestep，再加上长序列就会很长 μ-law可以保持reconstruction quality的同时，把65536降低到256，但是还是很长 vector quantization更高效，但是丢失了speaker的信息 AudioLM 发现：自监督 token → 表示内容；neural codec token → 表示音色、说话人、录音条件（ k-means + neural codec） Model 先是利用了一个pre-trained的neural audio codec，RVQ：有8个（或者更多）量化器，每个量化器只是学习上一个的残差（感觉有点像泰勒展开一样），逐步去逼近编码x得到的z ...