VALL-E
和之前的不同,是直接 音素 → 离散编码 → 波形; 音频编解码器编码作为中间表示,利用大规模且多样化的数据 任务总览 音频线(相当于label)原始 waveform → EnCodec encoder → latent z → RVQ → token C 同时还将label分层使用了,第一层c[:,1]是大颗粒度的(一般认为是speaker信息),使用自回归;后面的2-8层是一些小部分,使用NAR。 文本线(TTS LM训练)音素 x + prompt token → Transformer LM → 预测 token C 其中prompt token是和上面使用同一个EnCodec编码出来的, 过往TTS 利用Mel Spectrogram做中间表示,再生成波形。 有几个概念: Speaker encoder 主要是“提供说话人条件”,可以zero-shot clone Acoustic Model 负责内容(词、韵律)变成频谱 Vocoder 负责音质(把频谱变成声波) Speech Quantization 如果直接表示raw audio的话,首先要2^16来表示一个timestep,再加上长序列就会很长 μ-law可以保持reconstruction quality的同时,把65536降低到256,但是还是很长 vector quantization更高效,但是丢失了speaker的信息 AudioLM 发现:自监督 token → 表示内容;neural codec token → 表示音色、说话人、录音条件( k-means + neural codec) Model 先是利用了一个pre-trained的neural audio codec,RVQ:有8个(或者更多)量化器,每个量化器只是学习上一个的残差(感觉有点像泰勒展开一样),逐步去逼近编码x得到的z ...