总览
- 事实上不是一种新的模型而是RNN-T的改进版,堆叠了多层RNN
- 同时encoder采用双向的RNN,这样可以捕捉前后的信息,符合语音识别的直觉
- 但是decoder还是单向的
train
- 把原来RNN-T的单向的encoder改成多层的BiLSTM然后就是取出最后一层的正向和反向h一起丢到一个net里面变成新的l(这个时候就相当于RNN-T那篇里面我画的红色线的了)
decoding
- 还是采用beam search,这篇paper也提出CTC也可以beam search
正则化
- early stopping
- weight noise(高斯噪声加权)