总览

  • 事实上不是一种新的模型而是RNN-T的改进版,堆叠了多层RNN
  • 同时encoder采用双向的RNN,这样可以捕捉前后的信息,符合语音识别的直觉
  • 但是decoder还是单向的

train

  • 把原来RNN-T的单向的encoder改成多层的BiLSTM然后就是取出最后一层的正向和反向h一起丢到一个net里面变成新的l(这个时候就相当于RNN-T那篇里面我画的红色线的了)

decoding

  • 还是采用beam search,这篇paper也提出CTC也可以beam search

正则化

  • early stopping
  • weight noise(高斯噪声加权)