主页 » Notes

RNN-T+

2026年3月19日 · 1 分钟 · 233 字 · Hengtao Wu

总览

事实上不是一种新的模型而是RNN-T的改进版，堆叠了多层RNN
同时encoder采用双向的RNN，这样可以捕捉前后的信息，符合语音识别的直觉
但是decoder还是单向的

train

把原来RNN-T的单向的encoder改成多层的BiLSTM然后就是取出最后一层的正向和反向h一起丢到一个net里面变成新的l（这个时候就相当于RNN-T那篇里面我画的红色线的了）

decoding

还是采用beam search，这篇paper也提出CTC也可以beam search

正则化

early stopping
weight noise（高斯噪声加权）