总览 是把CNN-T里面的encoder部分里面的CNN换成了Transformer block transducer可以就是看成一种net的结构,transformer是block填充进去这种结构 一些细节 先通过VGG-causal来降低帧数,减少一些计算量,同时transformer的PE不稳定,VGG可以提供更好的位置信息。然后再喂到transformer里面去 为了做成流式的就要加上mask,同时也减少了计算量,同时性能没有变差