主页 » Notes

T-T

2026年3月18日 · 1 分钟 · 7 字 · Hengtao Wu

总览

是把CNN-T里面的encoder部分里面的CNN换成了Transformer block
transducer可以就是看成一种net的结构，transformer是block填充进去这种结构

一些细节

先通过VGG-causal来降低帧数，减少一些计算量，同时transformer的PE不稳定，VGG可以提供更好的位置信息。然后再喂到transformer里面去
为了做成流式的就要加上mask，同时也减少了计算量，同时性能没有变差