Streaming T-T

总览 虽然T-T比CNN-T性能好了不少,但是计算量更大了,消耗变贵了 这篇想利用chunk-wise training来实现流式的T-T 与现有的比较 Time-restricted 由于transformer是很多块,所以到最下面会有很大的latency chunk-wise method 简单的分块导致块之间的联系没了,会有较大的误差 Memory based用上下文来编码信息,导致破坏了并行性 model transformer 和过往差不多,一个小trick是相对位置编码的时候利用了一个lookup table Attention mask is all you need to design(陈老师在那场报告里介绍的) mask掉之后是不会破坏并行的,因为就是在一样并行计算的时候不要的东西变成0而已 掩码策略的优势在于它允许左侧上下文线性增长,同时限制右侧感受野的扩展,因此模型可以使用较长的历史信息,同时限制对未来信息的预判 inference caching:缓存历史帧的 K/V,在每帧只算 query 并做 attention,大大减少重复计算和内存占用。重复计算的地方是 每一帧的线性投影 W_k·x 和 W_v·x chunk-wise compute:用小块多帧同时计算,配合 K/V 缓存,充分利用矩阵计算优化,同时允许少量延迟,提升推理速度

2026年3月18日 · 1 分钟 · 40 字 · Hengtao Wu

T-T

总览 是把CNN-T里面的encoder部分里面的CNN换成了Transformer block transducer可以就是看成一种net的结构,transformer是block填充进去这种结构 一些细节 先通过VGG-causal来降低帧数,减少一些计算量,同时transformer的PE不稳定,VGG可以提供更好的位置信息。然后再喂到transformer里面去 为了做成流式的就要加上mask,同时也减少了计算量,同时性能没有变差

2026年3月18日 · 1 分钟 · 7 字 · Hengtao Wu