总览
- 虽然T-T比CNN-T性能好了不少,但是计算量更大了,消耗变贵了
- 这篇想利用chunk-wise training来实现流式的T-T
与现有的比较
- Time-restricted 由于transformer是很多块,所以到最下面会有很大的latency
- chunk-wise method 简单的分块导致块之间的联系没了,会有较大的误差
- Memory based用上下文来编码信息,导致破坏了并行性
model
transformer
和过往差不多,一个小trick是相对位置编码的时候利用了一个lookup table
Attention mask is all you need to design(陈老师在那场报告里介绍的)
mask掉之后是不会破坏并行的,因为就是在一样并行计算的时候不要的东西变成0而已
掩码策略的优势在于它允许左侧上下文线性增长,同时限制右侧感受野的扩展,因此模型可以使用较长的历史信息,同时限制对未来信息的预判

inference
- caching:缓存历史帧的 K/V,在每帧只算 query 并做 attention,大大减少重复计算和内存占用。重复计算的地方是 每一帧的线性投影 W_k·x 和 W_v·x
- chunk-wise compute:用小块多帧同时计算,配合 K/V 缓存,充分利用矩阵计算优化,同时允许少量延迟,提升推理速度