论文阅读 | LazySheep's Blog

总览虽然T-T比CNN-T性能好了不少，但是计算量更大了，消耗变贵了这篇想利用chunk-wise training来实现流式的T-T 与现有的比较 Time-restricted 由于transformer是很多块，所以到最下面会有很大的latency chunk-wise method 简单的分块导致块之间的联系没了，会有较大的误差 Memory based用上下文来编码信息，导致破坏了并行性 model transformer 和过往差不多，一个小trick是相对位置编码的时候利用了一个lookup table Attention mask is all you need to design（陈老师在那场报告里介绍的） mask掉之后是不会破坏并行的，因为就是在一样并行计算的时候不要的东西变成0而已掩码策略的优势在于它允许左侧上下文线性增长，同时限制右侧感受野的扩展，因此模型可以使用较长的历史信息，同时限制对未来信息的预判 inference caching：缓存历史帧的 K/V，在每帧只算 query 并做 attention，大大减少重复计算和内存占用。重复计算的地方是每一帧的线性投影 W_k·x 和 W_v·x chunk-wise compute：用小块多帧同时计算，配合 K/V 缓存，充分利用矩阵计算优化，同时允许少量延迟，提升推理速度