主页 » Notes

Streaming T-T

2026年3月18日 · 1 分钟 · 40 字 · Hengtao Wu

总览

虽然T-T比CNN-T性能好了不少，但是计算量更大了，消耗变贵了
这篇想利用chunk-wise training来实现流式的T-T

与现有的比较

Time-restricted 由于transformer是很多块，所以到最下面会有很大的latency
chunk-wise method 简单的分块导致块之间的联系没了，会有较大的误差
Memory based用上下文来编码信息，导致破坏了并行性

model

transformer
和过往差不多，一个小trick是相对位置编码的时候利用了一个lookup table
Attention mask is all you need to design（陈老师在那场报告里介绍的）
- mask掉之后是不会破坏并行的，因为就是在一样并行计算的时候不要的东西变成0而已
- 掩码策略的优势在于它允许左侧上下文线性增长，同时限制右侧感受野的扩展，因此模型可以使用较长的历史信息，同时限制对未来信息的预判

inference

caching：缓存历史帧的 K/V，在每帧只算 query 并做 attention，大大减少重复计算和内存占用。重复计算的地方是 每一帧的线性投影 W_k·x 和 W_v·x
chunk-wise compute：用小块多帧同时计算，配合 K/V 缓存，充分利用矩阵计算优化，同时允许少量延迟，提升推理速度