Attention based ASR（LAS）

就是一个encoder，输入和输出有down-sampling的过程
常用1d-CNN，LSTM或者self-attention，LAS用的是低用cnn，高用LSTM
同时由于语音太长（1s的mel就会有差不多100帧），所以需要down-sampling
- RNN的trick：pyrimid-RNN，比方说就是每一层就把两个hidden transform成一个hidden；pooling over time：就是每一小段时间就只取一个h送到下一层
- CNN：time-delay CNN（其实就是dialated-1d-CNN）
- self-attention：利用truncated；就是只看部分来做attention

拿到encoder的输出之后用一个z0做query，encoder的输入作为key，value，做一次标准的attention得到c0
- 这里c0有两种用法：一种是在当前时间步直接使用，另一种是用在下一步中；LAS是将两种结合起来——就是增加一个向量放ct和zt的影响再得到distribution；另外一种就是见下面的描述。
另外由于需要限制attention不要乱跳，所以加入location-aware的影响，就是把上一个时间步附近的alpha的输出拿来使用