Note: Gated DeltaNet & Qwen3-Next

Featured Image

Under Construction!!

  • 为什么使用 Short Convolution / Why we use short convolution: https://kexue.fm/archives/11320
    • RNN 短程依赖不太行, 需要加个 n-gram 的信息,$h_t$ 加入了 $h_{t-1}\dots h_{t-k+1}$ 一共凑齐了 $k$ 个hidden states的信息,此处的hidden states $h$ 可以是 $q,k,v,z$ where $z$ 是 skip connection over deltanet