“…In the context of Transformers, countless works proposed ways to include some form of position-based attention bias (Shaw et al, 2018;Yang et al, 2018;Dai et al, 2019;Wang et al, 2020;Ke et al, 2021;Su et al, 2021;Luo et al, 2021;Qu et al, 2021;Chang et al, 2021;Wu et al, 2021;Wennberg & Henter, 2021;Likhomanenko et al, 2021;Dufter et al, 2022;Luo et al, 2022;Sun et al, 2022) (interalia). Dynamic convolution (Wu et al, 2019) and other similar models can also be Table 9.…”