Относительные характеристики были сравнены между глобальным (RNNsearchсюмаминого) и местными (раздвижными окна) архитектурой внимания для машинного перевода, обнаруживая, что смешанное внимание имело более высокое качество, чем внимание во всем мире, в то время как местное внимание сократило время перевода.
Параллеля вниманию
Модели Seq2seq с вниманием (включая себя внимания) по-прежнему страдают от той же проблемы с повторяющимися сетями, которые им трудно размахивать, что помешало им ускориться на графических процессорах. В 2016 году разлагаемое внимание применяло механизм самообеспечения к сетям, которые легко параллелизируют, и достижение COTA приводит к текстуальному выражению с на порядок меньше параметров, чем LSTM.