Одним из ключевых нововведения было использование механизма внимания, в котором использовались нейроны, которые размножают выработки других нейронов, так называемых мультипликативных единиц. Нейронные сети с использованием мультипликативных агрегатов были позже названы сетями сигма-пи или сетями более
Относительные характеристики были сравнены между глобальным (RNNsearchсюмаминого) и местными (раздвижными окна) архитектурой внимания для машинного перевода, обнаруживая, что смешанное внимание имело более высокое качество, чем внимание во всем мире, в то время как местное внимание сократило время перевода.