Email or username:

Password:

Forgot your password?
Top-level
Мя :sparkles_lesbian:

Параллеля вниманию

Модели Seq2seq с вниманием (включая себя внимания) по-прежнему страдают от той же проблемы с повторяющимися сетями, которые им трудно размахивать, что помешало им ускориться на графических процессорах. В 2016 году разлагаемое внимание применяло механизм самообеспечения к сетям, которые легко параллелизируют, и достижение COTA приводит к текстуальному выражению с на порядок меньше параметров, чем LSTM.

2 comments
Мя :sparkles_lesbian:

Каждый слой кодера содержит 2 подлера: самоуцелевое внимание и сеть кормового. Каждый слой декодер содержит 3 подлера: причинно-маскированное самоуцелевое внимание, перекрестное внимание и сеть подкармандатных.

(Тоже #словотворчество бтв)

Мя :sparkles_lesbian:

В общем, чем дальше в технические дебри, тем забористее выходит перевод

Go Up