Email or username:

Password:

Forgot your password?
Мя :sparkles_lesbian:

Кидать технические статьи в локальный переводчик лисы это отличный способ развлечься, пытаясь понять, что хотел сказать автор

Преимущество трансформаторов не имеют никаких повторяющихся единиц, поэтому требуется меньше времени на обучение, чем более ранние повторяющиеся нейронные архитектуры (RNN), такие как длительные краткосрочные память (LSTM).

6 comments
Мя :sparkles_lesbian:

А ещё он выдает #словотворчество

Например «Преддецессоры»

Мя :sparkles_lesbian:

Одним из ключевых нововведения было использование механизма внимания, в котором использовались нейроны, которые размножают выработки других нейронов, так называемых мультипликативных единиц. Нейронные сети с использованием мультипликативных агрегатов были позже названы сетями сигма-пи или сетями более

Мя :sparkles_lesbian:

Относительные характеристики были сравнены между глобальным (RNNsearchсюмаминого) и местными (раздвижными окна) архитектурой внимания для машинного перевода, обнаруживая, что смешанное внимание имело более высокое качество, чем внимание во всем мире, в то время как местное внимание сократило время перевода.

Мя :sparkles_lesbian:

Параллеля вниманию

Модели Seq2seq с вниманием (включая себя внимания) по-прежнему страдают от той же проблемы с повторяющимися сетями, которые им трудно размахивать, что помешало им ускориться на графических процессорах. В 2016 году разлагаемое внимание применяло механизм самообеспечения к сетям, которые легко параллелизируют, и достижение COTA приводит к текстуальному выражению с на порядок меньше параметров, чем LSTM.

Мя :sparkles_lesbian:

Каждый слой кодера содержит 2 подлера: самоуцелевое внимание и сеть кормового. Каждый слой декодер содержит 3 подлера: причинно-маскированное самоуцелевое внимание, перекрестное внимание и сеть подкармандатных.

(Тоже #словотворчество бтв)

Мя :sparkles_lesbian:

В общем, чем дальше в технические дебри, тем забористее выходит перевод

Go Up