Email or username:

Password:

Forgot your password?
Top-level
Ever Aftar

@drq
Уже сейчас ЛЛМы больших мальчишек подкрадываются к триллиону (10¹²) параметров. Скоро они в один датацентр перестанут помещаться, придется их размещать в разных локациях. И для функционирования им потребуется гонять эти триллионы переменных по каким-то каналам связи.

@loonycyborg @grishka

2 comments
Dr. Quadragon ❌

@ever А теперь давай считать.

Сколько занимает один параметр? Чаще всего, тип параметра - это float16. Стало быть, два байта на параметр.

Соответственно, один триллион параметров - это 2 терабайта (2 триллиона байт, бишь).

Во-первых, 2 терабайта это как-то слишком слабо, чтобы это надо было шардить на несколько датацентров, во-вторых, такая линия полностью синхронизирует всю модель за 0.053(3) секунды, если не брать во внимание ограничения шины, в-третьих - если понадобится что-то синхронизировать, я сомневаюсь, что синкать будут модель целиком, скорее всего пересылать будут дельту со смещениями.

Как я говорил, копейки.

@loonycyborg @grishka

@ever А теперь давай считать.

Сколько занимает один параметр? Чаще всего, тип параметра - это float16. Стало быть, два байта на параметр.

Соответственно, один триллион параметров - это 2 терабайта (2 триллиона байт, бишь).

Во-первых, 2 терабайта это как-то слишком слабо, чтобы это надо было шардить на несколько датацентров, во-вторых, такая линия полностью синхронизирует всю модель за 0.053(3) секунды, если не брать во внимание ограничения шины, в-третьих - если понадобится что-то синхронизировать,...

Ever Aftar replied to Dr. Quadragon ❌

@drq @loonycyborg @grishka Я же говорю, это сейчас. А речь шла о "нескольких сотен жизней"

Go Up