@drq
Уже сейчас ЛЛМы больших мальчишек подкрадываются к триллиону (10¹²) параметров. Скоро они в один датацентр перестанут помещаться, придется их размещать в разных локациях. И для функционирования им потребуется гонять эти триллионы переменных по каким-то каналам связи.
@ever А теперь давай считать.
Сколько занимает один параметр? Чаще всего, тип параметра - это float16. Стало быть, два байта на параметр.
Соответственно, один триллион параметров - это 2 терабайта (2 триллиона байт, бишь).
Во-первых, 2 терабайта это как-то слишком слабо, чтобы это надо было шардить на несколько датацентров, во-вторых, такая линия полностью синхронизирует всю модель за 0.053(3) секунды, если не брать во внимание ограничения шины, в-третьих - если понадобится что-то синхронизировать, я сомневаюсь, что синкать будут модель целиком, скорее всего пересылать будут дельту со смещениями.
Как я говорил, копейки.
@loonycyborg @grishka
@ever А теперь давай считать.
Сколько занимает один параметр? Чаще всего, тип параметра - это float16. Стало быть, два байта на параметр.
Соответственно, один триллион параметров - это 2 терабайта (2 триллиона байт, бишь).
Во-первых, 2 терабайта это как-то слишком слабо, чтобы это надо было шардить на несколько датацентров, во-вторых, такая линия полностью синхронизирует всю модель за 0.053(3) секунды, если не брать во внимание ограничения шины, в-третьих - если понадобится что-то синхронизировать,...