Email or username:

Password:

Forgot your password?
Top-level
Ever Aftar

@drq @loonycyborg @grishka

"не просто дохуя, а настолько дохуя дохуя, что все, дальше мысль останавливается. Тебе никогда и нигде не понадобится столько за несколько сотен жизней" - Dr. Quadragon

"When we set the upper limit of PC-DOS at 640K, we thought nobody would ever need that much memory" - Bill Gates,

12 comments
Dr. Quadragon ❌

@ever Придумай мне хоть один реалистичный сценарий, в котором кому-то может понадобиться 301 терабит трафика.

Типа, даже если ты умышленно будешь слать мусор туда-сюда, ты столько не израсходуешь.

@loonycyborg @grishka

Ever Aftar

@drq
Навскидку: синхронизация и апдейт весов нейросетки при параллельном обучении в разных датацентрах

@loonycyborg @grishka

Dr. Quadragon ❌

@ever Все еще копейки для такой линии.

Если я правильно помню, подводные кабели между америкой и Европой выдают сравнимую скорость, а в них, на секундочку, помещается весь межконтинентальный Интернет.

@loonycyborg @grishka

Ever Aftar

@drq
Уже сейчас ЛЛМы больших мальчишек подкрадываются к триллиону (10¹²) параметров. Скоро они в один датацентр перестанут помещаться, придется их размещать в разных локациях. И для функционирования им потребуется гонять эти триллионы переменных по каким-то каналам связи.

@loonycyborg @grishka

Dr. Quadragon ❌

@ever А теперь давай считать.

Сколько занимает один параметр? Чаще всего, тип параметра - это float16. Стало быть, два байта на параметр.

Соответственно, один триллион параметров - это 2 терабайта (2 триллиона байт, бишь).

Во-первых, 2 терабайта это как-то слишком слабо, чтобы это надо было шардить на несколько датацентров, во-вторых, такая линия полностью синхронизирует всю модель за 0.053(3) секунды, если не брать во внимание ограничения шины, в-третьих - если понадобится что-то синхронизировать, я сомневаюсь, что синкать будут модель целиком, скорее всего пересылать будут дельту со смещениями.

Как я говорил, копейки.

@loonycyborg @grishka

@ever А теперь давай считать.

Сколько занимает один параметр? Чаще всего, тип параметра - это float16. Стало быть, два байта на параметр.

Соответственно, один триллион параметров - это 2 терабайта (2 триллиона байт, бишь).

Во-первых, 2 терабайта это как-то слишком слабо, чтобы это надо было шардить на несколько датацентров, во-вторых, такая линия полностью синхронизирует всю модель за 0.053(3) секунды, если не брать во внимание ограничения шины, в-третьих - если понадобится что-то синхронизировать,...

Ever Aftar replied to Dr. Quadragon ❌

@drq @loonycyborg @grishka Я же говорю, это сейчас. А речь шла о "нескольких сотен жизней"

Мя :sparkles_lesbian:

@ever там кмк больше важна latency, а для этого придется поставить сервера не в разных датацентрах а где нибудь поближе, потому что физика беспощадная сука...

Ну а если кто-то придумает, как шардить такие нейронки на очень независимые куски, то там и трафика запредельные объемы не понадобятся

@drq @loonycyborg @grishka

Ever Aftar

@mo В этом и весь поинт. Когда трафика запредельные объемы под рукой, вместо того, чтобы ломать голову и придумывать, как шардить, дешевле будет просто кабель воткнуть.

@drq @loonycyborg @grishka

Мя :sparkles_lesbian:

@ever кмк, если у вас достаточно ресурсов чтобы напрямую, без промежуточных точек соединить два датацентра, то можно просто построить датацентр поболбше...

ну и latency в географически отдаленных ДЦ будет выше, банально потому что скорость света учёные поднимать ещё не научились

@drq @loonycyborg @grishka

Dr. Quadragon ❌

@ever Эмм... Ну, и пусть? Это все равно будет совершенно копеечный трафик на такой ширине канала.

@mo @loonycyborg @grishka

Шуро
@drq @grishka @loonycyborg @ever Придумают криптовалюту с майнингом через сетевой обмен. Типа Чиа, но онлайн :))
loonycyborg
@ever @drq @grishka
Эта цитата - апокрифична. Даже в те времена были системы с большим объёмом памяти, PC с DOS'ом выигрывали только по цене.
Go Up