@Worst
Ну вот я бы с радостью позапускал LLaMA 3.1 405B, например. Но текущие тулкиты, которые предназначены для удобного пользования с этим не очень справляются.
Хотя, если я ошибаюсь и что-то упустил - буду рад если ты ткнёшь меня туда, где написано как 405B модель запустить на видеокарте с 16G VRAM - пусть и с оффлоадом в RAM 🤷♂️
@skobkin@lor.sh так я же прямо сказал, что тут или или
А по поводу - koboldcpp и lm studio сам юзаю в качестве сервера, но я манал из vram вылезать
Lm удобная, но у kobold есть фичи на поиграться (особенно у Frankenstein форка), хотя сомнительно
Глянь ещё Mistral Nemo и nvinia nemotron из моделей - Nemo показалась очень качественной в instruct, хоть и галлюцинирует (а кто нет, но мб нужен прост)
И да - там ещё Яндекс что-то мутит с q2 квантованием без потерь, но я ниасилил