12 comments
@BPOH на 30 у меня оператоса нет. Как я понял, во время генерации вся модель выгружается в оперативку, т.е. если 7B занимает 4,1, то все эти 4,1 резко оказываются в оперативке. Сейчас качаю 13B, по идее он должен быть получше. В целом наблюдаю, что на гуманитарные вопросы он отвечает несколько охотнее. Надо ещё поиграться с параметрами, возможно, для 7B top-k в 50 это маловато @kantor вот эту штуку тестил она меньше озу ест её даже на телефоне и на малинке запускали, только в режиме чата не завелась https://github.com/ggerganov/llama.cpp @BPOH контейнер из главного поста вокруг него и собран. То, что модель целиком выгружается в оперативку это нормально, да и на использование проца я не жалуюсь, лишь бы нормально работало. Надо будет ещё поискать на досуге, конечно, но фундаментально проблема решается докупкой оперативки, что я, наверное, сделаю @BPOH как мне кажется, я поковыряю параметры и буду на более-менее постоянной основе пользоваться этой штукой. Мне не нужен сильно продвинутый функционал, иногда бывает нужно быстро спросить что-то, что очень плохо поддаётся гуглингу — тогда эти модели и выручают. То, что оно есть в свободном доступе это, конечно, успех — надо на досуге ещё почитать и попробовать завести на cuda — так всяко быстрее будет. @kantor если нужно _найти_ что-то, что ещё и не гуглится, спрашивать у языковой модели крайне плохая идея. Они обучены реалистично генерировать текст, без каких-либо гарантий или даже стремления к его корректности. Модель с покерфейсом выдаст тебе (крайне убедительно выглядящую!) чушь, и будешь потом разгребать последствия в том же гугле @kantor к чатжпт это к слову тоже относится. Выглядит убедительно, слог красивый но — ахинея полная |
@kantor ну подождём когда 4гпт сольют :D ну а так чатилку поковырять можно но и 7В это даже не 30В попробуй 30-ку запустить)