Грустное очевидное наблюдение про LLM. Работающие СЕЙЧАС...

Грустное очевидное наблюдение про LLM.

Работающие СЕЙЧАС локально модели не могут тягаться с жЫрными облачными моделями в вопросах ЗНАНИЙ.

Не поймите меня неправильно. Я крайне доволен тем как себя ведёт LLaMA 3.1 и регулярно её использую. Лично для меня 3.1 по сравнению с 3.0 - это ОЧЕНЬ крутой шаг.
Обычно я запускаю 7B-8B или 13B модели квантованные по 4_K_M. Они шустро и достаточно точно работают ... в своих пределах.
Их "reasoning" за исключением некоторых лулзов очень неплох и когда нужно именно порассуждать или обработать данную информацию, а не "вспомнить" они справляются достойно.

Но когда нужна фактика, то очень хорошо заметно, что все знания мира вместе со скиллами по их интерпретации и выражению не очень хорошо помещаются в 4-5 гигабайт квантованных весов.

Нам нужна какая-то прорывная разработка, которая позволила бы запускать жЫр локально - пусть и с какими-то компромиссами.

Насколько я помню, в эту сторону, вроде как, ведутся работы. Я где-то мельком видел как с помощью всяких ухищрений локально запускают жирный инференс. Но на тот момент там было много "но" и для конечного "продукта" это совсем не было готово.

Пишу я это всё потому, что захотел тут проанализировать кое-что из литературы и пошёл сразу в GPT-4o, т.к. знаю по опыту, что маленькая домашняя LLaMA навыдумывает кучу всего и в итоге проще будет собирать информацию самому, чем верифицировать и править то, что вышло.
А вот GPT-4o выдала мне простыню, бегло прочитав которую я не увидел ни одной ошибки в именах или примерах, которые она привела.

Хочется иметь возможность делать это "не выходя из дома".

Но пока не получается 🤷‍♂️

#LLM #OpenAI #ChatGPT #LLaMA #thoughts #log #facts

Like 11 August at 23:45 | Open on lor.sh

31 comments

∅

@skobkin@lor.sh ну тут или "дома" с 7-12b моделями или "все знания мира" с 700b моделью на класстере
У некоторых второе вполне заводится дома

11 August at 23:49 | Open on shitpost.poridge.club

Alexey Skobkin

@Worst
Ну вот я бы с радостью позапускал LLaMA 3.1 405B, например. Но текущие тулкиты, которые предназначены для удобного пользования с этим не очень справляются.

Хотя, если я ошибаюсь и что-то упустил - буду рад если ты ткнёшь меня туда, где написано как 405B модель запустить на видеокарте с 16G VRAM - пусть и с оффлоадом в RAM 🤷‍♂️

11 August at 23:55 | Open on lor.sh

∅

@skobkin@lor.sh так я же прямо сказал, что тут или или

А по поводу - koboldcpp и lm studio сам юзаю в качестве сервера, но я манал из vram вылезать
Lm удобная, но у kobold есть фичи на поиграться (особенно у Frankenstein форка), хотя сомнительно
Глянь ещё Mistral Nemo и nvinia nemotron из моделей - Nemo показалась очень качественной в instruct, хоть и галлюцинирует (а кто нет, но мб нужен прост)

И да - там ещё Яндекс что-то мутит с q2 квантованием без потерь, но я ниасилил

12 August at 1:33 | Open on shitpost.poridge.club

Alexey Skobkin

@Worst
У меня есть Nemo на сервере, да.

Но я чаще испольщую LLaMA 3.1 8B всё-таки. Скорее потому, что мои локальные юзкейсы - это чаще либо "reasoning", либо какие-нибудь приколы с персонажами. Например, когда я создаю надстройку над моделью, где в системном промпте ей сказано, что она социопат, прошу решить задачку про волка, козу и капусту и наблюдаю как она мне говорит, что ебала в рот возить на лодке этих коз - пусть сами плывут.

А мистраль (именно Nemo) для таких кеков и вживания в роль как-то меньше подошла на моём опыте - как-то начинала сваливаться в формальности в каждом ответе хотя в системном промпте было сказано, что персонаж не любит формальности.
А LLaMA 3.1 наоборот стала податливей в этом плане по сравнению с 3 и тем более 2 от чего у меня и случился восторг.

И что самое забавное - LLaMA 3.1 хотя казалось бы должна быть ещё хуже зацензурирована, чем её предшественники, но по факту выяснилось, что в пылу диалога может хуй забить на разный файн-тюнинг проделанный Meta, что меня очень порадовало.

Ну, например я иногда балуюсь тем, что создаю для LLM персонажей из мифологии или массовой культуры и разыгрываю какие-нибудь ситуации в чате.

Скажем, у меня есть персонаж кицунэ (японский трикстер-йокай с фичами лисы).
Я по приколу разыграл в чате поход с этим персонажем в "Пятёрочку". И LLaMA настолько вошла в роль, что пыталась на автоматизированной кассе спиздить снэки, хотя я напрямую никаких склонностей к такому не указывал.

@Worst
У меня есть Nemo на сервере, да.

Expand text...

12 August at 1:48 | Open on lor.sh

∅

@skobkin@lor.sh хм, надо будет тогда протыкать в этом плане, благо скачана

12 August at 3:14 | Open on shitpost.poridge.club

∅

@skobkin@lor.sh Кстати, не подскажешь для неё параметры?

12 August at 6:42 | Open on shitpost.poridge.club

Alexey Skobkin

@Worst
Я конкретно с параметрами модели не играюсь обычно. Определяю системный промпт в основном. В случае с Ollama это создание Modelfile. Там, конечно, и параметры можно твикать, но я этого не делаю. У меня достаточно поверхностное знание LLM сейчас.

12 August at 10:44 | Open on lor.sh

∅

@skobkin@lor.sh прост со стоковыми параметрами моя 3,1 q5 пишет в стиле я есть грут

12 August at 10:56 | Open on shitpost.poridge.club

Alexey Skobkin

@Worst
Так может потому и пишет, что у неё инференс по пизде идёт из-за неудачной версии модели?

https://github.com/ggerganov/llama.cpp/pull/1684#issuecomment-1579252501

Попробуй Q4_K_M. И, естественно, instruct версии.

12 August at 11:00 | Open on lor.sh

∅

@skobkin@lor.sh

12 August at 11:01 | Open on shitpost.poridge.club

Alexey Skobkin

@Worst
?

12 August at 11:06 | Open on lor.sh

∅ replied to Alexey

@skobkin@lor.sh У меня этот чекпоинт лежит

12 August at 11:09 | Open on shitpost.poridge.club

∅ replied to ∅

@skobkin@lor.sh тьфу блять, какой чекпоинт...

12 August at 11:09 | Open on shitpost.poridge.club

Alexey Skobkin replied to ∅

@Worst
Ну лежит и лежит.
Попробуй четырёхбитную, говорю. Её по идее проще должно быть в памяти укладывать.

12 August at 11:11 | Open on lor.sh

∅ replied to Alexey

@skobkin@lor.sh Так у меня нет проблем с памятью
Но ладно, ладно, попробую 4km

12 August at 11:16 | Open on shitpost.poridge.club

Alexey Skobkin replied to ∅

@Worst
Я не знаю в чём у тебя проблема.
Но я помню, что у меня модель вела себя как после лоботомии как раз когда я ошибался и стягивал не те версии весов.

12 August at 11:21 | Open on lor.sh

∅ replied to Alexey

@skobkin@lor.sh Так по схеме с ссылки q5km ном же должны быть

12 August at 11:24 | Open on shitpost.poridge.club

Roman

@skobkin а дообучение разве не работает? Подбором датасетов под тему. Я вроде ролики на ютубе видел, народ ллм затачивает под тему кажется. Краем глаза слежу за кульбитами.

12 August at 0:02 | Open on mtdn.anyqn.com

Alexey Skobkin

@3draven
Если надо чтобы модель хорошо ориентировалась в базе знаний твоей компании, например - да, идея хорошая.
Если тебе нужно работать с информацией со всего мира - не особо подойдёт.

12 August at 0:09 | Open on lor.sh

Roman

@skobkin а, как поисковик с мозгами. Так домашние модели врядли смогут работать, разве что кто то осилит торент для датасетов, что бы множество юзеров скрапили данные и собирался общий датасет из тысяч компов и браузеров. Но такой проект поди потяни накатать.

12 August at 0:12 | Open on mtdn.anyqn.com

burbilog

@3draven @skobkin насколько я понимаю, дообучение пока не для простых смертных -- если инференс для мелких моделей можно гонять на более-менее жирных видеокартах, то чтобы дообучать надо ресурсов куда больше.

т. е. надо арендовать, а это приличные деньги

14 August at 8:30 | Open on lor.sh

Alexey Skobkin

@burbilog @3draven
Ну, учитывая, что аренда обычно почасовая, то в зависимости от цели вполне рабочий вариант.

14 August at 11:31 | Open on lor.sh

Kir4ik52 :blobfoxsanta:

@skobkin Я боюсь поинтересоваться, какое у тебя железо, чтобы запускать Ламу?

12 August at 0:28 | Open on mastodon.ml

Alexey Skobkin

@kir4ik52
Чтобы запускать 7B/13B модели комфортно я взял RX 7800 XT в домашний сервер. На десктопе до этого тестил на RX 6800 XT.

И нет, я взял AMD абсолютно сознательно и понимая, что их GPU будут несколько уступать конкуренту. Но я в гробу видел NVIDIA с их монополией на нейровычисления и закрытыми драйверами.

12 August at 0:34 | Open on lor.sh

Kir4ik52 :blobfoxsanta:

@skobkin Насчёт rx лайк :blobfox_w_:

12 August at 0:34 | Open on mastodon.ml

Kir4ik52 :blobfoxsanta:

@skobkin Стал замечать тенденцию, что для производительных пк берут красную связку или красную + зелёную. Да, и хочу указать тот факт, что amd карточки используют apple, а также хакинташники прямо охотяться за красными картами(например, rx 580)
В рот ебал майнеров и хакинташников :blobfoxevil:

12 August at 0:40 | Open on mastodon.ml

aquaratixc :linux:

@skobkin может попробуешь тулзу cake от evilsocket ?

15 August at 13:51 | Open on mstdn.social

Alexey Skobkin

@aquaratixc
Чтобы что?
Ну, то есть спасибо, закладочку заложу, но непонятно, что мне это даст. У меня один домашний сервер с одной видеокартой.

15 August at 13:56 | Open on lor.sh

aquaratixc :linux:

@skobkin печально, что только один. У меня вот куча одноплатников и ноут, но локальный ИИ хочется...

15 August at 14:02 | Open on mstdn.social

Alexey Skobkin

@aquaratixc
У меня есть несколько одноплатников, но я думаю, что пока их меньше десяти, рядом с сервером их даже нет смысла ставить - они будут только мешать.

Возможно, было бы забавно из кучи компьют-модулей от Pine, Raspberry или OrangePi собрать LLM-ящик, но куда их потом-то девать. У меня под них задач нет 😔

15 August at 14:05 | Open on lor.sh

aquaratixc :linux:

@skobkin я тоже думал собрать llm ящик. Но из одноплатников, стоящий только один для этих целей - orange pi 5

15 August at 16:04 | Open on mstdn.social