Грустное очевидное наблюдение про LLM.
Работающие СЕЙЧАС локально модели не могут тягаться с жЫрными облачными моделями в вопросах ЗНАНИЙ.
Не поймите меня неправильно. Я крайне доволен тем как себя ведёт LLaMA 3.1 и регулярно её использую. Лично для меня 3.1 по сравнению с 3.0 - это ОЧЕНЬ крутой шаг.
Обычно я запускаю 7B-8B или 13B модели квантованные по 4_K_M. Они шустро и достаточно точно работают ... в своих пределах.
Их "reasoning" за исключением некоторых лулзов очень неплох и когда нужно именно порассуждать или обработать данную информацию, а не "вспомнить" они справляются достойно.
Но когда нужна фактика, то очень хорошо заметно, что все знания мира вместе со скиллами по их интерпретации и выражению не очень хорошо помещаются в 4-5 гигабайт квантованных весов.
Нам нужна какая-то прорывная разработка, которая позволила бы запускать жЫр локально - пусть и с какими-то компромиссами.
Насколько я помню, в эту сторону, вроде как, ведутся работы. Я где-то мельком видел как с помощью всяких ухищрений локально запускают жирный инференс. Но на тот момент там было много "но" и для конечного "продукта" это совсем не было готово.
Пишу я это всё потому, что захотел тут проанализировать кое-что из литературы и пошёл сразу в GPT-4o, т.к. знаю по опыту, что маленькая домашняя LLaMA навыдумывает кучу всего и в итоге проще будет собирать информацию самому, чем верифицировать и править то, что вышло.
А вот GPT-4o выдала мне простыню, бегло прочитав которую я не увидел ни одной ошибки в именах или примерах, которые она привела.
Хочется иметь возможность делать это "не выходя из дома".
Но пока не получается 🤷♂️
@skobkin@lor.sh ну тут или "дома" с 7-12b моделями или "все знания мира" с 700b моделью на класстере
У некоторых второе вполне заводится дома