А есть какая-то обзорная статья по большим языковым моделям (GPT, LLaMA и тому подобное), так чтобы более-менее высокоуровнево про общую архитектуру и пайплан, но не совсем для самых маленьких. Из обрывочных источников у меня сложилось впечатление что процесс обучения выглядит так:
Сначала нулёвую неросеть обучают на Большом объёме более-менее рандомных текстов из интернета оптимизируя её способность дописывать тексты так же как оно было в обучающей выборке. После этого этапа нейросеть как бы знает язык.
Потом её дообучают на меньшем объёме текстов, но уже нужного формата (обычно диалогах с ассистентом). После этого этапа мы получаем уже чатбота (ну или на чём там дообучали).
Потом можно тюнить модель дообучая на ещё более меньшей выборке, или манипулируя запросом. Например чтобы получить хамского чатбота можно дообучить его на вручную составленном корпусе диалогов с хамом-ассистентом или просто добавить к запросу что-то вроде «Напиши хамский ответ на запрос: пользовательский_запрос».
При этом каждый следующий этап требует меньше вычислительных и человеческих ресурсов. Первый этап сейчас осилили всего несколько компаний с жирными бюджетами (OpenAI, Facebook...). Большинство ходящих по интернету моделей это производные от моделей этих компаний.
Правильно я понял?