Email or username:

Password:

Forgot your password?
Top-level
Мя :sparkles_lesbian:

@jilotta кто знает, кто знает... опять же, отсутствие датасета не равно отсутствию задачи. Мы можем проверять выход по какому-то параметру, и давать нейросети сигнал хорошо/плохо
Например, подать на вход состояние мира, и оценивать действия с точки зрения выживания

...при этом оценивать может вторая модель! И к чему они в этом процессе придут — очень интересно,

13 comments
Leona

@mo чатгпт тоже оценивается двумя другими моделями, поэтому техника рабочая

Мя :sparkles_lesbian:

@jilotta и называется GAN. Но довольно сложная, потому что надо строго следить:
- чтобы модель-ученик и модель-проверяющий развивались синхронизированно, если одна начнет обгонять другую — все встрянет
- чтобы они не начали общаться между собой на свежеизобретенном языке

Мя :sparkles_lesbian:

@jilotta или не GAN... Но короче поставить две модели соревноваться это давно известный метод обучения

Мя :sparkles_lesbian:

@jilotta например так обучили мощнейший интеллект для игры в Го — AlphaGo. Он сыграл миллионы партий с самим собой, и в итоге развился так что разгромил лучшего игрока человека

Тот самый мини майор, но под прикрытием

@mo@mastodon.ml ну как разгромил... Там история куда интереснее, АльфаГо даже проиграл 1 раз после представления модели, - Ли Се Долу - 9 дан. Но это была AlphaGo Lee. Потом они выпустили AlphaGo Zero, её вроде уже никто не побеждал (из людей).
Прошлая версия Lee кстати не в сухую проигрывает Zero, таме есть свои прикольчики.

Майор просто любит и играет в Го, так что тема знакома.
@jilotta@mastodon.ml

DELETED

@mirsusarch вне контекста - попытался разобраться в этом вашем Го, выглядит интересно, но так и "не догоняю".
Будет время на пояснения "для дебилов"?

Мя :sparkles_lesbian: replied to DELETED

@noth1ng01 так там вроде очень простые правила. Easy to learn, hard to master

@mirsusarch

DELETED replied to Мя

@mo@mastodon.ml @mirsusarch@shitpost.poridge.club так я не говорю, что ничего не понимаю.
Я понимаю правила и "как в это играть", но не понимаю "как играть нормально", а не додик

Leona

@mo там не соревноваться

за гпт следят две модели

одна модель — гпт без лимитов, следит за грамматикой
другая — лимит, следит за лексикой, темой и вежливостью

и было такое, что лимит сделали антилимитом, который не пропускает приличные вещи, и гпт начал выдавать порнографию

Мя :sparkles_lesbian:

@jilotta а, в этом плане. Я скорее про случай, когда модель пытается распознать, текст написан человеком или чатжпт. Цель чатжпт — выдать такой текст, чтобы вторая модель не узнала. Цель второй модели — не пропустить тексты чатжпт, и не забраковать при этом человеческие. И они обе учатся синхронно

Leona

@mo хороший метод, но только вторая модель должна смотреть, есть ли закономерность

если есть, не пропускать

Go Up