Email or username:

Password:

Forgot your password?
Dr. Quadragon ❌

Великим шагом для LLM'ок будет тот момент, когда они научатся говорить "Я не знаю", когда они реально не знают.

Людей это, кстати, тоже касается.

5 comments
Blue

@drq@mastodon.ml кажется, мне нехватает эмоджи реакции "подпишусь под каждым словом"

ARYLUNEIX :twittercheck:

@drq они вроде уже могут так говорить, но в более официальном тоне - "простите, но я не имею достаточной информации о теме вашего вопроса, не могли-бы вы уточнить..." и т.п. 😬

lnkr_

@drq сильно зависит от задачи, как стоявшей при создании модели, так и потом поставленной для этой модели, но вообще, в случае универсальной, на все руки модели, лучше получать ответ и какую-то метрику уверенности в нём, и отсеивать-маркировать барахло уже на постобработке (на этом же этапе можно ответ заменить и на "а не знаю", если уверенность ни к черту), чем просто получить отказ и всё тут, примерно это и делала ранняя интеграция модели в bing, посреди ответа вдруг всё удаляя и заменяя на "слушай, а вообще давай не будем, а".

Где мы возьмём какую-то метрику уверенности? Уже все давно изобретено и даже доступно во многих апи и софте для инференции моделек - logprobs! refuel.ai/blog-posts/labeling-

Почему почти никто никак не задействует это ни в одном из ходовых UIев, и только в презентациях на конференциях иногда это используется для понятности и наглядности?

Вот это для меня - страшная загадка.

@drq сильно зависит от задачи, как стоявшей при создании модели, так и потом поставленной для этой модели, но вообще, в случае универсальной, на все руки модели, лучше получать ответ и какую-то метрику уверенности в нём, и отсеивать-маркировать барахло уже на постобработке (на этом же этапе можно ответ заменить и на "а не знаю", если уверенность ни к черту), чем просто получить отказ и всё тут, примерно это и делала ранняя интеграция модели в bing, посреди ответа вдруг всё удаляя и заменяя на "слушай,...

ARLOTAR

@drq людей это касается в первую очередь

Go Up