Новые языковые модели показали низкую точность ответов....

Новые языковые модели показали низкую точность ответов.

Внутренние тесты OpenAI выявили, что ChatGPT o1-preview ошибается в 57% случаев, GPT-4o – в 60%, а Claude-3.5-sonnet – в 71,1%. Несмотря на ожидания высокой точности, результаты моделей оказались далекими от идеала. Для оценки моделей был составлен тест из 4326 вопросов с единственно верным ответом на каждый.