LLMs don’t do formal reasoning - and that is a HUGE problemСтатья обсуждает значительные ограничения больших языковых моделей (LLM) в выполнении формального рассуждения, как это было подчеркнуто в новом исследовании исследователей ИИ из Apple. Исследователи обнаружили, что поведение LLM в основном основано на сложном сопоставлении образцов, а не на истинном рассуждении, при этом результаты чувствительны к незначительным изменениям во входных данных. Они ввели задачу, называемую GSM-NoOp, чтобы продемонстрировать, что LLM испытывают трудности с рассуждением, когда сталкиваются с нерелевантной информацией, что перекликается с предыдущими выводами исследований, датируемых 2017 годом. Проблемы с производительностью становятся более выраженными по мере увеличения сложности задачи, особенно в задачах, таких как целочисленная арифметика и шахматы, где LLM не соблюдают установленные правила. В статье предполагается, что текущие архитектуры нейронных сетей не обладают способностью надежно экстраполировать и формально рассуждать, что вызывает озабоченность Гэри Маркуса в его более ранних работах. Он выступает за интеграцию манипулирования символами, подобно алгебре, в системы ИИ, предлагая, что сочетание нейросимволического ИИ и нейронных сетей может быть необходимым для прогресса. Маркус подчеркивает необходимость альтернативных исследовательских стратегий для преодоления этих ограничений, как это отмечено в его недавней книге "Укрощение Кремниевой долины". В целом, результаты свидетельствуют о серьезной и систематической проблеме с LLM, которую нельзя списывать на изолированные ошибки.
Summary #generated by #kagi
https://garymarcus.substack.com/p/llms-dont-do-formal-reasoning-and
Но. #ChatGPT на задаче с киви не повелась.
/VIA https://tech.lgbt/@ShadowJonathan/113290617698486637
P.S. Но человеческий мозг же тоже «не умеет» в формальные рассуждения. Просто учитывает больше переменных... Так что скоро ждем от #Apple заявления, дескать, мы сделали опять впереди планеты всей...