Смотрю я на эту https://garymarcus.substack.com/p/...

Смотрю я на эту https://garymarcus.substack.com/p/llms-dont-do-formal-reasoning-and статью, где на этот раз уже чуваки из Apple объясняют, почему LLM тупенькие и ни на что не годятся, а в голове по ходу чтения один только вопрос, который очень часто в подобных изучениях остаётся не раскрыт.

𝗧𝗵𝗲𝗿𝗲 𝗶𝘀 𝗷𝘂𝘀𝘁 𝗻𝗼 𝘄𝗮𝘆 𝗰𝗮𝗻 𝘆𝗼𝘂 𝗯𝘂𝗶𝗹𝗱 𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲 𝗮𝗴𝗲𝗻𝘁𝘀 𝗼𝗻 𝘁𝗵𝗶𝘀 𝗳𝗼𝘂𝗻𝗱𝗮𝘁𝗶𝗼𝗻, да, да, согласен, но... А вы на людях то же самое проверили?
А зря не проверили, а вы проверьте. Я хочу видеть на этих же графиках просадки по простым, понятным, _очевидным_ задачкам ещё и результаты контрольной группы человеков, ОСОБЕННО для таких вот задачек, как в статье, с нерелевантными вставочками, пытающимися выдать себя за релевантные.

Можно прям вот эту из шапки, в которой пять киви попались размером меньше средних, и глупая моделька почему-то вдруг решила, что их надо вычитать из количества киви из-за этого - вот на ней, без предупреждения о подвохах, можно людей поопрашивать.
С кулькулятором не надо сравнивать, с собой сравните. И вот тогда, на непосредственном сравнении, мы уже поговорим про formal reasoning и что на чём можно строить, а что нет.

Like 12 October at 8:16 | Open on gts.burning.homes