Проблемы пузомерок для AI-болванов
Не верим попсовым рейтингам, они врут. Нужна элитарность, а не попсовость.В чате gonzo-обзоров обсуждали (с https://t.me/c/1334131803/51066) парето-фронтир с ценами и перформансом LLM на ChatBot Arena -- https://lmarena.ai/?price. Проблема в том, что на разных "аренах" (тысячи их) цены всех моделей одинаковые, "из прайс-листа", а вот оценки умности -- различаются, поэтому все подобные "парето-фронтиры" что-то показывают, но что именно -- непонятно, все они разные.Арена оценивает модели, сравнивая их попсовость, как на рекомендательных сервисах: побеждает попсовость -- то, что нравится большинству, vox populi, vox Dei. Для меня в оценке знаний мнение большинства -- это сдвиг в махровый фундаментализм, суеверия, гарантированное отсутствие SoTA. Фронтирные умные ответы обычно не нравится народной массе, они контринтуитивны, они "грузят". Люди доверяют не верному, а знакомому. Людская арена дико консервативна в плане распространения новых идей. . Сетка с приоритетом рациональных, а не "идеологически верных" решений будет заведомо проигрывать на людских аренах.Я как-то много лет увлекался анимешками и мангой. Очень быстро разобрался, что если выбирать аниме и манги по итогам "народного голосования" (по рейтингам на профильных сайтах), то этот ужас нельзя смотреть, равно как нельзя слушать поп-пузыку, от которой уши вянут. Лучшие для моих глаз и ушей произведения обычно имеют семёрочку-восьмёрочку из десяти на общих рейтингах. Рейтингование мозгов (и человеческих, и нечеловеческих) по их человеческой попсовости — путь туда же. Не удивлюсь, если лучшие мозги в попсовом рекомендательном рейтинге будут иметь тоже семёрочки-восьмёрочки. В принципе, этот эффект обучения народному идиотизму у толпы (обучение по материалам интернет-помойки, плюс добавлены ответы на вопросы от толпы в сервисах типа Толоки или Mechanical Turk) уже прояснили, качество учебных материалов имеет значение:-- Textbooks Are All You Need, https://arxiv.org/abs/2306.11644, где повышение качества данных драматически улучшало качество обучения. -- “model collapse”— обучение на синтетических данных с диким количеством ошибок (обучение у детей, а не у профессоров -- у черни, а не у элиты) обычно ведёт к ухудшению качества, хватает нескольких поколений обучения одних сеток галлюцинациям других сеток, и разумности каюк.-- To Code, or Not To Code? Exploring Impact of Code in Pre-training, https://arxiv.org/abs/2408.10914, добавка кода (данных с жёстким контролем типов прежде всего) в данные для начального обучения существенно повышает результаты за пределами собственно кодирования: up to relative increase of 8.2% in natural language (NL) reasoning, 4.2% in world knowledge, 6.6% improvement in generative win-rates (и, конечно, a 12x boost in code performance).-- When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale, https://arxiv.org/abs/2309.04564, где тоже проверялось качество данных по простейшей оценки перплексии. И после этого бралось 30% от начального количества данных -- и получались результаты лучше.-- LIMO: Less is More for Reasoning, https://arxiv.org/abs/2502.03387, это совсем другие авторы, нежели предыдущей работы, но они показывают результаты с 1% данных лучше, чем со 100% данных -- просто за счёт того, что эти данные тщательно подобраны. Никакого обучения у толпы, "статистического знания". Строгая элитарность! we propose the Less-Is-More Reasoning Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has been comprehensively encoded during pre-training, sophisticated reasoning capabilities can emerge through minimal but precisely orchestrated demonstrations of cognitive processes. This hypothesis posits that the elicitation threshold for complex reasoning is determined by two key factors: (1) the completeness of the model's encoded knowledge foundation during pre-training, and (2) the effectiveness of post-training examples as "cognitive templates" that show the model how to utilize its knowledge base to solve complex reasoning tasks. Поэтому работаем в сторону элитарности, показываем друг другу только элитарные образцы культуры, а не попсовые "средненародные" со "средненародными ошибками" от недообученных как мокрых, так и сухих нейронных сеток. Вот представьте, что вы сделали нейросетку, которая вполне себе шарит в теории относительности -- и вы её посылаете выступить на попсовой арене. И она выдаёт, что никаких сил тяготения между предметами с большой массой нет, а есть искривление пространства времени. Какой там будет рейтинг по сравнению с LLM, выдающей ответ из школьного учебника физики? Вот, оно самое -- вы этого хотели, вы это измеряли, вот вам. Учитесь по серьёзной литературе, а не по поп-науке, и не будет у вас model-collapse, не будете заучивать намертво ошибки. В том числе учитесь программировать хотя бы для того, чтобы понимать, что такое "формальность", как надо обращаться с типами объектов. Вот для чего нужно изучать информатику в школе! Ну, или учитесь по художественной литературе,
![Проблемы пузомерок для AI-болванов](https://ic.pics.livejournal.com/ailev/696279/277448/277448_original.jpg)
В чате gonzo-обзоров обсуждали (с https://t.me/c/1334131803/51066) парето-фронтир с ценами и перформансом LLM на ChatBot Arena -- https://lmarena.ai/?price. Проблема в том, что на разных "аренах" (тысячи их) цены всех моделей одинаковые, "из прайс-листа", а вот оценки умности -- различаются, поэтому все подобные "парето-фронтиры" что-то показывают, но что именно -- непонятно, все они разные.
Арена оценивает модели, сравнивая их попсовость, как на рекомендательных сервисах: побеждает попсовость -- то, что нравится большинству, vox populi, vox Dei. Для меня в оценке знаний мнение большинства -- это сдвиг в махровый фундаментализм, суеверия, гарантированное отсутствие SoTA. Фронтирные умные ответы обычно не нравится народной массе, они контринтуитивны, они "грузят". Люди доверяют не верному, а знакомому. Людская арена дико консервативна в плане распространения новых идей.
. Сетка с приоритетом рациональных, а не "идеологически верных" решений будет заведомо проигрывать на людских аренах.
Я как-то много лет увлекался анимешками и мангой. Очень быстро разобрался, что если выбирать аниме и манги по итогам "народного голосования" (по рейтингам на профильных сайтах), то этот ужас нельзя смотреть, равно как нельзя слушать поп-пузыку, от которой уши вянут. Лучшие для моих глаз и ушей произведения обычно имеют семёрочку-восьмёрочку из десяти на общих рейтингах. Рейтингование мозгов (и человеческих, и нечеловеческих) по их человеческой попсовости — путь туда же. Не удивлюсь, если лучшие мозги в попсовом рекомендательном рейтинге будут иметь тоже семёрочки-восьмёрочки.
В принципе, этот эффект обучения народному идиотизму у толпы (обучение по материалам интернет-помойки, плюс добавлены ответы на вопросы от толпы в сервисах типа Толоки или Mechanical Turk) уже прояснили, качество учебных материалов имеет значение:
-- Textbooks Are All You Need, https://arxiv.org/abs/2306.11644, где повышение качества данных драматически улучшало качество обучения.
-- “model collapse”— обучение на синтетических данных с диким количеством ошибок (обучение у детей, а не у профессоров -- у черни, а не у элиты) обычно ведёт к ухудшению качества, хватает нескольких поколений обучения одних сеток галлюцинациям других сеток, и разумности каюк.
-- To Code, or Not To Code? Exploring Impact of Code in Pre-training, https://arxiv.org/abs/2408.10914, добавка кода (данных с жёстким контролем типов прежде всего) в данные для начального обучения существенно повышает результаты за пределами собственно кодирования: up to relative increase of 8.2% in natural language (NL) reasoning, 4.2% in world knowledge, 6.6% improvement in generative win-rates (и, конечно, a 12x boost in code performance).
-- When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale, https://arxiv.org/abs/2309.04564, где тоже проверялось качество данных по простейшей оценки перплексии. И после этого бралось 30% от начального количества данных -- и получались результаты лучше.
-- LIMO: Less is More for Reasoning, https://arxiv.org/abs/2502.03387, это совсем другие авторы, нежели предыдущей работы, но они показывают результаты с 1% данных лучше, чем со 100% данных -- просто за счёт того, что эти данные тщательно подобраны. Никакого обучения у толпы, "статистического знания". Строгая элитарность! we propose the Less-Is-More Reasoning Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has been comprehensively encoded during pre-training, sophisticated reasoning capabilities can emerge through minimal but precisely orchestrated demonstrations of cognitive processes. This hypothesis posits that the elicitation threshold for complex reasoning is determined by two key factors: (1) the completeness of the model's encoded knowledge foundation during pre-training, and (2) the effectiveness of post-training examples as "cognitive templates" that show the model how to utilize its knowledge base to solve complex reasoning tasks.
Поэтому работаем в сторону элитарности, показываем друг другу только элитарные образцы культуры, а не попсовые "средненародные" со "средненародными ошибками" от недообученных как мокрых, так и сухих нейронных сеток. Вот представьте, что вы сделали нейросетку, которая вполне себе шарит в теории относительности -- и вы её посылаете выступить на попсовой арене. И она выдаёт, что никаких сил тяготения между предметами с большой массой нет, а есть искривление пространства времени. Какой там будет рейтинг по сравнению с LLM, выдающей ответ из школьного учебника физики? Вот, оно самое -- вы этого хотели, вы это измеряли, вот вам.
Учитесь по серьёзной литературе, а не по поп-науке, и не будет у вас model-collapse, не будете заучивать намертво ошибки. В том числе учитесь программировать хотя бы для того, чтобы понимать, что такое "формальность", как надо обращаться с типами объектов. Вот для чего нужно изучать информатику в школе!
Ну, или учитесь по художественной литературе, по галлюцинациям "хороших писателей" -- и хлебайте плохое качество мышления, в количестве. Галлюцинации на входе -- выученные галлюцинации в мозгах -- галлюцинации на выходе. Зато вы будете попсовы, в рекомендательных системах будете с самыми высокими рейтингами!
Ко мне самому это тоже относится. Я бы сильно напрягся, если бы опопсел. Нет, лучше я не буду проще, и люди попроще ко мне не потянутся.
Не верим многоборьям, они врут
Принципы оценки интеллектов по мотивам психометрии дал François Chollet в https://arxiv.org/abs/1911.01547 — "батарея тестов", при этом особо указал, что "где-то там в основе пространственные паттерны для выделения объектов из фона", и предложил свой вариант текста, в этом году этот тест по факту прошли, в текущем году обещалось дать более трудный вариант (https://arcprize.org/). Это "как все", "батареи тестов".
Проблема в том, что "общий результат по батарее" не учитывает разнообразие, вы получаете среднюю температуру по больнице. Если одна LLM модель умеет рисовать, но не умеет в интегралы, а другая умеет в интегралы, но умеет говорить красиво, вы получите среднее от них всех, "ничего в среднем не умеют". Как это обходят люди? Ну, пытаются получать рекомендации не "вообще", а в узкой предметной области -- делают узкие арены, вроде "конкурса им.П.И.Чайковского" для пианистов, которые претендуют на игру не в ресторане" и не пускают на этот конкурс чемпионов мира по большому теннису. С LLM, конечно, побеждает "общая оценка" -- ещё и сделанная отнюдь не элитой, не докторами наук.
Поэтому мы и переходим к "аренам", в которых сеткам предлагается сравниваться по одной и той же задаче.
![](https://ic.pics.livejournal.com/ailev/696279/277448/277448_original.jpg)
Мы уже рассмотрели, к чему ведёт "народное судейство". Поэтому надо устраивать гладиаторские бои на профильных аренах без участия людей. Этих "арен" тысячи, при этом они двух типов:
-- ни разу не гладиаторская арена, где сражаются друг с другом по олимпийской системе, а школьная олимпиада, бенчмарк. Берём какой-то набор задач за 100%, смотрим, сколько задач решено. Скажем, бизнес-бенчмарк, частный, https://t.me/llm_under_hood/500.
-- гладиаторская арена, где удаётся сформулировать игру, и сетки играют друг с другом на вынос, например, опять-таки "батарея" (от этого не уйти) текстовых игр, где победитель вроде как должен быть умней, чтобы выиграть. Там свой leaderboard, другие победители, чем на других аренах, а люди там вообще на 20 месте, на второй странице, https://textarena.ai/leaderboard
Смысла всех этих тестов нет, но "главные пузомерки" очень удобны для выигрыша в конкурентной борьбе. Скажем, журнал Byte, журнал PC Week публиковали в начале 90х (помним, что IBM PC появилась в 1980 году) в каждом номере рейтинги текстовых процессоров -- все эти Word, Word Perfect, Lotus 1-2-3, Excel. Поскольку сравнение было по факту "у кого фич больше", Microsoft банально копировало все новые появлявшиеся фичи и по очкам медленно вырвалось вперёд в каждой категории. После чего выбора не было -- какой журнал ни откроешь, везде были продукты Microsoft на первых местах, они там были в каждой категории. Гвоздь в крышку всей этой конкуренции забил MS Office, который добавил одну супер-дупер-фичу: умение взять cut из одной программы офиса и сделать paste в другую программу, и всё продолжало работать! Вот что-то такое сейчас может начать происходить с LLM -- у всех у них уже есть ответы на все вопросы "из коробки", мультимодальный режим с картинками и аудио, доступ в Сеть и даже поиск, умение рассуждать, умение выполнить команду на компьютере.
Приходится идти мимо рекомендательных систем, подбирать всё под свои задачи. Трудность в том, что для каждой отдельной задачи в каждый момент времени (при этом и scope задачи меняется во времени, и предлагаемые модели как по их точности ответов, так и по их цене) надо проводить отдельное тестирование — тут "каждый сам за себя", траты ресурсов на выбор модели огромные, и это нельзя сделать разово, ибо dynamic fitness landscape, заснул в одной ситуации, проснулся уже в другой.
Для моих применений вот прямо сейчас o3-mini с долгим думанием неожиданно сравнима с малодоступной и дорогой o1. Чисто субъективно, по чисто человеческим моим субъективным предпочтениям в очень узком классе задач, которые я даю с промптом "отвечай как исследователь уровня профессора", а то без этого любая LL-модель отвечает маркетинговым бла-бла-бла или цитатами из школьных учебников. Конечно, мои предпочтения при этом расходятся с препочтениями толпы, и мои личные оценки моделей не совпадают с оценками в пузомерках -- что бенчмарках, что в аренах.
А как вообще оценивать интеллект?
Концептуальная трудность теста интеллекта: он должен решать проблемы, которые раньше не видел. То есть сама идея "экзамена" и "подготовки к экзамену" тут не проходят: если известна функция награды, её при подготовке к экзамену читят. Вся официальная система образования показывает ровно такой результат: вместо подготовки к жизни готовят к ЕГЭ, а в вузах -- к госам. Выпускники отлично умеют сдавать экзамены! Работать и нормально жить, правда, не могут -- но зато с экзаменами всё очень хорошо! Проблемы эти я описывал в 2022 году в "Как определить, правда ли, что мы делаем людей умнее?", https://ailev.livejournal.com/1604070.html. Ибо я сам берусь за то, чтобы сделать людей умней, обучаю (pretraine, finetune, RL -- или как они там называются для людей) их мокрую нейронную сетку. Выход тут один: вместо экзаменов выпускать в мир, пусть там решают реальные задачи, которых не видел ни студент, ни препод.
И это мы переходим к полностью альтернативному подходу к замерам интеллекта, это open-endedness. В этом подходе в явном виде задаётся тот, кто делает бенчмарки -- это тоже должен быть AI-агент, ибо люди быстро выдохнутся. Один агент быстро-быстро учится решать проблемы предъявленного класса, а другой учится сочинять интересные проблемы. И работают они в паре. Собственно, так происходит в большинстве пузомерок-бенчмарок -- начиная с Glue и SuperGlue (забыли о таком? А ведь весь мир за ним следил! Вот: https://super.gluebenchmark.com/leaderboard). И даже ARC повторил ту же судьбу: агенты таки научились его решать, и команда в этом году приготовит новые проблемы -- при этом там простой критерий, это же бенчмарк для "догнать людей", поэтому берут проблемы, в которых люди ещё как-то ведут, имеют "аппаратное преимущество". Мне это напоминает гонку синтезаторов в музыкальной промышленности: когда появились электронные синтезаторы, ожидалось, что будет спрос на невиданные ранее звуки, музыка рванёт в новые неизведанные сферы, творцы получат неограниченную тембровую палитру! В какой-то мере это произошло, но в малой. Основное с этими синтезаторами было -- повторить "в ноль" звучание самых разных уже производящихся роялей, самых разных знаменитых убогих электропиано, акустических органов, всего, что было. Не новое -- повтор старого! Вот с интеллектом то же самое: не прорыв в новый интеллект, которому доступна будет иная продвинутая физика, иная продвинутая этика, иное хоть что-нибудь. Нет, задача "повтора в ноль" возможностей людей -- разве что пять лет назад достаточно было для декларации успеха повторить школьника, а сегодня вроде уже надёжно повторяется доктор наук (но злые языки говорят, что этот доктор наук по химии до сих пор рисует плохие картинки, а по самой химии почему-то выдаёт все секреты горючих, ядовитых, взрывающихся веществ, то есть честно рассказывает про всю химию, а не только про школьную).
Итак, нам нужен подход с двумя агентами: один решает проблемы, но другой придумывает интересные проблемы (не задачи, которые можно решить по уже известному алгоритму) -- и ещё можно подумать о демиурге, которые творит мир, в котором формулируются эти проблемы. С демиургом можно поступить попроще -- выдать для работы этих двух агентов реальный мир, но это не совсем безопасно. Если же выдать виртуальный мир, то мы пока не умеем выдавать достаточно богатый мир, чтобы в этом мире мог проявить себя достаточно могучий интеллект.
В любом случае, поручать AI в этом мире надо решать не все проблемы, а только интересные проблемы. Если у вас победитель того самого конкурса Чайковского в гостях, то "в народе" его попросят, скорее всего, сыграть "Мурку" -- но это неинтересно. Интересно дать ему задачу, которую он сходу не сможет решить, но после её решения окажется, что культура агентечества (я специально не сказал "человечества", ибо не факт, что мы говорим о людях -- но про людей рассуждения, замечу, те же самые) стала немного выше.
Это всё типовые разговоры для сообщества open-endedness, которая в мире AI до сих пор держится особнячком. Но там всё тоже бодренько. Вот, например, манифестик от DeepMind — https://arxiv.org/abs/2406.04268, вот один из относительно свежих обзорчиков, https://press.airstreet.com/p/open-endedness-is-all-well-need, вот свеженькое от Stanley и Lehman, https://arxiv.org/abs/2501.13075.
И вот мой текст про следующий шаг после reasoning/thinking models — https://ailev.livejournal.com/1752457.html (я там пытаюсь провести параллель исследований по open-endedness и по eco-evo-devo).
Пузомерки дадут нам болванов для нашего прикладного интеллекта
Но что бы я тут ни писал, общие пузомерки останутся -- и lmarena, и конкурс ARC, и все остальные. Голы, очки, секунды. И, конечно, придётся выдавать коммодитизированный продукт, который имеет заведомо высокие оценки на всех таких пузомерках. Умный "вообще", никто в вашей задаче.
Будут болваны (от болванок для токарного производства), из которых таки будут делать что-то удобоваримое для каждого применения.
Вот я в какой-то мере описываю сегодняшний момент коммодитизации неживых мозгов в 2017 году, 28 июня -- "Болваны для искусственного интеллекта", https://ailev.livejournal.com/1356016.html. Препринт "Attention is all you need" появился в первой его версии 12 июня 2017. Могу себе очередной зачёт поставить по предсказаниям — там написано, что "AI будет коммодити и дешевле грибов". Всё так и есть, уже!
![](https://ic.pics.livejournal.com/ailev/696279/277604/277604_600.jpg)
А вот отёсывать эти commodity интеллекты для решения узких классов прикладных задач (делать из неотёсанных болванов прикладные интеллекты) — тут непаханное поле, эта музыка будет вечной, и для неё не кончатся батарейки тестов. Особенно, если учесть теорему бесплатного обеда, что нет универсальных алгоритмов. Скажем, вот исследование о том, что thinking модели -- это просто попытка эмулировать внешний reasoner, символический вычислитель, "To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning", https://arxiv.org/abs/2409.12183. Для меня этот результат означает, что нейронная сеть выучивается работать символьным вычислителем, что ещё надо показать, насколько эффективно -- он же на нейросети работает дьявольски медленно! Скажем, вот как тяжело работает геометрический вычислитель на спиралях (helix, а не "Феликс"), просто чтобы складывать числа -- https://arxiv.org/abs/2502.00873. И такое, заметим, происходит со всеми символьными/точными вычислениями.
Поэтому кроме open-endedness надо ещё понимать, что проблемы начнут решаться в сторону:
-- ухода от естественноязыковой дискретности в размышлениях
-- специализации аппаратуры для разного сорта алгоритмов, которые будут эффективны в разного сорта проблемах
-- сетевой организации интеллектов: как сделать MoE на сети, где Experts от разных поставщиков. Кто там "системный интеллект", который будет всё роутить? Кто там будет править этим миром? Кто будет мозгом для мыслительного тела? А кто будет иммунной системой, защищающей от паразитов?
Но это уже темы другого поста.