Общее впечатление от работы с LLM за последние два года

Все, что касается ГИИ/языковых моделей (LLM) устаревает в момент публикации, но тем не менее фиксировать актуальную диспозицию весьма полезно и интересно. Большая часть из критических замечаний, которые я публиковал на протяжении всего 2024 года уже не являются в полной мере актуальными, хотя большая часть фундаментальных ограничений так и не решена. Подробная расшифровка всех слабых и сильных сторон займет слишком много времени – слишком масштабный и комплексный анализ потребуется. Остановлюсь для начала на списке/реестре наиболее сильных моделей.  Ниже сводная информация о топовых языковых моделях: 1.  ChatGPT o1: США, OpenAI, сентябрь 2024, контекстное окно 128 тыс токенов. 2.  Google Gemini 2 flash: США, Google, декабрь 2024, 2 млн токенов. 3.  Claude 3.5 Sonnet: США, Anthropic, октябрь 2024, 200 тыс токенов. 4.  Amazon Nova Pro: США, Amazon, декабрь 2024, 300 тыс токенов. 5.  Llama 3.3 70B: США, Meta Platforms, декабрь 2024, 128 тыс токенов. 6.  xAI Grok: США, xAI, ноябрь 2024, 8 тыс токенов. 7.  Phi-3 Medium: США, Microsoft, апрель 2024, 128 тыс токенов. 8.  Reka Flash: США, Reka AI, февраль 2024, 128 тыс токенов. 9.  Command R+: Канада, Cohere, апрель 2024, 128 тыс токенов. 10.  Mistral Large 2: Франция, Mistral AI, июль 2024, 128 тыс токенов. 11.  Qwen 2.5: Китай, Alibaba, декабрь 2024, 131 тыс токенов. 12.  DeepSeek V3: Китай, DeepSeek, декабрь 2024, 128 тыс токенов. 13.  Jamba 1.5 Large: Израиль, AI21 Labs, август 2024, 256 тыс токенов. 14.  YandexGPT 4: Россия, Яндекс, октябрь 2024 года, 32 тыс токенов. 15.  GigaChat: Россия, Сбербанк, май 2024, 32 тыс токенов. 16.  T-Pro: Россия, Т-банк, декабрь 2024, 8 тыс токенов. Попробовал все, за исключением T-Pro. Мой рейтинг самых мощных по совокупности факторов: OpenAI o1, Claude 3.5 Sonnet, DeepSeek V3, Qwen 2.5 и Google Gemini 2 flash. Примерно сопоставимы плюс-минус во втором эшелоне: Llama 3.3 70B, Amazon Nova Pro и Mistral Large 2. Все остальные в третьем эшелоне с учетом достаточно слабой модели от Илона Маска. LLM от Google на протяжении всего 2024 были полным дерьмом, но относительный прогресс наступил только в сентябре с внедрением обновленной модели Gemini 1.5 pro и закрепление успеха в декабре с Gemini 2 flash. Очень удивили китайцы (DeepSeek V3 и Qwen 2.5) – вполне тянут на открытие года и самый значимый прогресс. DeepSeek V3 уже точно сильнее GPT-4o, но уступает последней модификации GPT o1. Конкуренция невероятная. Всего два года назад в это время была на рынке только одна модель GPT 3.5 и как все изменилось. OpenAI пока вне конкуренции по совокупности факторов, но разрыв уже не такой значительный, как в 2023 (была целая пропасть) и даже, как в середине 2024.  В декабре 2024 вышло очень много обновлений LLM и даже изначально слабая и вечно отстающая Llama смогла сократить отставание с модификацией 3.3 70b, показывая неплохие результаты. В начале 2025 будет модификация 3.3 405b, которая закрепит успех. Также ожидается релиз полной версии Gemini 2, Open AI o3 и Claude 4.0. Нет универсальной LLM, здесь скорее правильно говорить о комбинациях под конкретные задачи. Например, с текстом хорошо работает Claude 3.5 Sonnet, а с математическими вычислениями сейчас в лидерах OpenAI, DeepSeek и Google. Удалось ли мне что-либо из представленных LLM внедрить в свои рабочие проекты? НЕТ! Не удалось. Количество ошибок настолько критически высоко. Время и ресурсы, затраченные на коррекцию ошибок, перекрывают любую потенциальную выгоду. Ни одна из моделей не пригодна для научно-исследовательских проектов в данный момент. Пока способны закрывать очень узкие локальных задачи в генерации кода и решении математических задач. Уже успех, но до автоматизации и полноценного внедрения очень далеко. Однако, я верю в будущий успех (1, 2 и 3). Темпы развития ГИИ невероятны, так что впереди много интересного, как и циклы статей, посвященных прогрессу и проблемам во внедрении.Общее впечатление от работы с LLM за последние два года Я отношусь к очень небольшой группе людей, которые не только знакомы со всеми современными LLM (тестирую их практически сразу после релиза), но и активно пытаются внедрять их в рабочие и научно-исследовательские проекты До этого на протяжении многих лет была теоретическая подготовка. Этот тот случай, когда был отслежен весь путь созревания технологии от момента зарождения и внедрения технологии до текущего состояния. Прогресс есть, как с точки зрения качества генерации данных, так и в расширении спектра инструментов для взаимодействия с LLM. Можно ли сказать, что «научно-исследовательские проекты разделились на эпоху ДО внедрения технологии и новую эпоху ПОСЛЕ внедрения»? Нет, ничего качественно не изменилось. Наличие или отсутствие LLM не оказало никакого влияния ни на R&D процессы, ни на сам канал Spydell_finance. Глубина внедрения пока около нуля процентов. Почему так плохо? Нет стабильности и предсказуемости в выходных данных/результатах. Наука тем и отличается, что эксперименты при повторяемости опытов в изолированных условиях при статичны

Jan 20, 2025 - 01:27
Общее впечатление от работы с LLM за последние два года

Все, что касается ГИИ/языковых моделей (LLM) устаревает в момент публикации, но тем не менее фиксировать актуальную диспозицию весьма полезно и интересно.

Большая часть из критических замечаний, которые я публиковал на протяжении всего 2024 года уже не являются в полной мере актуальными, хотя большая часть фундаментальных ограничений так и не решена. Подробная расшифровка всех слабых и сильных сторон займет слишком много времени – слишком масштабный и комплексный анализ потребуется.

Остановлюсь для начала на списке/реестре наиболее сильных моделей. 

Ниже сводная информация о топовых языковых моделях:

1.  ChatGPT o1: США, OpenAI, сентябрь 2024, контекстное окно 128 тыс токенов.

2.  Google Gemini 2 flash: США, Google, декабрь 2024, 2 млн токенов.

3.  Claude 3.5 Sonnet: США, Anthropic, октябрь 2024, 200 тыс токенов.

4.  Amazon Nova Pro: США, Amazon, декабрь 2024, 300 тыс токенов.

5.  Llama 3.3 70B: США, Meta Platforms, декабрь 2024, 128 тыс токенов.

6.  xAI Grok: США, xAI, ноябрь 2024, 8 тыс токенов.

7.  Phi-3 Medium: США, Microsoft, апрель 2024, 128 тыс токенов.

8.  Reka Flash: США, Reka AI, февраль 2024, 128 тыс токенов.

9.  Command R+: Канада, Cohere, апрель 2024, 128 тыс токенов.

10.  Mistral Large 2: Франция, Mistral AI, июль 2024, 128 тыс токенов.

11.  Qwen 2.5: Китай, Alibaba, декабрь 2024, 131 тыс токенов.

12.  DeepSeek V3: Китай, DeepSeek, декабрь 2024, 128 тыс токенов.

13.  Jamba 1.5 Large: Израиль, AI21 Labs, август 2024, 256 тыс токенов.

14.  YandexGPT 4: Россия, Яндекс, октябрь 2024 года, 32 тыс токенов.

15.  GigaChat: Россия, Сбербанк, май 2024, 32 тыс токенов.

16.  T-Pro: Россия, Т-банк, декабрь 2024, 8 тыс токенов.

Попробовал все, за исключением T-Pro. Мой рейтинг самых мощных по совокупности факторов: OpenAI o1, Claude 3.5 Sonnet, DeepSeek V3, Qwen 2.5 и Google Gemini 2 flash.

Примерно сопоставимы плюс-минус во втором эшелоне: Llama 3.3 70B, Amazon Nova Pro и Mistral Large 2. Все остальные в третьем эшелоне с учетом достаточно слабой модели от Илона Маска.

LLM от Google на протяжении всего 2024 были полным дерьмом, но относительный прогресс наступил только в сентябре с внедрением обновленной модели Gemini 1.5 pro и закрепление успеха в декабре с Gemini 2 flash.

Очень удивили китайцы (DeepSeek V3 и Qwen 2.5) – вполне тянут на открытие года и самый значимый прогресс. DeepSeek V3 уже точно сильнее GPT-4o, но уступает последней модификации GPT o1.

Конкуренция невероятная. Всего два года назад в это время была на рынке только одна модель GPT 3.5 и как все изменилось.

OpenAI пока вне конкуренции по совокупности факторов, но разрыв уже не такой значительный, как в 2023 (была целая пропасть) и даже, как в середине 2024. 

В декабре 2024 вышло очень много обновлений LLM и даже изначально слабая и вечно отстающая Llama смогла сократить отставание с модификацией 3.3 70b, показывая неплохие результаты. В начале 2025 будет модификация 3.3 405b, которая закрепит успех. Также ожидается релиз полной версии Gemini 2, Open AI o3 и Claude 4.0.

Нет универсальной LLM, здесь скорее правильно говорить о комбинациях под конкретные задачи. Например, с текстом хорошо работает Claude 3.5 Sonnet, а с математическими вычислениями сейчас в лидерах OpenAI, DeepSeek и Google.

Удалось ли мне что-либо из представленных LLM внедрить в свои рабочие проекты? НЕТ! Не удалось.

Количество ошибок настолько критически высоко. Время и ресурсы, затраченные на коррекцию ошибок, перекрывают любую потенциальную выгоду. Ни одна из моделей не пригодна для научно-исследовательских проектов в данный момент.

Пока способны закрывать очень узкие локальных задачи в генерации кода и решении математических задач. Уже успех, но до автоматизации и полноценного внедрения очень далеко.

Однако, я верю в будущий успех (1, 2 и 3). Темпы развития ГИИ невероятны, так что впереди много интересного, как и циклы статей, посвященных прогрессу и проблемам во внедрении.

Общее впечатление от работы с LLM за последние два года

Я отношусь к очень небольшой группе людей, которые не только знакомы со всеми современными LLM (тестирую их практически сразу после релиза), но и активно пытаются внедрять их в рабочие и научно-исследовательские проекты

До этого на протяжении многих лет была теоретическая подготовка. Этот тот случай, когда был отслежен весь путь созревания технологии от момента зарождения и внедрения технологии до текущего состояния.

Прогресс есть, как с точки зрения качества генерации данных, так и в расширении спектра инструментов для взаимодействия с LLM.

Можно ли сказать, что «научно-исследовательские проекты разделились на эпоху ДО внедрения технологии и новую эпоху ПОСЛЕ внедрения»?

Нет, ничего качественно не изменилось. Наличие или отсутствие LLM не оказало никакого влияния ни на R&D процессы, ни на сам канал Spydell_finance. Глубина внедрения пока около нуля процентов.

Почему так плохо? Нет стабильности и предсказуемости в выходных данных/результатах. Наука тем и отличается, что эксперименты при повторяемости опытов в изолированных условиях при статичных параметрам должны давать идентичные и прогнозируемые результаты. Это как работа калькулятора. 

На практике LLM генерируют слишком много ошибок, на проверку и верификацию которых требуется несоизмеримо много времени и ресурсов, что делает применение ГИИ нерентабельным.

LLM генерируют широкий спектр непредсказуемых результатов, что категорически не подходит для расчетов, где необходима точность. Однако, не сказать, что это плохо.