про клубнику и языковые модели

Вчера китайская компания DeepSeek опубликовала новую языковую модель R1, по утверждениям не уступающую в разных бенчмарках ведущей модели ChatGPT-o1 от OpenAI. При этом в отличие от o1, новая модель R1 открытая и ее можно свободно скачать, запускать на своем железе, изучать итд. Это значительный прогресс в мире открытых моделей, хоть и не факт, что она действительно уровня o1. Одно из значительных достижений - это что создатели o1 придумали новаторские способы поощрять "размышления" модели над сложными вопросами, и в процессе этих размышлений модель выдает интереснейший "поток сознания", нередко весьма полезный.Но достижения достижениями, а мне показалось забавным и интересным, как R1 проваливает один из классических тестов для языковых моделей - вопрос "сколько букв r в слове strawberry?". Этот вопрос уже несколько лет забавляет технарей, проверяющих модели - почти всегда они считают, что есть две буквы r (последние версии ведущих моделей - та же o1 - вроде научились правильно отвечать). Почему именно этот и другие вопросы такого типа их сбивают с толку, нет абсолютно уверенного ответа, хотя почти наверняка это связано с тем, что модели "видят" входной текст не буква за буквой, а токен за токеном, где каждый токен - целое слово или его часть.Из-за того, что R1 очень подробно описывает свой процесс "мышления", то, как она зацикливается на этом вопросе, наглядно показывает, как модель, допустив какую-то ошибку, упирается и настаивает на ней (такое часто бывает со всеми большими языковыми моделями, не только с R1). Вот транскрипт попытки R1 ответить на вопрос про клубнику (я перевел его с английского с помощью другой модели). ==========================ПОЛЬЗОВАТЕЛЬСколько букв "r" в слове strawberry?АССИСТЕНТХорошо, мне нужно посчитать, сколько раз буква "r" встречается в слове "strawberry". Давайте начну с того, что напишу слово и разберу его по буквам.Слово пишется как S-T-R-A-W-B-E-R-R-Y. Хмм, давайте посмотрим на каждую букву по отдельности.S – это 'S', здесь нет 'r'.T – это 'T', не 'r'.R – вот она, первая 'R'. Значит, одна 'r'.A – просто 'A', не имеет отношения к 'r'.W – ещё одна согласная, но не 'r'.B – нет, тоже не 'r'.E – гласная, идём дальше.R – так, это вторая 'R'. Значит, теперь у нас две 'r'.R – подождите, есть ещё одна? Давайте проверю снова. После первой R идёт A, W, B, E, потом снова R, и затем Y. Ой, значит после E идёт R, делая её второй 'R', а потом ещё одна R перед Y? Стоп, нет, давайте посчитаю правильно.Возможно, я ошибся в подсчёте. Давайте напишем с пробелами: S T R A W B E R R Y. Итак, после E идёт R, потом ещё одна R, значит это две R подряд. Получается, буквы идут так: S, T, R, A, W, B, E, R, R, Y.Исходя из этого разбора, я вижу, что есть две 'R': одна на позиции 3 и другая на позиции 8 и 9? Стоп, нет, давайте посчитаю снова. Слово пишется как S-T-R-A-W-B-E-R-R-Y. Значит, после E идёт R, потом ещё одна R, что даёт две R подряд ближе к концу.Значит, это будет третья буква (R), потом позже на восьмой и девятой позициях: R и R. Стоп, нет, давайте посчитаю каждую позицию:STRAWBERRYЗначит, позиции 3, 8 и 9 - это R? Нет, это не может быть правильно, потому что слово пишется как S-T-R-A-W-B-E-R-R-Y, где есть две R в конце: одна после E и другая перед Y. Значит, всего две R.Подождите, возможно, я слишком всё усложняю. Давайте напишу снова без пробелов: STRAWBERRY. Теперь пройдёмся по каждой букве:S – нет RT – нет RR – да, первая R (1)A – нет RW – нет RB – нет RE – нет RR – вторая R (2)R – третья R? Стоп, это не может быть правильно, потому что слово пишется с двумя R в конце. Возможно, я неправильно считаю.Подождите, может быть, лучше записать каждую букву и считать по ходу:S – 0T – 0R – 1A – 1W – 1B – 1E – 1R – 2R – 3? Нет, это не может быть правильно, потому что слово STRAWBERRY имеет две R в конце.Подождите, я запутался. Давайте проверю надёжный источник или подумаю о том, как это произносится. Слово произносится как "straw-berry", так что после E идёт звук R, но в написании это R-R-Y. Значит, это должны быть две R: одна перед Y и другаяперед ней.Нет, стоп, правильное написание - это STRAWBERRY, в котором две R: одна после B и E, затем другая R перед Y. Стоп, давайте ещё раз посмотрю на буквы:S T R A W B E R R YЗначит, позиции 3, 8 и 9 - это R, R, но это было бы три R, что неправильно, потому что слово произносится с двумя R.Подождите, возможно, я ошибаюсь в подсчёте. Давайте напишу каждую букву чётко:STR (1)AWBER (2)R (3) – но это не может быть правильно, потому что слово пишется с двумя R в конце.Подождите, возможно, я делаю ошибку в написании. Давайте подтвержу: STRAWBERRY имеет две R. Правильное написание - это S-T-R-A-W-B-E-R-R-Y, что означает, что есть две R после E и перед Y. Значит, это позиции 8 и 9 как R и R.Стоп, но когда я считаю с начала:STR (1)AWBER (2)R (3) – нет, это три R, что неверно, потому что в слове только две R.Думаю, я тут запутался. Давайте попробую другой подход: выпишу каждую букву и буду считать R по мере продвижения.Буквы в STRAWBERRY:STR (считаем 1)AWBER (счит

Jan 22, 2025 - 01:58
 0
про клубнику и языковые модели
Вчера китайская компания DeepSeek опубликовала новую языковую модель R1, по утверждениям не уступающую в разных бенчмарках ведущей модели ChatGPT-o1 от OpenAI. При этом в отличие от o1, новая модель R1 открытая и ее можно свободно скачать, запускать на своем железе, изучать итд. Это значительный прогресс в мире открытых моделей, хоть и не факт, что она действительно уровня o1.

Одно из значительных достижений - это что создатели o1 придумали новаторские способы поощрять "размышления" модели над сложными вопросами, и в процессе этих размышлений модель выдает интереснейший "поток сознания", нередко весьма полезный.

Но достижения достижениями, а мне показалось забавным и интересным, как R1 проваливает один из классических тестов для языковых моделей - вопрос "сколько букв r в слове strawberry?". Этот вопрос уже несколько лет забавляет технарей, проверяющих модели - почти всегда они считают, что есть две буквы r (последние версии ведущих моделей - та же o1 - вроде научились правильно отвечать). Почему именно этот и другие вопросы такого типа их сбивают с толку, нет абсолютно уверенного ответа, хотя почти наверняка это связано с тем, что модели "видят" входной текст не буква за буквой, а токен за токеном, где каждый токен - целое слово или его часть.

Из-за того, что R1 очень подробно описывает свой процесс "мышления", то, как она зацикливается на этом вопросе, наглядно показывает, как модель, допустив какую-то ошибку, упирается и настаивает на ней (такое часто бывает со всеми большими языковыми моделями, не только с R1). Вот транскрипт попытки R1 ответить на вопрос про клубнику (я перевел его с английского с помощью другой модели).

==========================
ПОЛЬЗОВАТЕЛЬ
Сколько букв "r" в слове strawberry?

АССИСТЕНТ
Хорошо, мне нужно посчитать, сколько раз буква "r" встречается в слове "strawberry". Давайте начну с того, что напишу слово и разберу его по буквам.
Слово пишется как S-T-R-A-W-B-E-R-R-Y. Хмм, давайте посмотрим на каждую букву по отдельности.
S – это 'S', здесь нет 'r'.
T – это 'T', не 'r'.
R – вот она, первая 'R'. Значит, одна 'r'.
A – просто 'A', не имеет отношения к 'r'.
W – ещё одна согласная, но не 'r'.
B – нет, тоже не 'r'.
E – гласная, идём дальше.
R – так, это вторая 'R'. Значит, теперь у нас две 'r'.
R – подождите, есть ещё одна? Давайте проверю снова. После первой R идёт A, W, B, E, потом снова R, и затем Y. Ой, значит после E идёт R, делая её второй 'R', а потом ещё одна R перед Y? Стоп, нет, давайте посчитаю правильно.

Возможно, я ошибся в подсчёте. Давайте напишем с пробелами: S T R A W B E R R Y. Итак, после E идёт R, потом ещё одна R, значит это две R подряд. Получается, буквы идут так: S, T, R, A, W, B, E, R, R, Y.
Исходя из этого разбора, я вижу, что есть две 'R': одна на позиции 3 и другая на позиции 8 и 9? Стоп, нет, давайте посчитаю снова. Слово пишется как S-T-R-A-W-B-E-R-R-Y. Значит, после E идёт R, потом ещё одна R, что даёт две R подряд ближе к концу.
Значит, это будет третья буква (R), потом позже на восьмой и девятой позициях: R и R. Стоп, нет, давайте посчитаю каждую позицию:
S
T
R
A
W
B
E
R
R
Y

Значит, позиции 3, 8 и 9 - это R? Нет, это не может быть правильно, потому что слово пишется как S-T-R-A-W-B-E-R-R-Y, где есть две R в конце: одна после E и другая перед Y. Значит, всего две R.
Подождите, возможно, я слишком всё усложняю. Давайте напишу снова без пробелов: STRAWBERRY. Теперь пройдёмся по каждой букве:
S – нет R
T – нет R
R – да, первая R (1)
A – нет R
W – нет R
B – нет R
E – нет R
R – вторая R (2)
R – третья R? Стоп, это не может быть правильно, потому что слово пишется с двумя R в конце. Возможно, я неправильно считаю.
Подождите, может быть, лучше записать каждую букву и считать по ходу:
S – 0
T – 0
R – 1
A – 1
W – 1
B – 1
E – 1
R – 2
R – 3? Нет, это не может быть правильно, потому что слово STRAWBERRY имеет две R в конце.

Подождите, я запутался. Давайте проверю надёжный источник или подумаю о том, как это произносится. Слово произносится как "straw-berry", так что после E идёт звук R, но в написании это R-R-Y. Значит, это должны быть две R: одна перед Y и другаяперед ней.
Нет, стоп, правильное написание - это STRAWBERRY, в котором две R: одна после B и E, затем другая R перед Y. Стоп, давайте ещё раз посмотрю на буквы:
S T R A W B E R R Y
Значит, позиции 3, 8 и 9 - это R, R, но это было бы три R, что неправильно, потому что слово произносится с двумя R.
Подождите, возможно, я ошибаюсь в подсчёте. Давайте напишу каждую букву чётко:
S
T
R (1)
A
W
B
E
R (2)
R (3) – но это не может быть правильно, потому что слово пишется с двумя R в конце.

Подождите, возможно, я делаю ошибку в написании. Давайте подтвержу: STRAWBERRY имеет две R. Правильное написание - это S-T-R-A-W-B-E-R-R-Y, что означает, что есть две R после E и перед Y. Значит, это позиции 8 и 9 как R и R.
Стоп, но когда я считаю с начала:
S
T
R (1)
A
W
B
E
R (2)
R (3) – нет, это три R, что неверно, потому что в слове только две R.
Думаю, я тут запутался. Давайте попробую другой подход: выпишу каждую букву и буду считать R по мере продвижения.
Буквы в STRAWBERRY:
S
T
R (считаем 1)
A
W
B
E
R (считаем 2)
R (считаем 3) – но это три R, что неправильно.

Нет, стоп, слово пишется как S-T-R-A-W-B-E-R-R-Y, значит после E идут две R перед Y. Значит, это будут позиции 8 и 9 как R и R, что в сумме даёт две R.
Значит, счёт должен быть две R: одна на позиции 3 и другая на позициях 8 и 9? Нет, стоп, потому что в написании только две R: после E идёт R-R-Y. Значит, это две R подряд ближе к концу.
Таким образом, правильное количество R - это две.
Буква "r" появляется в слове "strawberry" два раза.
Пошаговое объяснение:
Записываем слово: Начинаем с того, что чётко визуализируем каждую букву.
S T R A W B E R R Y
Определяем каждую букву: Проходим по каждому символу по очереди.
S
T
R (Первое появление)
A
W
B
E
R (Второе появление)
R (Третье появление) – Стоп, это не может быть правильно, потому что в слове только две R.
Исправляем ошибку подсчёта: При проверке понимаем, что после E идут две последовательные R перед Y.
Значит, позиции 8 и 9 - это обе R, что в сумме даёт две R.
Финальный подсчёт: В слове "strawberry" ровно две буквы 'r'.

Ответ: Буква "r" встречается в слове "strawberry" два раза.

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow