LIVE

Claude Opus 4.8: провал на тесте токенов — что это значит для разработчиков

Anthropic выпустила Claude Opus 4.8. Модель отлично справляется с математикой и кодом, но расходует лимит токенов за один запрос.

Claude Opus 4.8: провал на тесте токенов — что это значит для разработчиков

Новая флагманская модель Anthropic Claude Opus 4.8 блестяще решает задачи по математике и генерирует рабочий код, но в одном из тестов израсходовала весь лимит токенов за один запрос. Редакция Decrypt провела шесть испытаний, и результаты оказались неоднозначными.

Заявление и его автор

Anthropic представила Claude Opus 4.8 как самую мощную модель в линейке. В пресс-релизе компания заявила, что модель «превосходит предыдущие версии в рассуждениях, кодировании и математике». Однако тесты Decrypt показали, что сильные стороны модели остались прежними, а слабые — усугубились. Подробнее — каталог ASIC-майнеров.

Технические или юридические детали

Claude Opus 4.8 доступна через API Anthropic и в веб-интерфейсе. Модель использует архитектуру transformer с 1,3 триллиона параметров (по неофициальным данным). В тесте на математическую задачу (интеграл сложной функции) модель выдала верный ответ за 12 секунд. В задаче по программированию — написала игру «Змейка» на Python без единой ошибки. Однако при попытке сгенерировать длинный аналитический отчёт модель потребила 100 000 токенов — весь доступный лимит на один запрос, оставив пользователя без возможности продолжить диалог.

Сравнение с прошлыми кейсами

В декабре 2024 года Claude Opus 4.0 также имела проблемы с контролем длины ответа, но тогда лимит в 50 000 токенов не исчерпывался полностью. Новая модель расходует ресурсы агрессивнее: средняя длина ответа выросла на 40% по сравнению с предыдущей версией. Для сравнения, GPT-4o от OpenAI в аналогичном тесте использовала 45 000 токенов, а Gemini 2.0 — 38 000. Подробнее — актуальный гайд по моделям ASIC.

Последствия для криптоиндустрии

Для разработчиков криптопроектов, использующих ИИ для аудита смарт-контрактов или генерации кода, неконтролируемый расход токенов означает рост затрат. При цене API $15 за 1 млн токенов (вход) и $75 за 1 млн токенов (выход) один неоптимизированный запрос может стоить $7,5. По нашим наблюдениям, для российских команд, работающих с ограниченными бюджетами, это критично: при курсе 90-95 ₽ за $1 такой запрос обойдётся в 675-712 ₽. В Иркутской области, где промышленный тариф на электроэнергию для майнинга составляет около 3,5 ₽/кВт·ч, на эти деньги можно запитать ASIC-майнер мощностью 3 кВт на 64 часа. Для стартапов, зарегистрированных в реестре ФНС как майнеры, оптимизация запросов к ИИ становится вопросом выживания.

Вывод: Claude Opus 4.8 — мощный, но прожорливый инструмент. Разработчикам стоит тщательно настраивать лимиты токенов и тестировать модель на типовых задачах перед интеграцией в production.

Частые вопросы

Сколько токенов потребляет Claude Opus 4.8 за один запрос?
В тесте Decrypt модель израсходовала 100 000 токенов — весь доступный лимит на один запрос. Это на 40% больше, чем у предыдущей версии, и вдвое больше, чем у GPT-4o в аналогичном сценарии.
Как это повлияет на затраты российских разработчиков?
При цене API $75 за 1 млн выходных токенов один запрос на 100 000 токенов стоит $7,5. По курсу 90-95 ₽ за $1 это 675-712 ₽. Для стартапов с ограниченным бюджетом такие расходы критичны.
Стоит ли использовать Claude Opus 4.8 для аудита смарт-контрактов?
Модель отлично справляется с математикой и кодом, но неконтролируемый расход токенов делает её дорогой. Рекомендуется выставлять жёсткие лимиты токенов и тестировать на типовых задачах перед интеграцией.

Комментарии

0
    Станьте первым, кто прокомментирует эту новость.