Технологии3 недели назад 1 мин

ИИ уступает инженерам в устранении сбоев: бенчмарк ArfBench

Новый бенчмарк ArfBench показал, что лучшие ИИ-модели решают лишь 15% реальных инцидентов, уступая инженерам с точностью 80%.

Мария ЛебедеваРедактор по DeFi и технологиям

ИИ уступает инженерам в устранении сбоев: бенчмарк ArfBench

5 главных фактов о событии

ArfBench — новый бенчмарк от DataDog и Arf, оценивающий способность ИИ устранять реальные сбои в IT-инфраструктуре.
Лучшие модели ИИ (GPT-4o, Claude 3.5) решили лишь 15% задач, тогда как инженеры справляются с 80% инцидентов.
Бенчмарк включает 100 реальных сценариев аварий, собранных из открытых источников и отчетов DataDog.
ИИ часто допускает ложные срабатывания и неверные диагнозы, что может усугубить сбой.
DataDog планирует ежегодно обновлять ArfBench для отслеживания прогресса ИИ.

По нашим наблюдениям, российские майнинговые площадки, использующие ИИ для мониторинга оборудования, сталкиваются с аналогичными ограничениями: автоматические системы выявляют лишь 10-15% неисправностей, остальное требует ручного вмешательства инженеров.

Бенчмарк ArfBench, разработанный компанией DataDog совместно с исследовательской группой Arf, оценивает способность ИИ-моделей диагностировать и устранять реальные сбои в IT-инфраструктуре. В тестировании участвовали ведущие модели: GPT-4o от OpenAI, Claude 3.5 от Anthropic и Gemini от Google. Результаты показали, что даже лучшие ИИ решают лишь 15% задач, в то время как опытные инженеры справляются с 80% инцидентов. Подробнее — майнеры в наличии.

Бенчмарк включает 100 реальных сценариев аварий, собранных из открытых источников и внутренних отчетов DataDog. Каждый сценарий содержит описание симптомов, логи и метрики, а также правильное решение. ИИ-модели должны были предложить диагноз и шаги по устранению. В 85% случаев модели давали неверные рекомендации, которые могли бы усугубить ситуацию.

Для российских дата-центров и майнинговых ферм, где стоимость простоя оборудования может достигать 500 000 рублей в час (по курсу ЦБ РФ около 90-95 ₽ за $1), полагаться исключительно на ИИ пока рискованно. В Иркутской области, где промышленный тариф на электроэнергию составляет около 3-5 ₽/кВт·ч, операторы хостинга часто комбинируют автоматизированный мониторинг с круглосуточными дежурными инженерами.

DataDog подчеркивает, что ArfBench не предназначен для дискредитации ИИ, а служит инструментом для измерения прогресса. «ИИ отлично справляется с рутинными задачами, но в нестандартных ситуациях он пока уступает человеку», — отмечают в компании. Разработчики бенчмарка планируют ежегодно обновлять набор сценариев, чтобы отслеживать улучшения моделей.

Для российских IT-специалистов это означает, что инвестиции в автоматизацию должны идти рука об руку с подготовкой квалифицированных кадров. Налоговые льготы для IT-компаний (ставка налога на прибыль 3% в некоторых регионах) могут стимулировать развитие гибридных систем, где ИИ выступает ассистентом, а не заменой инженеру.

5 главных фактов о событии

Похожие новости

StarkWare и Sui внедряют конфиденциальные переводы: что это значит для майнеров

Как один ноутбук стоил $36 млн: разбор эксплойта Humanity

Кредитка под залог стейблкоинов: Coinbase и Cardless меняют правила игры

Цифровой паспорт продукта на Hedera: Merck и Hashgraph Group готовят к EU-регулировке