LIVE

ИИ уступает инженерам в устранении сбоев: бенчмарк ArfBench

Новый бенчмарк ArfBench показал, что лучшие ИИ-модели решают лишь 15% реальных инцидентов, уступая инженерам с точностью 80%.

ИИ уступает инженерам в устранении сбоев: бенчмарк ArfBench

5 главных фактов о событии

  1. ArfBench — новый бенчмарк от DataDog и Arf, оценивающий способность ИИ устранять реальные сбои в IT-инфраструктуре.
  2. Лучшие модели ИИ (GPT-4o, Claude 3.5) решили лишь 15% задач, тогда как инженеры справляются с 80% инцидентов.
  3. Бенчмарк включает 100 реальных сценариев аварий, собранных из открытых источников и отчетов DataDog.
  4. ИИ часто допускает ложные срабатывания и неверные диагнозы, что может усугубить сбой.
  5. DataDog планирует ежегодно обновлять ArfBench для отслеживания прогресса ИИ.

По нашим наблюдениям, российские майнинговые площадки, использующие ИИ для мониторинга оборудования, сталкиваются с аналогичными ограничениями: автоматические системы выявляют лишь 10-15% неисправностей, остальное требует ручного вмешательства инженеров.

Бенчмарк ArfBench, разработанный компанией DataDog совместно с исследовательской группой Arf, оценивает способность ИИ-моделей диагностировать и устранять реальные сбои в IT-инфраструктуре. В тестировании участвовали ведущие модели: GPT-4o от OpenAI, Claude 3.5 от Anthropic и Gemini от Google. Результаты показали, что даже лучшие ИИ решают лишь 15% задач, в то время как опытные инженеры справляются с 80% инцидентов. Подробнее — майнеры в наличии.

Бенчмарк включает 100 реальных сценариев аварий, собранных из открытых источников и внутренних отчетов DataDog. Каждый сценарий содержит описание симптомов, логи и метрики, а также правильное решение. ИИ-модели должны были предложить диагноз и шаги по устранению. В 85% случаев модели давали неверные рекомендации, которые могли бы усугубить ситуацию.

Для российских дата-центров и майнинговых ферм, где стоимость простоя оборудования может достигать 500 000 рублей в час (по курсу ЦБ РФ около 90-95 ₽ за $1), полагаться исключительно на ИИ пока рискованно. В Иркутской области, где промышленный тариф на электроэнергию составляет около 3-5 ₽/кВт·ч, операторы хостинга часто комбинируют автоматизированный мониторинг с круглосуточными дежурными инженерами.

DataDog подчеркивает, что ArfBench не предназначен для дискредитации ИИ, а служит инструментом для измерения прогресса. «ИИ отлично справляется с рутинными задачами, но в нестандартных ситуациях он пока уступает человеку», — отмечают в компании. Разработчики бенчмарка планируют ежегодно обновлять набор сценариев, чтобы отслеживать улучшения моделей.

Для российских IT-специалистов это означает, что инвестиции в автоматизацию должны идти рука об руку с подготовкой квалифицированных кадров. Налоговые льготы для IT-компаний (ставка налога на прибыль 3% в некоторых регионах) могут стимулировать развитие гибридных систем, где ИИ выступает ассистентом, а не заменой инженеру.

Комментарии

0
    Станьте первым, кто прокомментирует эту новость.