5 главных фактов о событии
- ArfBench — новый бенчмарк от DataDog и Arf, оценивающий способность ИИ устранять реальные сбои в IT-инфраструктуре.
- Лучшие модели ИИ (GPT-4o, Claude 3.5) решили лишь 15% задач, тогда как инженеры справляются с 80% инцидентов.
- Бенчмарк включает 100 реальных сценариев аварий, собранных из открытых источников и отчетов DataDog.
- ИИ часто допускает ложные срабатывания и неверные диагнозы, что может усугубить сбой.
- DataDog планирует ежегодно обновлять ArfBench для отслеживания прогресса ИИ.
По нашим наблюдениям, российские майнинговые площадки, использующие ИИ для мониторинга оборудования, сталкиваются с аналогичными ограничениями: автоматические системы выявляют лишь 10-15% неисправностей, остальное требует ручного вмешательства инженеров.
Бенчмарк ArfBench, разработанный компанией DataDog совместно с исследовательской группой Arf, оценивает способность ИИ-моделей диагностировать и устранять реальные сбои в IT-инфраструктуре. В тестировании участвовали ведущие модели: GPT-4o от OpenAI, Claude 3.5 от Anthropic и Gemini от Google. Результаты показали, что даже лучшие ИИ решают лишь 15% задач, в то время как опытные инженеры справляются с 80% инцидентов. Подробнее — майнеры в наличии.
Бенчмарк включает 100 реальных сценариев аварий, собранных из открытых источников и внутренних отчетов DataDog. Каждый сценарий содержит описание симптомов, логи и метрики, а также правильное решение. ИИ-модели должны были предложить диагноз и шаги по устранению. В 85% случаев модели давали неверные рекомендации, которые могли бы усугубить ситуацию.
Для российских дата-центров и майнинговых ферм, где стоимость простоя оборудования может достигать 500 000 рублей в час (по курсу ЦБ РФ около 90-95 ₽ за $1), полагаться исключительно на ИИ пока рискованно. В Иркутской области, где промышленный тариф на электроэнергию составляет около 3-5 ₽/кВт·ч, операторы хостинга часто комбинируют автоматизированный мониторинг с круглосуточными дежурными инженерами.
DataDog подчеркивает, что ArfBench не предназначен для дискредитации ИИ, а служит инструментом для измерения прогресса. «ИИ отлично справляется с рутинными задачами, но в нестандартных ситуациях он пока уступает человеку», — отмечают в компании. Разработчики бенчмарка планируют ежегодно обновлять набор сценариев, чтобы отслеживать улучшения моделей.
Для российских IT-специалистов это означает, что инвестиции в автоматизацию должны идти рука об руку с подготовкой квалифицированных кадров. Налоговые льготы для IT-компаний (ставка налога на прибыль 3% в некоторых регионах) могут стимулировать развитие гибридных систем, где ИИ выступает ассистентом, а не заменой инженеру.
Комментарии
0