Что, если нейросеть сможет генерировать текст в 10 раз быстрее, чем ChatGPT, и при этом будет полностью бесплатной? Google представила DiffusionGemma — открытую языковую модель, способную выдавать до 1000 токенов в секунду. Это стало возможным благодаря отказу от традиционной последовательной генерации слов.
Триггер события
Компания Google опубликовала в открытом доступе модель DiffusionGemma, основанную на архитектуре диффузионных трансформеров. Вместо того чтобы генерировать текст слово за словом, модель создаёт сразу весь блок токенов, что радикально ускоряет процесс. В тестах на специализированном оборудовании (TPU v5p) скорость достигла 1000 токенов в секунду — это в 5-10 раз быстрее, чем у GPT-4 или Llama 3. Модель доступна для скачивания и использования без лицензионных отчислений. Подробнее — каталог ASIC-майнеров.
Сравнение с прошлыми кейсами 2020-2025
В 2023 году Google уже экспериментировала с диффузионными моделями для изображений (Imagen), но для текста такой подход применяется впервые. В отличие от рекуррентных нейросетей (RNN) и трансформеров, которые обрабатывают последовательности, диффузионные модели работают с зашумлёнными данными, постепенно восстанавливая чистый сигнал. В мае 2024 года Meta выпустила Llama 3 с максимальной скоростью около 200 токенов в секунду на топовом оборудовании — DiffusionGemma превосходит её в 5 раз. Однако для запуска модели требуется как минимум 80 ГБ видеопамяти, что недоступно для большинства пользователей.
Цифры, которые меняют картину
1000 токенов в секунду — это примерно 750 слов в секунду, или 45 000 слов в минуту. Для сравнения, средняя скорость чтения человека — 250 слов в минуту. Модель DiffusionGemma имеет 8 миллиардов параметров и весит около 16 ГБ в сжатом виде. Для инференса (выполнения вычислений) требуется как минимум одна TPU v5p или 4 GPU A100 (80 ГБ). Стоимость аренды такого оборудования в облаке Google Cloud — около $5–10 в час. По курсу ЦБ РФ около 90–95 ₽ за $1 это составляет 450–950 ₽ в час. Подробнее — актуальный гайд по моделям ASIC.
Что это меняет на горизонте 3-6 месяцев
По нашим наблюдениям, DiffusionGemma может стать катализатором для развития ИИ-ассистентов в реальном времени, где задержка критична — например, в синхронном переводе или голосовых интерфейсах. Для российских разработчиков открытый доступ к модели означает возможность интеграции в локальные продукты без оглядки на санкционные риски, но с оговоркой: оборудование для запуска (GPU/TPU) в РФ доступно в основном через облачные сервисы или промышленные майнинг-площадки, где можно арендовать вычислительные мощности. В Иркутской области, где тариф на электроэнергию для майнеров составляет около 3–5 ₽/кВт·ч, эксплуатация такого оборудования будет дешевле, чем в Москве, но всё равно потребует инвестиций в $10–20 тыс. за одну рабочую станцию. Для майнеров, переходящих на ИИ, это сигнал: спрос на GPU с большим объёмом памяти (A100, H100) будет расти, что может поддержать цены на вторичном рынке.
Вывод: DiffusionGemma — прорыв в скорости генерации текста, но его практическая польза пока ограничена стоимостью оборудования. Российскому рынку стоит присмотреться к модели как к альтернативе проприетарным решениям, особенно в условиях импортозамещения.





Комментарии
0