Технологии1 месяц назад 1 мин

Модель Google DiffusionGemma выдаёт 1000 токенов в секунду — как это повлияет на рынок ИИ

Новая открытая модель Google DiffusionGemma генерирует 1000 токенов в секунду, отказываясь от последовательной генерации. Однако для работы требуется дорогое оборудование.

Мария ЛебедеваРедактор по DeFi и технологиям

#GOOGL

Что, если нейросеть сможет генерировать текст в 10 раз быстрее, чем ChatGPT, и при этом будет полностью бесплатной? Google представила DiffusionGemma — открытую языковую модель, способную выдавать до 1000 токенов в секунду. Это стало возможным благодаря отказу от традиционной последовательной генерации слов.

Триггер события

Компания Google опубликовала в открытом доступе модель DiffusionGemma, основанную на архитектуре диффузионных трансформеров. Вместо того чтобы генерировать текст слово за словом, модель создаёт сразу весь блок токенов, что радикально ускоряет процесс. В тестах на специализированном оборудовании (TPU v5p) скорость достигла 1000 токенов в секунду — это в 5-10 раз быстрее, чем у GPT-4 или Llama 3. Модель доступна для скачивания и использования без лицензионных отчислений. Подробнее — каталог ASIC-майнеров.

Сравнение с прошлыми кейсами 2020-2025

В 2023 году Google уже экспериментировала с диффузионными моделями для изображений (Imagen), но для текста такой подход применяется впервые. В отличие от рекуррентных нейросетей (RNN) и трансформеров, которые обрабатывают последовательности, диффузионные модели работают с зашумлёнными данными, постепенно восстанавливая чистый сигнал. В мае 2024 года Meta выпустила Llama 3 с максимальной скоростью около 200 токенов в секунду на топовом оборудовании — DiffusionGemma превосходит её в 5 раз. Однако для запуска модели требуется как минимум 80 ГБ видеопамяти, что недоступно для большинства пользователей.

Цифры, которые меняют картину

1000 токенов в секунду — это примерно 750 слов в секунду, или 45 000 слов в минуту. Для сравнения, средняя скорость чтения человека — 250 слов в минуту. Модель DiffusionGemma имеет 8 миллиардов параметров и весит около 16 ГБ в сжатом виде. Для инференса (выполнения вычислений) требуется как минимум одна TPU v5p или 4 GPU A100 (80 ГБ). Стоимость аренды такого оборудования в облаке Google Cloud — около $5–10 в час. По курсу ЦБ РФ около 90–95 ₽ за $1 это составляет 450–950 ₽ в час. Подробнее — актуальный гайд по моделям ASIC.

Что это меняет на горизонте 3-6 месяцев

По нашим наблюдениям, DiffusionGemma может стать катализатором для развития ИИ-ассистентов в реальном времени, где задержка критична — например, в синхронном переводе или голосовых интерфейсах. Для российских разработчиков открытый доступ к модели означает возможность интеграции в локальные продукты без оглядки на санкционные риски, но с оговоркой: оборудование для запуска (GPU/TPU) в РФ доступно в основном через облачные сервисы или промышленные майнинг-площадки, где можно арендовать вычислительные мощности. В Иркутской области, где тариф на электроэнергию для майнеров составляет около 3–5 ₽/кВт·ч, эксплуатация такого оборудования будет дешевле, чем в Москве, но всё равно потребует инвестиций в $10–20 тыс. за одну рабочую станцию. Для майнеров, переходящих на ИИ, это сигнал: спрос на GPU с большим объёмом памяти (A100, H100) будет расти, что может поддержать цены на вторичном рынке.

Вывод: DiffusionGemma — прорыв в скорости генерации текста, но его практическая польза пока ограничена стоимостью оборудования. Российскому рынку стоит присмотреться к модели как к альтернативе проприетарным решениям, особенно в условиях импортозамещения.

Частые вопросы

Сколько токенов в секунду выдаёт DiffusionGemma и на каком оборудовании?

Модель достигает 1000 токенов в секунду на TPU v5p или 4 GPU A100 с 80 ГБ памяти. Для запуска требуется минимум 80 ГБ видеопамяти.

Как DiffusionGemma повлияет на российский рынок ИИ и майнинг?

Открытая модель снижает зависимость от западных проприетарных решений. Для российских компаний доступ к модели бесплатен, но оборудование (GPU A100/H100) дорого: от $10 тыс. за станцию. Спрос на такие GPU может вырасти, что поддержит цены на вторичном рынке.

Какие налоги и регулирование касаются использования DiffusionGemma в РФ?

Модель распространяется по открытой лицензии, поэтому дополнительных налогов нет. Однако при коммерческом использовании доходы облагаются налогом на прибыль 25% или НДФЛ 13-15% для физлиц. Оборудование для запуска может учитываться как основное средство.