Новое поколение

ЦОД AI: инфраструктура,
которую можно объяснить.

Запуск сложнейших LLM на смешанном железе. Превращаем гетерогенные ресурсы в единый нейронный кластер с понятной экономикой.

Запросить КП Корпоративные агенты

Что значит «новое поколение»

0×

дешевле железа

0×

ниже энергопотребление

0 ГБ

unified memory на узел

0.95%

аптайм SLA

Сравнение

Стандартный путь vs архитектура НейроСтрой

Альтернатива

Стандартный путь

Supermicro 4× H200 NVL (141 ГБ HBM3e)

Память на узел4× 141 ГБ HBM3e (распределение весов)
Пропускная способность4.8 ТБ/с (HBM3e)
Энергопотребление≈ 3000 Вт
Стоимость≈ 22.1 М ₽ / $269 000+
Форм-фактор2U стойка, 32 кг, трёхфазное питание
Уровень шума> 75 дБА (только серверная)
Климат и инфраструктураПрецизионное охлаждение, холодные коридоры
Постановка на учётДекларация соответствия, регистрация РЭС
Поддержка моделейCUDA-only

Закрытая экосистема, высокий TCO

Рекомендуется

Архитектура НейроСтрой

Mac Studio M3 Ultra (512 ГБ unified)

Память на узел512 ГБ unified LPDDR5-8533
Пропускная способность819 ГБ/с (unified)
Энергопотребление≈ 180 Вт
Стоимость≈ 1.35 М ₽ / $15 700
Форм-факторНастольный, 3.6 кг, бытовая розетка
Уровень шума< 35 дБА (тихо в офисе)
Климат и инфраструктураБез отдельной вентиляции
Постановка на учётНе требуется — настольное устройство
Поддержка моделейvLLM · TGI · llama.cpp · MLX

На 60% дешевле и на 40% энергоэффективнее

Бенчмарки

Реальный инференс на целевых LLM

Скорость генерации одиночного запроса (токен/с) на актуальных моделях: GigaChat, DeepSeek V4, Qwen 3.6, GLM 5.1.

Модель	Supermicro 4× H200 NVL	Mac Studio M3 Ultra
DeepSeek V4-Pro1.6T / 49B MoE · FP8	55–75 tok/s	27–38 tok/s
Qwen 3.6 235B-A22BFP8 · TP=4	75–90 tok/s	38–45 tok/s
GLM-5.1744B / 40B MoE · FP8	40–65 tok/s	20–33 tok/s
GigaChat / Giga~702B · Q4_K_M	нет публичных данных	нет публичных данных

Для Mac Studio M3 Ultra скорости оценены как ~50% от 4× H200 — консервативный пересчёт по пропускной способности памяти (819 ГБ/с против 4.8 ТБ/с).

Когда хватает

20–45 токен/с на тяжёлых MoE — рабочий режим для внутренних агентов, R&D и приватного инференса. Если вы не продаёте AI-генерации массовому пользователю, скорость 50–240 токен/с ценой ×10 не окупается.

Источники и методика

• DeepSeek V4: пересчёт официального бенчмарка SGLang (68 tok/s на 8× H200 TP=8) на 4 карты с поправкой на нелинейность MoE.
• Qwen 3.6: данные Qwen — 71.65 tok/s на 4× H20 (96 ГБ) FP8; H200 NVL даёт +15–25% за счёт памяти.
• GLM-5.1: экстраполяция облачных бенчмарков (44–77 tok/s) с поправкой на активные параметры.
• GigaChat: модель помещается в 4× H200 NVL (424 ГБ в Q4), публичных метрик инференса нет.

Преимущества

Шесть точек, где гетерогенный кластер выигрывает

Гетерогенные кластеры

NVIDIA H100/A100, AMD MI300X, Apple Silicon — единый менеджер ресурсов поверх любого парка железа.

Энергоэффективность

На 40% меньше потребление по сравнению с типовой конфигурацией под ту же модель.

TCO в 2–3 раза ниже

За счёт смешения поколений, динамической миграции и offline-batching.

Низкая латентность

Маршрутизация запроса на ближайший воркер с актуальным KV-кэшем. Без cold-start.

Изоляция на уровне VPC

Каждый клиент — отдельная сеть с шифрованием inflight и at-rest. Безопасный multitenancy.

Open-source ядро

Платформа работает на vLLM/TGI/llama.cpp. Никакого vendor-lock на прикладном уровне.

Внедрение

Как мы запускаем у клиента

От первого звонка до production — обычно 4–8 недель.

ШАГ 01
Аудит парка железа
Смотрим, что есть. Считаем, какую часть нагрузок можно переложить на существующие машины. Заполняем gap-list.
ШАГ 02
Топология кластера
Проектируем сеть, маршрутизацию запросов, кэши и failover. Согласовываем модели и квоты.
ШАГ 03
Тестирование под нагрузкой
Имитация боевых сценариев. Профайлинг латентности. Тонкие настройки vLLM/TGI/llama.cpp.
ШАГ 04
Pilot и production
Запуск в pilot-окружении, обратная связь, переключение на prod. Поддержка 24/7 первые 90 дней.

Расчёт под ваш кейс

Готовы оптимизировать AI-инфраструктуру?

Расскажите про текущий парк и нагрузки — пришлём расчёт TCO и предложение.

Заполнить форму Написать на e-mail

ЦОД AI: инфраструктура,которую можно объяснить.