Новое поколение

ЦОД AI: инфраструктура,
которую можно объяснить.

Запуск сложнейших LLM на смешанном железе. Превращаем гетерогенные ресурсы в единый нейронный кластер с понятной экономикой.

Что значит «новое поколение»
0×
дешевле железа
0×
ниже энергопотребление
0 ГБ
unified memory на узел
0.95%
аптайм SLA
Сравнение

Стандартный путь vs архитектура НейроСтрой

Альтернатива

Стандартный путь

Supermicro 4× H200 NVL (141 ГБ HBM3e)

  • Память на узел4× 141 ГБ HBM3e (распределение весов)
  • Пропускная способность4.8 ТБ/с (HBM3e)
  • Энергопотребление≈ 3000 Вт
  • Стоимость≈ 22.1 М ₽ / $269 000+
  • Форм-фактор2U стойка, 32 кг, трёхфазное питание
  • Уровень шума> 75 дБА (только серверная)
  • Климат и инфраструктураПрецизионное охлаждение, холодные коридоры
  • Постановка на учётДекларация соответствия, регистрация РЭС
  • Поддержка моделейCUDA-only
Закрытая экосистема, высокий TCO
Рекомендуется

Архитектура НейроСтрой

Mac Studio M3 Ultra (512 ГБ unified)

  • Память на узел512 ГБ unified LPDDR5-8533
  • Пропускная способность819 ГБ/с (unified)
  • Энергопотребление≈ 180 Вт
  • Стоимость≈ 1.35 М ₽ / $15 700
  • Форм-факторНастольный, 3.6 кг, бытовая розетка
  • Уровень шума< 35 дБА (тихо в офисе)
  • Климат и инфраструктураБез отдельной вентиляции
  • Постановка на учётНе требуется — настольное устройство
  • Поддержка моделейvLLM · TGI · llama.cpp · MLX
На 60% дешевле и на 40% энергоэффективнее
Бенчмарки

Реальный инференс на целевых LLM

Скорость генерации одиночного запроса (токен/с) на актуальных моделях: GigaChat, DeepSeek V4, Qwen 3.6, GLM 5.1.

МодельSupermicro 4× H200 NVLMac Studio M3 Ultra
DeepSeek V4-Pro1.6T / 49B MoE · FP8
55–75 tok/s27–38 tok/s
Qwen 3.6 235B-A22BFP8 · TP=4
75–90 tok/s38–45 tok/s
GLM-5.1744B / 40B MoE · FP8
40–65 tok/s20–33 tok/s
GigaChat / Giga~702B · Q4_K_M
нет публичных данныхнет публичных данных

Для Mac Studio M3 Ultra скорости оценены как ~50% от 4× H200 — консервативный пересчёт по пропускной способности памяти (819 ГБ/с против 4.8 ТБ/с).

Когда хватает

20–45 токен/с на тяжёлых MoE — рабочий режим для внутренних агентов, R&D и приватного инференса. Если вы не продаёте AI-генерации массовому пользователю, скорость 50–240 токен/с ценой ×10 не окупается.

Источники и методика
  • • DeepSeek V4: пересчёт официального бенчмарка SGLang (68 tok/s на 8× H200 TP=8) на 4 карты с поправкой на нелинейность MoE.
  • • Qwen 3.6: данные Qwen — 71.65 tok/s на 4× H20 (96 ГБ) FP8; H200 NVL даёт +15–25% за счёт памяти.
  • • GLM-5.1: экстраполяция облачных бенчмарков (44–77 tok/s) с поправкой на активные параметры.
  • • GigaChat: модель помещается в 4× H200 NVL (424 ГБ в Q4), публичных метрик инференса нет.
Преимущества

Шесть точек, где гетерогенный кластер выигрывает

Гетерогенные кластеры

NVIDIA H100/A100, AMD MI300X, Apple Silicon — единый менеджер ресурсов поверх любого парка железа.

Энергоэффективность

На 40% меньше потребление по сравнению с типовой конфигурацией под ту же модель.

TCO в 2–3 раза ниже

За счёт смешения поколений, динамической миграции и offline-batching.

Низкая латентность

Маршрутизация запроса на ближайший воркер с актуальным KV-кэшем. Без cold-start.

Изоляция на уровне VPC

Каждый клиент — отдельная сеть с шифрованием inflight и at-rest. Безопасный multitenancy.

Open-source ядро

Платформа работает на vLLM/TGI/llama.cpp. Никакого vendor-lock на прикладном уровне.

Внедрение

Как мы запускаем у клиента

От первого звонка до production — обычно 4–8 недель.

  1. ШАГ 01

    Аудит парка железа

    Смотрим, что есть. Считаем, какую часть нагрузок можно переложить на существующие машины. Заполняем gap-list.

  2. ШАГ 02

    Топология кластера

    Проектируем сеть, маршрутизацию запросов, кэши и failover. Согласовываем модели и квоты.

  3. ШАГ 03

    Тестирование под нагрузкой

    Имитация боевых сценариев. Профайлинг латентности. Тонкие настройки vLLM/TGI/llama.cpp.

  4. ШАГ 04

    Pilot и production

    Запуск в pilot-окружении, обратная связь, переключение на prod. Поддержка 24/7 первые 90 дней.

Расчёт под ваш кейс

Готовы оптимизировать AI-инфраструктуру?

Расскажите про текущий парк и нагрузки — пришлём расчёт TCO и предложение.