Как компания «Цельс» сократила затраты на GPU-инфраструктуру в 2,5 раза, переведя стейдж-окружение ИИ-проектов в immers.cloud. Кейс о том, как аренда облачного сервера с нужной конфигурацией решила проблему дефицита видеокарт и запустила разработку 24/7.
Клиент: ООО «Медицинские Скрининг Системы» (бренд «Цельс»)
Отрасль: MedTech (ИИ в рентгенологии, LLM для здравоохранения)
Продукт: Сервис ИИ-обработки медицинских изображений + ИИ-скрайбер врачебных приемов и аналитик по медбазам
«Цельс» разрабатывает широкий спектр ИИ-решений для здравоохранения: от анализа медицинских изображений до автоматизации клинической документации и работы с данными. В рамках данного кейса мы рассмотрим оптимизацию инфраструктуры для двух активных проектов, которые стали драйверами миграции:
3D Computer Vision для детекции и сегментации патологий на компьютерных томограммах органов грудной клетки;
LLM-проекты для расшифровки диалогов «врач-пациент» (ИИ-скрайбер) и аналитики по структурированным медицинским данным.
До миграции команда размещала стейдж-окружение и тестовые инстансы в крупном публичном облаке. Со временем возникла классическая для ML-разработки проблема: резкое удорожание GPU-серверов и отсутствие конфигураций с 16–24 ГБ VRAM, которые идеально подходят для стейджа и отладки.
Чтобы удерживать бюджет, команда была вынуждена отключать машины на ночь и выходные. Но когда нагрузка выросла, а свободных видеокарт в провайдере не хватало, даже этот лайфхак перестал работать. Разработка новых версий, калибровочные тесты в рамках «Московского эксперимента» и проверка LLM-гипотез начали зависеть не от бизнес-приоритетов, а от тарифных окон и доступности ресурсов.
Вместо закупки собственного железа или переплаты за избыточные облачные инстансы, технический директор «Цельс» принял решение арендовать GPU-конфигурации в immers.cloud. Предоплатная модель и прозрачное ценообразование позволили команде быстро развернуть стейдж-окружения без длительных согласований и скрытых наценок.
Настройку инфраструктуры взял на себя внутренний DevOps-инженер, а коммуникация с нашей командой свелась к оперативным вопросам по тарифам. Сложностей при миграции не возникло: пайплайны сохранились, интеграция с продакшен-бэкендом в Яндекс Облаке осталась бесшовной.
Проект 1: Инференс 3D CV-моделей (КТ грудной клетки)
Стек: PyTorch, Python, Redis;
Оркестрация: Kubernetes;
Конфигурация: rtx3090-1.32.64.160 + выделенная CPU-нода для связи с основным кластером в Яндекс.Облаке;
Нагрузка: Инференс стейдж-окружения (внутренние тесты, внешние калибровочные запуски);
Производительность: Стабильная обработка 1-2 исследований (каждое по 300-1000 изображений) параллельно, что полностью закрывает потребности этапа pre-production;
Хранение: Локальные диски инстансов.
Проект 2: LLM-инференс (ИИ-скрайбер)
Стек: vLLM
Оркестрация: Docker Compose
Конфигурация: rtx3090-1.8.32.160 + GPU-машина на базе A2 для инференса Speech-to-Text моделей
Нагрузка: Инференс кастомной LLM на базе Qwen 3, A/B-тестирование гипотез, сбор метрик качества
Производительность: 3–5 параллельных запросов, оптимально для исследовательских задач и валидации промптов/архитектур
Хранение: Локальное, с синхронизацией артефактов по расписанию
Оба проекта работают в изолированном стейдж-окружении, но легко масштабируются при переходе к обучению или выводу в прод.
| Метрика | До миграции | С immers.cloud |
|---|---|---|
|
Стоимость стейдж-инфраструктуры |
Базовая + надбавки за простои/масштабирование |
Снижена в 2–2.5 раза |
|
Доступность ресурсов |
Ограничена ночными/выходными окнами |
24/7 без ограничений |
|
Скорость развертывания новых гипотез |
Зависела от квот и наличия GPU |
Поднятие нод за минуты по требованию |
|
Администрирование |
Ручное управление тарифами, мониторинг лимитов |
Делегировано девопсу, поддержка immers.cloud реагирует в рабочие часы |
Команда получила предсказуемый бюджет, возможность запускать тесты в любое время и гибкость для подключения дополнительных машин под обучение или новые проекты.
Слово клиента:
«Перевод дев-окружения ИИ-проектов в immers.cloud позволил нам заметно снизить стоимость инфраструктуры и при этом сделать ее доступной 24/7. Это позволяет ML-командам спокойно запускать любые тесты, проверять новые версии и развивать новые ИИ-проекты и гипотезы»
Кейс «Цельс» подтверждает: для стейджа, отладки пайплайнов и проверки гипотез не требуются enterprise-инстансы на базе data center GPU — во многих сценариях такие конфигурации не дают ощутимых преимуществ для задач инференса и R&D.
На практике такие задачи эффективно закрываются на доступных GPU, таких как NVIDIA RTX 3090 и RTX 4090 — с 24 ГБ видеопамяти, достаточной производительностью для инференса CV- и LLM-моделей, а также возможностью быстро масштабироваться за счет доступности большого пула таких GPU в нашем облаке.
Если команда работает с исследовательскими задачами, калибровкой компьютерного зрения или инференсом языковых моделей, такие GPU позволят быстро запускать эксперименты и без задержек масштабировать нагрузку.