Как «Цельс» сократил затраты на GPU-инфраструктуру в 2,5 раза и запустил ИИ-разработку 24/7

Как компания «Цельс» сократила затраты на GPU-инфраструктуру в 2,5 раза, переведя стейдж-окружение ИИ-проектов в immers.cloud. Кейс о том, как аренда облачного сервера с нужной конфигурацией решила проблему дефицита видеокарт и запустила разработку 24/7.

  • Клиент: ООО «Медицинские Скрининг Системы» (бренд «Цельс»)

  • Отрасль: MedTech (ИИ в рентгенологии, LLM для здравоохранения)

  • Продукт: Сервис ИИ-обработки медицинских изображений + ИИ-скрайбер врачебных приемов и аналитик по медбазам

Проблема: как облачные тарифы и дефицит GPU тормозят разработку

«Цельс» разрабатывает широкий спектр ИИ-решений для здравоохранения: от анализа медицинских изображений до автоматизации клинической документации и работы с данными. В рамках данного кейса мы рассмотрим оптимизацию инфраструктуры для двух активных проектов, которые стали драйверами миграции:

  1. 3D Computer Vision для детекции и сегментации патологий на компьютерных томограммах органов грудной клетки;

  2. LLM-проекты для расшифровки диалогов «врач-пациент» (ИИ-скрайбер) и аналитики по структурированным медицинским данным.

До миграции команда размещала стейдж-окружение и тестовые инстансы в крупном публичном облаке. Со временем возникла классическая для ML-разработки проблема: резкое удорожание GPU-серверов и отсутствие конфигураций с 16–24 ГБ VRAM, которые идеально подходят для стейджа и отладки.

Чтобы удерживать бюджет, команда была вынуждена отключать машины на ночь и выходные. Но когда нагрузка выросла, а свободных видеокарт в провайдере не хватало, даже этот лайфхак перестал работать. Разработка новых версий, калибровочные тесты в рамках «Московского эксперимента» и проверка LLM-гипотез начали зависеть не от бизнес-приоритетов, а от тарифных окон и доступности ресурсов.

Как перенос инфраструктуры в immers.cloud решил задачу доступности ресурсов

Вместо закупки собственного железа или переплаты за избыточные облачные инстансы, технический директор «Цельс» принял решение арендовать GPU-конфигурации в immers.cloud. Предоплатная модель и прозрачное ценообразование позволили команде быстро развернуть стейдж-окружения без длительных согласований и скрытых наценок.

Настройку инфраструктуры взял на себя внутренний DevOps-инженер, а коммуникация с нашей командой свелась к оперативным вопросам по тарифам. Сложностей при миграции не возникло: пайплайны сохранились, интеграция с продакшен-бэкендом в Яндекс Облаке осталась бесшовной.

Техническая реализация: два проекта, одна платформа

Проект 1: Инференс 3D CV-моделей (КТ грудной клетки)

  • Стек: PyTorch, Python, Redis;

  • Оркестрация: Kubernetes;

  • Конфигурация: rtx3090-1.32.64.160 + выделенная CPU-нода для связи с основным кластером в Яндекс.Облаке;

  • Нагрузка: Инференс стейдж-окружения (внутренние тесты, внешние калибровочные запуски);

  • Производительность: Стабильная обработка 1-2 исследований (каждое по 300-1000 изображений) параллельно, что полностью закрывает потребности этапа pre-production;

  • Хранение: Локальные диски инстансов.

Проект 2: LLM-инференс (ИИ-скрайбер)

  • Стек: vLLM

  • Оркестрация: Docker Compose

  • Конфигурация: rtx3090-1.8.32.160 + GPU-машина на базе A2 для инференса Speech-to-Text моделей

  • Нагрузка: Инференс кастомной LLM на базе Qwen 3, A/B-тестирование гипотез, сбор метрик качества

  • Производительность: 3–5 параллельных запросов, оптимально для исследовательских задач и валидации промптов/архитектур

  • Хранение: Локальное, с синхронизацией артефактов по расписанию

Оба проекта работают в изолированном стейдж-окружении, но легко масштабируются при переходе к обучению или выводу в прод.

Результаты в цифрах 

Метрика До миграции С immers.cloud

Стоимость стейдж-инфраструктуры

Базовая + надбавки за простои/масштабирование

Снижена в 2–2.5 раза

Доступность ресурсов

Ограничена ночными/выходными окнами

24/7 без ограничений

Скорость развертывания новых гипотез

Зависела от квот и наличия GPU

Поднятие нод за минуты по требованию

Администрирование

Ручное управление тарифами, мониторинг лимитов

Делегировано девопсу, поддержка immers.cloud реагирует в рабочие часы

Команда получила предсказуемый бюджет, возможность запускать тесты в любое время и гибкость для подключения дополнительных машин под обучение или новые проекты.

Слово клиента:

«Перевод дев-окружения ИИ-проектов в immers.cloud позволил нам заметно снизить стоимость инфраструктуры и при этом сделать ее доступной 24/7. Это позволяет ML-командам спокойно запускать любые тесты, проверять новые версии и развивать новые ИИ-проекты и гипотезы»

Итог

Кейс «Цельс» подтверждает: для стейджа, отладки пайплайнов и проверки гипотез не требуются enterprise-инстансы на базе data center GPU — во многих сценариях такие конфигурации не дают ощутимых преимуществ для задач инференса и R&D.

На практике такие задачи эффективно закрываются на доступных GPU, таких как NVIDIA RTX 3090 и RTX 4090 — с 24 ГБ видеопамяти, достаточной производительностью для инференса CV- и LLM-моделей, а также возможностью быстро масштабироваться за счет доступности большого пула таких GPU в нашем облаке.

Если команда работает с исследовательскими задачами, калибровкой компьютерного зрения или инференсом языковых моделей, такие GPU позволят быстро запускать эксперименты и без задержек масштабировать нагрузку.

Дата обновления 16.04.2026