Как IBS построила единую платформу для AI R&D в Immers.cloud

Выделять отдельный сервер под каждую проверку гипотезы — это долго, дорого и неэффективно. Команда IBS столкнулась с этой проблемой при разработке новых AI-сценариев и нашла элегантное решение: единую управляемую платформу для AI R&D.

В этом кейсе мы подробно разбираем, как построить гибкую GPU-песочницу без "костылей". Вы узнаете, как организовать централизованный запуск инстансов через GPUStack, обеспечить предсказуемую эксплуатацию и настроить гибридную сетевую архитектуру, которая удовлетворит и требования безопасности, и потребности внешних интеграций.

Если ваша команда тратит больше времени на настройку железа, чем на сами эксперименты, этот кейс покажет вам путь к платформенной модели работы с GPU.

  • Клиент: IBS — IT-сервисная компания
  • Проект: Централизованная платформа для AI R&D и проверки гипотез
  • Стек: GPUStack, vLLM, смешанная нагрузка (LLM / NLP / embeddings / reranking)
  • Результат: Ускорение запуска PoC, единый управляемый AI-контур, предсказуемая эксплуатация
  • Задача: Песочница для AI-экспериментов без инфраструктурных костылей

Команда IBS занимается исследованиями и разработкой в области искусственного интеллекта. Перед запуском каждого нового сценария — будь то fine-tuning модели, тестирование пайплайна или создание прототипа сервиса — необходимо быстро проверить гипотезу на реальном оборудовании.

Проблема «до»:

  1. Отсутствие свободной песочницы с достаточной GPU-мощностью для экспериментов;
  2. Затяжной этап подготовки инфраструктуры под каждый новый PoC;
  3. Необходимость выделять отдельный сервер под каждую задачу — долго, дорого, неэффективно;

«Нам нужен был управляемый GPU-контур, который можно быстро использовать для production API и AI PoC без построения собственного большого GPU-кластера с нуля», — отмечает Александр Жуковский, представитель компании.

Почему выбрали облачный GPU сервис immers.cloud?

При выборе провайдера команда IBS сформулировала четкие критерии:

  1. Стабильные GPU-ресурсы без внезапных отключений и падения производительности;

  2. Приватный контур с VPN — возможность изолировать R&D-среду от публичного доступа;

  3. Гибкость конфигураций — поддержка разных типов GPU под разные классы моделей;

  4. Предсказуемая эксплуатация — прозрачный мониторинг, аккуратный maintenance, минимум внеплановых вмешательств;

  5. Клиентоориентированность — быстрая коммуникация и готовность решать нестандартные задачи.

immers.cloud закрыл все пункты: платформа позволила развернуть единую среду для смешанной AI-нагрузки с возможностью тонкой настройки сетевого доступа.

Техническая реализация

Стек и архитектура

Компонент Решение
Оркестрация

GPUStack — для управления моделями и инстансами

Инференс

vLLM — для высокопроизводительного запуска LLM

Типы задач

LLM, NLP, embeddings, reranking, VLM, прикладные AI PoC

Конфигурация

1 control plane + 4 GPU worker-узла:

2 × A100 80GB

2 × (4 × RTX 3090 24GB)

1 × RTX 4090 24GB

Модели в контуре

На апрель 2026: 14 зарегистрированных моделей, 11 активных инстансов

Хранение данных

Локально, в рамках приватного контура

Доступ

Корпоративный доступ через VPN + ограниченный публичный прокси для утвержденных сценариев

Мониторинг

Централизованный сбор метрик, алертинг, логирование

Сетевая архитектура: баланс между безопасностью и доступностью

Одной из ключевых задач было совместить два сценария доступа:

  1. Внутренний защищенный контур — для R&D-команд, работы с чувствительными данными и отладки;
  2. Ограниченный публичный доступ — для демонстрации заказчиками и тестирования внешних интеграций.

Решение

Была реализована гибридная схема: основной AI-контур доступен только через VPN, а для отдельных утвержденных сценариев настроен изолированный публичный прокси с строгими правилами маршрутизации и лимитами.

Как это работает на практике

  1. Новая гипотеза поступает в R&D-бэклог;
  2. Инженер не запрашивает новый сервер, а разворачивает инстанс модели в существующем контуре через GPUStack;
  3. При необходимости подключается публичный прокси для внешнего тестирования;
  4. Все инстансы и метрики видны в единой панели мониторинга;
  5. После завершения эксперимента ресурсы освобождаются и возвращаются в пул.

Сложности и как мы их решили

Вызов Решение

Сетевая связность: нужно было обеспечить и защищенный внутренний доступ, и ограниченный внешний

Разделенная архитектура: VPN-контур для R&D + изолированный публичный прокси для утвержденных сценариев

Эксплуатация и предсказуемость: важно избежать простоев и конфликтов ресурсов

Внедрены правила эксплуатации, разделение критичных и тестовых нагрузок, централизованный мониторинг

Быстрый запуск новых сценариев: раньше под каждый кейс выделялся отдельный сервер

Теперь новые сценарии разворачиваются поверх существующего контура — без выделения нового железа

«Сотрудничество с immers.cloud позволило нам перейти к единой платформенной модели работы с GPU-инфраструктурой», — делится опытом команда проекта.

Итоги: Что изменилось после внедрения

Сотрудничество с GPU-облаком immers.cloud позволило IBS перейти от точечных решений к единой платформенной модели работы с GPU-инфраструктурой.

  • Появился единый R&D AI API-контур — все эксперименты в одной управляемой среде;

  • Ускорился запуск PoC — новые сценарии подключаются за часы, а не дни;

  • Исчезла необходимость выделять отдельный GPU-сервер под каждый кейс — ресурсы используются эффективно, по принципу пула;

  • Упростилось подключение новых команд — достаточно выдать доступ к контуру, не настраивая инфраструктуру с нуля;

  • Инфраструктура стала наблюдаемой и предсказуемой — мониторинг, логирование и четкие правила эксплуатации снизили операционные риски.

Что дальше?

Платформа продолжает развиваться: команда IBS масштабирует количество поддерживаемых моделей, тестирует новые сценарии мультимодального инференса и планирует расширять доступ для внутренних продуктовых команд.

Для нас в immers.cloud этот кейс — подтверждение того, что гибкая, клиентоориентированная инфраструктура становится катализатором инноваций. Когда исследователи не тратят время на настройку серверов, а сразу приступают к экспериментам — выигрывают все.

Хотите построить аналогичную R&D-платформу для AI-экспериментов? Наши инженеры помогут спроектировать контур под вашу нагрузку — от одного GPU до распределенного кластера.

Связаться с командой immers.cloud

Дата обновления 03.06.2026