Выделять отдельный сервер под каждую проверку гипотезы — это долго, дорого и неэффективно. Команда IBS столкнулась с этой проблемой при разработке новых AI-сценариев и нашла элегантное решение: единую управляемую платформу для AI R&D.
В этом кейсе мы подробно разбираем, как построить гибкую GPU-песочницу без "костылей". Вы узнаете, как организовать централизованный запуск инстансов через GPUStack, обеспечить предсказуемую эксплуатацию и настроить гибридную сетевую архитектуру, которая удовлетворит и требования безопасности, и потребности внешних интеграций.
Если ваша команда тратит больше времени на настройку железа, чем на сами эксперименты, этот кейс покажет вам путь к платформенной модели работы с GPU.
Команда IBS занимается исследованиями и разработкой в области искусственного интеллекта. Перед запуском каждого нового сценария — будь то fine-tuning модели, тестирование пайплайна или создание прототипа сервиса — необходимо быстро проверить гипотезу на реальном оборудовании.
«Нам нужен был управляемый GPU-контур, который можно быстро использовать для production API и AI PoC без построения собственного большого GPU-кластера с нуля», — отмечает Александр Жуковский, представитель компании.
При выборе провайдера команда IBS сформулировала четкие критерии:
Стабильные GPU-ресурсы без внезапных отключений и падения производительности;
Приватный контур с VPN — возможность изолировать R&D-среду от публичного доступа;
Гибкость конфигураций — поддержка разных типов GPU под разные классы моделей;
Предсказуемая эксплуатация — прозрачный мониторинг, аккуратный maintenance, минимум внеплановых вмешательств;
Клиентоориентированность — быстрая коммуникация и готовность решать нестандартные задачи.
immers.cloud закрыл все пункты: платформа позволила развернуть единую среду для смешанной AI-нагрузки с возможностью тонкой настройки сетевого доступа.
Стек и архитектура
| Компонент | Решение |
|---|---|
| Оркестрация |
GPUStack — для управления моделями и инстансами |
| Инференс |
vLLM — для высокопроизводительного запуска LLM |
| Типы задач |
LLM, NLP, embeddings, reranking, VLM, прикладные AI PoC |
| Конфигурация |
1 control plane + 4 GPU worker-узла: 2 × A100 80GB 2 × (4 × RTX 3090 24GB) 1 × RTX 4090 24GB |
|
Модели в контуре |
На апрель 2026: 14 зарегистрированных моделей, 11 активных инстансов |
|
Хранение данных |
Локально, в рамках приватного контура |
| Доступ |
Корпоративный доступ через VPN + ограниченный публичный прокси для утвержденных сценариев |
| Мониторинг |
Централизованный сбор метрик, алертинг, логирование |
Одной из ключевых задач было совместить два сценария доступа:
Была реализована гибридная схема: основной AI-контур доступен только через VPN, а для отдельных утвержденных сценариев настроен изолированный публичный прокси с строгими правилами маршрутизации и лимитами.
| Вызов | Решение |
|---|---|
|
Сетевая связность: нужно было обеспечить и защищенный внутренний доступ, и ограниченный внешний |
Разделенная архитектура: VPN-контур для R&D + изолированный публичный прокси для утвержденных сценариев |
|
Эксплуатация и предсказуемость: важно избежать простоев и конфликтов ресурсов |
Внедрены правила эксплуатации, разделение критичных и тестовых нагрузок, централизованный мониторинг |
|
Быстрый запуск новых сценариев: раньше под каждый кейс выделялся отдельный сервер |
Теперь новые сценарии разворачиваются поверх существующего контура — без выделения нового железа |
«Сотрудничество с immers.cloud позволило нам перейти к единой платформенной модели работы с GPU-инфраструктурой», — делится опытом команда проекта.
Сотрудничество с GPU-облаком immers.cloud позволило IBS перейти от точечных решений к единой платформенной модели работы с GPU-инфраструктурой.
Появился единый R&D AI API-контур — все эксперименты в одной управляемой среде;
Ускорился запуск PoC — новые сценарии подключаются за часы, а не дни;
Исчезла необходимость выделять отдельный GPU-сервер под каждый кейс — ресурсы используются эффективно, по принципу пула;
Упростилось подключение новых команд — достаточно выдать доступ к контуру, не настраивая инфраструктуру с нуля;
Инфраструктура стала наблюдаемой и предсказуемой — мониторинг, логирование и четкие правила эксплуатации снизили операционные риски.
Платформа продолжает развиваться: команда IBS масштабирует количество поддерживаемых моделей, тестирует новые сценарии мультимодального инференса и планирует расширять доступ для внутренних продуктовых команд.
Для нас в immers.cloud этот кейс — подтверждение того, что гибкая, клиентоориентированная инфраструктура становится катализатором инноваций. Когда исследователи не тратят время на настройку серверов, а сразу приступают к экспериментам — выигрывают все.
Хотите построить аналогичную R&D-платформу для AI-экспериментов? Наши инженеры помогут спроектировать контур под вашу нагрузку — от одного GPU до распределенного кластера.
Связаться с командой immers.cloud