В этом кейсе мы разбираем, как связка из трех RTX 4090, изолированные вычислительные потоки и переход на NVMe превратили нестабильный пайплайн в безотказный конвейер, который ежедневно отбивает сотни спам-атак и полностью заменил ручной труд. Без Kubernetes, без скрытых тарифов за трафик и с загрузкой моделей за секунды — читайте, как «КС Авто» настроил архитектуру, которая работает сама, и почему выбор правильной GPU-инфраструктуры стал главным бизнес-решением для безопасного масштабирования AI-продукта.
Клиент: Группа компаний «КС Авто» (платформа ks-auto.ru, Клубный Сервис, Telegram-канал ~200 000 подписчиков)
Отрасль: Automotive-tech / AI-модерация пользовательского контента
Продукт: Облачный сервер с GPU от immers.cloud (3× RTX 4090, NVMe-хранилище, виртуализация OpenStack)
Группа компаний «КС Авто» развивает цифровую экосистему для автомобилистов: от клубного сервиса до платформы объявлений https://ks-auto.ru и Telegram-канала с аудиторией около 200 000 подписчиков, а так же YouTube канал с около полутора миллионами подписчиков. По мере роста пользовательской активности встал критический вопрос безопасности и качества контента. Команде требовалась автоматизация трех ключевых процессов:
Фильтрация спам-ботов в мессенджере;
Верификация фотографий в объявлениях (проверка на соответствие марке, автоматическое удаление госномеров) ;
Текстовая модерация в разделе блогов.
В итоге родилась идея многоуровневой AI-системы с ~10 слоями проверки.
На старте команда прототипировала решение через внешние облачные API (OpenAI и аналоги). Но при выходе на продакшен быстро проявились ограничения, характерные для ML-инфраструктуры:
Риск блокировок и compliance. Спам-боты регулярно загружают материалы, запрещенные правилами публичных API. Отправка такого контента во внешние сервисы грозила мгновенной блокировкой аккаунта разработчика и потерей доступа к нейросетям;
Уязвимость локального железа. Попытка перевести инференс на локальную видеокарту, установленную у разработчика дома, вскрыла проблему нестабильного интернет-соединения. Любой обрыв связи означал полную остановку модерации. За 30 минут простоя в Telegram-канал беспрепятственно проникали десятки спам-профилей, что напрямую било по репутации сообщества и доверию аудитории;
Масштаб и экономика. Для покрытия всех направлений в ручном режиме потребовался бы отдел из 10–15 модераторов с круглосуточными сменами. Покупка нескольких топовых видеокарт «в стол» была экономически нецелесообразна, а отсутствие гарантий аптайма и гибкости масштабирования тормозило развитие продукта;
Производительность и архитектура. На начальном этапе серверы с HDD-дисками грузили крупные модели по ~12 минут, делая быстрое переключение между задачами невозможным. Приходилось выкручиваться через RAM-диски и держать отдельные модели под текст и изображения, постоянно жонглируя весами и усложняя пайплайн.
В результате система модерации, которая должна была работать как единый автономный конвейер, оказалась заложником тарифов сторонних API, качества домашнего интернета и ограничений локального железа. Разработка новых функций и расширение охвата платформы начали зависеть не от бизнес-приоритетов, а от физической возможности удержать систему в онлайне и не потерять доступ к внешним нейросетям.
Чтобы разорвать этот цикл, команда перенесла инференс в аренду облачного сервера immers.cloud. Был развернут сервер на Ubuntu с тремя RTX 4090. Ключевая архитектурная идея — изоляция потоков: каждая GPU закреплена за своим направлением модерации. Это полностью исключило очереди в очереди задач и позволило каждому процессу работать независимо и предсказуемо.
Инференс 24/7: Ollama + мультимодальные модели Qwen 3 (в том числе версии 3.6:35B, Gemma 4 (31B) и аналогичные мультимодальные модели). Одна модель на карте обрабатывает и текст, и изображения — отпала необходимость постоянно выгружать/загружать разные веса;
Быстрая классификация фото: Легкие CV-модели работают без LLM как фотоэлемент, снимая базовую нагрузку;
Алгоритмический фильтр: Сравнение хэшей изображений (матрица 64×64) выполняется на CPU: ~12 000 сравнений за 3 мс. Обеспечивает сверхбыструю первичную отсечку;
Хранение: Критичный переход с HDD на NVMe. Если раньше загрузка крупной модели занимала ~12 минут, то на NVMe это происходит за секунды (крупные веса — до 1,5 мин). На переходном этапе использовался RAM-диск;
Оркестрация: Без Kubernetes и Slurm. Кастомные конфиги под каждую карту + виртуализация GPU через OpenStack для гибкого управления ресурсами и быстрого масштабирования.
Внедрение не прошло без вызовов, но каждая техническая преграда стала точкой роста для архитектуры системы:
Скорость загрузки весов. На старте сервер поставлялся с HDD-дисками. Загрузка крупной мультимодальной модели занимала около 12 минут, что делало оперативное переключение между задачами невозможным. Команда нашла временное решение — RAM-диск, удерживая модели в оперативной памяти для мгновенного доступа. Параллельно вопрос был поднят перед поддержкой immers.cloud, и в кратчайшие сроки сервер был апгрейднут до NVMe-хранилища. Проблема закрыта полностью: загрузка крупных моделей теперь занимает секунды (до 1,5 минут для самых тяжелых версий).
Жонглирование моделями. До выхода стабильных мультимодальных решений приходилось держать на картах отдельные веса для текста и изображений, постоянно выгружая и загружая их, что создавало лишние задержки и риски сбоев в пайплайне. С появлением качественных моделей вроде Qwen и Gemma этот этап остался в прошлом: одна нейросеть на карте теперь параллельно обрабатывает и текст, и фото без перезагрузок.
Против домашнего сервера: Принципиальное отличие — стабильность 24/7. Система больше не зависит от качества домашнего интернета или перегрузки локальной электросети. Модерация работает непрерывно, а риски прорыва спама во время простоя полностью устранены.
Против других облачных провайдеров: Прозрачное ценообразование без скрытых доплат за трафик, при этом доступна высокая скорость подключения — до 10 Гбит/с. Но главное — гибкость виртуализации через OpenStack. GPU управляются как полноценные виртуальные ресурсы: можно быстро масштабировать инстансы, менять конфигурации и готовиться к переходу на новое железо (например, RTX 5090) без физической замены оборудования и простоя сервиса.
Клиент пришел по рекомендации партнеров. После сравнения с другими площадками ключевыми аргументами стали:
Комплексная экономика. Отсутствие скрытых платежей за интернет-трафик и предсказуемая стоимость облачного GPU, что критично при круглосуточном инференсе;
Квалифицированная поддержка. Все вопросы решались оперативно в Telegram: от подбора оптимальной конфигурации под мультимодальный инференс до миграции на NVMe-хранилище. Специалисты отвечали по существу и помогали закрывать технические вопросы без бюрократии.
| Метрика | Значение | Бизнес-эффект |
|---|---|---|
|
Режим работы системы |
24/7, без участия человека |
Непрерывная защита контента, исключение «окон уязвимости» при простоях |
|
Фильтрация спама в Telegram |
100+ профилей ежедневно |
Сохранение качества сообщества и репутации канала с аудиторией 200 000+ |
|
Модерация фото в объявлениях |
Автоматическая проверка на соответствие марке + скрытие госномеров |
Снижение риска модераторских ошибок, ускорение публикации легитимных объявлений |
|
Текстовая модерация блогов |
Полностью на AI |
Контент публикуется быстро, без задержек на ручную проверку |
|
Загрузка моделей |
Секунды (до 1,5 мин для крупных) на NVMe |
Возможность оперативно переключаться между задачами и обновлять модели |
|
Архитектура |
3× RTX 4090, изоляция потоков |
Отсутствие очередей, независимое масштабирование каждого направления модерации |
|
Экономия на ФОТ |
Эквивалент 10–15 штатных модераторов |
Ресурсы перенаправлены на развитие продукта, а не на рутинную модерацию |
|
Безопасность контента |
Локальный инференс, без отправки во внешние API |
Исключен риск блокировки аккаунта за передачу запрещенных материалов |
«Настроили — и работает. Для нас это главный критерий. Надежность инфраструктуры полностью совпала с ожиданиями, поддержка всегда на связи и отвечает по делу.»
— Михаил, технический консультант по AI/ML, КС Авто
Этот кейс подтверждает сильные стороны нашего облака на рынке AI-инфраструктуры и дает четкие векторы для развития продаж и продукта:
Производительность + доступность: Связка RTX 4090 + NVMe дает low-latency инференс, критичный для real-time модерации и работы мультимодальных моделей;
Экономика без сюрпризов: Клиенты из AI-сегмента высоко ценят фиксированную стоимость без скрытых платежей за трафик. Это прямое конкурентное преимущество против крупных публичных облаков;
Готовность к сложным стекам: Мы поддерживаем кастомные конфигурации и OpenStack-виртуализацию без навязывания коробочных оркестраторов. Это важно для команд, которые строят пайплайны под Ollama/llama.cpp без Kubernetes-оверхеда;
Support как часть продукта: Быстрая реакция на инфраструктурные запросы (как с подключением NVMe) напрямую влияет на retention, LTV и формирование кейсов-рекомендаций.