Автомодерация 24/7 вместо штата из 15 человек: как «КС Авто» выстроил AI-систему на облачном GPU immers.cloud

В этом кейсе мы разбираем, как связка из трех RTX 4090, изолированные вычислительные потоки и переход на NVMe превратили нестабильный пайплайн в безотказный конвейер, который ежедневно отбивает сотни спам-атак и полностью заменил ручной труд. Без Kubernetes, без скрытых тарифов за трафик и с загрузкой моделей за секунды — читайте, как «КС Авто» настроил архитектуру, которая работает сама, и почему выбор правильной GPU-инфраструктуры стал главным бизнес-решением для безопасного масштабирования AI-продукта.

  • Клиент: Группа компаний «КС Авто» (платформа ks-auto.ru, Клубный Сервис, Telegram-канал ~200 000 подписчиков)

  • Отрасль: Automotive-tech / AI-модерация пользовательского контента

  • Продукт: Облачный сервер с GPU от immers.cloud (3× RTX 4090, NVMe-хранилище, виртуализация OpenStack)

Проблема: как зависимость от внешних API, «домашние» серверы и медленные диски блокируют AI-модерацию в реальном времени

Группа компаний «КС Авто» развивает цифровую экосистему для автомобилистов: от клубного сервиса до платформы объявлений https://ks-auto.ru и Telegram-канала с аудиторией около 200 000 подписчиков, а так же YouTube канал с около полутора миллионами подписчиков. По мере роста пользовательской активности встал критический вопрос безопасности и качества контента. Команде требовалась автоматизация трех ключевых процессов: 

  1. Фильтрация спам-ботов в мессенджере;

  2. Верификация фотографий в объявлениях (проверка на соответствие марке, автоматическое удаление госномеров) ;

  3. Текстовая модерация в разделе блогов. 

В итоге родилась идея многоуровневой AI-системы с ~10 слоями проверки.

На старте команда прототипировала решение через внешние облачные API (OpenAI и аналоги). Но при выходе на продакшен быстро проявились ограничения, характерные для ML-инфраструктуры:

  • Риск блокировок и compliance. Спам-боты регулярно загружают материалы, запрещенные правилами публичных API. Отправка такого контента во внешние сервисы грозила мгновенной блокировкой аккаунта разработчика и потерей доступа к нейросетям;

  • Уязвимость локального железа. Попытка перевести инференс на локальную видеокарту, установленную у разработчика дома, вскрыла проблему нестабильного интернет-соединения. Любой обрыв связи означал полную остановку модерации. За 30 минут простоя в Telegram-канал беспрепятственно проникали десятки спам-профилей, что напрямую било по репутации сообщества и доверию аудитории;

  • Масштаб и экономика. Для покрытия всех направлений в ручном режиме потребовался бы отдел из 10–15 модераторов с круглосуточными сменами. Покупка нескольких топовых видеокарт «в стол» была экономически нецелесообразна, а отсутствие гарантий аптайма и гибкости масштабирования тормозило развитие продукта;

  • Производительность и архитектура. На начальном этапе серверы с HDD-дисками грузили крупные модели по ~12 минут, делая быстрое переключение между задачами невозможным. Приходилось выкручиваться через RAM-диски и держать отдельные модели под текст и изображения, постоянно жонглируя весами и усложняя пайплайн.

В результате система модерации, которая должна была работать как единый автономный конвейер, оказалась заложником тарифов сторонних API, качества домашнего интернета и ограничений локального железа. Разработка новых функций и расширение охвата платформы начали зависеть не от бизнес-приоритетов, а от физической возможности удержать систему в онлайне и не потерять доступ к внешним нейросетям.

Решение: три карты, три задачи, один сервер

Чтобы разорвать этот цикл, команда перенесла инференс в аренду облачного сервера immers.cloud. Был развернут сервер на Ubuntu с тремя RTX 4090. Ключевая архитектурная идея — изоляция потоков: каждая GPU закреплена за своим направлением модерации. Это полностью исключило очереди в очереди задач и позволило каждому процессу работать независимо и предсказуемо.

Технический стек и оптимизации:

  • Инференс 24/7: Ollama + мультимодальные модели Qwen 3 (в том числе версии 3.6:35B, Gemma 4 (31B) и аналогичные мультимодальные модели). Одна модель на карте обрабатывает и текст, и изображения — отпала необходимость постоянно выгружать/загружать разные веса;

  • Быстрая классификация фото: Легкие CV-модели работают без LLM как фотоэлемент, снимая базовую нагрузку;

  • Алгоритмический фильтр: Сравнение хэшей изображений (матрица 64×64) выполняется на CPU: ~12 000 сравнений за 3 мс. Обеспечивает сверхбыструю первичную отсечку;

  • Хранение: Критичный переход с HDD на NVMe. Если раньше загрузка крупной модели занимала ~12 минут, то на NVMe это происходит за секунды (крупные веса — до 1,5 мин). На переходном этапе использовался RAM-диск;

  • Оркестрация: Без Kubernetes и Slurm. Кастомные конфиги под каждую карту + виртуализация GPU через OpenStack для гибкого управления ресурсами и быстрого масштабирования.

Сложности в процессе и как их решили

Внедрение не прошло без вызовов, но каждая техническая преграда стала точкой роста для архитектуры системы:

Скорость загрузки весов. На старте сервер поставлялся с HDD-дисками. Загрузка крупной мультимодальной модели занимала около 12 минут, что делало оперативное переключение между задачами невозможным. Команда нашла временное решение — RAM-диск, удерживая модели в оперативной памяти для мгновенного доступа. Параллельно вопрос был поднят перед поддержкой immers.cloud, и в кратчайшие сроки сервер был апгрейднут до NVMe-хранилища. Проблема закрыта полностью: загрузка крупных моделей теперь занимает секунды (до 1,5 минут для самых тяжелых версий).

Жонглирование моделями. До выхода стабильных мультимодальных решений приходилось держать на картах отдельные веса для текста и изображений, постоянно выгружая и загружая их, что создавало лишние задержки и риски сбоев в пайплайне. С появлением качественных моделей вроде Qwen и Gemma этот этап остался в прошлом: одна нейросеть на карте теперь параллельно обрабатывает и текст, и фото без перезагрузок.

Что отличало этот опыт от предыдущего

Против домашнего сервера: Принципиальное отличие — стабильность 24/7. Система больше не зависит от качества домашнего интернета или перегрузки локальной электросети. Модерация работает непрерывно, а риски прорыва спама во время простоя полностью устранены.

Против других облачных провайдеров: Прозрачное ценообразование без скрытых доплат за трафик, при этом доступна высокая скорость подключения — до 10 Гбит/с. Но главное — гибкость виртуализации через OpenStack. GPU управляются как полноценные виртуальные ресурсы: можно быстро масштабировать инстансы, менять конфигурации и готовиться к переходу на новое железо (например, RTX 5090) без физической замены оборудования и простоя сервиса.

Почему именно immers.cloud

Клиент пришел по рекомендации партнеров. После сравнения с другими площадками ключевыми аргументами стали:

  1. Комплексная экономика. Отсутствие скрытых платежей за интернет-трафик и предсказуемая стоимость облачного GPU, что критично при круглосуточном инференсе;

  2. Квалифицированная поддержка. Все вопросы решались оперативно в Telegram: от подбора оптимальной конфигурации под мультимодальный инференс до миграции на NVMe-хранилище. Специалисты отвечали по существу и помогали закрывать технические вопросы без бюрократии.

Итоги в цифрах

Метрика Значение Бизнес-эффект

Режим работы системы

24/7, без участия человека

Непрерывная защита контента, исключение «окон уязвимости» при простоях

Фильтрация спама в Telegram

100+ профилей ежедневно

Сохранение качества сообщества и репутации канала с аудиторией 200 000+

Модерация фото в объявлениях

Автоматическая проверка на соответствие марке + скрытие госномеров

Снижение риска модераторских ошибок, ускорение публикации легитимных объявлений

Текстовая модерация блогов

Полностью на AI

Контент публикуется быстро, без задержек на ручную проверку

Загрузка моделей

Секунды (до 1,5 мин для крупных) на NVMe

Возможность оперативно переключаться между задачами и обновлять модели

Архитектура

3× RTX 4090, изоляция потоков

Отсутствие очередей, независимое масштабирование каждого направления модерации

Экономия на ФОТ

Эквивалент 10–15 штатных модераторов

Ресурсы перенаправлены на развитие продукта, а не на рутинную модерацию

Безопасность контента

Локальный инференс, без отправки во внешние API

Исключен риск блокировки аккаунта за передачу запрещенных материалов

«Настроили — и работает. Для нас это главный критерий. Надежность инфраструктуры полностью совпала с ожиданиями, поддержка всегда на связи и отвечает по делу.»

— Михаил, технический консультант по AI/ML, КС Авто

Выводы

Этот кейс подтверждает сильные стороны нашего облака на рынке AI-инфраструктуры и дает четкие векторы для развития продаж и продукта:

  • Производительность + доступность: Связка RTX 4090 + NVMe дает low-latency инференс, критичный для real-time модерации и работы мультимодальных моделей;

  • Экономика без сюрпризов: Клиенты из AI-сегмента высоко ценят фиксированную стоимость без скрытых платежей за трафик. Это прямое конкурентное преимущество против крупных публичных облаков;

  • Готовность к сложным стекам: Мы поддерживаем кастомные конфигурации и OpenStack-виртуализацию без навязывания коробочных оркестраторов. Это важно для команд, которые строят пайплайны под Ollama/llama.cpp без Kubernetes-оверхеда;

  • Support как часть продукта: Быстрая реакция на инфраструктурные запросы (как с подключением NVMe) напрямую влияет на retention, LTV и формирование кейсов-рекомендаций.

Дата обновления 06.05.2026