Как сэкономить бюджет при росте базы данных в 10 раз, перейдя с OpenAI API на локальный инференс в immers.cloud

Когда база объявлений выросла в 10 раз, оплата за токены OpenAI стала неподъемной. Как зафиксировать расходы на ИИ и стабильно обрабатывать миллионы запросов без переплат?

В этой статье разбираем кейс компании Affario: переход на локальный инференс модели Qwen 2.5 на GPU-сервере immers.cloud. Узнайте, как подобрать стек, автоматизировать категоризацию и заменить непредсказуемые траты на фиксированный бюджет.

Читайте полный разбор решения, чтобы узнать, как масштабировать ваши AI-проекты без роста затрат!

  • Отрасль: AI-внедрение в бизнес-процессы
  • Задача: Автоматическая категоризация миллионов объявлений автозапчастей
  • Решение: Локальный запуск Qwen 2.5 на GPU-сервере RTX 3090
  • Результат: Фиксированные расходы вместо оплаты за токены, стабильная работа при нагрузке 3 млн+ объявлений

Введение: Проблема масштабирования на внешних API

Компания Affario специализируется на внедрении искусственного интеллекта в бизнес-процессы. Одним из их ключевых проектов является маркетплейс автозапчастей, где магазины-партнеры выгружают товары без строгой структуризации данных.

До февраля 2026 года классификация товаров осуществлялась через OpenAI API. Система работала нормально, пока объем базы не начал расти экспоненциально.

Ситуация «до»: При базе в 300 000 объявлений расходы на токены составляли около 30 000 рублей всего за несколько дней пиковой нагрузки.

Прогноз был неутешительным: при росте базы до 3 миллионов объявлений (что и произошло в короткие сроки) использование внешнего API стало бы финансово неустойчивым. Переменные расходы стали непредсказуемыми, а покупка и обслуживание собственного железа — нецелесообразной.

Компании требовалось решение, которое позволило бы платить фиксированную сумму за обработку данных, независимо от их объема.

Техническое решение: Переход на локальный инференс

Для решения задачи был выбран путь миграции на локальный инференс. Ключевым критерием стала возможность развернуть модель быстро, надежно и без скрытых сложностей в настройке инфраструктуры.

Почему immers.cloud?

По словам Алмаза, AI-инженера компании, выбор пал на нашу платформу благодаря оптимальному соотношению цены, характеристик оборудования и удобства интерфейса.

Стек технологий:

  • Модель: Qwen 2.5 (выбрана за отличное понимание русскоязычных текстов и контекста автозапчастей).

  • Инструмент развертывания: vLLM (для высокопроизводительного инференса).

  • Инфраструктура: Облачный сервер immers.cloud с GPU NVIDIA RTX 3090.

  • Хранение данных: Отдельный сервер с S3-хранилищем для изображений и исходных данных объявлений.

Логика работы системы

Процесс классификации полностью автоматизирован и происходит в несколько этапов без участия человека:

Входные данные: Магазин загружает объявление, содержащее только название и описание. Фотографии хранятся отдельно и не участвуют в обработке LLM.

Последовательный анализ (Chain-of-Thought):

Шаг 1: Модель определяет марку и модель автомобиля из текста.

Шаг 2: На основе марки/модели определяется тип ТС (легковой, грузовой, мото и т.д.).

Шаг 3: Определяется категория запчасти (например, «сайлентблоки», «редуктор»).

Результат: на выходе модель возвращает ID категории и название из внутреннего классификатора платформы. Фотографии объявлений в обработку LLM не передаются — хранятся отдельно в S3.

Результаты внедрения

Сотрудничество стартовало в феврале 2026 года. За это время проект продемонстрировал впечатляющую масштабируемость.

Показатель Было (OpenAI API) Стало (immers.cloud)
Объем базы 300 000 объявлений 3 000 000+ объявлений
Модель расходов Оплата за токены (переменная, растущая) Фиксированная аренда сервера
Затраты при росте x10 Выросли бы пропорционально (критично дорого) Остались неизменными
Сложность запуска Развернуто самостоятельно за короткое время

Ключевые преимущества для клиента:

Предсказуемый бюджет. Стоимость обработки 100 тысяч или 3 миллионов объявлений одинакова — платит только за аренду сервера.

Автономность и скорость. Алмаз отметил, что развертывание модели Qwen 2.5 через vLLM прошло без обращения в техподдержку и каких-либо затруднений. Платформа оказалась интуитивно понятной.

Безопасность данных. Локальный инференс обеспечивает полный контроль над информацией, что важно для коммерческих агрегаторов.

«Когда объем объявлений вырос в 10 раз, расходы на токены стали неуправляемыми. Переход на локальный инференс через Immers.cloud позволил нам зафиксировать стоимость обработки вне зависимости от объемов. Развернули модель быстро, без лишних вопросов — и она просто работает.»

Что дальше?

Успех первого этапа дал старт новому направлению. Прямо сейчас команда Affario разрабатывает AI-агента для первичной обработки обращений клиентов. Агент будет вести диалог с пользователями маркетплейса, отвечая на типовые вопросы до передачи запроса живому менеджеру. Инфраструктура для этого решения также будет базироваться на мощностях immers.cloud.

Хотите так же?

Если ваши расходы на API растут быстрее, чем прибыль, рассмотрите переход на локальный инференс. Аренда GPU-серверов в immers.cloud позволяет масштабировать AI-решения без переплат за каждый токен.

Подобрать конфигурацию сервера

Дата обновления 14.05.2026