Почему частный эндпоинт создается так долго?

Создание эндпоинта состоит из множества этапов:

  • Планирование и создание сервера;
  • Скачивание vllm и запуск контейнера;
  • Скачивание весов [1];
  • Загрузка весов в память GPU;
  • Расчет CUDA-графов;
  • Проверка системных роутов /health и /v1/models;
  • Настройка балансировщика.

[1] Скачивание весов зависит от загруженности зарубежных сервисов и сетевой связности и в настоящее время может занимать больше времени, чем обычно.

Поэтому создание эндпоинта занимает больше времени, чем создание обычного сервера без предустановленного ПО.

Дата обновления 18.06.2026