Подбор подходящего варианта сервера является сложной задачей, требующей высокой квалификации в предметной области. Он основывается на характеристиках самой модели (архитектура, количество параметров, тип внимания и т. п.), характеристиках инференса (длина контекста, параллельность и т. п.) и характеристиках конфигурации сервера. Мы предлагаем широкий ряд конфигураций с GPU, которые можно использовать для инференса нейронных сетей. Чтобы облегчить ваш выбор, мы сами составляем рекомендации для каждой модели и проверяем работоспособность и производительность этих конфигураций ежедневно.
В последние годы наблюдается тенденция: чем больше параметров в ИИ-модели, тем выше её качество. Однако крупные модели требуют дорогостоящих серверов с мощными GPU, что создаёт значительную нагрузку на бюджет. Для оптимизации затрат применяют квантование — снижение точности представления весов и активаций модели с стандартных 32 bit (FP32) до меньших форматов. Чаще всего используют:
Таким образом, квантование помогает снизить затраты на инфраструктуру и использовать мощные ИИ-модели даже при ограниченном бюджете. Именно поэтому мы готовим рекомендации сразу для каждой битности.
Чтобы воспользоваться рекомендациями, достаточно перейти на страницу требуемой модели в каталоге моделей и пролистать до пункта «Рекомендуемые конфигурации сервера для хостинга». В зависимости от типа модели доступно два варианта использования: