Продукты

Облачные серверы

Облачные серверы с посекундной тарификацией. Изолированные ресурсы дадут максимальную производительность для вашего проекта.

GPU-серверы

Облачные серверы с современными графическими ускорителями RTX и Tesla для игр, рендеринга, стриминга, работы с 3Д-графикой, искусственным интеллектом.

H200

H100 NVL

H100

RTX 5090

RTX 4090

RTX 3090

RTX 3080

A100

RTX A5000

A10

RTX 2080 Ti

A2

Tesla T4

Tesla V100

Все GPU-серверы

CPU-серверы

Облачные серверы с высокопроизводительными центральными процессорами Intel Xeon Gold 2-го, 3-го и 5-го поколений, доступные на 100% процессорного времени.
SSD-серверы NVMe-серверы
Все CPU-серверы

Выделенные серверы

Арендуйте физически выделенный сервер на длительный срок с помесячной оплатой. Соберите конфигурацию с использованием современных комлектующих: процессоров Intel Xeon Gold 2-го, 3-го и 5-го поколений, до 10 новейших видеоускорителей RTX и Tesla и до 8192 ГБ RAM на сервер, SSD- и NVMe-дисков для дата-центров.

Выбрать выделенный сервер

Маркетплейс

Используйте популярные и современные приложения в качестве эффективных инструментов для организации вашего проекта. Экономьте время с помощью предварительно настроенных образов, в которых уже установлены все необходимые компоненты.

Забудьте про ручную загрузку и установку программного обеспечения — просто разверните виртуальный сервер с готовым образом.
Нейронные сети 3D CUDA Docker / NGC Для игр Windows-образы Linux-образы
Все предустановленные образы
Возможности
Тарифы
FAQ
Контакты
Вход

MiniMax-M2.5

размышляющая

русскоязычная

MiniMax-M2.5 как и предшественники построена на архитектуре Mixture of Experts (MoE) с общим объемом параметров в 229B, при этом в каждом forward pass активируется лишь 10 миллиардов. Такая экстремальная разреженность (активация всего ~4% параметров) позволяет модели сочетать высокую производительность с экономией вычислительных ресурсов и эффективностью. Архитектура использует 256 экспертов, из которых 8 активны на каждый токен, а контекстное окно достигает 200 000 токенов, что достаточно для обработки сложных многошаговых задач и работы с объемными документами.

В основе MiniMax-M2.5 лежит философия «интеллект для каждого», реализованная через фокус на обучении с подкреплением (RL). Разработчики столкнулись с классической «трилеммой» масштабирования RL: необходимостью одновременного обеспечения высокой пропускной способности системы, стабильности обучения и гибкости агента. Её решением стал собственный фреймворк Forge, архитектура которого вводит промежуточный уровень-посредник (Middleware), полностью отделяющий логику агента от движка обучения и инференса. Этот подход позволил обучать модель на произвольных агентных сценариях («скаффолдах»), включая «черные ящики», и обеспечил уникальную способность M2.5 эффективно обобщать навыки работы с тысячами различных инструментов и форматов вызовов.

Ключевым архитектурным решением стала интеграция механизма управления контекстом (Context Management) непосредственно в цикл RL. В отличие от других моделей, где контекст может «размываться» на длинных горизонтах планирования, M2.5 обучается воспринимать управление контекстом (например, сжатие истории или перезапись) как одно из действий агента. Это позволяет модели не просто укладываться в технический лимит контекста, но и активно поддерживать фокус на критически важной информации, что значимо для многошаговых задач. Выбор в пользу полного внимания (full attention) в этой парадигме оправдан необходимостью сохранения целостной картины для принятия решений, а не «гаданием» о том, какую именно информацию следует удерживать, а какую можно «ротировать» для ускорения и экономии ресурсов.

Результаты на бенчмарках говорят сами за себя: 80.2% на SWE-Bench Verified (решение реальных задач с GitHub) и 51.3% на Multi-SWE-Bench — это лучшие показатели в индустрии, позволяющие M2.5 обходить такие модели, как Claude Opus 4.6 и GPT-5.2 в определенных сценариях кодинга. На бенчмарке сложного поиска BrowseComp модель достигла 76.3%, и в экспертном поиске RISE также показала лидирующие результаты. Но M2.5 выделяется не просто высокими баллами в бенчмарках, а взвешенностью решений. Модель обучалась решать задачи оптимальным путем, поэтому в среднем она использует на 20% меньше итераций поиска, чем предыдущая версия M2.1. Это следствие того, что функция вознаграждения в RL была настроена не только на правильность ответа, но и на эффективность траектории, включая время выполнения. В результате M2.5 демонстрирует «архитектурное мышление», всегда предварительно декомпозируя задачи.

Сценарии использования M2.5 охватывают все области, где требуется автономный интеллект. В программировании это полный цикл разработки от архитектуры до тестирования. В офисной работе — создание сложных отчетов в Word, презентаций в PowerPoint и финансовых моделей в Excel на основе стандартов компании. В исследованиях — проведение многошагового анализа с использованием поиска и синтезом информации из множества источников. Можно сказать, что M2.5 — это реальный пример "искусственного интеллекта как сотрудника", способного брать на себя сложные, многоэтапные задачи и выполнять их с уровнем качества и скорости, достаточным для немедленного внедрения в бизнес-процессы.

Дата анонса: 12.02.2026
Параметров: 229B
Экспертов: 256
Активно параметров при инференсе: 10B
Контекст: 197K
Слоев: 62
Тип внимания: Full Attention
Разработчик: MiniMax-AI
Версия Transformers: 4.46.1
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с MiniMax-M2.5. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.

Наименование модели	Контекст	Тип	GPU	Статус	Ссылка


        Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

получить максимальную производительность эндпоинта,
получить полный контекст для обработки больших запросов и диалогов,
обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
teslaa100-3.32.384.240 196 608 tensor	3	657,66 ₽	473 515,20 ₽	1,88	Запустить
h200-2.24.256.240 196 608 tensor	2	840,74 ₽	605 332,80 ₽	2,74	Запустить
rtx5090-8.44.256.240 196 608 tensor	8	1 031,74 ₽	742 852,80 ₽	1,92	Запустить
h100-3.32.384.240 196 608 tensor	3	1 047,66 ₽	754 315,20 ₽	1,88	Запустить
h100nvl-3.24.384.480 196 608 tensor	3	1 105,60 ₽	796 032,00 ₽	2,69	Запустить

Наименование	GPU	Цена, час	Цена, месяц	Параллельность (макс.)
teslaa100-4.32.384.320.nvlink 196 608 tensor	4	848,44 ₽	610 876,80 ₽	1,37	Запустить
h200-3.32.512.480 196 608 tensor	3	1 282,53 ₽	923 421,60 ₽	3,42	Запустить
h100-4.44.512.320 196 608 tensor	4	1 397,57 ₽	1 006 250,40 ₽	1,37	Запустить
h100nvl-4.32.384.480 196 608 tensor	4	1 450,00 ₽	1 044 000,00 ₽	2,45	Запустить

Наименование	GPU	Цена, тариф	Цена, час	Цена, месяц	TPS	Параллельность (макс.)
teslaa100-8.44.704.960.nvlink 196 608 tensor	8		1 677,58 ₽	1 207 857,60 ₽		2,80	Запустить
h200-4.32.768.640 196 608 tensor	4		1 719,14 ₽	1 237 780,80 ₽		1,54	Запустить

Связанные модели

MiniMax-M2

MiniMax-M2.1

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.

MiniMax-M2.5

Публичный эндпоинт

Частный сервер

Рекомендуемые конфигурации сервера для хостинга MiniMax-M2.5

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Подписаться на уведомление о доступности

Связанные модели

Остались вопросы?