MiniMax-M2.5

размышляющая
русскоязычная

MiniMax-M2.5 как и предшественники построена на архитектуре Mixture of Experts (MoE) с общим объемом параметров в 229B, при этом в каждом forward pass активируется лишь 10 миллиардов. Такая экстремальная разреженность (активация всего ~4% параметров) позволяет модели сочетать высокую производительность с экономией вычислительных ресурсов и эффективностью. Архитектура использует 256 экспертов, из которых 8 активны на каждый токен, а контекстное окно достигает 200 000 токенов, что достаточно для обработки сложных многошаговых задач и работы с объемными документами.

В основе MiniMax-M2.5 лежит философия «интеллект для каждого», реализованная через фокус на обучении с подкреплением (RL). Разработчики столкнулись с классической «трилеммой» масштабирования RL: необходимостью одновременного обеспечения высокой пропускной способности системы, стабильности обучения и гибкости агента. Её решением стал собственный фреймворк Forge, архитектура которого вводит промежуточный уровень-посредник (Middleware), полностью отделяющий логику агента от движка обучения и инференса. Этот подход позволил обучать модель на произвольных агентных сценариях («скаффолдах»), включая «черные ящики», и обеспечил уникальную способность M2.5 эффективно обобщать навыки работы с тысячами различных инструментов и форматов вызовов.

Ключевым архитектурным решением стала интеграция механизма управления контекстом (Context Management) непосредственно в цикл RL. В отличие от других моделей, где контекст может «размываться» на длинных горизонтах планирования, M2.5 обучается воспринимать управление контекстом (например, сжатие истории или перезапись) как одно из действий агента. Это позволяет модели не просто укладываться в технический лимит контекста, но и активно поддерживать фокус на критически важной информации, что значимо для многошаговых задач. Выбор в пользу полного внимания (full attention) в этой парадигме оправдан необходимостью сохранения целостной картины для принятия решений, а не «гаданием» о том, какую именно информацию следует удерживать, а какую можно «ротировать» для ускорения и экономии ресурсов.

Результаты на бенчмарках говорят сами за себя: 80.2% на SWE-Bench Verified (решение реальных задач с GitHub) и 51.3% на Multi-SWE-Bench — это лучшие показатели в индустрии, позволяющие M2.5 обходить такие модели, как Claude Opus 4.6 и GPT-5.2 в определенных сценариях кодинга. На бенчмарке сложного поиска BrowseComp модель достигла 76.3%, и в экспертном поиске RISE также показала лидирующие результаты. Но M2.5 выделяется не просто высокими баллами в бенчмарках, а взвешенностью решений. Модель обучалась решать задачи оптимальным путем, поэтому в среднем она использует на 20% меньше итераций поиска, чем предыдущая версия M2.1. Это следствие того, что функция вознаграждения в RL была настроена не только на правильность ответа, но и на эффективность траектории, включая время выполнения. В результате M2.5 демонстрирует «архитектурное мышление», всегда предварительно декомпозируя задачи.

Сценарии использования M2.5 охватывают все области, где требуется автономный интеллект. В программировании это полный цикл разработки от архитектуры до тестирования. В офисной работе — создание сложных отчетов в Word, презентаций в PowerPoint и финансовых моделей в Excel на основе стандартов компании. В исследованиях — проведение многошагового анализа с использованием поиска и синтезом информации из множества источников. Можно сказать, что M2.5 — это реальный пример "искусственного интеллекта как сотрудника", способного брать на себя сложные, многоэтапные задачи и выполнять их с уровнем качества и скорости, достаточным для немедленного внедрения в бизнес-процессы.


Дата анонса: 12.02.2026
Параметров: 229B
Экспертов: 256
Активно параметров при инференсе: 10B
Контекст: 197K
Слоев: 62
Тип внимания: Full Attention
Разработчик: MiniMax-AI
Версия Transformers: 4.46.1
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с MiniMax-M2.5. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга MiniMax-M2.5

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-3.32.384.240
196 608
tensor
3 657,66 ₽ 1,88 Запустить
h200-2.24.256.240
196 608
tensor
2 840,74 ₽ 2,74 Запустить
rtx5090-8.44.256.240
196 608
tensor
8 1 031,74 ₽ 1,92 Запустить
h100-3.32.384.240
196 608
tensor
3 1 047,66 ₽ 1,88 Запустить
h100nvl-3.24.384.480
196 608
tensor
3 1 105,60 ₽ 2,69 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-4.32.384.320.nvlink
196 608
tensor
4 848,44 ₽ 1,37 Запустить
h200-3.32.512.480
196 608
tensor
3 1 282,53 ₽ 3,42 Запустить
h100-4.44.512.320
196 608
tensor
4 1 397,57 ₽ 1,37 Запустить
h100nvl-4.32.384.480
196 608
tensor
4 1 450,00 ₽ 2,45 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-8.44.704.960.nvlink
196 608
tensor
8 1 677,58 ₽ 2,80 Запустить
h200-4.32.768.640
196 608
tensor
4 1 719,14 ₽ 1,54 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.