MiniMax-M2

размышляющая
русскоязычная

MiniMax M2 — это фундаментальная модель, заложившая архитектурные и методологические принципы всей серии. Разработанная для максимальной эффективности в агентных сценариях и программировании, M2 доказывает, что компактная архитектура может конкурировать с огромными моделями при правильном подходе к обучению и данным.

Архитектура модели — Mixture-of-Experts с 230 миллиардами общих параметров, из которых активируется только 10 миллиардов на токен. Ключевой особенностью является полное внимание (full attention) вместо гибридных механизмов — команда сознательно отказалась от sparse/linear attention после экспериментов, показавших деградацию качества на сложных многошаговых рассуждениях и агентных задачах. Модель внедряет Interleaved Thinking — паттерн чередующегося мышления, где режим рассуждений может происходить между шагами генерации и использования инструментов, а не только в начале диалога.

Уникальность M2 заключается в её роли как фундамента для всей серии. Она не просто отдельная модель, а первая реализация философии MiniMax, согласно которой будущее за "агент-нативными" LLM. Ключевая идея, заложенная в M2, — это подготовка модели не просто к генерации текста, а к решению задач в рамках агентного подхода, где требуется планирование, использование инструментов и адаптация к обратной связи. С практической точки зрения, это означает, что M2 отлично подходит для развертывания в качестве интеллектуального ядра ассистентов, способных работать с документами, анализировать таблицы и генерировать структурированные ответы, требующие понимания предметной области.


Дата анонса: 22.10.2025
Параметров: 229B
Экспертов: 256
Активно параметров при инференсе: 10B
Контекст: 197K
Слоев: 62
Тип внимания: Full Attention
Разработчик: MiniMax-AI
Версия Transformers: 4.57.1
Лицензия: MIT

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с MiniMax-M2. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга MiniMax-M2

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-3.32.384.240
196 608
tensor
3 657,66 ₽ 2,06 Запустить
h100nvl-2.24.192.240
196 608
tensor
2 729,47 ₽ 1,11 Запустить
h200-2.24.256.240
196 608
tensor
2 840,74 ₽ 2,93 Запустить
rtx5090-8.44.256.240
196 608
tensor
8 1 031,74 ₽ 2,10 Запустить
h100-3.32.384.240
196 608
tensor
3 1 047,66 ₽ 2,06 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-4.32.384.320.nvlink
196 608
tensor
4 848,44 ₽ 1,37 Запустить
h200-3.32.512.480
196 608
tensor
3 1 282,53 ₽ 3,42 Запустить
h100-4.44.512.320
196 608
tensor
4 1 397,57 ₽ 1,37 Запустить
h100nvl-4.32.384.480
196 608
tensor
4 1 450,00 ₽ 2,45 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
teslaa100-8.44.704.960.nvlink
196 608
tensor
8 1 677,58 ₽ 2,79 Запустить
h200-4.32.768.640
196 608
tensor
4 1 719,14 ₽ 1,54 Запустить

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.