MiniMax-M3

размышляющая
мультимодальная
русскоязычная
для кодинга

MiniMax-M3 — открытая нативная мультимодальная модель с поддержкой контекста до 1 миллиона токенов, сочетающая в себе передовые возможности в области программирования, агентных рабочих процессов и нативную мультимодальность. Модель имеет архитектуру Mixture of Experts (MoE) с ~428 миллиардами общих параметров, из которых активируются лишь ~23 миллиарда на каждом шаге генерации, 128 локальных экспертов с активацией 4 экспертов на токен и одним общим экспертом. Такая разреженность обеспечивает высокую производительность при экономичном использовании вычислительных ресурсов. M3 поддерживает три режима рассуждения (thinking): enabled — рассуждение всегда включено, adaptive — модель автоматически определяет необходимость дополнительного рассуждения, disabled — рассуждение отключено для минимизации задержки. В отличие от предыдущей модели MiniMax-M2.7 и всей второй линейки, MiniMax-M3 представляет собой качественный шаг вперед за счет сочетания трех передовых возможностей — нативной мультимодальности, миллионного контекста и отличными показателями в программировании и агентных задачах.

Ключевым архитектурным нововведением MiniMax-M3 является MiniMax Sparse Attention (MSA) — новый тип разреженного внимания, специально разработанный для эффективной работы с контекстами длиной в миллион токенов. MSA построен на основе Grouped Query Attention (GQA) и состоит из двух параллельных процессов: лёгкая Index Branch оценивает все блоки ключей-значений во входной последовательности и для каждой группы запросов независимо выбирает подмножество наиболее релевантных блоков; основная Main Branch выполняет точное блочно-разреженное внимание исключительно по отобранным блокам. При этом локальный блок (ближайшее окружение) включается всегда независимо от его оценки, что гарантирует сохранение важной контекстной информации. Благодаря такому подходу MSA сокращает вычислительные затраты на внимание на один токен в 28.4 раза при контексте в 1 миллион токенов по сравнению с GQA.

Результаты на ключевых бенчмарках подтверждают качество модели M3. На SWE-bench Verified (эталонный бенчмарк для оценки способности ИИ решать реальные задачи из репозиториев программного обеспечения) модель демонстрирует 80.5% решённых задач. На SWE-bench Pro результат составляет 59%. На BrowseComp (бенчмарк для оценки способности модели к автономному веб-сёрфингу и извлечению информации) M3 набирает 83.5 балла, превосходя Opus 4.7 (79.3). В автономном тесте PostTrainBench, где модели поручалось самостоятельно провести полный цикл пост-обучения других моделей (синтез данных, обучение, оценка, итерации) в течение 12 часов, M3 заняла 3-е место с результатом 37.1, уступив только закрытым Opus 4.7 (42.4) и GPT-5.5 (39.3) и значительно опередив все остальные модели.

Сценарии использования MiniMax-M3 чрезвычайно широки и охватывают множество областей, где требуются передовые агентные и мультимодальные возможности. В разработке программного обеспечения модель может выступать в роли автономного AI-ассистента, способного анализировать целые репозитории кода, выполнять длительные задачи по рефакторингу, отладке и документированию, а также автономно развертывать и тестировать код. Благодаря 1-миллионному контекстному окну, M3 идеально подходит для анализа и понимания длинных документов, включая научные статьи с графиками и формулами, юридические договоры, финансовые отчеты и полные лог-файлы систем. В мультимодальных приложениях модель может использоваться для понимания видео, извлечения информации из сложных визуальных материалов и создания интерактивных систем, работающих с различными типами данных. Агентные сценарии включают автономное выполнение исследовательских задач, управление инструментами и API, а также создание систем, способных самостоятельно планировать и выполнять многошаговые рабочие процессы без вмешательства человека.


Дата анонса: 02.06.2026
Параметров: 428B
Экспертов: 128
Активно параметров при инференсе: 23B
Контекст: 1049K
Слоев: 60
Тип внимания: MiniMax Sparse Attention (MSA)
Разработчик: MiniMax-AI
Версия Transformers: 4.52.4
Версия vLLM: >=0.24.0
Лицензия: MINIMAX COMMUNITY LICENSE

Публичный эндпоинт

Воспользуйтесь нашими готовыми публичными эндпоинтами бесплатно для теста инференса и знакомства с MiniMax-M3. Получить токен для доступа к API вы можете на странице управления токенами после регистрации и верификации.
Наименование модели Контекст Тип GPU Статус Ссылка
Для данной модели пока нет публичных эндпоинтов.

Частный сервер

Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.

Мы рекомендуем создание частных инстансов в случаях, если необходимо:

  • получить максимальную производительность эндпоинта,
  • получить полный контекст для обработки больших запросов и диалогов,
  • обеспечить максимальную безопасность, для обработки данных в выделенном изолированном пространстве,
  • использовать кастомизированные веса: fine-tuned версии или lora-адаптеры.

Рекомендуемые конфигурации сервера для хостинга MiniMax-M3

Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
h200-4.32.768.480
1 048 576
tensor
4 1 717,59 ₽ 1,48 Запустить
h200-4.32.768.480.nvlink
1 048 576
tensor
4 1 717,59 ₽ 1,48 Запустить
Цены:
Наименование GPU Цена, час TPS Параллельность (макс.)
h200-6.52.896.640
1 048 576
pipeline
6 2 532,67 ₽ 1,24 Запустить
h200-8.52.1024.640
1 048 576
tensor
8 3 335,19 ₽ 1,63 Запустить
h200-8.52.1024.640.nvlink
1 048 576
tensor
8 3 335,19 ₽ 1,63 Запустить
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.

Связанные модели

Остались вопросы?

Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.