MiniMax-M3 — открытая нативная мультимодальная модель с поддержкой контекста до 1 миллиона токенов, сочетающая в себе передовые возможности в области программирования, агентных рабочих процессов и нативную мультимодальность. Модель имеет архитектуру Mixture of Experts (MoE) с ~428 миллиардами общих параметров, из которых активируются лишь ~23 миллиарда на каждом шаге генерации, 128 локальных экспертов с активацией 4 экспертов на токен и одним общим экспертом. Такая разреженность обеспечивает высокую производительность при экономичном использовании вычислительных ресурсов. M3 поддерживает три режима рассуждения (thinking): enabled — рассуждение всегда включено, adaptive — модель автоматически определяет необходимость дополнительного рассуждения, disabled — рассуждение отключено для минимизации задержки. В отличие от предыдущей модели MiniMax-M2.7 и всей второй линейки, MiniMax-M3 представляет собой качественный шаг вперед за счет сочетания трех передовых возможностей — нативной мультимодальности, миллионного контекста и отличными показателями в программировании и агентных задачах.
Ключевым архитектурным нововведением MiniMax-M3 является MiniMax Sparse Attention (MSA) — новый тип разреженного внимания, специально разработанный для эффективной работы с контекстами длиной в миллион токенов. MSA построен на основе Grouped Query Attention (GQA) и состоит из двух параллельных процессов: лёгкая Index Branch оценивает все блоки ключей-значений во входной последовательности и для каждой группы запросов независимо выбирает подмножество наиболее релевантных блоков; основная Main Branch выполняет точное блочно-разреженное внимание исключительно по отобранным блокам. При этом локальный блок (ближайшее окружение) включается всегда независимо от его оценки, что гарантирует сохранение важной контекстной информации. Благодаря такому подходу MSA сокращает вычислительные затраты на внимание на один токен в 28.4 раза при контексте в 1 миллион токенов по сравнению с GQA.
Результаты на ключевых бенчмарках подтверждают качество модели M3. На SWE-bench Verified (эталонный бенчмарк для оценки способности ИИ решать реальные задачи из репозиториев программного обеспечения) модель демонстрирует 80.5% решённых задач. На SWE-bench Pro результат составляет 59%. На BrowseComp (бенчмарк для оценки способности модели к автономному веб-сёрфингу и извлечению информации) M3 набирает 83.5 балла, превосходя Opus 4.7 (79.3). В автономном тесте PostTrainBench, где модели поручалось самостоятельно провести полный цикл пост-обучения других моделей (синтез данных, обучение, оценка, итерации) в течение 12 часов, M3 заняла 3-е место с результатом 37.1, уступив только закрытым Opus 4.7 (42.4) и GPT-5.5 (39.3) и значительно опередив все остальные модели.
Сценарии использования MiniMax-M3 чрезвычайно широки и охватывают множество областей, где требуются передовые агентные и мультимодальные возможности. В разработке программного обеспечения модель может выступать в роли автономного AI-ассистента, способного анализировать целые репозитории кода, выполнять длительные задачи по рефакторингу, отладке и документированию, а также автономно развертывать и тестировать код. Благодаря 1-миллионному контекстному окну, M3 идеально подходит для анализа и понимания длинных документов, включая научные статьи с графиками и формулами, юридические договоры, финансовые отчеты и полные лог-файлы систем. В мультимодальных приложениях модель может использоваться для понимания видео, извлечения информации из сложных визуальных материалов и создания интерактивных систем, работающих с различными типами данных. Агентные сценарии включают автономное выполнение исследовательских задач, управление инструментами и API, а также создание систем, способных самостоятельно планировать и выполнять многошаговые рабочие процессы без вмешательства человека.
| Наименование модели | Контекст | Тип | GPU | Статус | Ссылка |
|---|
Для данной модели пока нет публичных эндпоинтов.
Арендуйте собственный физически выделенный инстанс с почасовой оплатой или на длительный срок с помесячной оплатой.
Мы рекомендуем создание частных инстансов в случаях, если необходимо:
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
1 048 576 tensor |
4 | 1 717,59 ₽ | 1,48 | Запустить | ||
1 048 576 tensor |
4 | 1 717,59 ₽ | 1,48 | Запустить | ||
| Наименование | GPU | TPS | Параллельность (макс.) | |||
|---|---|---|---|---|---|---|
1 048 576 pipeline |
6 | 2 532,67 ₽ | 1,24 | Запустить | ||
1 048 576 tensor |
8 | 3 335,19 ₽ | 1,63 | Запустить | ||
1 048 576 tensor |
8 | 3 335,19 ₽ | 1,63 | Запустить | ||
Для данной модели, контекста и квантизации пока нет подходящих конфигураций.
Свяжитесь с нашей специализированной группой поддержки по нейросетям nn@immers.cloud или отправьте ваш запрос в отдел продаж sale@immers.cloud.