MiniMax M3 на 1 миллион токенов — открытая модель выходит на территорию длинных AI-агентов

MiniMax представила M3 — мультимодальную модель с контекстным окном до 1 миллиона токенов, новой архитектурой MiniMax Sparse Attention и упором на кодинг-агентов. Для разработчиков это означает более удобную работу с большими репозиториями, длинными документами, видео и многошаговыми задачами, где модели приходится помнить большой объём входных данных.

MiniMax делает ставку на сверхдлинный контекст и агентные сценарии

Китайская AI-компания MiniMax официально представила модель MiniMax M3 1 июня 2026 года. Уже 2 июня релиз получил дополнительное освещение в профильных изданиях, включая GIGAZINE, где отдельно выделили три главные особенности: контекст до 1 миллиона токенов, мультимодальный ввод и ориентацию на задачи программирования.

Контекстное окно — это объём информации, который модель может учитывать в одном запросе или в одной длинной рабочей сессии. Если объяснять проще, это «память на текущую задачу»: код проекта, техническое задание, переписка, документация, логи, таблицы, фрагменты видео и изображения. Чем больше контекст, тем меньше приходится вручную нарезать материалы на части и тем выше шанс, что модель сохранит связь между дальними фрагментами данных.

MiniMax заявляет, что M3 API поддерживает до 1 миллиона токенов контекста с гарантированным минимумом 512 тысяч токенов. Такой объём особенно важен для AI-агентов — систем, которые выполняют длинные задачи по шагам: читают файлы, запускают команды, анализируют ошибки, исправляют код и продолжают работу без постоянного перезапуска диалога.

MiniMax Sparse Attention снижает стоимость обработки длинного контекста

Главная техническая часть релиза — архитектура MiniMax Sparse Attention, или MSA. В обычных трансформерных моделях механизм внимания сравнивает множество токенов друг с другом, и при росте контекста вычислительная нагрузка быстро увеличивается. На практике это приводит к дорогой и медленной обработке очень больших запросов.

MSA работает иначе: модель выбирает наиболее релевантные блоки из длинного контекста и тратит вычисления прежде всего на них. MiniMax утверждает, что при контексте в 1 миллион токенов M3 требует около 1/20 вычислений по сравнению с предыдущим поколением M2, а также ускоряет подготовку входных данных более чем в 9 раз и генерацию ответа более чем в 15 раз. Эти цифры основаны на замерах самой MiniMax, поэтому их стоит воспринимать как данные вендора до появления независимых воспроизводимых тестов.

Для обычного читателя смысл этой архитектуры простой: миллион токенов должен быть рабочей возможностью для реальных задач, где пользователь загружает большой объём данных, а затем ждёт осмысленный ответ за приемлемое время и деньги.

Модель ориентирована на код, документы, изображения и видео

MiniMax M3 позиционируется как мультимодальная модель. Она принимает текст, изображения и видео, а значит может использоваться шире обычного чат-бота. В сценариях разработки это открывает несколько практических направлений.

Разработчик может загрузить крупный репозиторий, документацию, логи ошибок и описание задачи, а затем попросить модель найти причину сбоя или предложить правку. Команда продукта может дать модели длинные спецификации, макеты интерфейса, записи демонстраций и список требований. Аналитик может собрать в одном контексте отчёты, таблицы, презентации и переписку, чтобы получить сводку с привязкой к исходным материалам.

Отдельно MiniMax подчёркивает работу M3 с агентными задачами. Такие задачи отличаются длительностью: модель должна планировать действия, пользоваться инструментами, проверять промежуточный результат и продолжать работу после нескольких неудачных попыток. Длинный контекст здесь нужен не ради красивой цифры, а для сохранения истории решений, команд, ошибок и промежуточных выводов.

Заявленные тесты показывают сильный акцент на программировании

В официальных материалах MiniMax сообщает о результате 59,0% на SWE-Bench Pro — бенчмарке, который оценивает способность модели решать задачи разработки на реальных репозиториях. Также компания указывает 66,0% на Terminal-Bench 2.1, 74,2% на MCP Atlas и 83,5 на BrowseComp. Эти показатели используются MiniMax для демонстрации возможностей M3 в программировании, работе с терминалом, инструментами и автономном поиске информации.

Важная оговорка: опубликованные результаты пока в основном являются данными самой MiniMax. До выхода открытых весов, технического отчёта и независимых проверок разработчикам стоит оценивать M3 на собственных задачах. Особенно это касается коммерческого кода, внутренних документов и сценариев, где ошибка модели может привести к затратам или утечке конфиденциальной информации.

Практичный подход для команды выглядит так: взять несколько типовых задач из реальной разработки, сравнить M3 с текущей моделью на одинаковых входных данных, измерить качество исправлений, скорость, стоимость и количество ручных правок после ответа.

Доступ через API уже открыт, веса обещаны после релиза

MiniMax указывает, что M3 доступна через MiniMax Code, Token Plan и API. В документации по тарифам для MiniMax-M3 указана стартовая скидка на первые 7 дней: $0,30 за 1 миллион входных токенов и $1,20 за 1 миллион выходных токенов при входе до 512 тысяч токенов. Для входа свыше 512 тысяч токенов указаны более высокие ставки и ограниченная доступность.

Это важная деталь для тех, кто смотрит на миллион токенов как на постоянный рабочий режим. Большие контексты могут быстро создавать значительные расходы, особенно если агент многократно перечитывает файлы, генерирует длинные ответы и выполняет цепочки действий. Перед внедрением M3 в продукт стоит заранее рассчитать стоимость типового запроса, включить кеширование и ограничить передачу лишних данных.

MiniMax также заявила о намерении открыть веса и технический отчёт в течение 10 дней после запуска. До фактической публикации весов статус «open-weight» остаётся обещанием компании. После публикации станет проще проверить архитектурные заявления, протестировать модель вне API и оценить её пригодность для локальных или корпоративных сценариев.

Миллион токенов меняет ожидания от AI-инструментов

MiniMax M3 показывает направление, в котором движутся большие языковые модели: от коротких ответов к длительной работе с большим массивом данных. Для разработчиков это особенно заметно в задачах поддержки крупных проектов, миграции кода, анализа логов, подготовки документации и автоматизации рутинных исправлений.

Главная практическая ценность M3 — сочетание длинного контекста, мультимодальности и цены, которая выглядит агрессивной на фоне многих закрытых моделей. Главная зона осторожности — независимая проверка результатов, безопасность данных и реальная доступность режима сверхдлинного контекста при нагрузке.

Тем, кто хочет попробовать MiniMax M3, лучше начать с безопасных тестов: открытые репозитории, публичная документация, синтетические задачи и сравнение с уже используемыми моделями. После этого можно переходить к пилотным сценариям внутри команды, где легко измерить качество, стоимость и экономию времени.