Весной 2023 года в Пекине появилась компания Moonshot AI с амбициозной миссией: найти оптимальный способ превращения энергии в интеллект . Менее чем через три года её флагманская линейка моделей Kimi превратилась из экспериментального чат-бота в один из самых продвинутых открытых ИИ-инструментов на планете. С триллионом параметров, контекстным окном в четверть миллиона токенов и способностью одновременно управлять сотнями автономных агентов, Kimi бросает вызов западным гигантам — и делает это при стоимости в четыре раза ниже конкурентов. В этой статье разберём архитектуру, эволюцию и практические возможности нейросети, которая уже сегодня способна заменить целую команду разработчиков.

Moonshot AI: инженерная культура, стоящая за моделью
Moonshot AI была основана в марте 2023 года группой исследователей из Китая. В отличие от многих стартапов, ориентированных исключительно на потребительский чат, компания сфокусировалась на агентном интеллекте — способности ИИ не просто генерировать текст, но воспринимать окружение, вызывать внешние инструменты и выполнять многошаговые планы для достижения конкретной цели.
Ключевой философией команды стала открытость: в отличие от закрытых моделей OpenAI или Anthropic, Moonshot AI публикует веса своих флагманских моделей под модифицированной лицензией MIT, позволяя предприятиям развёртывать их на собственной инфраструктуре.
Эволюция линейки: от чат-бота до K2.6
Путь Kimi — это непрерывная эскалация возможностей:
- Октябрь 2023: запуск чат-бота Kimi с рекордным на тот момент контекстом в 128 000 токенов.
- Март 2024: закрытое бета-тестирование версии с окном в 2 миллиона символов.
- Январь 2025: релиз Kimi K1.5 — мультимодальной модели, обученной с помощью reinforcement learning и способной конкурировать с OpenAI o1 в математике и программировании.
- Июль 2025: выход Kimi K2 — триллионного MoE-гиганта с 32 миллиардами активных параметров, открытого для сообщества.
- Ноябрь 2025: представление K2 Thinking с расширенными цепочками рассуждений и нативным INT4-квантованием.
- Январь 2026: запуск K2.5 с технологией Agent Swarm — оркестрации до 100 параллельных агентов.
- Апрель 2026: анонс K2.6 — модели, масштабирующей рой агентов до 300 экземпляров и 4000 координированных шагов в рамках одной автономной сессии.
Каждая итерация сохраняла архитектурную преемственность, но привносила качественно новые уровни автономности.
Архитектура Mixture-of-Experts: интеллект размером с триллион, скорость — как у 32-миллиардника
Сердце Kimi — разреженная архитектура Mixture-of-Experts (MoE). Модель содержит 1 триллион параметров, но при обработке каждого токена активирует лишь 32 миллиарда — экономия вычислительных ресурсов составляет 96,8%.
Ключевые технические характеристики K2.6:
| Параметр | Значение |
| Всего параметров | 1 трлн |
| Активных параметров | 32 млрд |
| Слоёв | 61 |
| Экспертов | 384 |
| Экспертов на токен | 8 |
| Размер словаря | 160 000 токенов |
| Контекстное окно | 256 000 токенов |
| Механизм внимания | MLA (Multi-Head Latent Attention) |
| Визуальный энкодер | MoonViT (400 млн параметров) |
Механизм Multi-Head Latent Attention сжимает key-value проекции в пространство меньшей размерности, сокращая потребление памяти на 40–50% и позволяя уместить 256K контекст на стандартном GPU-кластере. Визуальный энкодер MoonViT обрабатывает изображения через ту же трансформерную архитектуру, что и текст — благодаря совместному обучению на 15 триллионах мультимодальных токенов зрение и язык развивались синхронно, а не как отдельные модули.
Контекстное окно в 256 000 токенов: когда вся книга помещается в один запрос
256 тысяч токенов — это примерно 400–500 страниц плотного текста. На практике это означает, что Kimi способен за один проход проанализировать техническую документацию целиком, изучить весь репозиторий на GitHub или сверстать договор с приложениями, не теряя нить рассуждения.
Для разработчиков это критически важно: модель может удерживать в памяти структуру большой кодовой базы, определять зависимости между модулями и генерировать исправления, учитывая глобальный контекст проекта, а не только фрагмент файла.
Четыре режима работы: от мгновенного ответа до роя агентов
Kimi K2.5 и K2.6 функционируют в четырёх режимах, переключаемых в зависимости от задачи:
- Instant — максимально быстрые ответы для рутинных запросов.
- Thinking — пошаговое рассуждение с генерацией внутренних цепочек мыслей перед выдачей финального результата. Режим поддерживает настраиваемую глубину reasoning и сохранение промежуточных рассуждений между диалогами через параметр
preserve_thinking. - Agent — автономный режим с последовательным вызовом инструментов. Модель устойчиво выполняет 200–300 последовательных вызовов API, браузера или интерпретатора кода без деградации качества.
- Agent Swarm — параллельная оркестрация сотен специализированных субагентов. K2.5 управляет 100 агентами одновременно, а K2.6 масштабирует рой до 300 агентов, выполняющих 4000 координированных шагов.
Агентные возможности: ИИ, который работает днями без присмотра
Главное конкурентное преимущество Kimi — способность действовать как полноценный цифровой сотрудник. В режиме Agent модель не ждёт пошаговых инструкций, а самостоятельно декомпозирует задачи, исследует несколько решений параллельно и задаёт уточняющие вопросы перед действием.
Впечатляющий пример из практики: агент на базе K2.6 работал автономно в течение 5 суток, управляя мониторингом, реагированием на инциденты и системными операциями — от получения алерта до полного разрешения проблемы. Технология Claw Groups позволяет нескольким агентам на разных устройствах сотрудничать с общим контекстом под управлением центрального координатора.
Бенчмарки подтверждают уровень автономии:
- BrowseComp (поиск и синтез информации из интернета): 83,2% у K2.6
- SWE-Bench Verified (решение реальных задач на GitHub): 80,2% у K2.6
- Terminal-Bench 2.0: 66,7% у K2.6
Мультимодальность: от скриншота макета до production-ready кода
Благодаря нативной мультимодальной интеграции Kimi генерирует код напрямую из визуальных входных данных. Разработчик может загрузить изображение UI-макета или 90-секундное видео с демонстрацией сайта — модель извлечёт структуру layout, определит иерархию компонентов и выдаст рабочий React или HTML с адаптивной вёрсткой и доступностью.
Особенно ценна способность к автономной визуальной отладке: Kimi рендерит сгенерированный код, сравнивает результат с оригинальным дизайном, находит расхождения и вносит коррективы в цикле до достижения требуемого уровня точности.
Производительность и стоимость: открытый вес против проприетарных гигантов
Kimi K2.5 демонстрирует результаты на уровне лучших закрытых моделей при существенно более низкой цене:
| Бенчмарк | Kimi K2.5 | Claude Opus 4.5 | GPT-5.2 |
| SWE-Bench Verified | 76,8% | 80,9% | 80,0% |
| AIME 2025 | 96,1% | 93% | 100% |
| BrowseComp | 74,9% | 65,8% | 59,2% |
| Humanity's Last Exam (с инструментами) | 50,2% | 43,2% | 45,8% |
| Стоимость прохождения бенчмарка | $0,27 | $1,14 | $0,48 |
При этом Kimi поставляется под открытой лицензией, допускает локальное развёртывание через vLLM или SGLang и поддерживает нативное INT4-квантование, которое удваивает скорость инференса без потери точности.
Как начать работать с Kimi: API, CLI и веб-интерфейс
Для конечных пользователей доступен бесплатный веб-чат kimi.com и мобильное приложение. Разработчики могут интегрировать модель через API, полностью совместимый с форматом OpenAI.
Установка и базовый вызов:
pip install --upgrade 'openai>=1.0'import openai
client = openai.OpenAI(
api_key="YOUR_MOONSHOT_API_KEY",
base_url="https://api.moonshot.ai/v1"
)
response = client.chat.completions.create(
model="kimi-k2.6",
messages=[
{"role": "user", "content": "Напиши функцию на Python для парсинга JSON с валидацией схемы"}
],
max_tokens=4096
)
print(response.choices[0].message.content)Для активации режима сохранения рассуждений между turns используется параметр preserve_thinking:
response = client.chat.completions.create(
model="kimi-k2.6",
messages=messages,
extra_body={
'thinking': {'type': 'enabled', 'keep': 'all'}
}
)Энтузиасты могут скачать веса модели с HuggingFace и запустить их локально на собственном GPU-кластере.
Будущее: коллективный интеллект и этические вызовы
Moonshot AI явно движется к парадигме, где человек и ИИ выступают не заказчиком и исполнителем, а полноценными партнёрами. Концепция роя агентов, способных работать неделями в фоновом режиме, открывает ошеломляющие перспективы для автоматизации инженерии, научных исследований и системного администрирования.
Вместе с тем, идея сотен автономных агентов, действующих без непосредственного контроля, поднимает вопросы безопасности и прозрачности. Компания заявляет об усиленной работе над надёжностью долгосрочных сессий и осведомлённостью агентов о рисках.