
Пока в соцсетях спорят о генерации картинок, реальный прорыв происходит в работе с большими массивами сырых данных. Google открыла доступ к модели Gemini 1.5 Pro, и её главная киллер-фича — контекстное окно на 1 000 000 токенов (в планах расширение до 2 млн).
Почему это ломает привычный подход к коду
Большинство моделей, включая топовые версии GPT-4, начинают «галлюцинировать» или забывать вводные данные, если загрузить в них больше 50–100 страниц текста. Gemini 1.5 Pro использует архитектуру Mixture-of-Experts (MoE) и способна проглотить за один запрос:
- Всю документацию среднего веб-фреймворка.
- Исходный код крупного проекта (сразу десятки связанных файлов из репозитория).
- Многостраничные логи сервера или тяжелый PDF-отчет.
Судя по опыту тестов, модель способна проанализировать логи за месяц, найти плавающий баг и самостоятельно сопоставить его с конкретным коммитом в загруженной кодовой базе.
Сравнение с классическим RAG-подходом
До появления таких окон разработчикам приходилось строить RAG-системы (векторные базы данных) для поиска по документации.
- Подход RAG: Вы ищете кусок текста по ключевым словам, алгоритм извлекает абзац и скармливает его ИИ. Дешево, но ИИ не видит общую картину и связи между модулями.
- Подход Gemini 1.5 Pro: ИИ видит вообще весь контекст одновременно. Это дороже в вычислительном плане, но дает непревзойденный уровень анализа архитектурных взаимосвязей.
Вывод
Конец эпохи парсеров: Контекстное окно в миллион токенов делает сложные системы поиска по коду ненужными для локальных задач. Загрузить весь проект целиком в ИИ теперь проще и эффективнее, чем пытаться объяснить модели контекст по частям.