Корпорация Google представила экспериментальную модель искусственного интеллекта Gemini 2.0 Pro Experimental, разработанную для улучшения цифровых рабочих процессов, программирования и решения сложных логических задач. Эта новейшая модель, являющаяся преемником Gemini 1.5 Pro, выпущенной в мае 2024 года, демонстрирует выдающиеся способности в таких областях, как кодирование, математика и обработка комплексных запросов с повышенной точностью фактов. Она становится доступной разработчикам через Google AI Studio и Vertex AI, а также пользователям Gemini Advanced через приложение Gemini.
Ключевой особенностью Gemini 2.0 Pro является контекстное окно объемом два миллиона токенов — одно из самых больших в индустрии. Это позволяет проводить всесторонний анализ огромных массивов данных. Модель обладает мультимодальными возможностями, работая с текстом, изображениями и кодом, включая нативное распознавание и генерацию изображений, а также функцию преобразования текста в речь. Google активно интегрирует генеративные функции ИИ Pro для дальнейшего усовершенствования своих продуктов и сервисов, таких как Google Workspace, где возможности ИИ уже используются в Docs, Slides и Meet, и теперь будут расширены. Разработчики с помощью Google AI Studio и Vertex AI могут создавать продвинутые мультимодальные и агентные ИИ-приложения. Google также заявляет о планах по интеграции локальных версий ИИ на своих флагманских смартфонах Pixel. В потребительском сегменте Gemini 2.0 Pro обещает усилить функциональность AI Overviews в поиске Google, предоставляя более мощные и новые мультимодальные возможности для генерации исчерпывающих ответов.
Модель Pro является частью более широкого семейства Gemini 2.0. Первое поколение, Gemini 1.0, вышло в декабре 2023 года и включало модели Ultra, Pro и Nano, превзойдя по ряду тестов конкурентов вроде GPT-4. Версия Gemini 1.5, представленная в мае 2024 года, включала варианты Pro и Flash с контекстным окном в 1 миллион токенов и ускоренным откликом. Последнее поколение, Gemini 2.0, к которому принадлежат Gemini 2.0 Flash-Lite, Gemini 2.0 Flash и Gemini 2.0 Pro, отличается увеличенным до 2 миллионов токенов контекстным окном, расширенными мультимодальными возможностями и улучшенным пространственным пониманием.
В рамках новейшего поколения существуют различия: Gemini 2.0 Flash-Lite, доступная в предварительной версии, является наиболее экономичным вариантом. Gemini 2.0 Flash, ставшая общедоступной в начале февраля, предназначена для повседневных задач и отличается повышенной производительностью и работой в реальном времени с контекстным окном в 1 миллион токенов. Gemini 2.0 Pro позиционируется как самое передовое предложение в линейке, специализируясь на сложных задачах программирования и обработке комплексных запросов благодаря своему гигантскому контекстному окну в 2 миллиона токенов, но пока находится в экспериментальном статусе. Обе модели, Pro и Flash, поддерживают мультимодальный ввод и интегрированы в экосистему Google, однако Pro считается более мощным и специализированным инструментом, особенно для разработки сложных агентных систем.
Генеральный директор Clair Services Стив Флерант говорит, что Gemini 2.0 Pro предназначена не только для технологических гигантов, но и для облегчения повседневной работы в любой организации, от некоммерческих до малых предприятий и государственных учреждений. Он называет ее сверхмощным помощником, способным понимать сложные инструкции, анализировать огромные объемы информации и даже помогать в написании программного кода. Флерант считает революционным изменением способность модели обрабатывать невероятно длинные и подробные запросы благодаря контекстному окну в 2 миллиона токенов. Это позволяет анализировать объемные документы, отчеты или наборы данных целиком, получая осмысленные резюме, выявляя тенденции или отвечая на детальные вопросы без необходимости разбивать информацию на мелкие части.
Модель также значительно преуспевает в разработке программного обеспечения. Ее улучшенные возможности кодирования помогают программистам писать код быстрее, эффективнее отлаживать ошибки и предлагать улучшения для существующего кода. Расширенное контекстное окно способствует более естественному взаимодействию, позволяя пользователям формулировать длинные запросы за один раз, будь то поиск, разработка ПО или анализ документов. Флерант отмечает, что это приводит к ускорению циклов разработки и потенциальному снижению затрат для бизнеса любого размера. Он также упоминает, что для обучения Gemini 2.0 и Pro 2.0 Google использовала собственное оборудование Trillium TPU, и подчеркивает, что выбор правильной модели ИИ является ключевым бизнес-решением.
Дэвид Меннингер, исполнительный директор по исследованию программного обеспечения в ISG, также указывает на огромное контекстное окно как на выдающуюся особенность Pro. Он объясняет, что это позволяет включать больше информации в запросы и получать более объемные и детальные ответы, будь то анализ документов, дополнение данных для RAG-систем или запоминание контекста предыдущих взаимодействий. Меннингер отмечает, что получение наилучших результатов от больших языковых моделей зависит от правильного составления запросов. Хотя описывать сложный анализ данных непросто, он полагает, что больше людей смогут описать его словами, чем написать эквивалентный сложный SQL-запрос. Преимущество для предприятий, полагающихся на сложный анализ данных, заключается в том, что больше сотрудников смогут получать необходимую информацию без привлечения аналитика или инженера данных.
В то же время Меннингер добавляет, что эти достижения являются палкой о двух концах. Хотя они повышают полезность ИИ и расширяют потенциальные сценарии использования, предприятиям сложно успевать за стремительными изменениями на рынке. Он ссылается на исследование ISG, показывающее, что только 15% предприятий полностью внедрили генеративные ИИ-приложения в производственную эксплуатацию. Одним из наиболее распространенных препятствий является управление этими приложениями. По словам Меннингера, это то, что предприятия чаще всего хотели бы изменить в своем подходе к внедрению ИИ в будущем. Когда рынок меняется так быстро, компаниям трудно понять и эффективно управлять использованием технологии.
Амирам Шачар из Upwind Security говорит, что большинство ИИ-моделей «теряют нить», когда им передают слишком много информации, но Gemini 2.0 Pro способна обрабатывать целые отчеты, многолетние юридические документы или обширные кодовые базы за один раз, сохраняя связи между данными вместо выдачи фрагментированных ответов. Он называет ИИ, способный искать информацию и выполнять код в реальном времени, «умножителем силы». Шачар считает, что пользователи получают не просто чат-бота, а исследовательского ассистента по требованию, который извлекает актуальные данные, и разработчика, который мгновенно пишет и тестирует код, что сокращает непродуктивные циклы работы.
Шачар добавляет, что успехи Google в области обучения с подкреплением также повышают безопасность и надежность ИИ, уменьшая «галлюцинации» и повышая точность. Эта способность к самопроверке помогает ИИ-моделям уточнять свои ответы, что приводит к меньшему количеству ошибок и более стабильным результатам, что особенно важно в бизнес-контексте, где недостоверные данные представляют значительные риски. Он признает, что ни один ИИ не идеален, но предприятия, вероятно, будут больше доверять моделям, которые осознают свои ограничения. Эти изменения, по мнению Шачара, совпадают со сменой фокуса организаций: от погони за самой большой моделью к инвестициям в ту, которая подходит для их конкретных рабочих задач. Для организаций, нуждающихся в глубоком анализе, Pro является очевидным выбором, тогда как для задач, где важнее скорость и эффективность, имеет смысл использовать Flash-Lite. Шачар утверждает, что компаниям следует оптимизировать выбор под свои реальные потребности, а не под то, что звучит впечатляюще.
Усовершенствования в серии моделей Google Gemini закладывают основу для создания ИИ-агентов, способных самостоятельно выполнять сложные задачи. По мере того как эти системы ИИ становятся более надежными и экономичными, компании теоретически смогут беспрецедентными способами оптимизировать операции и улучшить процессы принятия решений.