Революция в компьютерном зрении: Voxel51 ускоряет разработку ИИ

Стартап в области компьютерного зрения Voxel51 представляет результаты нового исследования, которые, по их утверждению, способны перевернуть традиционную модель аннотирования данных. Компания сообщает, что ее инновационная система автоматической разметки достигает до 95% точности, сопоставимой с человеческой, при этом работая в 5 000 раз быстрее и обходясь до 100 000 раз дешевле ручного труда.

В ходе исследования были протестированы базовые модели, такие как YOLO-World и Grounding DINO, на известных наборах данных, включая COCO, LVIS, BDD100K и VOC. Примечательно, что во многих реальных сценариях модели, обученные исключительно на метках, сгенерированных искусственным интеллектом, показывают результаты наравне с моделями, обученными на данных, размеченных людьми, а иногда даже превосходят их. Для компаний, разрабатывающих системы компьютерного зрения, это открывает огромные перспективы: возможность сэкономить миллионы долларов на аннотации и сократить циклы разработки моделей с недель до часов.

На протяжении десятилетий аннотирование данных являлось трудоемким и узким местом в развитии искусственного интеллекта. От ImageNet до наборов данных для беспилотных автомобилей команды полагались на многочисленные группы людей для выделения объектов рамками и сегментации изображений, что было дорогостоящим и медленным процессом. Преобладала простая логика, согласно которой больше данных, размеченных человеком, означает лучший ИИ. Однако исследование Voxel51 ставит это предположение под сомнение.

Подход Voxel51 заключается в использовании предварительно обученных базовых моделей, некоторые из которых обладают возможностями обучения с нулевым выстрелом (zero-shot), и их интеграции в конвейер, который автоматизирует рутинную разметку. При этом используется активное обучение для выявления сомнительных или сложных случаев, требующих проверки человеком. Этот метод значительно сокращает как время, так и затраты. В одном из тестов разметка 3,4 миллиона объектов с использованием графического процессора NVIDIA L40S заняла чуть более часа и стоила 1,18 доллара. Выполнение той же задачи вручную с помощью AWS SageMaker потребовало бы почти 7 000 часов и обошлось бы более чем в 124 000 долларов. В особо сложных случаях, таких как идентификация редких категорий в наборах данных COCO или LVIS, модели с автоматической разметкой иногда превосходили своих аналогов, обученных на данных, размеченных людьми. Такой неожиданный результат может быть связан с последовательными паттернами разметки базовых моделей и их обучением на крупномасштабных данных из интернета.

Компания Voxel51 была основана в 2016 году профессором Джейсоном Корсо и Брайаном Муром из Мичиганского университета. Изначально она функционировала как консалтинговая фирма, специализирующаяся на видеоаналитике. Профессор Корсо, признанный эксперт в области компьютерного зрения и робототехники, является автором более 150 научных публикаций и активно делится открытым исходным кодом с ИИ-сообществом. Брайан Мур, бывший аспирант профессора Корсо, занимает пост генерального директора. Поворотным моментом стало осознание командой того, что большинство проблем в разработке ИИ связаны не с дизайном моделей, а с данными. Это понимание вдохновило их на создание FiftyOne – платформы, предназначенной для того, чтобы инженеры могли более эффективно исследовать, курировать и оптимизировать визуальные наборы данных.

За годы своего существования компания привлекла более 45 миллионов долларов инвестиций, включая 12,5 миллиона долларов в раунде Series A и 30 миллионов долларов в раунде Series B, который возглавил фонд Bessemer Venture Partners. За этим последовало внедрение решений Voxel51 крупными корпоративными клиентами, такими как LG Electronics, Bosch, Berkshire Grey, Precision Planting и RIOS, интегрировавшими инструменты компании в свои производственные процессы ИИ.

Платформа FiftyOne прошла путь от простого инструмента визуализации наборов данных до комплексной, ориентированной на данные ИИ-платформы. Она поддерживает широкий спектр форматов и схем разметки, включая COCO, Pascal VOC, LVIS, BDD100K, Open Images, и легко интегрируется с такими фреймворками, как TensorFlow и PyTorch. FiftyOne – это больше, чем просто инструмент визуализации; она позволяет выполнять сложные операции: находить дублирующиеся изображения, выявлять неверно размеченные образцы, обнаруживать выбросы и измерять режимы отказа моделей. Ее экосистема плагинов поддерживает пользовательские модули для оптического распознавания символов, ответов на вопросы по видео и анализа на основе встраиваемых представлений (embeddings). Корпоративная версия, FiftyOne Teams, предлагает функции для совместной работы, такие как контроль версий, управление правами доступа и интеграция с облачными хранилищами (например, S3), а также с инструментами аннотирования, такими как Labelbox и CVAT. Примечательно, что Voxel51 также сотрудничает с V7 Labs для оптимизации процесса перехода от курирования наборов данных к ручной аннотации.

Исследование Voxel51 в области автоматической разметки бросает вызов устоявшимся принципам индустрии аннотирования данных, объем которой оценивается почти в 1 миллиард долларов. В традиционных рабочих процессах каждое изображение должно быть обработано человеком, что является дорогостоящим и зачастую избыточным процессом. Voxel51 утверждает, что большую часть этой работы теперь можно исключить. В предлагаемой ими системе большинство изображений размечается ИИ, и только пограничные случаи передаются на рассмотрение людям. Эта гибридная стратегия не только сокращает расходы, но и обеспечивает более высокое общее качество данных, поскольку усилия человека направляются на самые сложные или ценные аннотации. Этот сдвиг соответствует более широким тенденциям в области ИИ к подходу, ориентированному на данные (data-centric AI), – методологии, которая фокусируется на оптимизации обучающих данных, а не на бесконечной настройке архитектур моделей.

Инвесторы, такие как Bessemer Venture Partners, рассматривают Voxel51 как «уровень оркестрации данных» для ИИ, сравнивая его роль с тем, как инструменты DevOps трансформировали разработку программного обеспечения. Открытый инструмент компании был загружен миллионы раз, а ее сообщество насчитывает тысячи разработчиков и команд машинного обучения по всему миру. Хотя другие стартапы, такие как Snorkel AI, Roboflow и Activeloop, также фокусируются на рабочих процессах с данными, Voxel51 выделяется широтой охвата, приверженностью открытому исходному коду и инфраструктурой корпоративного уровня. Вместо того чтобы конкурировать с поставщиками услуг аннотирования, платформа Voxel51 дополняет их, делая существующие сервисы более эффективными за счет выборочного курирования данных.

Долгосрочные перспективы этой технологии весьма значительны. При широком внедрении методология Voxel51 может кардинально снизить барьер входа в область компьютерного зрения, демократизируя ее для стартапов и исследователей, не располагающих огромными бюджетами на разметку. Помимо экономии средств, этот подход также закладывает основу для систем непрерывного обучения, где модели в производственной среде автоматически выявляют сбои, которые затем анализируются, переразмечаются и включаются обратно в обучающие данные – все это в рамках единого оркестрованного конвейера. Более широкое видение компании соответствует тому, как развивается ИИ: речь идет не только о более умных моделях, но и о более умных рабочих процессах. В этом видении аннотирование не исчезает, но перестает быть областью ручного труда. Оно становится стратегическим, выборочным и управляемым автоматизацией.

 

DeepSeek-V3 доказывает: передовой ИИ возможен без суперкомпьютеров

Цифровое одиночество: сможет ли ИИ вернуть нам живое общение?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *