Персональный взгляд на тенденции в литературе по компьютерному зрению в 2024 году
25.12.2024
Я постоянно слежу за компьютерным зрением (CV) и исследованиями синтеза изображений в Arxiv и других местах уже около пяти лет, поэтому тенденции со временем становятся очевидными, и каждый год они меняются в новых направлениях.
Поэтому, когда 2024 год подходит к концу, я счел целесообразным взглянуть на некоторые новые или развивающиеся характеристики в материалах Arxiv в разделе «Компьютерное видение и распознавание образов». Эти наблюдения, хотя и основаны на сотнях часов изучения места происшествия, являются строго анекданными.
Продолжающийся подъем Восточной Азии
К концу 2023 года я заметил, что большая часть литературы в категории ‘голосового синтеза выходит из Китая и других регионов Восточной Азии. В конце 2024 года я должен заметить (анекдотически), что теперь это относится и к сцене исследования синтеза изображений и видео.
Это не означает, что Китай и прилегающие страны обязательно всегда производят лучшую работу (действительно, есть некоторые доказательства обратного); он также не принимает во внимание высокую вероятность того, что в Китае (как и на западе) некоторые из наиболее интересных и мощных новых развивающихся систем являются запатентованными и исключены из исследовательской литературы.
Но это предполагает, что Восточная Азия в этом отношении опережает Запад по объему. Чего это стоит, зависит от того, насколько вы верите в жизнеспособность настойчивости в стиле Эдисона, которая обычно оказывается неэффективной перед лицом труднопреодолимых препятствий.
В генеративном ИИ существует множество таких препятствий, и нелегко понять, какие из них можно решить, обратившись к существующим архитектурам, а какие необходимо будет пересмотреть с нуля.
Хотя исследователи из Восточной Азии, похоже, выпускают большее количество статей по компьютерному зрению, я заметил увеличение частоты ‘проектов в стиле Франкенштейна – инициатив, которые представляют собой объединение предыдущих работ, но при этом добавляют ограниченную архитектурную новизну (или, возможно, просто другой тип данных).
В этом году гораздо большее количество заявок из Восточной Азии (в первую очередь с участием Китая или Китая), по-видимому, было обусловлено квотами, а не заслугами, что значительно увеличило соотношение сигнал/шум в и без того переподписанной области.
В то же время большее количество восточноазиатских газет также привлекло мое внимание и восхищение в 2024 году. Так что, если это все игра с числами, она не проваливается –, но и не дешева.
Увеличение объема заявок
Объем бумаг во всех странах происхождения, очевидно, увеличился в 2024 году.
Самый популярный день публикации меняется в течение года; на данный момент это вторник, когда количество заявок в раздел «Компьютерное видение и распознавание образов» часто составляет около 300-350 за один день, в периоды ‘пиков (май-август и октябрь-декабрь, т. е. сезон конференций и сезон ‘годовых сроков квот соответственно).
Помимо моего собственного опыта, сама Arxiv сообщает о рекордном количестве заявок в октябре 2024 года: всего было подано 6000 новых заявок, а раздел «Компьютерное видение» является вторым по популярности разделом после машинного обучения.
Однако, поскольку раздел машинного обучения в Arxiv часто используется как дополнительная ‘или агрегированная суперкатегория, это свидетельствует о том, что компьютерное зрение и распознавание образов на самом деле являются наиболее часто отправляемой категорией Arxiv.
Собственная статистика Arxiv, безусловно, показывает, что информатика является явным лидером в подаче заявок:
Информатика (CS) доминирует в статистике подачи заявок в Arxiv за последние пять лет. Источник: https://info.arxiv.org/about/reports/submission_category_by_year.html
Индекс искусственного интеллекта Стэнфордского университета за 2024 год, хотя пока и не может отражать самые последние статистические данные, также подчеркивает заметный рост количества представленных научных работ по машинному обучению в последние годы:
Поскольку данные за 2024 год недоступны, отчет Стэнфорда, тем не менее, резко показывает рост объемов подачи статей по машинному обучению. Источник: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf
Диффузия>Пролиферация сетчатых каркасов
Еще одной явной тенденцией, возникшей для меня, стал большой подъем в газетах, посвященных использованию моделей скрытой диффузии (LDM) в качестве генераторов ячеистых, ‘традиционных моделей компьютерной графики.
Проекты этого типа включают InstantMesh3D, 3Dtopia, Diffusion2, V3D, MVEdit и GIMDiffusion от Tencent, среди множества подобных предложений.
Генерация и усовершенствование сетки с помощью процесса на основе диффузии в 3Dtopia. Источник: https://arxiv.org/pdf/2403.02234
Это возникающее направление исследований можно рассматривать как молчаливую уступку продолжающейся трудноразрешимости генеративных систем, таких как модели диффузии, которые всего два года рекламировались как потенциальная замена всем системам, которые сейчас стремятся заселить модели диффузии и сетки; отводя распространение роли инструмента в технологиях и рабочих процессах, насчитывающих тридцать или более лет.
Stability.ai, создатели модели стабильной диффузии с открытым исходным кодом, только что выпустили Stable Zero123, которая может, среди прочего, использовать интерпретацию поля нейронного излучения (NeRF) изображения, сгенерированного искусственным интеллектом, в качестве моста для создания явной сетки. основанная на компьютерной графике модель, которую можно использовать в таких CGI-аренах, как Unity, в видеоиграх, дополненной реальности и в других платформах, требующих явных 3D-координат, в отличие от неявных (скрытых) координат непрерывных функций.
+ There are no comments
Add yours