Персональный взгляд на тенденции в литературе по компьютерному зрению в 2024 году

Я постоянно слежу за компьютерным зрением (CV) и исследованиями синтеза изображений в Arxiv и других местах уже около пяти лет, поэтому тенденции со временем становятся очевидными, и каждый год они меняются в новых направлениях.

Поэтому, когда 2024 год подходит к концу, я счел целесообразным взглянуть на некоторые новые или развивающиеся характеристики в материалах Arxiv в разделе «Компьютерное видение и распознавание образов». Эти наблюдения, хотя и основаны на сотнях часов изучения места происшествия, являются строго анекданными.

Продолжающийся подъем Восточной Азии

К концу 2023 года я заметил, что большая часть литературы в категории ‘голосового синтеза выходит из Китая и других регионов Восточной Азии. В конце 2024 года я должен заметить (анекдотически), что теперь это относится и к сцене исследования синтеза изображений и видео.

Это не означает, что Китай и прилегающие страны обязательно всегда производят лучшую работу (действительно, есть некоторые доказательства обратного); он также не принимает во внимание высокую вероятность того, что в Китае (как и на западе) некоторые из наиболее интересных и мощных новых развивающихся систем являются запатентованными и исключены из исследовательской литературы.

Но это предполагает, что Восточная Азия в этом отношении опережает Запад по объему. Чего это стоит, зависит от того, насколько вы верите в жизнеспособность настойчивости в стиле Эдисона, которая обычно оказывается неэффективной перед лицом труднопреодолимых препятствий.

В генеративном ИИ существует множество таких препятствий, и нелегко понять, какие из них можно решить, обратившись к существующим архитектурам, а какие необходимо будет пересмотреть с нуля.

Хотя исследователи из Восточной Азии, похоже, выпускают большее количество статей по компьютерному зрению, я заметил увеличение частоты ‘проектов в стиле Франкенштейна – инициатив, которые представляют собой объединение предыдущих работ, но при этом добавляют ограниченную архитектурную новизну (или, возможно, просто другой тип данных).

В этом году гораздо большее количество заявок из Восточной Азии (в первую очередь с участием Китая или Китая), по-видимому, было обусловлено квотами, а не заслугами, что значительно увеличило соотношение сигнал/шум в и без того переподписанной области.

В то же время большее количество восточноазиатских газет также привлекло мое внимание и восхищение в 2024 году. Так что, если это все игра с числами, она не проваливается –, но и не дешева.

Увеличение объема заявок

Объем бумаг во всех странах происхождения, очевидно, увеличился в 2024 году.

Самый популярный день публикации меняется в течение года; на данный момент это вторник, когда количество заявок в раздел «Компьютерное видение и распознавание образов» часто составляет около 300-350 за один день, в периоды ‘пиков (май-август и октябрь-декабрь, т. е. сезон конференций и сезон ‘годовых сроков квот соответственно).

Помимо моего собственного опыта, сама Arxiv сообщает о рекордном количестве заявок в октябре 2024 года: всего было подано 6000 новых заявок, а раздел «Компьютерное видение» является вторым по популярности разделом после машинного обучения.

Однако, поскольку раздел машинного обучения в Arxiv часто используется как дополнительная ‘или агрегированная суперкатегория, это свидетельствует о том, что компьютерное зрение и распознавание образов на самом деле являются наиболее часто отправляемой категорией Arxiv.

Собственная статистика Arxiv, безусловно, показывает, что информатика является явным лидером в подаче заявок:

Информатика (CS) доминирует в статистике подачи заявок в Arxiv за последние пять лет. Источник: https://info.arxiv.org/about/reports/submission_category_by_year.html

Индекс искусственного интеллекта Стэнфордского университета за 2024 год, хотя пока и не может отражать самые последние статистические данные, также подчеркивает заметный рост количества представленных научных работ по машинному обучению в последние годы:

Поскольку данные за 2024 год недоступны, отчет Стэнфорда, тем не менее, резко показывает рост объемов подачи статей по машинному обучению. Источник: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

Диффузия>Пролиферация сетчатых каркасов

Еще одной явной тенденцией, возникшей для меня, стал большой подъем в газетах, посвященных использованию моделей скрытой диффузии (LDM) в качестве генераторов ячеистых, ‘традиционных моделей компьютерной графики.

Проекты этого типа включают InstantMesh3D, 3Dtopia, Diffusion2, V3D, MVEdit и GIMDiffusion от Tencent, среди множества подобных предложений.

Генерация и усовершенствование сетки с помощью процесса на основе диффузии в 3Dtopia. Источник: https://arxiv.org/pdf/2403.02234

Это возникающее направление исследований можно рассматривать как молчаливую уступку продолжающейся трудноразрешимости генеративных систем, таких как модели диффузии, которые всего два года рекламировались как потенциальная замена всем системам, которые сейчас стремятся заселить модели диффузии и сетки; отводя распространение роли инструмента в технологиях и рабочих процессах, насчитывающих тридцать или более лет.

Stability.ai, создатели модели стабильной диффузии с открытым исходным кодом, только что выпустили Stable Zero123, которая может, среди прочего, использовать интерпретацию поля нейронного излучения (NeRF) изображения, сгенерированного искусственным интеллектом, в качестве моста для создания явной сетки. основанная на компьютерной графике модель, которую можно использовать в таких CGI-аренах, как Unity, в видеоиграх, дополненной реальности и в других платформах, требующих явных 3D-координат, в отличие от неявных (скрытых) координат непрерывных функций.

https://www.unite.ai/wp-content/uploads/2024/12/sd-model-AE.mp4

Нажмите, чтобы играть. Изображения, созданные в стабильной диффузии, можно преобразовать в рациональные сетки компьютерной графики. Здесь мы видим результат рабочего процесса изображение>CGI с использованием Stable Zero 123. Источник: https://www.youtube.com/watch?v=RxsssDD48Xc

3D Семантика

В порождающем пространстве ИИ проводится различие между реализациями 2D и 3D систем зрения и порождающими системами. Однако, например, рамки ориентирования лица представляющий 3D-объекты (лица) во всех случаях не все обязательно вычисляют адресуемые 3D-координаты.

Популярная система FANAlign, широко используемая в архитектурах дипфейков 2017 года (среди прочих), может учитывать оба этих подхода:

Выше двухмерные ориентиры генерируются исключительно на основе распознанных линеаментов и особенностей лица. Ниже они рационализированы в 3D X/Y/Z пространство. Источник: https://github.com/1adrianb/face-alignment

Итак, точно так же, как ‘deepfake стал двусмысленным и перехваченным термином, ‘3D’ также стал запутанным термином в исследованиях компьютерного зрения.

Для потребителей это, как правило, означает стерео-включенные средства массовой информации (например, фильмы, где зритель должен носить специальные очки); для практиков визуальных эффектов и моделистов, он обеспечивает различие между 2D-изображениями (например, концептуальные эскизы) и сетчатыми моделями, которыми можно манипулировать в ‘3D-программе, такой как Maya или Cinema4D.

Но в компьютерном зрении это просто означает, что декартова система координат существует где-то в скрытом пространстве модели – не что он обязательно может быть адресован или непосредственно манипулирован пользователем; по крайней мере, не без сторонних интерпретативных систем на основе CGI, таких как 3DMM или FLAME.

Поэтому понятие диффузия>3D неточен; не только может любой тип изображения (включая реальную фотографию) будет использоваться в качестве входных данных для создания генеративной модели CGI, но более подходящим является менее двусмысленный термин ‘mesh.

Однако, чтобы усугубить двусмысленность, диффузия является в большинстве новых проектов необходимо интерпретировать исходную фотографию в сетку. Так что лучшее описание может быть изображение в сетку, пока изображение>диффузия>сетка является еще более точным описанием.

Но это сложно продать на заседании совета директоров или в рекламном релизе, призванном привлечь инвесторов.

Свидетельства архитектурной тупиковой ситуации

Даже по сравнению с 2023 годом урожай статей за последние 12 месяцев демонстрирует растущее отчаяние по поводу устранения жестких практических ограничений на генерацию на основе диффузии.

Ключевым камнем преткновения остается создание повествовательного и временного видео, а также поддержание единообразного внешнего вида персонажей и объектов – не только в разных видеоклипах, но даже в течение короткого времени действия одного сгенерированного видеоклипа.

Последней эпохальной инновацией в диффузионном синтезе стало появление LoRA в 2022 году. В то время как новые системы, такие как Flux, улучшили некоторые из проблем с выбросами, такие как прежняя неспособность Stable Diffusion воспроизводить текстовый контент внутри сгенерированного изображения, а общее качество изображения улучшилось, большинство статей, которые я изучал в 2024 году, по сути, были просто перемещением. еда на тарелке.

Эти тупиковые ситуации возникали и раньше, с генеративными состязательными сетями (GAN) и с полями нейронного излучения (NeRF), обе из которых не смогли реализовать свой очевидный первоначальный потенциал – и обе из которых все чаще используются в более традиционных системах (таких как использование NeRF в Stable Zero 123, см. выше). Похоже, это также происходит с моделями диффузии.

Повороты исследования шплаттинга Гаусса

В конце 2023 года казалось, что метод растеризации 3D Gaussian Splatting (3DGS), дебютировавший как метод медицинской визуализации в начале 1990-х годов, должен был внезапно обогнать системы синтеза изображений человека на основе автокодера (такие как моделирование лица и отдых, а также передача личности).

Статья ASH 2023 года обещала людям 3DGS всего тела, в то время как Gaussian Avatars предлагала значительно улучшенную детализацию (по сравнению с автокодером и другими конкурирующими методами), а также впечатляющую перекрестную реконструкцию.

В этом году, однако, было относительно мало таких прорывных моментов для человеческого синтеза 3DGS; большинство статей, в которых рассматривалась проблема, были либо производными от вышеупомянутых работ, либо не смогли превысить их возможности.

Вместо этого акцент на 3DGS был сделан на улучшении его фундаментальной архитектурной осуществимости, что привело к появлению множества документов, предлагающих улучшенную внешнюю среду 3DGS. Особое внимание уделялось подходам 3DGS одновременной локализации и картирования (SLAM), в таких проектах, как Gaussian Splatting SLAM, Splat-SLAM, Gaussian-SLAM, DROID-Splat и многих других.

Те проекты, которые действительно пытались продолжить или расширить синтез человека на основе сплата, включали MIGS, GEM, EVA, OccFusion, FAGhead, HumanSplat, GGHead, HGM и Topo4D. Хотя есть и другие, ни одно из этих выступлений не соответствовало первоначальному влиянию статей, появившихся в конце 2023 года.

Эра‘тестовых образцов Вайнштейна находится в (медленном) упадке

Исследования из Юго-Восточной Азии в целом (и Китая в частности) часто содержат тестовые примеры, которые проблематично переиздать в обзорной статье, поскольку они содержат материал, который немного ‘пряный.

Вопрос о том, связано ли это с тем, что ученые-исследователи в этой части мира стремятся привлечь внимание своими результатами, остается предметом споров; но за последние 18 месяцев все большее число статей, посвященных генеративному искусственному интеллекту (изображению и/или видео), по умолчанию использовали молодых и полураздетых женщин и девочек в примерах проектов. Пограничные примеры этого NSFW включают UniAnimate, ControlNext и даже очень ‘сухих статей, таких как «Оценка согласованности движения с помощью Fréchet Video Motion Distance» (FVMD).

Это соответствует общим тенденциям субреддитов и других сообществ, которые собрались вокруг моделей скрытой диффузии (LDM), где Правило 34 остается в значительной степени очевидным.

Знаменитость Face-Off

Этот тип неуместных примеров пересекается с растущим признанием того, что процессы искусственного интеллекта не должны произвольно использовать изображения знаменитостей –, особенно в исследованиях, которые некритически используют примеры с участием привлекательных знаменитостей, часто женщин, и помещают их в сомнительные контексты.

Одним из примеров является AnyDressing, в котором, помимо очень молодых женских персонажей в стиле аниме, также широко используются личности классических знаменитостей, таких как Мэрилин Монро, и нынешних знаменитостей, таких как Энн Хэтэуэй (которая довольно громко осудила такое использование).

Произвольное использование нынешних и ‘классических знаменитостей по-прежнему довольно распространено в газетах Юго-Восточной Азии, хотя эта практика немного снижается. Источник: https://crayon-shinchan.github.io/AnyDressing/

В западный в статьях, эта конкретная практика заметно пришла в упадок на протяжении 2024 года, во главе с более крупными выпусками FAANG и других исследовательских организаций высокого уровня, таких как OpenAI. Критически осознавая потенциал будущих судебных разбирательств, эти крупные корпоративные игроки, похоже, все больше не желают даже представлять интересы вымышленный фотореалистичные люди.

Хотя системы, которые они создают (такие как Imagen и Veo2), явно способны к такому результату, примеры западных проектов генеративного искусственного интеллекта теперь имеют тенденцию к созданию ‘милых, Disneyfied и чрезвычайно ‘безопасных изображений и видео.

Несмотря на хвалебную способность Imagen создавать ‘фотореалистичных результатов, образцы, продвигаемые Google Research, обычно фантастичны, ‘семейств – фотореалистичных людей тщательно избегают или предоставляют минимальные примеры. Источник: https://imagen.research.google/

Мытье лица

В западной литературе по резюме этот неискренний подход особенно очевиден настройка системы – методов, которые способны создавать согласованные подобия конкретного человека в нескольких примерах (т.е. как LoRA и более старый DreamBooth).

Примеры включают ортогональное визуальное встраивание, LoRA-Composer, InstructBooth от Google и множество других.

Google InstructBooth повышает коэффициент привлекательности до 11, хотя история показывает, что пользователи больше заинтересованы в создании фотореальных людей, чем пушистых или пушистых персонажей. Источник: https://sites.google.com/view/instructbooth

Тем не менее, рост «‘милый пример» наблюдается в других направлениях исследований CV и синтеза, в таких проектах, как Comp4D, V3D, DesignEdit, UniEdit, FaceChain (который уступает более реалистичным ожиданиям пользователей на своей странице GitHub) и DPG-T2I, среди многих других.

Легкость, с которой такие системы (например, LoRA) могут создаваться домашними пользователями с относительно скромным оборудованием, привела к взрыву свободно загружаемых моделей знаменитостей в домене и сообществе civit.ai. Такое незаконное использование остается возможным благодаря открытому поиску таких архитектур, как Stable Diffusion и Flux.

Хотя часто можно пробить функции безопасности генеративных систем преобразования текста в изображение (T2I) и преобразования текста в видео (T2V) для производства материалов, запрещенных условиями использования платформы, разрыв между ограниченными возможностями лучшие системы (такие как RunwayML и Sora) а неограниченные возможности просто производительных систем (таких как Stable Video Diffusion, CogVideo и локальные развертывания Hunyuan) на самом деле не закрываются, как полагают многие.

Скорее, эти проприетарные системы и системы с открытым исходным кодом соответственно угрожают стать одинаково бесполезными: дорогие и гипермасштабные системы T2V могут стать чрезмерно подкошенными из-за опасений судебных разбирательств, в то время как отсутствие инфраструктуры лицензирования и надзора за набором данных в системах с открытым исходным кодом может полностью заблокировать их. вне рынка по мере ужесточения правил.

 

Впервые опубликовано во вторник, 24 декабря 2024 г

+ There are no comments

Add yours