Монетизация исследований для обучения искусственному интеллекту: риски и передовой опыт

По мере роста спроса на генеративный ИИ растет и потребность в высококачественных данных для обучения этих систем. Научные издатели начали монетизировать свой исследовательский контент, чтобы предоставить данные обучения для больших языковых моделей (LLM). Хотя эта разработка создает новый поток доходов для издателей и расширяет возможности генеративного искусственного интеллекта для научных открытий, она поднимает критические вопросы о целостности и надежности используемых исследований. Это поднимает важный вопрос: заслуживают ли надежной продажи наборы данных и какие последствия эта практика имеет для научного сообщества и генеративных моделей искусственного интеллекта?

Рост монетизированных исследовательских сделок

Крупнейшие академические издатели, в том числе Wiley, Taylor & Francisco и другие, сообщили о значительных доходах от лицензирования своего контента технологическим компаниям, разрабатывающим генеративные модели искусственного интеллекта. Например, только в этом году Wiley сообщила о доходах от таких сделок на сумму более 40 миллионов долларов. Эти соглашения позволяют компаниям, занимающимся искусственным интеллектом, получать доступ к разнообразным и обширным наборам научных данных, что, предположительно, улучшает качество их инструментов искусственного интеллекта.

Презентация издателей проста: лицензирование обеспечивает лучшие модели искусственного интеллекта, принося пользу обществу и одновременно вознаграждая авторов гонорарами. Эта бизнес-модель выгодна как технологическим компаниям, так и издателям. Однако растущая тенденция к монетизации научных знаний сопряжена с рисками, главным образом, когда сомнительные исследования проникают в эти наборы обучающих данных ИИ.

Тень фальшивых исследований

Научному сообществу не чужды вопросы мошеннических исследований. Исследования показывают, что многие опубликованные результаты ошибочны, предвзяты или просто ненадежны. Опрос 2020 года показал, что почти половина исследователей сообщили о таких проблемах, как выборочное представление данных или плохо спланированные полевые исследования. В 2023 году более 10 000 статей были отозваны из-за фальсифицированных или ненадежных результатов, и это число продолжает расти ежегодно. Эксперты считают, что эта цифра представляет собой верхушку айсберга, в научных базах данных циркулируют бесчисленные сомнительные исследования.

Кризис в первую очередь был вызван “бумажными фабриками, ” теневыми организациями, которые проводят сфабрикованные исследования, часто в ответ на академическое давление в таких регионах, как Китай, Индия и Восточная Европа. По оценкам, около 2% журнальных материалов во всем мире поступает с бумажных фабрик. Эти фиктивные статьи могут напоминать законные исследования, но пронизаны вымышленными данными и необоснованными выводами. Вызывает тревогу то, что такие статьи проходят рецензирование и попадают в уважаемые журналы, ставя под угрозу надежность научных идей. Например, во время пандемии COVID-19 ошибочные исследования ивермектина ошибочно предполагали его эффективность в качестве лечения, сея путаницу и задерживая эффективные меры общественного здравоохранения. Этот пример подчеркивает потенциальный вред распространения ненадежных исследований, где ошибочные результаты могут оказать существенное влияние.

Последствия для обучения и доверия к искусственному интеллекту

Последствия глубоки, когда LLM обучаются работе с базами данных, содержащими мошеннические или некачественные исследования. Модели искусственного интеллекта используют закономерности и взаимосвязи в своих обучающих данных для получения результатов. Если входные данные повреждены, выходные данные могут увековечить неточности или даже усилить их. Этот риск особенно высок в таких областях, как медицина, где неправильные идеи, генерируемые искусственным интеллектом, могут иметь опасные для жизни последствия.
Более того, этот вопрос угрожает доверию общественности к академическим кругам и искусственному интеллекту. Поскольку издатели продолжают заключать соглашения, они должны решать проблемы, связанные с качеством продаваемых данных. Невыполнение этого требования может нанести вред репутации научного сообщества и подорвать потенциальные социальные выгоды ИИ.

Обеспечение достоверных данных для ИИ

Снижение рисков ошибочных исследований, нарушающих обучение искусственному интеллекту, требует совместных усилий издателей, компаний, занимающихся искусственным интеллектом, разработчиков, исследователей и более широкого сообщества. Издатели должны улучшить процесс рецензирования, чтобы выявить ненадежные исследования, прежде чем они попадут в наборы обучающих данных. Может помочь предоставление лучших вознаграждений рецензентам и установление более высоких стандартов. Здесь решающее значение имеет открытый процесс рассмотрения. Это обеспечивает большую прозрачность и подотчетность, помогая укрепить доверие к исследованиям.
Компании, занимающиеся искусственным интеллектом, должны более внимательно относиться к тому, с кем они работают, при поиске исследований для обучения искусственному интеллекту. Ключевое значение имеет выбор издателей и журналов с хорошей репутацией высококачественных, хорошо рецензируемых исследований. В этом контексте стоит внимательно посмотреть на послужной список издателя, например, как часто они отказываются от статей или насколько они открыты в процессе рецензирования. Избирательность повышает достоверность данных и укрепляет доверие в ИИ и исследовательских сообществах.

Разработчикам ИИ необходимо взять на себя ответственность за данные, которые они используют. Это означает работу с экспертами, тщательную проверку исследований и сравнение результатов многочисленных исследований. Сами инструменты искусственного интеллекта также могут быть разработаны для выявления подозрительных данных и снижения рисков дальнейшего распространения сомнительных исследований.

Прозрачность также является важным фактором. Издатели и компании, занимающиеся искусственным интеллектом, должны открыто делиться подробностями о том, как используются исследования и куда идут роялти. Такие инструменты, как Generative AI Licensing Agreement Tracker, перспективны, но требуют более широкого внедрения. Исследователи также должны иметь право голоса в том, как используется их работа. Политика согласия, подобная политике издательства Cambridge University Press, предлагает авторам контроль над своим вкладом. Это укрепляет доверие, обеспечивает справедливость и заставляет авторов активно участвовать в этом процессе.

Более того, следует поощрять открытый доступ к высококачественным исследованиям, чтобы обеспечить инклюзивность и справедливость в разработке ИИ. Правительства, некоммерческие организации и отраслевые игроки могут финансировать инициативы открытого доступа, снижая зависимость от коммерческих издателей в предоставлении критически важных наборов обучающих данных. Кроме того, индустрия искусственного интеллекта нуждается в четких правилах этического поиска данных. Сосредоточив внимание на надежных, хорошо рецензируемых исследованиях, мы можем создавать более совершенные инструменты ИИ, защищать научную целостность и поддерживать доверие общественности к науке и технологиям.

Итог

Монетизация исследований для обучения искусственному интеллекту открывает как возможности, так и проблемы. Хотя лицензирование академического контента позволяет разрабатывать более мощные модели искусственного интеллекта, оно также вызывает обеспокоенность по поводу целостности и надежности используемых данных. Ошибочные исследования, в том числе исследования “бумажных фабрик,” могут испортить наборы обучающих данных ИИ, что приведет к неточностям, которые могут подорвать доверие общества и потенциальные преимущества ИИ. Чтобы гарантировать, что модели искусственного интеллекта построены на надежных данных, издатели, компании, занимающиеся искусственным интеллектом, и разработчики должны работать вместе, чтобы улучшить процессы экспертной оценки, повысить прозрачность и расставить приоритеты в высококачественных, хорошо проверенных исследованиях. Поступая таким образом, мы можем защитить будущее ИИ и поддержать целостность научного сообщества.

+ There are no comments

Add yours