Регулярная физическая активность является краеугольным камнем здоровья, способствуя долголетию, снижению риска заболеваний, улучшению настроения и повышению уровня энергии. Однако лишь незначительная часть населения следует рекомендованным нормам физической нагрузки. Возникает вопрос: какие факторы определяют приверженность людей тренировкам?
В поисках ответа на этот вопрос команда исследователей из Университета Миссисипи применила передовые технологии. Ученые проанализировали национальные данные о состоянии здоровья с использованием машинного обучения, чтобы выявить закономерности, объясняющие, кто придерживается рекомендаций по физической активности и почему. Такой подход открывает новые возможности для врачей и тренеров в поддержке здоровья населения, помогая понять, что мотивирует различных людей оставаться активными.
Исследование, результаты которого опубликованы в журнале Scientific Reports, основывалось на данных, собранных в период с 2009 по 2018 год в рамках Национального обследования состояния здоровья и питания (NHANES) – масштабного американского проекта, отслеживающего привычки в области здоровья и питания. В команду исследователей вошли аспиранты Сынбак Ли и Джу-Пил Чхве, а также профессор Минсу Кан. Для обработки более 30 000 анкет они использовали возможности машинного обучения.
Машинное обучение позволяет компьютерам выявлять скрытые закономерности в огромных массивах информации. В отличие от традиционных статистических методов, требующих «чистых» и линейно зависимых данных, машинное обучение эффективно работает даже со сложными и «зашумленными» наборами. Эта технология способна определять, какие именно фрагменты информации имеют наибольшее значение для прогнозирования поведения, например, кто с большей вероятностью будет регулярно заниматься спортом.
Исследователи отобрали для анализа данные только взрослых людей в возрасте 18 лет и старше, не имеющих заболеваний, которые могли бы ограничивать физическую активность, таких как рак, диабет или артрит. После удаления анкет с неполными ответами окончательная выборка составила 11 638 участников.
Ответы каждого участника были сгруппированы по трем основным направлениям: демографические данные (возраст, пол, раса, доход и т.д.), антропометрические показатели (например, индекс массы тела и окружность талии) и особенности образа жизни (употребление алкоголя, курение, продолжительность сна и время, проводимое сидя). Целью было создание моделей, способных предсказывать, соблюдает ли человек еженедельные рекомендации по физической активности.
Согласно рекомендациям американских органов здравоохранения, взрослым следует уделять не менее 150 минут умеренной или 75 минут интенсивной физической активности еженедельно. К сожалению, среднестатистический американец посвящает физической активности лишь около двух часов в неделю, что составляет всего половину от рекомендуемой нормы.
Используя шесть различных алгоритмов машинного обучения, исследователи построили 18 прогностических моделей для проверки различных комбинаций факторов. Эффективность этих моделей оценивалась по их точности, способности выявлять закономерности и сбалансированности прогнозов.
Наилучшие результаты показала модель «дерева решений», использующая все доступные переменные. Ее точность составила около 70,5%, а показатель F1 (мера, сочетающая точность и полноту) достиг 0,819. Это означает, что модель в большинстве случаев корректно предсказывала, кто из участников соблюдает рекомендации по физической активности.
Однако помимо общей эффективности моделей, команда стремилась определить, какие конкретные факторы оказались наиболее значимыми для прогнозирования. С помощью метода оценки важности признаков (Permutation Feature Importance, PFI) было установлено, что сидячий образ жизни, возраст, пол и уровень образования являются ключевыми предикторами. Несмотря на некоторые различия в результатах разных моделей, эти факторы неизменно демонстрировали свою важность.
Джу-Пил Чхве отметил, что ожидал значимости таких факторов, как пол, индекс массы тела, расовая принадлежность или возраст, для прогностической модели, однако был удивлен тем, насколько весомым оказался уровень образования. В то время как пол, ИМТ и возраст являются скорее внутренними, присущими организму характеристиками, уровень образования представляет собой внешний фактор.
Исследователи обратили внимание, что люди, проводящие много времени сидя, имеющие более низкий уровень образования или принадлежащие к определенному полу, с меньшей вероятностью соблюдали рекомендации по физической активности. Эти выводы помогают понять, кто и почему склонен придерживаться активного образа жизни, и могут лечь в основу будущих программ, направленных на формирование здоровых привычек.
Несмотря на многообещающие результаты, ученые указали на некоторые ограничения своего подхода. Одна из ключевых проблем заключается в том, что данные об уровне активности были получены на основе самоотчетов участников. Известно, что люди часто переоценивают объем своих тренировок, когда их просят вспомнить это по памяти.
Джу-Пил Чхве подчеркнул, что использование субъективно измеренных данных о физической активности является одним из ограничений исследования. По его словам, «более точные, объективные данные повысили бы надежность» полученных выводов.
Будущие исследования могли бы устранить этот недостаток путем использования носимых фитнес-трекеров или приложений, автоматически регистрирующих физическую активность. Машинное обучение, примененное к таким объективным данным, позволило бы выявить еще более устойчивые и детализированные закономерности.
Тем не менее, данное исследование демонстрирует огромный потенциал машинного обучения для изучения поведенческих аспектов здоровья. Эта технология не просто указывает на существующие тенденции, но и помогает раскрыть первопричины их возникновения.
Значение этих открытий велико, поскольку понимание причин, лежащих в основе отношения человека к физическим упражнениям, может помочь специалистам в области здравоохранения разрабатывать более эффективные и персонализированные планы. Вместо универсальных рекомендаций врачи смогут использовать модели, основанные на данных, для определения индивидуальных мотивирующих факторов для каждого пациента.
Например, если человек ведет сидячий образ жизни и имеет низкий уровень образования, ему может потребоваться дополнительная поддержка или иные типы мотивации для поддержания активности. Осознание важности этих факторов позволяет экспертам создавать программы, адаптированные под нужды каждого конкретного человека.
Эти знания особенно ценны для тренеров, инструкторов и разработчиков приложений для здоровья. Они могут создавать программы тренировок, которые будут восприниматься как более достижимые и будут соответствовать образу жизни, возрасту и повседневным привычкам пользователя. Такой подход делает следование плану тренировок более простым и реалистичным.
Профессор Кан так сформулировал цель исследования: «Соблюдение рекомендаций по физической активности является проблемой общественного здравоохранения из-за его связи с профилактикой заболеваний и общими показателями здоровья. Мы хотели использовать передовые методы анализа данных, такие как машинное обучение, для прогнозирования этого поведения».
Машинное обучение уже находило применение в смежных областях. Например, некоторые исследователи создавали модели для классификации физической активности у детей с использованием датчиков движения, другие применяли нейронные сети для сортировки уровней активности на основе движений тела. Однако данная работа одной из первых сосредоточилась на прогнозировании приверженности рекомендациям по активности, используя исключительно данные самоотчетов и широкий спектр демографических, антропометрических и поведенческих факторов.
Результаты исследования убедительно доказывают, что машинное обучение может стать мощным инструментом в сфере общественного здравоохранения. Оно выявляет закономерности, которые могут оставаться незамеченными при использовании традиционных методов, и предоставляет исследователям новые возможности для помощи людям в ведении более здорового и долгого образа жизни.