Влияние игнорирования схемы выборки на прогнозирование бинарных показателей здоровья с помощью логистической регрессии: данные демографического и медицинского обследования Малави в рамках
ДомДом > Блог > Влияние игнорирования схемы выборки на прогнозирование бинарных показателей здоровья с помощью логистической регрессии: данные демографического и медицинского обследования Малави в рамках

Влияние игнорирования схемы выборки на прогнозирование бинарных показателей здоровья с помощью логистической регрессии: данные демографического и медицинского обследования Малави в рамках

Jan 23, 2024

BMC Public Health, том 23, номер статьи: 1674 (2023 г.) Ссылаться на эту статью

1 Альтметрика

Подробности о метриках

Коэффициенты рождаемости и смертности населения являются одними из важнейших статистических данных для планирования социально-экономической политики в любой стране. Поскольку уровень смертности детей в возрасте до пяти лет является одним из показателей мониторинга здоровья населения, он требует регулярной и точной оценки. Данные национальных демографических и медицинских обследований, которые легко доступны населению, стали средством ответа на большинство вопросов, связанных со здоровьем среди африканского населения, с использованием соответствующих статистических методов. Однако многие из таких приложений имеют тенденцию игнорировать эффект дизайна обследования при оценках, несмотря на наличие статистических инструментов, поддерживающих анализ. Мало что известно о количестве неточной информации, которая генерируется при прогнозировании смертности детей в возрасте до пяти лет. В этом исследовании оцениваются и сравниваются отклонения, возникающие при применении методов невзвешенной и взвешенной логистической регрессии для прогнозирования уровня смертности детей в возрасте до пяти лет в Малави с использованием данных общенационального опроса. Для определения систематической ошибки использовались данные демографических и медицинских обследований Малави за 2004, 2010 и 2015–2016 годы. Анализы проводились в программном обеспечении R версии 3.6.3 и версии Stata 12.0. Для оценки уровня смертности детей в возрасте до пяти лет использовалась модель логистической регрессии, которая включала различные био- и социально-демографические факторы, касающиеся ребенка, матери и домохозяйства. Результаты показали, что точность прогнозирования национального уровня смертности детей в возрасте до пяти лет зависит от кластерного взвешивания общей прогнозируемой вероятности детской смертности, независимо от того, была ли модель взвешена или нет. Взвешивание модели вызывало небольшие положительные и отрицательные изменения в различных оценках с фиксированным эффектом, что рассеивало результат взвешивания подобранных вероятностей смертей. В свою очередь, не было разницы между общим прогнозируемым уровнем смертности, полученным с использованием взвешенной модели и полученным с помощью невзвешенной модели. Мы рекомендуем учитывать весовые коэффициенты кластеров опроса при расчете общей прогнозируемой вероятности событий для бинарного результата в отношении здоровья. Это можно сделать, не беспокоясь о весах во время подбора модели, целью которой является прогнозирование параметра совокупности.

Отчеты экспертной оценки

Уровень смертности детей в возрасте от нуля до пятидесяти девяти месяцев является полезным индикатором для мониторинга национальных и глобальных целей здравоохранения [1, 16, 32]. Таким образом, оценка общего числа смертей, наблюдаемых в возрастной группе до пяти лет, требует надежных и надежных методов для получения точной аппроксимации для принятия политических решений [13, 16]. Сообщалось о слабой регистрации жизненно важных систем и высоких показателях занижения смертности в медицинских учреждениях в странах Африки к югу от Сахары [23, 28, 55]. Большинство оценок уровня смертности детей в возрасте до пяти лет в регионе основаны на информации, полученной в результате национальных исследований, таких как данные демографических и медицинских исследований (DHS) [21, 22, 42, 46]. Именно это обусловливает необходимость использования статистического анализа, основанного на дизайне обследования, такого как весовые коэффициенты выборки, для получения точных оценок [5, 19, 20, 40, 44, 53]. Вес выборки является обратной величиной вероятности включения субъекта в выборку. Это указывает на количество субъектов в популяции, которую представляет каждая единица выборки. В ходе регрессионного анализа вес субъекта вводится как функционал ковариат в модели, которая применяется к данным опроса, чтобы компенсировать использование неравных включений выборки, отсутствие ответов и недостаточный охват выборки [7, 11]. , 36, 42, 50, 57].

Однако эффект дизайна обследования игнорируется в большинстве случаев применения методов регрессии, используемых для оценки уровня смертности детей в возрасте до пяти лет в странах Африки к югу от Сахары, что потенциально искажает оценки и прогнозы [18, 41, 43, 52]. Эта проблема также оказалась верной для других исследований, в которых анализировались бинарные последствия для здоровья, помимо смертности. Например, наличие или отсутствие у пациентов диабета [48], диареи [33], шистосомоза [14, 31] и малярии [29] среди других заболеваний. Эта тенденция может отражать отсутствие исследований, демонстрирующих техническое использование планов опросов при применении методов регрессии к двоичным данным о здоровье. Это также может быть связано с тем, что большинство рассмотренных исследований были направлены на выявление факторов риска соответствующих последствий для здоровья, а не на прогнозирование степени самого физического состояния, которого можно было бы достичь у населения любым способом [9, 17, 54]. Существует нехватка литературы о предвзятости, которую можно было бы допустить, если бы национальный уровень смертности детей в возрасте до пяти лет или другие данные о состоянии здоровья с бинарным ответом были предсказаны на основе большого общенационального исследования без учета эффекта схемы. Таким образом, в настоящем исследовании оценивается погрешность, которую может допустить исследователь при прогнозировании уровня смертности детей в возрасте до пяти лет с использованием методов взвешенной и невзвешенной логистической регрессии. Погрешность в оценке уровня смертности детей в возрасте до пяти лет представляет собой несоответствие между уровнем, рассчитанным с помощью случайных выборок, и фактическим уровнем, зарегистрированным в ходе рутинных наблюдений. Можно было бы ожидать, что разница между двумя значениями будет равна нулю, и в этом случае оценщик, примененный к данным обследования, считается несмещенным [39]. В настоящем исследовании для расчета систематической ошибки используются три недавних набора данных демографических и медицинских обследований (DHS) в Малави за 2004, 2010 и 2015–2016 годы, а также официальные показатели смертности детей в возрасте до пяти лет, сообщенные соответствующим DHS. Для каждого набора данных DHS используются различные размеры выборки, чтобы учесть влияние размера выборки при оценке систематической ошибки.