مجموعة بيانات عالمية مصغرة موزعة على الشبكة للناتج المحلي الإجمالي (GDP) للفرد بالأسعار المعادلة للقوة الشرائية من 1990 إلى 2022 Downscaled gridded global dataset for gross domestic product (GDP) per capita PPP over 1990–2022

المجلة: Scientific Data، المجلد: 12، العدد: 1
DOI: https://doi.org/10.1038/s41597-025-04487-x
PMID: https://pubmed.ncbi.nlm.nih.gov/39885148
تاريخ النشر: 2025-01-30
المؤلف: Matti Kummu وآخرون
الموضوع الرئيسي: استخدام الأراضي وخدمات النظام البيئي

نظرة عامة

تقدم هذه الدراسة مجموعة بيانات مفصلة عن الناتج المحلي الإجمالي للفرد، تم تقليصها إلى المستوى الإداري 2 (43,501 وحدة) للسنوات من 1990 إلى 2022. تعالج مجموعة البيانات هذه قيود مجموعات البيانات السابقة، التي شملت فقط البيانات الفرعية المبلغ عنها حتى عام 2010. تم اشتقاق مجموعة البيانات الجديدة من بيانات الناتج المحلي الإجمالي للفرد المبلغ عنها عبر 89 دولة و2,708 وحدة إدارية، باستخدام تقنيات مبتكرة للتقدير والتقليص.

أظهرت تطبيقات خوارزميات التعلم الآلي للتقليص أداءً قويًا، حيث حققت معامل تحديد ($R^2$) قدره 0.79 خلال التحقق المتبادل و0.80 على مجموعة بيانات الاختبار، إلى جانب ارتباط دقيق عالي مع مجموعات البيانات المبلغ عنها (Pearson $R = 0.88$). تشمل مجموعة البيانات بيانات سنوية لثلاثة مستويات إدارية: الوطنية (المستوى 0، 237 وحدة)، الإقليمية (المستوى 1، 2,708 وحدة)، والبلدية (المستوى 2، 43,501 وحدة). مع دقتها المكانية المحسنة وتغطيتها الزمنية الممتدة، من المتوقع أن تساعد هذه المجموعة بشكل كبير في التحليلات المكانية العالمية والإقليمية، بما في ذلك النمذجة الاجتماعية البيئية وتقييمات المرونة الاقتصادية.

مقدمة

تسلط مقدمة هذه الورقة البحثية الضوء على التقدم الكبير في مجموعات بيانات نظام الأرض العالمي والمناخ، والتي مكنت من إجراء تقييمات مفصلة للمخاطر والضعف على مقاييس مكانية دقيقة. ومع ذلك، لا يزال هناك تحدٍ حاسم بسبب توفير البيانات الاجتماعية والاقتصادية التقليدية على المستوى الوطني، مما يعيق غالبًا التباين داخل البلدان ويؤدي إلى عدم دقة في التحليلات. أدت الجهود الأخيرة إلى إنتاج مجموعات بيانات فرعية لمؤشرات اجتماعية واقتصادية متنوعة، ومع ذلك، كانت هناك حاجة إلى مجموعة بيانات عالمية شاملة ومنسقة للناتج المحلي الإجمالي للفرد، خاصة تلك التي تغطي العقود الأخيرة.

لمعالجة هذه الفجوة، يقدم المؤلفون مجموعة بيانات جديدة تم بناؤها عالميًا ومنسقة ومملوءة للناتج المحلي الإجمالي للفرد (PPP) تغطي السنوات من 1990 إلى 2022، تم تقليصها إلى المستوى الإداري 2 (admin 2) عبر 43,501 وحدة. تشمل مجموعة البيانات هذه كل من التنسيقات الشبكية (بدقة 5 دقائق قوسية) والأشكال المتعددة الأضلاع لثلاثة مستويات إدارية: الوطنية (admin 0)، الإقليمية (admin 1)، والبلدية (admin 2). استخدم المؤلفون منهجيات مبتكرة لتقدير البيانات وتقليصها، مما أدى إلى تقديرات أكثر دقة وشمولية للناتج المحلي الإجمالي. تم تصميم مجموعة البيانات لدعم مجموعة متنوعة من التحليلات المتعلقة بتأثيرات تغير المناخ، والتحضر، والنمو الاقتصادي، والتنمية المستدامة، خاصة في المناطق التي تفتقر إلى بيانات عالية الدقة.

الطرق

في هذه الدراسة، استخدم المؤلفون نهجًا منهجيًا لتقدير الناتج المحلي الإجمالي للفرد على المستوى الإقليمي (admin 1) باستخدام بيانات الناتج المحلي الإجمالي للفرد الوطنية (admin 0) التي تم جمعها من مصادر متنوعة. في البداية، جمعوا بيانات الناتج المحلي الإجمالي للفرد الوطنية عند تعادل القوة الشرائية (PPP) وعالجوا البيانات المفقودة من خلال الاستيفاء الخطي وطريقة تقدير جديدة. بعد ذلك، جمعوا البيانات الإقليمية من منظمات مثل منظمة التعاون والتنمية الاقتصادية (OECD) ويوروستات، وحسبوا نسبة الناتج المحلي الإجمالي الفرعي من خلال مقارنة قيم admin 1 بقيم admin 0، مع وزنها بناءً على بيانات السكان. ثم تم استيفاء هذه النسبة لملء الفجوات في السلاسل الزمنية، وتم تطبيق أحدث النسب لتقدير الناتج المحلي الإجمالي للفرد على المستوى الإقليمي.

أبلغت الدراسة عن بيانات لـ 237 دولة وقامت بتقليص التقديرات إلى 43,501 وحدة إدارية، تغطي الفترة من 1990 إلى 2022. استخدم المؤلفون خوارزميات التعلم الآلي لتحسين طريقة التقليص من مستويات admin 1 إلى admin 2. تم تنفيذ المنهجية العامة باستخدام R (الإصدار 4.3.2) لمعظم التحليلات، بينما تم استخدام MATLAB (الإصدار 2024a) بشكل خاص لعملية التقليص. تسلط النتائج الضوء على الطبيعة الشاملة لمجموعة البيانات والتقنيات المبتكرة المستخدمة لتعزيز دقة تقديرات الناتج المحلي الإجمالي الفرعي.

المناقشة

في هذا القسم، يوضح المؤلفون المنهجية المستخدمة لإنشاء مجموعة بيانات شاملة عن الناتج المحلي الإجمالي للفرد (PPP) لكل من المستويات الوطنية (admin 0) والفرعية (admin 1 وadmin 2) من 1985 إلى 2022. تم تجميع مجموعة البيانات الوطنية من مصادر متعددة، بما في ذلك البنك الدولي وصندوق النقد الدولي ووكالة الاستخبارات المركزية، مما أسفر عن بيانات لـ 237 دولة. تم استخدام منهجية جديدة لملء الفجوات، باستخدام الاستيفاء الخطي ونهج تقدير متعدد الخطوات لمعالجة القيم المفقودة، خاصة في بداية ونهاية السلاسل الزمنية. تضمنت هذه الطريقة تجميع الدول بناءً على تغطية البيانات، وبناء نماذج خطية لتقدير القيم المفقودة، وتنسيق البيانات لضمان التناسق عبر مستويات إدارية مختلفة.

بالنسبة لمجموعة البيانات الفرعية، وسع المؤلفون التغطية الزمنية وقاموا بتحديث البيانات الموجودة، مما أسفر عن 2,708 وحدة فرعية. حسبوا المتوسطات الوطنية الموزونة بالسكان وأقاموا نسبًا بين الناتج المحلي الإجمالي الفرعي والناتج المحلي الإجمالي الوطني لضمان القابلية للمقارنة. استخدمت عملية التقليص إلى مستوى admin 2 خوارزميات التعلم الآلي، مع التركيز على تحسين أداء النموذج من خلال تحسين بايزي. تتضمن مجموعة البيانات النهائية الناتج المحلي الإجمالي للفرد بدقة متنوعة ومتاحة من خلال مستودع عبر الإنترنت، مما يوفر موردًا قيمًا للتحليل الاقتصادي والبحث.

Journal: Scientific Data, Volume: 12, Issue: 1
DOI: https://doi.org/10.1038/s41597-025-04487-x
PMID: https://pubmed.ncbi.nlm.nih.gov/39885148
Publication Date: 2025-01-30
Author(s): Matti Kummu et al.
Primary Topic: Land Use and Ecosystem Services

Overview

This research presents a detailed gridded dataset of GDP per capita, downscaled to the administrative level 2 (43,501 units) for the years 1990 to 2022. This dataset addresses the limitations of previous datasets, which only included reported subnational data up to 2010. The new dataset is derived from reported subnational GDP per capita data across 89 countries and 2,708 administrative units, utilizing innovative extrapolation and downscaling techniques.

The application of machine learning algorithms for downscaling demonstrated robust performance, achieving a coefficient of determination ($R^2$) of 0.79 during cross-validation and 0.80 on the test dataset, alongside a high accuracy correlation with reported datasets (Pearson $R = 0.88$). The dataset encompasses annual data for three administrative levels: national (level 0, 237 units), provincial (level 1, 2,708 units), and municipal (level 2, 43,501 units). With its enhanced spatial resolution and extended temporal coverage, this dataset is poised to significantly aid in global and regional spatial analyses, including socio-environmental modeling and assessments of economic resilience.

Introduction

The introduction of this research paper highlights the significant advancements in global earth system and climate datasets, which have enabled detailed risk and vulnerability assessments at fine spatial scales. However, a critical challenge remains due to the traditional provision of socioeconomic data at the national level, which often obscures within-country heterogeneity and leads to inaccuracies in analyses. Recent efforts have produced subnational datasets for various socioeconomic indicators, yet a comprehensive and harmonized global subnational GDP per capita dataset has been lacking, particularly one that spans recent decades.

To address this gap, the authors present a newly constructed global harmonized and gap-filled GDP per capita dataset (PPP) covering the years 1990 to 2022, downscaled to the administrative level 2 (admin 2) across 43,501 units. This dataset includes both gridded (5 arc-min resolution) and polygon formats for three administrative levels: national (admin 0), provincial (admin 1), and municipal (admin 2). The authors employed innovative methodologies for data extrapolation and downscaling, resulting in more accurate and comprehensive GDP estimates. The dataset is designed to support a variety of analyses related to climate change impacts, urbanization, economic growth, and sustainable development, particularly in regions where high-resolution data are scarce.

Methods

In this study, the authors employed a systematic approach to estimate GDP per capita at the provincial (admin 1) level using national (admin 0) GDP per capita data collected from various sources. Initially, they gathered national GDP per capita at purchasing power parity (PPP) and addressed missing data through linear interpolation and a novel extrapolation method. Subsequently, they collected provincial data from organizations such as the OECD and Eurostat, calculating the subnational GDP ratio by comparing admin 1 values to admin 0 values, weighted by population data. This ratio was then interpolated to fill gaps in the time series, and the latest ratios were applied to estimate GDP per capita at the provincial level.

The study reported data for 237 countries and downscaled estimates to 43,501 administrative units, covering the period from 1990 to 2022. The authors utilized machine learning algorithms to refine their downscaling method from admin 1 to admin 2 levels. The overall methodology was implemented using R (version 4.3.2) for most analyses, while MATLAB (version 2024a) was specifically used for the downscaling process. The findings highlight the comprehensive nature of the dataset and the innovative techniques employed to enhance the accuracy of subnational GDP estimations.

Discussion

In this section, the authors detail the methodology used to create a comprehensive dataset of GDP per capita (PPP) for both national (admin 0) and subnational (admin 1 and admin 2) levels from 1985 to 2022. The national dataset was compiled from multiple sources, including the World Bank, IMF, and CIA, resulting in data for 237 countries. A novel gap-filling methodology was employed, utilizing linear interpolation and a multistep extrapolation approach to address missing values, particularly at the beginning and end of time series. This method involved grouping countries based on data coverage, constructing linear models to estimate missing values, and harmonizing the data to ensure consistency across different administrative levels.

For the subnational dataset, the authors expanded the temporal coverage and updated existing data, resulting in 2,708 subnational units. They calculated population-weighted national averages and established ratios between subnational and national GDP per capita to ensure comparability. The downscaling process to admin 2 level utilized machine learning algorithms, with a focus on optimizing model performance through Bayesian optimization. The final dataset includes GDP per capita at various resolutions and is accessible through an online repository, providing a valuable resource for economic analysis and research.