DOI: https://doi.org/10.1140/epjds/s13688-024-00517-7
تاريخ النشر: 2025-01-03
المؤلف: Cheng Zhao وآخرون
الموضوع الرئيسي: طرق التنبؤ بسوق الأسهم
نظرة عامة
تقدم ورقة البحث نموذجًا جديدًا يسمى ETT، والذي يدمج تحليل النمط التجريبي الكامل (CEEMD)، Time2Vec، وهياكل Transformer لتعزيز توقع أسعار الأسهم في سوق الأسهم الصينية. يعالج النموذج التحديات التي تطرحها عدم الخطية وتقلب بيانات سلسلة زمنية الأسهم من خلال تحليل أسعار الأسهم إلى مكونات ترددية متنوعة، مما يلتقط الأنماط الدورية وغير الدورية، ويتعلم الاعتماديات طويلة الأجل. أدى تطبيق ETT إلى تقليل بنسبة 4% في متوسط الخطأ التربيعي (MSE) وزيادة بنسبة 58% في العوائد التراكمية المتوسطة عند اختباره على مجموعات بيانات CSI 100 وHushen 300.
في الختام، يتفوق نموذج ETT بشكل كبير على المعايير الحالية للتعلم العميق من حيث دقة التنبؤ والعوائد التراكمية، كما يتضح من الاختبارات العكسية من 1 يناير 2019 إلى 31 ديسمبر 2021. تشمل الدراسة أيضًا دراسات إلغاء للتحقق من فعالية كل مكون من مكونات النموذج. ومع ذلك، يعترف المؤلفون بالقيود، مثل التركيز على مجموعتين فقط من بيانات الأسهم الصينية، ويقترحون أن الأبحاث المستقبلية يمكن أن تتوسع لتشمل الأسواق المالية الدولية وأدوات مالية أخرى مثل العقود الآجلة والسندات، والتي قد توفر رؤى أوسع حول قابلية تطبيق النموذج.
مقدمة
تسلط مقدمة الورقة الضوء على أهمية سوق الأسهم كعنصر حيوي في الاقتصاد، مشيرة إلى قابليته للتأثر بعوامل مختلفة مثل ظروف السوق، السياسة، الاقتصاد الكلي، وعلم نفس المستثمرين. تسهم هذه العوامل في تعقيد تحركات أسعار الأسهم، التي تتميز بعدم الخطية وعدم الاستقرار، مما يعقد التنبؤ الدقيق للأسعار. تم استخدام نماذج الاقتصاد القياسي التقليدية مثل GARCH وARMA في توقع الأسهم ولكن لها قيود في التقاط الميزات غير الدورية لبيانات الأسهم. بالمقابل، أظهرت نماذج التعلم الآلي، بما في ذلك Random Forest وآلات الدعم الناقل، وعدًا ولكن غالبًا ما تواجه صعوبات مع مجموعات البيانات الكبيرة.
لمعالجة هذه التحديات، تقدم الورقة نموذجًا جديدًا لتوقع الأسهم يسمى CEEMD-Time2-Vec-Transformer (ETT)، والذي يدمج طرق تحليل النمط التجريبي (EMD) وTime2Vec مع هيكل Transformer. يهدف هذا النهج إلى التقاط الميزات الدورية وغير الدورية لسلاسل زمنية الأسهم بشكل فعال، مما يعزز الأداء التنبؤي. توضح الورقة مساهماتها، بما في ذلك التحقق من صحة نموذج ETT من خلال التجارب على مجموعات بيانات CSI 100 وHushen 300، مما يظهر أدائه المتفوق في تحقيق عوائد زائدة أعلى مقارنة بالنماذج الحالية. كما تم توضيح هيكل الورقة، مع تخصيص الأقسام اللاحقة للعمل المتعلق، المنهجية، النتائج التجريبية، والاستنتاجات.
طرق
في هذه الدراسة، يبحث المؤلفون في توقع تقلب الأسهم باستخدام تسلسل ملاحظات تاريخية لبيانات الأسهم ممثلة كـ \( X = \{x_1, x_2, \ldots, x_T\} \in \mathbb{R}^{T \times F} \)، حيث \( T \) تشير إلى خطوات الزمن و \( F \) تشير إلى عدد الميزات. يعالج النموذج مصفوفة الميزات \( X \) لتوقع علامة \( y \)، المحددة بالصيغة \( y = \frac{p_T – p_{T-1}}{p_T} \)، حيث \( p_T \) هو سعر الإغلاق في الوقت \( T \).
لأغراض التحقق التجريبي، استخدم المؤلفون مجموعات بيانات CSI 100 وHushen 300 المستمدة من Tushare، والتي تشمل بيانات التداول اليومية من 1 يناير 2019 إلى 31 ديسمبر 2021. تشمل مجموعات البيانات سمات متنوعة مثل رمز التداول، التاريخ، ومقاييس الأسعار. تم اختيار ما مجموعه 99 ميزة بناءً على ارتباطها العالي بالعلامة المستهدفة وانخفاض الارتباط بين الميزات، كما هو موضح في الجدول 1. شمل معالجة البيانات الانضمام الصحيح لبيانات التداول مع مجموعة بيانات Tushare، ومعالجة القيم الشاذة، وملء القيم المفقودة ببيانات اليوم السابق، وتطبيع مجموعة البيانات لضمان الاتساق في التحليل.
نتائج
في قسم النتائج، توضح الدراسة نتائج التدريب والتنبؤ لنموذج Transformer المعدل، مع التركيز على تقييم الأداء التنبؤي من خلال مقاييس خسارة متنوعة. تشمل المقاييس المستخدمة متوسط الخطأ المطلق (MAE)، متوسط الخطأ التربيعي (MSE)، الجذر التربيعي لمتوسط الخطأ (RMSE)، ومتوسط الخطأ النسبي المطلق (MAPE)، مع تقديم صيغها المعنية. تخدم هذه المقاييس لتحديد دقة النموذج التنبؤية، حيث تشير القيم المنخفضة إلى أداء متفوق.
تختار الدراسة بشكل خاص MAE وMSE كمقاييس التقييم الرئيسية، مع التركيز على التغير النسبي لدقة التنبؤ. تشير النتائج المقدمة في الجدول 3 إلى أن نموذج ETT يتفوق على نماذج التعلم العميق الأخرى في أداء التوافق على مجموعات بيانات الأسهم CSI 100 وHushen 300، محققًا أدنى القيم لكل من MSE وMAE. وهذا يشير إلى أن نموذج ETT فعال بشكل خاص في توقع اتجاهات سوق الأسهم مقارنة بنظرائه.
مناقشة
تستعرض قسم المناقشة في ورقة البحث تطور منهجيات توقع الأسهم، مع التركيز على الانتقال من خوارزميات التعلم الآلي التقليدية إلى أطر التعلم العميق المتقدمة. تبرز أنه بينما وضعت النماذج المبكرة، مثل Random Forest وآلات الدعم الناقل، الأساس لتوقع الأسهم، إلا أنها غالبًا ما واجهت صعوبات مع تعقيدات تغاير التسلسل. بالمقابل، أظهرت هياكل التعلم العميق، وخاصة نماذج الذاكرة طويلة وقصيرة الأجل (LSTM) ونماذج Transformer، قدرات تنبؤية متفوقة من خلال التقاط الأنماط الزمنية في البيانات المالية بشكل فعال. لقد أظهر دمج تقنيات تحليل التردد، مثل تحليل النمط التجريبي الكامل (CEEMD)، مع نماذج التعلم العميق وعدًا في تعزيز دقة التنبؤ من خلال معالجة عدم الاستقرار وعدم الخطية في السلاسل الزمنية المالية.
تقدم الورقة نموذج ETT، الذي يجمع بين CEEMD لتحليل الإشارة وTime2Vec لالتقاط كل من الأنماط الدورية وغير الدورية في بيانات الأسهم. يسمح هذا النهج الجديد باستخراج الميزات بشكل أكثر فعالية، مما يؤدي إلى تحسين الأداء التنبؤي. تشير النتائج التجريبية من الاختبارات العكسية على مجموعات بيانات CSI 100 وHushen 300 إلى أن نموذج ETT يتفوق على النماذج التقليدية، محققًا عوائد تراكمية أعلى ويظهر قوة في التقاط الأسهم ذات الإمكانات العالية على المدى القصير. تشير النتائج إلى أن نموذج ETT لا يوفر فقط أداة توقع موثوقة للمستثمرين ولكن أيضًا يفتح آفاقًا لمزيد من البحث في أسواق مالية متنوعة تتجاوز نطاق هذه الدراسة.
DOI: https://doi.org/10.1140/epjds/s13688-024-00517-7
Publication Date: 2025-01-03
Author(s): Cheng Zhao et al.
Primary Topic: Stock Market Forecasting Methods
Overview
The research paper presents a novel model named ETT, which integrates Complete Ensemble Empirical Mode Decomposition (CEEMD), Time2Vec, and Transformer architectures to enhance stock price prediction in the Chinese A-share market. The model addresses the challenges posed by the nonlinearity and volatility of stock time series data by decomposing stock prices into various frequency components, capturing both periodic and non-periodic patterns, and learning long-term dependencies. The application of ETT resulted in a 4% reduction in mean squared error (MSE) and a 58% increase in average cumulative returns when tested on the CSI 100 and Hushen 300 datasets.
In conclusion, the ETT model significantly outperforms existing deep learning benchmarks in terms of prediction accuracy and cumulative returns, as evidenced by backtesting from January 1, 2019, to December 31, 2021. The study also includes ablation studies to validate the effectiveness of each component of the model. However, the authors acknowledge limitations, such as the focus on only two Chinese stock datasets and suggest that future research could expand to include international stock markets and other financial instruments like futures and bonds, which may provide broader insights into the model’s applicability.
Introduction
The introduction of the paper highlights the significance of the stock market as a vital component of the economy, noting its susceptibility to various influencing factors such as market conditions, politics, macroeconomics, and investor psychology. These factors contribute to the complexity of stock price movements, characterized by nonlinearity and instability, which complicates accurate price prediction. Traditional econometric models like GARCH and ARMA have been employed for stock prediction but have limitations in capturing the non-periodic features of stock data. In contrast, machine learning models, including Random Forest and Support Vector Machines, have shown promise but often struggle with large datasets.
To address these challenges, the paper introduces a novel stock prediction model called CEEMD-Time2-Vec-Transformer (ETT), which integrates the Empirical Mode Decomposition (EMD) and Time2Vec methods with the Transformer architecture. This approach aims to effectively capture both periodic and non-periodic features of stock time series, thereby enhancing predictive performance. The paper outlines its contributions, including the validation of the ETT model through experiments on the CSI 100 and Hushen 300 datasets, demonstrating its superior performance in achieving higher excess returns compared to existing models. The structure of the paper is also outlined, with subsequent sections dedicated to related work, methodology, experimental results, and conclusions.
Methods
In this study, the authors investigate stock fluctuation forecasting using a historical observation sequence of stock data represented as \( X = \{x_1, x_2, \ldots, x_T\} \in \mathbb{R}^{T \times F} \), where \( T \) denotes time steps and \( F \) indicates the number of features. The model processes the feature matrix \( X \) to predict a label \( y \), defined by the formula \( y = \frac{p_T – p_{T-1}}{p_T} \), where \( p_T \) is the closing price at time \( T \).
For experimental validation, the authors utilized the CSI 100 and Hushen 300 datasets sourced from Tushare, encompassing daily trading data from January 1, 2019, to December 31, 2021. The datasets include various attributes such as trading code, date, and price metrics. A total of 99 features were selected based on their high correlation with the target label and low inter-feature correlation, as detailed in Table 1. Data preprocessing involved right-joining trade data with the Tushare dataset, addressing outliers, filling missing values with the previous day’s data, and normalizing the dataset to ensure consistency in the analysis.
Results
In the results section, the research outlines the training and prediction outcomes of an adjusted Transformer model, emphasizing the evaluation of predictive performance through various loss metrics. The metrics employed include mean absolute error (MAE), mean squared error (MSE), root mean square error (RMSE), and mean absolute percentage error (MAPE), with their respective formulas provided. These metrics serve to quantify the model’s predictive accuracy, with lower values indicating superior performance.
The study specifically selects MAE and MSE as the primary evaluation metrics, focusing on percent change for prediction accuracy. Results presented in Table 3 indicate that the ETT model outperforms other deep learning models in fitting performance on the CSI 100 and Hushen 300 stock datasets, achieving the lowest values for both MSE and MAE. This suggests that the ETT model is particularly effective in predicting stock market trends compared to its counterparts.
Discussion
The discussion section of the research paper reviews the evolution of stock prediction methodologies, emphasizing the transition from traditional machine learning algorithms to advanced deep learning frameworks. It highlights that while early models, such as Random Forest and Support Vector Machines, laid the groundwork for stock prediction, they often struggled with the complexities of sequence heterogeneity. In contrast, deep learning architectures, particularly Long Short-Term Memory (LSTM) and Transformer models, have demonstrated superior predictive capabilities by effectively capturing temporal patterns in financial data. The integration of frequency decomposition techniques, like Complete Empirical Ensemble Mode Decomposition (CEEMD), with deep learning models has shown promise in enhancing prediction accuracy by addressing the non-stationarity and nonlinearity of financial time series.
The paper introduces the ETT model, which combines CEEMD for signal decomposition and Time2Vec for capturing both periodic and non-periodic patterns in stock data. This novel approach allows for more effective feature extraction, leading to improved predictive performance. The empirical results from backtesting on the CSI 100 and Hushen 300 datasets indicate that the ETT model outperforms traditional models, achieving higher cumulative returns and demonstrating robustness in capturing stocks with high short-term potential. The findings suggest that the ETT model not only provides a reliable forecasting tool for investors but also opens avenues for further research in diverse financial markets beyond the scope of this study.
