هيلفورمر: نموذج تعلم عميق قائم على الانتباه لتوقع أسعار العملات المشفرة Helformer: an attention-based deep learning model for cryptocurrency price forecasting

المجلة: Journal Of Big Data، المجلد: 12، العدد: 1
DOI: https://doi.org/10.1186/s40537-025-01135-4
تاريخ النشر: 2025-04-03

هيلفورمر: نموذج تعلم عميق قائم على الانتباه لتوقع أسعار العملات المشفرة

ت. أ. كيهيندي , أولويينكا ج. أديدوكُن , أكبان جوزيف , كريم مورينيكيجي كابيرات , حمد أديبايو أكانو و أولودولابو أ. أولانراوجو

*المراسلة: temitope.kehinde@connect.polyu.hk
قسم الهندسة الصناعية ونظم الهندسة، جامعة بوليتكنيك هونغ كونغ، هونغ كونغ
قسم الهندسة الصناعية وإدارة الهندسة، جامعة ألاباما في هانتسفيل، هانتسفيل، الولايات المتحدة الأمريكية
قسم الهندسة الصناعية، جامعة دوربان للتكنولوجيا، دوربان، جنوب أفريقيا
قسم علوم الحاسوب، الجامعة الفيدرالية للزراعة، أبيوكوتا، نيجيريا
كلية العلوم الحياتية والبيئية، جامعة ديكين، جيلونغ، أستراليا

الملخص

أصبحت العملات المشفرة فئة أصول مهمة، تجذب اهتمامًا كبيرًا من المستثمرين والباحثين بسبب إمكاناتها لتحقيق عوائد مرتفعة على الرغم من تقلبات الأسعار الكامنة. غالبًا ما تفشل طرق التوقع التقليدية في التنبؤ بدقة بحركات الأسعار لأنها لا تأخذ في الاعتبار الطبيعة غير الخطية وغير الثابتة لبيانات العملات المشفرة. استجابةً لهذه التحديات، يقدم هذا البحث نموذج Helformer، وهو نهج جديد للتعلم العميق يدمج بين التنعيم الأسي هولت-وينترز وبنية التعلم العميق القائمة على المحولات. يسمح هذا الدمج بتفكيك قوي لبيانات السلاسل الزمنية إلى مكونات المستوى، الاتجاه، والموسمية، مما يعزز قدرة النموذج على التقاط الأنماط المعقدة في أسواق العملات المشفرة. لتحسين أداء النموذج، تم استخدام ضبط المعلمات الفائقة بايزي عبر Optuna، بما في ذلك استدعاء تقليم، للعثور بكفاءة على معلمات النموذج المثلى مع تقليل وقت التدريب من خلال إنهاء التدريب غير المثالي مبكرًا. تظهر النتائج التجريبية من اختبار نموذج Helformer مقابل نماذج التعلم العميق المتقدمة الأخرى عبر عملات مشفرة مختلفة دقته التنبؤية الفائقة وقوته. لا يحقق النموذج فقط أخطاء تنبؤية أقل ولكنه يظهر أيضًا قدرات تعميم ملحوظة عبر أنواع مختلفة من العملات المشفرة. بالإضافة إلى ذلك، يتم التحقق من التطبيق العملي لنموذج Helformer من خلال استراتيجية تداول تتفوق بشكل كبير على الاستراتيجيات التقليدية، مما يؤكد إمكاناته لتوفير رؤى قابلة للتنفيذ للمتداولين والمحللين الماليين. تعتبر نتائج هذه الدراسة مفيدة بشكل خاص للمستثمرين وصانعي السياسات والباحثين، حيث تقدم أداة موثوقة للتنقل في تعقيدات أسواق العملات المشفرة واتخاذ قرارات مستنيرة.

الكلمات الرئيسية: Helformer، توقع العملات المشفرة، بيتكوين، محول، الشبكات العصبية، السلاسل الزمنية

المقدمة

لقد تلقى مجال العملات المشفرة اهتمامًا متزايدًا من المستثمرين، المنظمين، مديري الصناديق، صانعي السياسات، والباحثين منذ أول عملة له، بيتكوين (BTC)، التي أُطلقت في البداية في عام 2008 من قبل فرد أو مجموعة أفراد مجهولين يُطلق عليهم ناكاموتو [40]. إن شعبيتها المتزايدة، التي زادت من قيمة صفر عند الإطلاق في عام 2009 إلى أعلى سعر على الإطلاق بلغ 103,900.47 دولار أمريكي في 5 ديسمبر 2024، تعود إلى ميزاتها الجذابة مثل إثبات العمل وإثبات الحصة، و
خوارزمية التوافق، والدفاتر المأمونة [53]، التي تختلف عن الأصول المالية التقليدية مثل الذهب، والسندات، والعملات المادية، والأسهم. تستند قيمتها إلى ثقة خوارزمياتها الابتكارية الأساسية، مثل القابلية للتتبع واللامركزية [34، 36]، بدلاً من أي أصل ملموس، مما يجعلها مستقلة عن التنظيم، والتلاعب، والتدخل الحكومي، وتغيرات السياسات. كما أن لها خصائص جوهرية مثل انخفاض تكاليف المعاملات والدفع الآمن من نظير إلى نظير (P2P) [3].
لقد اعترفت العديد من الدراسات بالعملات المشفرة كأصل استثماري. في هذا الصدد، استكشفت بعض الأبحاث الحديثة التآزر المحتمل بين العملات المشفرة وأصول الاستثمار الأخرى مثل الذهب، والسلع، والأسهم [29، 30]، كيهيندي، تشونغ، وآخرون، 2023)، والعملات المادية. تقدم بعض الأبحاث الحالية أدلة تجريبية تُظهر أن العملات المشفرة تظهر ارتباطًا منخفضًا مع الأصول المالية التقليدية. وبالتالي، فإن هذه الخاصية تضع العملات المشفرة كتحوط قيم في محافظ الاستثمار [27]. وبالتالي، تم التأكيد على بيتكوين، التي هي أول وأعلى قيمة وأكثر العملات شعبية، للسماح باستراتيجية تحوط استثمارية ضد أصول استثمارية أخرى مثل الذهب، والنفط، والأسهم، والسلع بسبب العائد المرتفع والارتباط المنخفض مع الأصول الاستثمارية الأخرى [58]. اعتبارًا من مارس 2025، هناك أكثر من 10,700 عملة مشفرة نشطة وقيمة، مع أكثر من 420 مليون مستخدم حول العالم. من بين العملات المشفرة النشطة المتاحة، تمثل أعلى 20 عملة تقريبًا من إجمالي السوق، مع حوالي 251 بورصة فورية وإجمالي قيمة سوقية تبلغ 2.54 تريليون دولار أمريكي (https://coinmarketcap.com, تم الوصول إليها في 11 مارس 2025).
نظرًا للعوائد الضخمة المرتبطة بتداول العملات المشفرة، من الجدير بالذكر أنها تأتي مع مخاطر عالية بسبب التقلبات الكبيرة في الأسعار التي يتم تجربتها عادةً في التداول، حيث يتم تداولها دائمًا عبر الإنترنت في الوقت الحقيقي، وتُتداول على مدار الساعة دون وقت رسمي لفتح أو إغلاق. في هذا السياق، يكون معظم الأشخاص المشاركين في هذا النوع من التداول عادةً متداولين ذوي خبرة وروبوتات تداول خوارزمية. يُقدّر أن أكثر من نصف حجم التداول يتم عادةً بواسطة الروبوتات، وتحتاج هذه الروبوتات إلى نماذج تعلم عميق قوية لتحليل، وتوقع، وإجراء صفقات ناجحة [7]. نظرًا للطبيعة المتقلبة للعملات المشفرة، من الضروري للمستثمرين التنبؤ بدقة بأسعار العملات المشفرة لإدارة المخاطر، وتنويع محافظهم، وزيادة العوائد. يمكن أن توجه استراتيجيات التنبؤ الفعالة والخوارزميات المستثمرين بشكل كبير في اتخاذ قرارات استثمارية قصيرة وطويلة الأجل.
في الماضي، تم تطوير طرق مختلفة لتوقع أسعار العملات المشفرة، ويمكن تصنيفها إلى طرق إحصائية، وطرق تعلم الآلة، وطرق التعلم العميق. تركز الأعمال المبكرة في هذا المجال على التقنيات الإحصائية التقليدية، بينما تُعتبر ARIMA هي الطريقة التقليدية الأكثر استخدامًا بين هذه التقنيات [1]. ومع ذلك، تفترض هذه الأساليب فقط أن السلاسل الزمنية خطية، وهو ما لا ينطبق عادةً على الأصول مثل العملات المشفرة، خاصةً عند التعامل مع مجموعة بيانات واسعة تمتد عبر فترات زمنية مختلفة مثل فترة الوباء (مثل جائحة COVID-19)، وفترة الحرب (مثل الحرب الروسية الأوكرانية وحرب إسرائيل-حماس). علاوة على ذلك، فإن أحد قيود النموذج الإحصائي هو افتراض التوزيع الطبيعي للمتغيرات، وهو أمر غير واقعي للبيانات الفوضوية وغير الثابتة مثل العملات المشفرة. لهذا الغرض، تم تقديم منهجية تعلم الآلة للتغلب على هذه القيود.
تم تصميم طرق تعلم الآلة لاستخراج الطبيعة غير الخطية الكامنة في مجموعات البيانات الكبيرة لسوق العملات المشفرة. على الرغم من أن نماذج تعلم الآلة المبكرة مثل الانحدار الخطي والانحدار اللوجستي تبدو بارامترية، فإن النماذج اللاحقة مثل
آلة الدعم المتجه (SVM)، الجيران الأقرب (KNN) [51]، والبيرسيبترون متعدد المستويات (MLP) غير بارامترية ولا تتطلب فهمًا مسبقًا لتوزيع البيانات لنمذجة العلاقة غير الخطية بين المتغيرات. ومع ذلك، فإن أحد قيود استخدام تعلم الآلة هو أنها عرضة للتكيف المفرط، خاصةً عند التعامل مع بيانات توقع السلاسل الزمنية الطويلة (LSTF) مثل بيانات العملات المشفرة. قيد آخر هو أن نماذجها تنتج خطأ أكبر، مما يجعل النموذج يعمل بشكل سيء عند خضوعه لاستراتيجية التداول. في هذا الصدد، تم تقديم التعلم العميق لاحقًا لاستكشاف والتغلب على ضعف نماذج تعلم الآلة.
بفضل قدرتها على التفوق على النماذج الإحصائية ونماذج التعلم الآلي، تم تصميم التعلم العميق لاستكشاف الأنماط المعقدة للبيانات الأكثر تعقيدًا. لقد أظهرت هذه النماذج أداءً استثنائيًا في التعامل مع البيانات المعقدة، وبالتالي، تم تصميم نماذج مثل الشبكة العصبية التكرارية (RNN) ونسخها لتكون قادرة على نمذجة البيانات ذات الطول الزمني القصير والطويل (LSTF) حيث يكون ترتيب البيانات أولوية. لقد أظهرت RNN أداءً جيدًا في نمذجة بيانات السلاسل الزمنية؛ ومع ذلك، كانت مشكلة تلاشي التدرج أو انفجار التدرج هي القيود التي تواجه هذا النموذج عند التعامل مع بيانات LSTF، مما أدى بدوره إلى تطوير المزيد من النسخ من نوعها، بما في ذلك الذاكرة طويلة وقصيرة المدى (LSTM)، وLSTM ثنائية الاتجاه (BiLSTM)، ووحدة التكرار المغلقة (GRU). على الرغم من أن LSTM قد ثبت أنه النموذج الأكثر استخدامًا للسلاسل الزمنية، فقد أظهر بعض الباحثين أن BiLSTM وGRU يمكن أن يتجاوزا دقة LSTM في بعض الحالات ولبعض البيانات. على الرغم من النجاح الذي حققته RNN ونسخها في إجراء توقعات دقيقة، لا يزال حسابها يعاني من التعقيد بسبب المعالجة التسلسلية التي تتسم بها هذه النماذج. في هذا السياق، تم إجراء المزيد من الأبحاث حول بناء نماذج يمكنها الحساب بالتوازي وتوليد مخرجات استثنائية.
اقترح فاسواني وآخرون [59] شبكة عصبية من نوع ترانسفورمر، وهي نموذج يركز على معالجة اللغة الطبيعية، لمعالجة حسابات التسلسل وتعقيد النموذج. قدم المؤلفون نموذج ترانسفورمر، الذي يستخدم الانتباه الذاتي. يختلف هذا الاختراع عن الأساليب الموجودة التي كانت تستخدم بشكل رئيسي التكرار أو الالتفاف. يقوم ترانسفورمر بحساب درجات انتباه مختلفة في وقت واحد، مما يسمح له بالتركيز على أجزاء مختلفة من التسلسل وتحسين فهم السياق. على عكس النماذج الأخرى، يلتقط ترانسفورمر الروابط والاعتمادات داخل متجهات الكلمات بغض النظر عن المسافة. بدلاً من المعالجة التسلسلية، يسمح ترانسفورمر بتحسين التوازي أثناء التدريب، مما يحسن السرعة مقارنة بجميع النماذج الأخرى، خاصة للبيانات الضخمة. حققت الشبكات العصبية من نوع ترانسفورمر إنجازات في معالجة الصور، ومعالجة الكلام، وترجمة اللغات، ورؤية الكمبيوتر، والرعاية الصحية والمعلوماتية الحيوية، والروبوتات، والتصاميم المستقلة. ومع ذلك، فإن استخدامها في LSTF، مثل سوق العملات المشفرة، لا يزال في مراحله المبكرة. كما أنه من الجدير بالذكر أن العديد من الباحثين أثبتوا أن بيانات العملات المشفرة تمتلك سمات مثل عدم الاستقرار والموسمية، بينما لم تصمم الشبكات العصبية التقليدية مثل الشبكات العصبية الاصطناعية (ANN)، والشبكات العصبية التكرارية (RNN)، وLSTM، وGRU، وترانسفورمر للتعامل مع هذه التعقيدات، مما يؤدي إلى توقعات ضعيفة.
استلهمت هذه العمل من عمل سميل [55]، الذي يقوم بتفكيك السلاسل الزمنية إلى أجزاء الاتجاه والموسمية، حيث يقدم هذا العمل نوعًا جديدًا من المحولات يسمى هيلفورمر، الذي تم تصميمه للتعامل مع البيانات المعقدة التي تظهر عدم الاستقرار والموسمية. يستخدم النموذج المقترح طريقة التنعيم الأسّي هولت-وينترز لاستخراج المستوى والاتجاه والموسمية من طريقة تفكيك السلاسل. هذا التفكيك
تساعد الاستراتيجية آلية الانتباه على فهم الاتجاهات العالمية بكفاءة. يستخدم نموذج المحول التقليدي ترميز المواقع مقترنًا بتضمين المدخلات لتحويل متجهات الكلمات عالية الأبعاد إلى متجهات منخفضة الأبعاد لتطبيقات معالجة اللغة الطبيعية. تستخدم هذه الدراسة، وهي مشكلة غير متعلقة بمعالجة اللغة الطبيعية، مكون LSTM ليحل محل آلية الشبكة الأمامية (FFN) في الهيكل المشفر لالتقاط الاعتمادات الزمنية، وهي سمة متأصلة في توقعات السلاسل الزمنية. تستخدم هذه العمل فقط مكون التشفير، حيث دعم هاريونو وآخرون [24] الادعاء بأن استخدام مكون تشفير واحد أكثر فعالية من استخدام مكونين مزدوجين، خاصة في توقعات السلاسل الزمنية، لأنه يقلل من تعقيد الذاكرة ومتطلبات الحوسبة.
على الرغم من الزيادة المستمرة في الظهور الأسبوعي لعملات جديدة، قد يكون تطوير نماذج منفصلة لكل عملة فردية مستهلكًا للوقت والموارد. كما لوحظ في الأعمال السابقة، تركز معظم الدراسات والمستثمرين والمتداولين على أربع عملات بارزة: بيتكوين (BTC)، لايتكوين (LTC)، إيثريوم (ETH)، وريبل (XRP) [8، 19، 43، 60، 66]. مع وجود أكثر من 10,700 عملة مشفرة نشطة وإمكانية ظهور عملات جديدة بشكل دوري، فإن تطوير نموذج لكل عملة مشفرة يعد تحديًا كبيرًا. تستفيد تقنية التعلم الانتقالي من الرؤى المتراكمة من تكرارات النماذج المدربة مسبقًا، مستخدمة إياها كأساس للتعامل مع مهام جديدة. سمحت هذه التقنية للنموذج بالتعميم بفعالية عبر عملات مشفرة مختلفة، مما يظهر إمكانيته لتطبيقات أوسع في أسواق العملات المشفرة. على عكس الدراسات السابقة، يهدف هذا العمل إلى بناء نموذجه الجديد على بيانات بيتكوين واختبار قدرته على التعميم والتعلم المتبادل على عملات مشفرة مختارة أخرى. بالإضافة إلى ذلك، نظرًا لأن النموذج الجيد قد لا يظهر استراتيجية تداول قابلة للتطبيق، على عكس الدراسات السابقة، يصمم هذا العمل استراتيجية تداول بسيطة لتقييم جدوى النموذج المقترح لتحقيق استثمار مربح. من الجدير بالذكر أن نموذج هيلفورمر المقترح تم تطويره جنبًا إلى جنب مع نماذج تعلم عميقة متطورة أخرى لتكون بمثابة معايير. تم اختبار قوة نموذج هيلفورمر من خلال إجراء تحليل مقارن مع دراسات بارزة موجودة لإظهار موثوقية هيلفورمر في التفوق على الأعمال الحالية. مساهمات هذا العمل هي كما يلي:
  1. تم تصميم نموذج جديد للتنبؤ بالأصول المتقلبة للغاية مثل العملات المشفرة.
  2. على عكس الدراسات السابقة التي تستخدم بشكل متكرر الضبط اليدوي لنماذج التعلم الآلي، يقوم هذا العمل بتنفيذ تحسين بايزي باستخدام أوبتونا لضبط المعلمات الفائقة لتوليد توقعات قوية.
  3. تظهر التحليلات التجريبية أخطاءً minimal وأداءً استثنائيًا، متفوقةً على جميع الأساليب والدراسات الحديثة الموجودة.
  4. هذا العمل هو أول تنفيذ لنموذج هيلفورمر، الذي تم اختبار التحقق منه عبر 15 عملة مشفرة.
  5. أخيرًا، يعرض هذا العمل الآثار العملية والربحية المحتملة للعملات المشفرة المستهدفة لتوليد عوائد كبيرة.
الأقسام المتبقية من هذا العمل منظمة بشكل منهجي على النحو التالي: القسم “البحث المتعلق” يقدم ملخصًا للدراسات الموجودة حول توقعات العملات المشفرة. القسم “المنهجية” يصف الطرق والإطار المعتمد في هذه الدراسة. القسم “النتائج التجريبية والمناقشات” يناقش النتائج التجريبية، بينما
القسم “الخاتمة، القيود، والاتجاهات المستقبلية” يعد الجزء النهائي من العمل، حيث يلخص الرؤى المكتسبة ويحدد اتجاهًا للأعمال المستقبلية.
تستعرض هذه القسم التقدمات السابقة والحالية في توقع أسعار العملات المشفرة. علاوة على ذلك، تصنف الدراسات الحالية إلى ثلاثة أنواع: الأساليب الكلاسيكية، وأساليب تعلم الآلة، وأساليب التعلم العميق.

العملات المشفرة

لقد زاد استخدام العملات المشفرة في المعاملات المالية خلال العقد الماضي. في هذا الصدد، قامت عدة دول، بما في ذلك أوكرانيا، السلفادور، اليابان، كوريا الجنوبية، الولايات المتحدة، سويسرا، ألمانيا، البرتغال، مالطا، والإمارات العربية المتحدة، بتقنين استخدامها كوسيلة دفع قانونية. تشير الأدلة التجريبية إلى أن مشكلات التنبؤ بالعملات المشفرة مرتبطة بخصائص مثل: التوزيعات ذات الذيل الثقيل لعوائد العملات المشفرة، الارتباط الذاتي للعوائد النسبية والمطلقة التي تظهر معدلات تدهور مختلفة، تأثير الرفع القوي وتجمع التقلبات، وارتباط القوة بين السعر والتقلب. تسهم هذه الميزات في مشكلات التنبؤ بالعملات المشفرة. من الناحية المثالية، يتم التنبؤ بمعظم الأصول عادةً من خلال التحليل الفني، التحليل المالي، أو مزيج من الاثنين. ومع ذلك، بسبب الطبيعة اللامركزية للعملات المشفرة، وتوليدها الإلكتروني، وحداثتها في العالم المالي، كان من الصعب التنبؤ بالعملات المشفرة لأنها غير مرتبطة بأي أساسيات، وتؤثر عليها بشكل رئيسي مشاعر السوق. في هذا السياق، استكشفت الأعمال السابقة أساليب مثل التحليل الكلاسيكي، التعلم الآلي، والتعلم العميق في التنبؤ بأسعار العملات المشفرة، وعوائدها، وتقلباتها.

النهج الكلاسيكي في توقع أسعار العملات المشفرة

يتضمن هذا النهج نماذج إحصائية، مثل المتوسط المتحرك، والمتوسط المتحرك الذاتي التلقائي (ARMA)، والمتوسط المتحرك الذاتي المتكامل (ARIMA)، والمتوسط المتحرك الذاتي الموسمي (SARIMA)، والتباين الشرطي الذاتي العام (GARCH)، والتنعيم الأسي، والتي كانت قابلة للتطبيق منذ فترة طويلة في السلاسل الزمنية [14]. تستند هذه النماذج إلى النظرية الإحصائية وتكون فعالة في سيناريوهات السوق معينة، خاصة عندما يظهر السوق أنماط أو اتجاهات متوقعة خطية. بشكل عام، حققت النماذج الكلاسيكية تقدمًا ملحوظًا في توقعات العملات المشفرة، خاصة عند توقع تقلبات العملات المشفرة. على سبيل المثال، يستكشف كونراد وآخرون [12] مكونات تقلبات العملات المشفرة، وخاصة BTC، باستخدام نموذج GARCH-MIDAS. تبحث الدراسة في تأثير العوامل الاقتصادية الكلية والمالية على تقلبات BTC على المدى القصير والطويل. تشير النتائج إلى أن تقلبات BTC فريدة مقارنة بالأصول المالية الأخرى، حيث تتصرف بشكل دوري وتستجيب بشكل مختلف للظروف الاقتصادية. وبالمثل، يفحص والتر وآخرون [60] تأثير العوامل الاقتصادية الكلية والمالية المختلفة على تقلبات العملات المشفرة الرئيسية، بما في ذلك BTC وLTC وETH وXRP وXLM ومؤشر العملات المشفرة CRIX. باستخدام إطار عمل GARCH-MIDAS، يميز المؤلفون بين مكونات التقلبات على المدى القصير والطويل ويحددون أكثر المحركات الخارجية تأثيرًا.
حقق كاتانيا وآخرون [8] في إمكانية التنبؤ بسلاسل زمنية للعملات المشفرة، مع التركيز بشكل خاص على BTC وLTC وXRP وETH. يقارن المؤلفون مجموعة متنوعة من المتغيرات الفردية
ونماذج VAR متعددة المتغيرات للتنبؤ بالنقاط والكثافة، باستخدام متوسط النموذج الديناميكي (DMA) واختيار النموذج الديناميكي (DMS) لدمج هذه النماذج واختيارها. ومن الجدير بالذكر أن شعبية جميع النماذج الكلاسيكية المذكورة أعلاه تنبع من بساطتها وقابليتها للتفسير، ومع ذلك، فإنها غالبًا ما تفشل في التقاط الطبيعة غير الخطية، والطبيعة غير الثابتة، والتعقيدات المعقدة المرتبطة بسوق العملات المشفرة. تحدث هذه القيود بسبب اعتمادها على افتراضات خطية بشأن سلوك السوق. وقد أدى هذا الفجوة إلى اتجاه متزايد نحو استخدام تقنيات أكثر تقدمًا مثل التعلم الآلي التي يمكن أن تتعامل بفعالية مع الطبيعة غير الخطية وغير الثابتة لسوق العملات المشفرة.

نهج التعلم الآلي في توقع أسعار العملات المشفرة

مدفوعًا بالطبيعة المتقلبة وغير الخطية للعملات المشفرة، تم تحويل الانتباه إلى تطبيق التعلم الآلي، الذي يمكنه تحليل كميات كبيرة من البيانات، وتحديد الأنماط، والتكيف مع ظروف السوق الديناميكية. يمكن لنماذج التعلم الآلي أن تكشف عن أنماط معقدة في البيانات قد لا تكون واضحة على الفور، مما يوفر فهمًا أكثر تطورًا لديناميات السوق مقارنة بالنماذج الإحصائية التقليدية. في هذا السياق، قام بعض الباحثين بالفعل بتوظيف أساليب التعلم الآلي مثل الانحدار اللوجستي، KNN، شجرة القرار، SVM، والعديد من الأساليب الأخرى لتطوير نماذج توقع قادرة على تحقيق أرباح ضخمة. بالإضافة إلى ذلك، من أجل توليد توقعات أكثر قوة، بينما قام بعض الباحثين بتوظيف نماذج تجميعية، بما في ذلك الغابة العشوائية، AdaBoost، XGBoost، CatBoost، وLightGBM، انخرط آخرون في نماذج هجينة للتنبؤ بأسعار العملات المشفرة، والعوائد، والتقلبات.
أكدت الدراسات الحالية بالفعل قوة نماذج التعلم الآلي مثل الشبكات العصبية الاصطناعية في التفوق على النماذج التقليدية. على سبيل المثال، قام ناكانو وآخرون [41] بالتحقيق في تطبيق الشبكات العصبية الاصطناعية للتنبؤ بعوائد البيتكوين استنادًا إلى بيانات التداول عالية التردد. يستخدم المؤلفون نموذج شبكة عصبية اصطناعية مكون من سبع طبقات يعالج المؤشرات الفنية المحسوبة من بيانات البيتكوين التاريخية في فترات لتحديد إشارات التداول المحتملة. approachهم يتفوق بشكل كبير على استراتيجية الشراء والاحتفاظ التقليدية (B&H)، خاصة خلال فترات التقلبات العالية، مثل الفترة من ديسمبر 2017 إلى يناير 2018، عندما شهدت BTC خسائر كبيرة. في دراسة أخرى، يقترح كريستجانبولر ومينوتولو [32] إطار عمل هجين يجمع بين نماذج GARCH، والشبكات العصبية الاصطناعية (ANN)، ومؤشرات التحليل الفني، وتحليل المكونات الرئيسية (PCA) لتوقع تقلبات BTC. يجادل المؤلفون بأنه بينما تلتقط نماذج GARCH التقليدية بعض جوانب تقلبات السلاسل الزمنية المالية، فإن دمجها مع ANN ومؤشرات فنية مثل مؤشر القوة النسبية (RSI) ومؤشر تقارب وتباعد المتوسطات المتحركة (MACD) يعزز الأداء التنبؤي. يقارن إبراهيم وآخرون [26] طرق نمذجة السلاسل الزمنية المختلفة لتوقع تحركات سعر BTC في أطر زمنية قصيرة. وتجد الدراسة أن MLP تحقق أعلى دقة عند متفوقًا على عدة نماذج ولكن أفضل قليلاً فقط من استراتيجية الزخم البسيطة.
في المستقبل، يستكشف راتور وآخرون [50] التحديات المتعلقة بتوقع أسعار البيتكوين بسبب تقلباتها والاتجاهات الديناميكية. يقارن المؤلفون النماذج التقليدية مثل ARIMA وLSTM، مشيرين إلى قيودها في التعامل مع الموسمية والقيم الشاذة، ويقترحون استخدام نموذج فيسبوك بروفيت لتحسين التعامل مع بيانات السلاسل الزمنية. تم تصميم النموذج ليأخذ في الاعتبار الموسمية والقيم الشاذة، مما يجعله أكثر ملاءمة لتوقعات العملات المشفرة في العالم الحقيقي. توضح الدراسة أن بروفيت
يقدم النموذج نتائج أكثر دقة مقارنة بالنماذج التقليدية مثل Naïve وغيرها. من أجل توقعات قوية، استكشف العديد من الباحثين إمكانية استخدام نماذج التجميع في توقعات العملات المشفرة. على سبيل المثال، قام سون وآخرون [56] بتطبيق آلة تعزيز التدرج الخفيف (LightGBM)، وهي خوارزمية تعلم آلي. وجدت الدراسة أن نموذج LightGBM يتفوق على النماذج التقليدية مثل SVM وRF من حيث القوة ودقة التوقع، خاصة في التوقعات متوسطة المدى (مثل فترات أسبوعين). بعد ذلك، باستخدام تقنيات التعلم الآلي، قام سيباستياو وغودينيو [54] بالتحقيق في إمكانية التنبؤ وربحية استراتيجيات التداول لثلاث عملات مشفرة رئيسية: BTC وETH وLTC. تمتد الدراسة من أغسطس 2015 إلى مارس 2019، وهي فترة تميزت بتقلبات سوقية كبيرة، بما في ذلك الأسواق الصاعدة والهابطة. استخدم المؤلفون نماذج تعلم آلي متعددة، بما في ذلك النماذج الخطية وRF وSVM، لتوقع عوائد العملات المشفرة بناءً على بيانات النشاط التجاري والشبكي. تكشف النتائج أنه على الرغم من أن أداء النماذج الفردية يمكن أن يختلف تحت ظروف السوق المتغيرة، إلا أن نماذج التجميع، وخاصة تلك التي تتطلب توافقًا، تظهر ربحية قوية.
مؤخراً، قدم عمل تشانغ وآخرون [10] نموذجاً للتنبؤ بسعر العملات المشفرة باستخدام مزيج من تحليل النمط التجريبي الكامل مع الضوضاء التكيفية (CEEMDAN)، وتجميع السلاسل الزمنية، وإعادة بناء دوال النمط الجوهرية (IMFs). يقوم النظام بتفكيك سعر البيتكوين إلى IMFs باستخدام CEEMDAN، ثم يجمع هذه IMFs في ثلاث مجموعات باستخدام نهج تجميع قوي. تظهر نتائج هذا النهج تحسينات كبيرة مقارنة بالنماذج التقليدية والأبسط. على الرغم من أن طرق التعلم الآلي بارعة في نمذجة العلاقات غير الخطية واستخراج الرؤى من مجموعات البيانات المعقدة، إلا أنها عرضة للتكيف المفرط، خاصة عند التعامل مع بيانات LSTF مثل العملات المشفرة. وبالتالي، يتجه المستثمرون والباحثون بشكل متزايد إلى الأساليب المتطورة، مثل نماذج التعلم العميق.

نهج التعلم العميق في توقع أسعار العملات المشفرة

من المتوقع أن توفر نماذج التعلم العميق قدرة تنبؤية أكثر شمولاً في سوق العملات المشفرة المتقلب للغاية. لقد تسارع الزيادة الأسية في القدرة الحاسوبية في السنوات الأخيرة من ظهور منهجيات التعلم العميق، مما حول بشكل جذري مجالات مالية متنوعة، مثل سوق العملات المشفرة. يعد التعلم العميق، وهو نوع من التعلم الآلي يتميز باستخدامه لشبكات عصبية متعددة الطبقات، قد غير بشكل كبير مجالات متنوعة، مثل المالية. إن ظهور نماذج التعلم العميق، مثل الشبكات العصبية التلافيفية (CNNs)، والشبكات العصبية المتكررة (RNNs)، وLSTMs، وGRU، يمثل أحدث الحدود في توقع أسعار العملات المشفرة، والعوائد، والتقلبات، حيث تظهر أدائها المتميز في التقاط الاعتماد الزمني والارتباطات غير الخطية.
لقد أظهرت الشبكات العصبية التكرارية (RNN) أداءً جيدًا في نمذجة بيانات السلاسل الزمنية؛ ومع ذلك، فإن مشكلة تلاشي التدرج أو انفجار التدرج كانت تمثل قيدًا على هذا النموذج عند التعامل مع بيانات السلاسل الزمنية الطويلة، مما أدى بدوره إلى تطوير المزيد من المتغيرات من نوعها والتي تشمل LSTM وBiLSTM وGRU. على الرغم من أن LSTM قد ثبت أنه النموذج الأكثر استخدامًا للسلاسل الزمنية، فقد أظهر بعض الباحثين أن BiLSTM وGRU يمكن أن يتجاوزا دقة LSTM في بعض الحالات ولبعض العملات. على سبيل المثال، قام حمايل وعوض [21] بتطوير ثلاثة نماذج، LSTM وGRU،
و Bi-LSTM، للتنبؤ بأسعار العملات المشفرة مثل BTC و ETH و LTC. وجدت الدراسة أن نموذج GRU يوفر التنبؤات الأكثر دقة مع أقل خطأ. تم تحقيق نتائج مماثلة في تجربة مماثلة أجراها دوتا وآخرون [15]، هانسون وآخرون [23]، وجين ولي [28]. في المقابل، أعاد سيابي وآخرون [53] تجربة مماثلة مع نتيجة معاكسة حيث تفوق Bi-LSTM على نموذج GRU. مؤخرًا، قدم غولناري وآخرون [19] نهجًا جديدًا في التعلم العميق لتنبؤ أسعار العملات المشفرة، مع التركيز بشكل خاص على BTC. يقترح المؤلفون نموذج GRU الاحتمالي (P-GRU) الذي يدمج ميزات احتمالية لتوفير توزيع احتمالي للقيم المتوقعة، مما يحسن دقة التنبؤ في ظل ظروف السوق المتقلبة. تم مقارنة أداء النموذج مع نماذج أخرى معروفة، بما في ذلك GRU و LSTM ونسخها الاحتمالية، باستخدام بيانات أسعار BTC لمدة عام واحد تم أخذ عينات منها في الفترات. نموذج P-GRU تفوق على النماذج التقليدية من حيث الدقة والصلابة.
تشير الأدلة التجريبية من العديد من الدراسات إلى أن النماذج الهجينة تتفوق باستمرار على النماذج الفردية، مما يوحي بأنها تقدم أداءً أفضل في المستقبل. كمثال، يقدم زونغ وآخرون نموذجًا هجينيًا LSTM-ReGAT للتنبؤ باتجاهات أسعار العملات المشفرة من خلال الاستفادة من ميزات العملات المشفرة الفردية وعلاقاتها المتبادلة. يجمع النموذج الهجين بين شبكات LSTM لالتقاط أنماط السلاسل الزمنية وشبكة الانتباه الرسومية حسب العلاقة (ReGAT) للاستفادة من العلاقات المتبادلة بين العملات المشفرة. يبني النموذج شبكة عملات مشفرة باستخدام ميزات مشتركة مثل التكنولوجيا والصناعة والانتباه المشترك للمستثمرين. يتم التحقق من صحة هذا النهج القائم على الشبكة باستخدام بيانات العالم الحقيقي، مما يظهر أن LSTM-ReGAT يتفوق على النماذج التقليدية من حيث دقة التنبؤ والربحية في محاكاة التداول لبيتكوين ومحافظ العملات المشفرة. تشمل الدراسات البارزة الأخرى التي تظهر الأداء الاستثنائي لنماذج التعلم العميق الهجينة مقابل النماذج البسيطة باتيل وآخرون، نصير الطافري، جوديل وآخرون، وجيرسانغ.
لقد أظهرت الشبكات العصبية التلافيفية (CNN)، التي تم استخدامها تقليديًا في معالجة الصور، أداءً استثنائيًا عند استخدامها كآلية لاستخراج الميزات في النماذج الهجينة لتوقع العملات المشفرة. على سبيل المثال، يستكشف ألونسو-مونسالف ورفاقه [3] فعالية نماذج CNN ونماذج CNN-LSTM الهجينة في توقع اتجاهات أسعار العملات المشفرة عالية التردد. يقارن المؤلفون بين أربع هياكل للشبكات العصبية: CNN، وCNN-LSTM الهجينة، وMLP، وشبكة الأعصاب ذات الدالة الأساسية الشعاعية (RBFNN)، لتصنيف ما إذا كانت ستة عملات مشفرة شائعة ستزداد قيمتها مقابل الدولار الأمريكي في الدقيقة التالية. باستخدام ثمانية عشر مؤشرًا تقنيًا مستمدًا من بيانات سعر الصرف بدقة دقيقة واحدة على مدار عام، تظهر الدراسة أن نماذج CNN-LSTM تتفوق بشكل كبير على الآخرين، مما يبرز مزاياها على طرق التعلم الآلي التقليدية في سيناريوهات التداول عالية التردد. في سياق مشابه، يقدم كافالي وأمورتي [9] نهجًا جديدًا لتوقع اتجاهات أسعار BTC باستخدام نموذج CNN أحادي البعد (1D CNN). يقترح المؤلفون منهجية شاملة تدمج القيم التاريخية لـ BTC، والمؤشرات المالية، وتحليل مشاعر وسائل التواصل الاجتماعي من تويتر، وبيانات معاملات البلوكشين لإنشاء مجموعات بيانات واسعة لتدريب النموذج. تقدم الدراسة نظامًا قائمًا على السحابة مع بنية موزعة فعالة للتعامل مع جمع البيانات الكبيرة ومهام المعالجة المسبقة. تظهر النتائج التجريبية أن نموذج 1D CNN المقترح يتفوق على نماذج LSTM التقليدية في توقع BTC.
الاتجاهات، تحقيق معدلات دقة أعلى. تشمل الدراسات الملحوظة الأخرى التي تظهر دمج الشبكات العصبية التلافيفية في نماذجها الهجينة ليفيريس وآخرون [37]، وزانغ وآخرون [62]، وبنغ وآخرون [47]
تقوم بعض الأعمال الحديثة بإجراء دراسات مقارنة لمختلف النماذج، بما في ذلك النماذج الكلاسيكية، وتعلم الآلة، والتعلم العميق، والنماذج التجميعية، والنماذج الهجينة، لتحديد أيها استثنائي. تشمل الأعمال البارزة في هذه الفئات أوييديل وآخرون [44] وبوتيسكا وآخرون [7]. ومع ذلك، فإن معظم نماذج التعلم العميق ليست مزودة بآليات انتباه لمعالجة المهام بشكل متوازي، مما يجعلها عرضة للتعقيد في تعلم الأنماط الزمنية الأكثر تحديًا. في هذا الصدد، تم تحويل الاعتبار إلى استكشاف النماذج المتعلقة بالانتباه في نمذجة مهام LSTF من أجل استكشاف هذا المجال من المعرفة.

نهج قائم على الانتباه لتوقع أسعار العملات المشفرة

لتجاوز قيود الحساب التسلسلي وتعقيد النموذج كما يتم تجربته بشكل متكرر في نماذج التعلم العميق الحالية، قدم فاسواني وآخرون [59] نموذجًا يسمى المحول. اقترح المؤلفون نموذج المحول، الذي يعتمد بالكامل على آليات الانتباه الذاتي. أساسيات المحول هي آلية الانتباه الذاتي والانتباه متعدد الرؤوس، وهذه تمكن النموذج من تقييم أهمية الكلمات المختلفة في تسلسل من خلال استخدام الانتباه متعدد الرؤوس أثناء معالجة كل كلمة. بالإضافة إلى ذلك، يحسب درجات انتباه متعددة بالتوازي، مما يتيح التركيز على أجزاء متنوعة من التسلسل في وقت واحد ويعزز قدرته على فهم السياق. على عكس النماذج التقليدية، فإن هذا يمكّن من التقاط العلاقات والاعتمادات بغض النظر عن المسافة داخل متجهات الكلمات. نظرًا لأن المحول لا يعتمد على الحساب التسلسلي، فإنه يسمح بمزيد من التوازي أثناء التدريب، مما يؤدي إلى تحسينات كبيرة في السرعة مقارنة بجميع النماذج الحالية، خاصة عند التعامل مع البيانات الكبيرة. على الرغم من أن الشبكات العصبية للمحول حققت نتائج غير مسبوقة في العديد من المجالات مثل معالجة الصور، ومعالجة الكلام، وترجمة اللغات، ورؤية الكمبيوتر، والرعاية الصحية، والمعلوماتية الحيوية، والروبوتات، والتصاميم المستقلة، فإن تطبيقها في LSTF، مثل سوق العملات المشفرة، لا يزال في مراحله الأولى. الشكل 1 يوضح بنية نموذج المحول النموذجية.
تشمل التطبيقات الحديثة لشبكات المحول العصبية في العملات المشفرة أعمال تانوار وكومار [57] وأماديو وآخرون [4]. يستكشف تانوار وكومار [57] نهجًا هجينًا للتنبؤ بأسعار العملات المشفرة من خلال دمج نماذج المحول وشبكات LSTM. تركز الدراسة على توقع أسعار العملات المشفرة الرئيسية مثل BTC وETH وBinance Coin (BNB). يقوم المؤلفون أولاً بتطبيق تحليل التقلبات غير الاتجاهية متعدد الفراكتال (MFDFA) لمعالجة بيانات السلاسل الزمنية، مما يلتقط الاعتمادات الزمنية القصيرة والطويلة. يستفيد النموذج الهجين من قدرة LSTM على الاحتفاظ بالمعلومات الزمنية وآلية الانتباه الذاتي للمحول لتحقيق دقة تنبؤ أفضل. علاوة على ذلك، يستكشف أماديو وآخرون [4] استخدام نموذج المحول الزمني المدمج (TFT) للتنبؤ بأسعار BTC عبر خطوات زمنية مستقبلية متعددة. يبرز المؤلفون التقلب الكبير في أسعار BTC والتحديات المرتبطة بالتنبؤ الدقيق. نظرًا لأن نموذج المحول تم تقديمه ليكون ناجحًا في مجالات أخرى، فإن تطبيقه على نموذج السلاسل الزمنية مقيد بثلاث نقاط، كما اقترح زو وآخرون [64]
الشكل 1 تكوين نموذج المحول [59]
ولو وآخرون [38]. تشمل هذه القيود تعقيدًا زمنيًا كبيرًا واستهلاكًا للذاكرة، وتحديات في قابلية التوسع، وانخفاض أداء المعالجة للإخراجات الطويلة. يمكن أن تعيق هذه المشكلات تطبيقه المباشر في LSTF لمجموعات البيانات المنظمة.
تم تطوير عدة متغيرات من نموذج المحول لمعالجة هذه القيود الجوهرية. تشمل هذه المتغيرات Autoformer وInformer وFDG-Trans وFEDFormer وSparse Transformer وLogSparse Transformer وLongformer وReformer وPerformer وRSMformer والعديد من المتغيرات الأخرى [5، 28، 61، 65]. ومع ذلك، لم يتم تطبيق أي منها بشكل كبير لتحسين التنبؤات، خاصة في سوق العملات المشفرة المتقلب للغاية. أيضًا، من الجدير بالذكر أن العديد من الباحثين أثبتوا أن بيانات العملات المشفرة تمتلك سمات مثل عدم الاستقرار والموسمية؛ في حين أن الشبكات العصبية التقليدية ليست مصممة للتعامل مع هذه التعقيدات، مما يؤدي إلى توقعات ضعيفة. مستلهمًا من عمل دا سيلفا وآخرون [13]، لي وآخرون [35]، فلاح وآخرون [16]، غوش وآخرون [17]، وكو وكيم [31]، الذي يقوم بتفكيك السلاسل الزمنية قبل تطبيق الشبكات العصبية، يؤسس هذا العمل متغيرًا جديدًا من المحول يسمى Helformer، الذي تم تصميمه للتعامل مع البيانات المعقدة التي تظهر عدم الاستقرار والموسمية. يميز Helformer نفسه عن النماذج السابقة من خلال تعلم واستخراج الأنماط الموسمية تلقائيًا من بيانات السلاسل الزمنية بدلاً من الاعتماد على متغيرات زمنية ديناميكية تم تطويرها يدويًا. تتيح هذه الميزة تحسين وتبسيط تحديد الأنماط دون الحاجة إلى إدخال يدوي على المتغيرات الزمنية.

الطريقة

تناقش هذه القسم النموذج المقترح، وجمع البيانات، ومعالجة البيانات، وتطوير النموذج، والإطار المنهجي، والإعدادات التجريبية، وجميع المتطلبات الأخرى لتنفيذ نموذج ناجح.

Helformer

دراسات سابقة، بما في ذلك دا سيلفا وآخرون [13]، لي وآخرون [35]، جين ولي [28]، فلاح وآخرون [16]، غوش وآخرون [17]، وكو وكيم [31]، قد فحصت بشكل مكثف الاتجاه والموسمية في أسواق العملات المشفرة. استخدم هؤلاء الباحثون طرق التفكيك مثل تحليل الطيف الفردي (SSA)، وتفكيك الوضع التجريبي (EMD)، وتفكيك الوضع التغيري (VMD) لتحليل البيانات. يعد هذا التفكيك أمرًا حيويًا لتعزيز الشبكات العصبية، التي تفتقر عادةً إلى المعلمات الجوهرية لحساب مستويات وموسمية بيانات السلاسل الزمنية، كما أشار كوو وكيم [31]). ومع ذلك، على الرغم من استخدام الشبكات العصبية المعتمدة على التفكيك في هذه الدراسات، لا تزال الأخطاء الكبيرة في التنبؤ قائمة. يبرز هذا الحاجة المستمرة للبحث الهادف إلى تطوير نماذج أكثر قوة وتعقيدًا لمعالجة هذه التحديات.
يستخدم Helformer المقترح هيكل ترميز واحد بدلاً من المكونات المزدوجة المقترحة في بنية المحول التقليدية. يتكون هيكل الترميز في Helformer من كتلة تفكيك سلسلة، وآلية انتباه، واتصالات متبقية، ومكون LSTM، وطبقة كثيفة. باستخدام هيكل واحد فقط من بنية المحول، يتم تقليل تعقيد النموذج، واختناقات الذاكرة، وتقليل استخدام موارد الحوسبة دون المساس بدقة التنبؤ [24]. تم تصميم نموذج Helformer للتنبؤ بسعر إغلاق BTC لليوم التجاري التالي بناءً على حجم نافذة محدد. يتضمن النموذج المقترح طريقة التنعيم الأسّي هولت-وينترز مع بنية معتمدة على المحول معدلة باستخدام Optuna. في البداية، يتم استخدام طبقة التنعيم هولت-وينترز لتفكيك بيانات سعر إغلاق BTC إلى مكوناتها من المستوى، والاتجاه، والموسمية. يتيح هذا التفكيك فهمًا أفضل وإزالة الموسمية من البيانات، مما يؤدي إلى مجموعة بيانات غير موسمية تعزز القدرة التنبؤية للنموذج. ثم تُستخدم البيانات المُعَدلَة كمدخلات لكتل الانتباه المتعددة وطبقة LSTM. تتيح كتل الانتباه في النموذج التركيز على الميزات المهمة داخل البيانات، بينما تلتقط طبقة LSTM الاعتمادات الزمنية الأساسية للتنبؤ الدقيق بالسلاسل الزمنية. يتم تحسين النموذج بشكل أكبر باستخدام Optuna، الذي يقوم بضبط المعلمات الفائقة مثل معدل التعلم، ومعدل التسرب، وعدد رؤوس الانتباه، مما يضمن أفضل أداء ممكن. بالإضافة إلى ذلك، يتم دمج معاملات التنعيم الأسّي مباشرة في نموذج الشبكة العصبية، مما يمكّنها من التحسين مع معلمات أخرى ضمن نفس مُحسِّن النموذج.
تستخدم كتلة التفكيك التنعيم هولت-وينترز لتحديد المعلمات الحاسمة. تُعرف هذه باسم المعلمات المحلية: ألفا ( ) وغاما ( ) التي تتراوح قيمتها بين 0 و1. كما هو موضح بالتفصيل في المعادلة 1 والمعادلة 2، يتم تفكيك المدخلات إلى الموسمية ( ) ومكونات المستوى ( ) في كل نقطة بيانات ( قبل إدخالها في آلية الانتباه متعدد الرؤوس، التي تهدف إلى دراسة النمط المعقد وغير الخطي وغير الثابت للبيانات الملساء لاستخراج مكون الاتجاه والاعتمادات. المعادلة 1 تحسب متوسطًا مرجحًا من خلال دمج الموسمية مع الملاحظات المعدلة حسب المستوى من النقطة الزمنية السابقة. )، بينما المعادلة 2 تتنبأ
المكون الموسمي كمتوسط مرجح لنقطة زمنية مستقبلية ( ). يتنبأ بمكون الموسم استنادًا إلى التقدير السابق ؛ في هذه الأثناء، يتم إجراء إزالة الموسمية باستخدام المعادلة 3.
إن دمج آلية الانتباه متعددة الرؤوس مع كتلة التحلل في النموذج المقترح يتجاوز مجرد الجمع بين التنعيم الأسي والشبكات العصبية؛ حيث يزامن ملاءمة جميع المعلمات مع أوزان الشبكة العصبية في الوقت نفسه. يعالج هذا النموذج البيانات التسلسلية التي تم تنقيحها لإزالة المعلومات غير ذات الصلة والتقلبات الموسمية، مما يجعلها أكثر ملاءمة لآلية الانتباه. كما هو موضح في الشكل 2، تتفاعل آلية الانتباه متعددة الرؤوس مع البيانات الملساء من خلال تحليل جميع مكوناتها بشكل متوازي بدلاً من الطريقة التسلسلية. تتيح هذه القدرة على معالجة البيانات بشكل متوازي للنموذج التعرف على الاعتمادات العالمية عبر سلسلة الإدخال بأكملها بشكل فعال. تعزز هذه الاستراتيجية بشكل كبير سرعة عملية التدريب مقارنة بالطرق التقليدية، التي تعالج نقاط البيانات واحدة تلو الأخرى. عادةً ما يتم توضيح تكوين الانتباه الذاتي لنموذج Transformer في المعادلة 4.
أين هي البُعد الخفي للمفاتيح. المصفوفات تمثل مصفوفات الاستعلام والمفتاح والقيمة، على التوالي. هذه المصفوفات هي ناتج ثلاث طبقات خطية متميزة تشترك في نفس المدخل. يوفر آلية الانتباه الذاتي نهجًا جديدًا للتركيز على المعلومات المحلية الهامة.
ومع ذلك، فإن استخدام آليات الانتباه الذاتي المتعددة، المعروفة باسم الانتباه متعدد الرؤوس، يمكن أن يعزز الأداء. ضمن هذا الإطار، تعمل كل دالة انتباه في وقت واحد، معالجة النسخ المعنية من مصفوفات الاستعلام والمفتاح والقيمة. ثم يتم دمج مخرجات جميع هذه الدوال الانتباه من خلال الربط، ومن ثم تحويلها إلى المخرج النهائي عبر طبقة خطية. يتم تلخيص صيغة الانتباه متعدد الرؤوس في المعادلة 5.
أين، و هي أوزان الشبكات.
في المستقبل، يتم إضافة طبقات الجمع والتطبيع لأنها حاسمة في استقرار عملية التدريب وتحسين أداء النموذج. إن دمج طبقة الجمع والتطبيع في نموذج هيلفورمر يحسن بشكل كبير من الاستقرار والسرعة في
الشكل 2 هندسة هيلفورمر
عملية التدريب. تستخدم مكون الإضافة الاتصالات المتبقية، مما يعالج بشكل فعال مشكلة تلاشي التدرجات من خلال تمكين النقل المباشر للتدرجات عبر الطبقات. بعد ذلك، تستخدم عملية التطبيع تطبيع الطبقات لمعادلة المخرجات عبر الميزات. هذا أمر ضروري لضمان مقياس موحد يعزز التدريب السريع والمستقر. لا تبسط هذه المجموعة عملية التعلم فحسب، بل تضمن أيضًا أن يتكيف النموذج بسرعة وكفاءة مع تعقيدات بيانات الإدخال. أيضًا، تم إدخال طبقة LSTM لاستبدال الشبكة العصبية التقليدية FFN التي تُستخدم عادة في المحولات العادية. تلتقط طبقة LSTM الاعتماديات الزمنية الضرورية للتنبؤ الدقيق بالسلاسل الزمنية. يعرض هذا التصميم، كما هو موضح في الشكل 2، الهيكل المقترح لنموذج Helformer.

بيانات

جمع البيانات

في هذا العمل، يتم تدريب النموذج المقترح باستخدام مجموعة بيانات العملة المشفرة الأكثر شعبية والأكثر قيمة، BTC. نظرًا لأن العملات المشفرة يتم تداولها على مدار الساعة دون أوقات فتح أو إغلاق محددة، فإن بيانات أسعار الإغلاق المستخدمة في هذا التحليل تؤخذ في منتصف الليل (12:00 صباحًا) كل يوم، مما يشير إلى نهاية يوم التداول. بعد ذلك، يستفيد النموذج من نموذج BTC المدرب مسبقًا للتنبؤ بأسعار 15 عملة مشفرة نشطة أخرى من أعلى العملات من حيث القيمة السوقية مع استبعاد العملات المستقرة. سمحت هذه التقنية للنموذج بالتعميم بفعالية وأداء التعلم المتبادل عبر العملات المشفرة المختلفة، مما يظهر إمكانيته في التعلم الانتقالي. تم تنزيل أسعار الإغلاق اليومية لجميع العملات المشفرة المختارة التي تم تحليلها في هذه الدراسة من Yahoo Finance في 21 يوليو 2024. يختلف عدد العينات لكل عملة، حيث أن لهذه العملات تواريخ إطلاق مختلفة؛ لذلك، تم تنزيل مجموعات البيانات بناءً على أقصى فترة متاحة في قاعدة البيانات المختارة. تم اختيار Yahoo Finance كمصدر للبيانات بسبب سمعته وموثوقيته في الحفاظ على بيانات دقيقة وموثوقة على مر الزمن، فضلاً عن استخدامه الواسع في العديد من الدراسات البارزة. تقدم الجدول 1 تفاصيل البيانات المجمعة جنبًا إلى جنب مع تحليلها الإحصائي الأساسي. يوفر لمحة عامة عن البيانات المجمعة، بما في ذلك عدد العينات، وتواريخ البدء والانتهاء لفترة جمع البيانات، ومقاييس إحصائية أساسية مثل المتوسط والانحراف المعياري. تمتلك BTC أطول مجموعة بيانات، بدءًا من 1 يناير 2017، مع متوسط سعر وانحراف معياري قدره 18,749.33، مما يدل على تقلبات عالية. كما أن ETH و BNB لديهما مجموعات بيانات كبيرة تبدأ من 9 نوفمبر 2017، بأسعار متوسطة تبلغ 1,381.28 و 190.99 على التوالي. العملات الأحدث مثل SOL و AVAX لديها نقاط بيانات أقل، مما يعكس إطلاقها مؤخرًا. العملات ذات الأسعار المتوسطة المنخفضة، مثل DOGE و SHIB و TRX، تظهر انحرافات معيارية أصغر، مما يشير إلى تقلبات نسبية أقل مقارنة بالعملات ذات القيمة العالية مثل BTC و BCH.
الجدول 1 الإحصائيات الوصفية لأعلى العملات المشفرة
رقم التسلسل العملة المشفرة عملات عينات تاريخ البدء (يوم/شهر/سنة) تاريخ الانتهاء (يوم/شهر/سنة) معنى الانحراف المعياري
1 بيتكوين بيتكوين ٢٧٣٨ 01/01/2017 30/06/2024 ٢١,٩٠٨.٩٤ 18,749.32
2 إيثيريوم إيث 2426 09/11/2017 30/06/2024 ١٣٨١.٢٨ ١١٩٥.١٨
٣ عملة بينانس بي ان بي 2426 09/11/2017 30/06/2024 ١٩٠.٩٩ 191.57
٤ سولانا سول 1543 10/04/2020 30/06/2024 ٥٦.٢٩ 60.04
٥ تموج إكس آر بي 2426 09/11/2017 30/06/2024 0.52 0.32
٦ تونكوين طن ١٠٣٩ 27/08/2021 30/06/2024 2.35 1.50
٧ دوغ كوين دوغ 2426 09/11/2017 30/06/2024 0.06 0.08
٨ كاردانو أدا 2426 09/11/2017 30/06/2024 0.47 0.55
9 ترون تي آر إكس 2426 09/11/2017 30/06/2024 0.05 0.03
10 انهيار ثلجي أفاكس 1380 13/07/2020 30/06/2024 31.50 ٢٦.٦٣
11 شيبا إينو شيبا 1171 17/04/2021 30/06/2024 0.00002 0.00001
12 بولكادوت نقطة 1411 20/08/2020 30/06/2024 ١٣.٣٥ 11.49
١٣ تشينلينك رابط 2426 09/11/2017 30/06/2024 9.46 9.44
14 بيتكوين كاش بي سي إتش 2426 09/11/2017 30/06/2024 427.86 ٤٠٩.١٨
15 واحد لكن أسد ليو 1868 21/05/2019 30/06/2024 3.06 1.64
16 بروتوكول NEAR قريب 1356 14/10/2020 30/06/2024 ٤.٦٤ 3.82
سوق العملات المشفرة مترابط بشكل كبير، خاصة خلال الأحداث الحرجة، وهيكل شبكته يتطور مع مرور الوقت، مما يوفر رؤى جديدة للمستثمرين الذين يهدفون إلى تحسين محافظهم وتقليل المخاطر في مشهد العملات المشفرة المتقلب. بينما كانت الدراسات الحالية محدودة في اعتبار أربعة عملات شائعة فقط، وهي BTC وETH وLTC وXRP، فإن القليل من الدراسات، مثل عمل أكيلديريم وآخرون وعمل أويولا وآخرون، اعتبرت عدة عملات مشفرة، 12 و15 على التوالي. لفحص الترابط بين 16 عملة مختارة وفهم ديناميكيات ترابطها، تم حساب معاملات الارتباط بيرسون (PCC) لجميع العملات باستخدام خريطة حرارية، كما هو موضح في الشكل 3.
توضح خريطة الحرارة في الشكل 3 العلاقة بين العملات المشفرة الستة عشر المختارة، مما يبرز ترابطها داخل السوق. لضمان التناسق في التحليل، تم جمع بيانات أسعار الإغلاق اليومية من 1 يناير 2023 إلى 30 يونيو 2024 لجميع العملات الستة عشر، مع الأخذ في الاعتبار أن كل عملة مشفرة لها تاريخ إطلاق أولي مختلف. يسمح هذا الإطار الزمني الموحد بمقارنة عادلة للارتباطات عبر جميع الأصول المختارة. يظهر BTC ارتباطات إيجابية معتدلة إلى قوية مع العديد من العملات المشفرة الأخرى، مع معاملات ارتباط تتجاوز 0.7. تشير هذه السلوكيات المترابطة إلى أن BTC غالبًا ما يتحرك بالتزامن مع العملات الرئيسية الأخرى، مما يجعله مرشحًا مثاليًا لتدريب واختبار قوة النموذج المقترح، Helformer. من خلال التركيز على BTC لتنفيذ النموذج الأولي، يمكن الاستفادة من تأثيره في السوق وارتباطه الكبير مع العملات المشفرة الأخرى، مما يضمن أن أي رؤى أو أنماط تم تحديدها من المحتمل أن تكون ذات صلة بسوق العملات المشفرة الأوسع.
الارتباط بين العملات المشفرة
الشكل 3 خريطة حرارة الارتباط
بالإضافة إلى ذلك، من الضروري ملاحظة أن جميع العملات المشفرة المختارة تظهر ارتباطات إيجابية مع بعضها البعض، مما يشير إلى أن تحركات أسعارها تميل إلى اتباع اتجاهات مشابهة داخل السوق.

معالجة البيانات

أولاً، تم تنزيل بيانات أسعار الإغلاق اليومية لـ BTC من Yahoo Finance للفترة بين 1 يناير 2017 و30 يونيو 2024. ثم تم إجراء تحليل استكشافي للبيانات لتحديد المشكلات المحتملة وضمان جودة البيانات. عند الفحص، تظهر الرؤى أن البيانات ذات جودة عالية دون قيم مفقودة. توفر نظرة سريعة على مجموعة بيانات BTC 2,738 ملاحظة مسجلة، مع حد أدنى للسعر يبلغ 777.75 دولار أمريكي وحد أقصى للسعر يبلغ 73,083.50 دولار أمريكي خلال الفترة المعطاة. متوسط السعر عبر جميع العينات هو دولار أمريكي، والانحراف المعياري هو 18,749.32 دولار أمريكي. بعد ذلك، يتم الاحتفاظ بالقيم الشاذة في مجموعة البيانات لأنها توفر معلومات مهمة، خاصة في سوق العملات المشفرة المتقلبة للغاية، حيث تكون تقلبات الأسعار الشديدة شائعة. يتماشى هذا النهج مع الممارسات الشائعة في الدراسات الحالية، حيث يتم غالبًا الحفاظ على القيم الشاذة لتعكس الظروف الواقعية [67]. ومع ذلك، تم استخدام عدة استراتيجيات لمنع خطر الإفراط في التكيف مع الحفاظ على قوة النموذج التنبؤية. أولاً، تم تطبيق مقياس MinMax لتطبيع البيانات ومنع القيم المتطرفة من الهيمنة على عملية التعلم. بالإضافة إلى ذلك، تم دمج طبقات الإسقاط لتقليل حساسية النموذج للقيم الشاذة، بينما ساعدت ضبط المعلمات البايزية في تحسين أداء النموذج وتجنب التكيف المفرط مع الضوضاء. بعد ذلك، تم تنظيف مجموعة البيانات لضمان عدم وجود قيم NaN، مما يحافظ على سلامة البيانات في الدراسة الحالية.
بعد ذلك، خضعت مجموعة بيانات BTC لاختبارات الموسمية والثبات. لتحقيق ذلك، استخدمنا مكتبة “statsmodels” في بايثون لإجراء تحليل موسمي لبيانات السلاسل الزمنية. سمح لنا هذا التحليل بتفكيك البيانات إلى مكوناتها الملاحظة، الاتجاه، الموسمي، وال residuum، مما يوفر تصورًا واضحًا للأنماط والاختلافات الأساسية في مجموعة البيانات. من خلال تحليل هذه الرسوم البيانية، يمكننا فهم سلوك BTC الدوري والاتجاهات بشكل أفضل، وهو أمر حاسم لبناء نماذج توقع قوية. توضح خريطة التحليل الموسمي في الشكل 4 تفكيك السلسلة الزمنية إلى أربعة مكونات: الملاحظة، الاتجاه، الموسمي، وال residuum. تمثل خريطة الملاحظة بيانات سعر BTC الأصلية من 1 يناير 2017 إلى 30 يونيو 2024، مع إظهار تقلبات كبيرة مع ذروات ملحوظة حول عامي 2021 و2022، تليها فترات تصحيح واستعادة. يشير الاتجاه العام إلى حركة صعودية من 2017 إلى أوائل 2021، تليها انخفاض حتى منتصف 2023، بعد ذلك يرتفع الاتجاه مرة أخرى نحو 2024. يعمل هذا المكون طويل الأجل على تسوية التقلبات قصيرة الأجل، مما يلتقط الاتجاه العام لأسعار BTC، مما يشير إلى إمكانية الاستعادة أو النمو في السوق بعد انخفاض كبير.
يوضح المكون الموسمي أنماط دورية متكررة على مدار السنة البالغة 365 يومًا، مما يشير إلى بعض مستويات الدورية في تحركات أسعار BTC. قد تكون هذه الدورات مدفوعة بعوامل مثل مشاعر المستثمرين، نفسية السوق، الظروف الاقتصادية الكلية، الأوبئة، أو الأحداث المنتظمة مثل الأخبار التنظيمية أو التحديثات التكنولوجية. يلتقط المكون residuum الضوضاء العشوائية والتقلبات غير المنتظمة التي لا تفسرها المكونات الاتجاهية أو الموسمية. تظهر القيم residuum تقلبات كبيرة، خاصة خلال فترات النشاط السوقي المكثف مثل 2017-2018 و
الشكل 4 خريطة تفكيك الاتجاه الموسمي – BTC
2021-2022، مما يشير إلى وجود صدمات أو أحداث سوقية غير متوقعة تؤثر على أسعار BTC. يوفر هذا التفكيك رؤى قيمة للنموذج المقترح لتحديد وفصل الأنماط الدورية القابلة للتنبؤ عن التغيرات العشوائية وغير المتوقعة، مما يمكّن من نهج أكثر دقة في توقع تحركات أسعار BTC.
لتعزيز الادعاء بشأن الطبيعة الموسمية وغير الثابتة للعملات المشفرة، تم إجراء اختبار دالة الارتباط الذاتي (ACF)، كما هو موضح في الشكل 5. تقيس خريطة ACF الارتباط بين بيانات السلاسل الزمنية وقيمها المتأخرة على فترات زمنية مختلفة. من خريطة ACF لأسعار إغلاق BTC، من الواضح أن هناك مستوى عالٍ من الارتباط الذاتي عند عدة تأخيرات، والذي يتناقص تدريجياً ولكنه يبقى إيجابياً بشكل كبير حتى بعد 50 تأخيرًا. يشير هذا الارتباط الذاتي المستمر إلى أن سلسلة أسعار BTC تظهر اعتمادًا زمنيًا قويًا وتأثيرات ذاكرة طويلة الأجل. تؤكد هذه الارتباطات المطولة أن بيانات أسعار BTC غير ثابتة، حيث لا تتلاشى الارتباطات بسرعة إلى الصفر. هذا السلوك شائع لبيانات السلاسل الزمنية المالية، حيث تؤثر الأسعار السابقة بشكل كبير على الأسعار المستقبلية. يدعم الارتباط الذاتي العالي عبر العديد من التأخيرات الحاجة إلى نماذج أكثر تعقيدًا مثل Helformer، التي يمكن أن تلتقط هذه الاعتماديات بعيدة المدى بشكل فعال وتوفر توقعات أكثر دقة.
الشكل 5 خريطة ACF لبيانات BTC
تدعم عدم الثبات الحاجة إلى نماذج متطورة مثل Helformer لالتقاط الأنماط المعقدة والاعتماديات الزمنية في أسعار BTC للتنبؤ القوي.

الإعداد التجريبي

بعد معالجة البيانات لتنفيذ النموذج، سيتم تنفيذ النموذج المقترح جنبًا إلى جنب مع خمسة نماذج أخرى: RNN، LSTM، BiLSTM، GRU، وTransformer. يتم تقسيم مجموعة البيانات إلى مجموعات تدريب واختبار (80:20) لضمان تقييم قوي لأداء كل نموذج. بالإضافة إلى ذلك، تم تعيين تقسيم التحقق إلى 0.2. تساعد هذه الخطوة في تحسين النماذج ومنع الإفراط في التكيف. يتم تفصيل المعلمات المستخدمة في مرحلة التدريب الأولية في الجدول 2.
تم اختيار خطوة زمنية قدرها 30 لأن هذا الحجم من النافذة أظهر دقة أفضل في الدراسات السابقة، مثل تلك التي أجراها Dutta et al. [15]، Chowdhury et al. [11]، وJin وLi [28]. تم تعيين دالة الخسارة على “متوسط الخطأ التربيعي”، بينما تم تعيين دالة التنشيط على “Mish”. يتم تعريف دالة تنشيط Mish، وهي دالة تنشيط متطورة، بواسطة الصيغة المقدمة في المعادلة 6.
حيث هي دالة التنشيط softplus.
تدمج هذه الدالة السلسة وغير الأحادية Mish خاصية التحكم الذاتي، مشابهة لدالة Swish، مما يسمح لكل خلية عصبية بضبط مخرجاتها بناءً على المدخلات التي تتلقاها. تضمن سلاسة “Mish” وجود مشتقات مستمرة، وهو أمر حاسم للحفاظ على تدفق التدرجات الثابت عبر الشبكات العميقة. يمكن أن يكون هذا مفيدًا بشكل خاص في منع مشكلات مثل انقطاع التدرجات أثناء عملية التعلم. تقدم Mish العديد من الفوائد مقارنةً بوظائف التنشيط التقليدية مثل ReLU وSwish، خاصة في قدرتها على التخفيف من “مشكلة ReLU الميت” من خلال تجنب مناطق التدرجات الصفرية [39]. على عكس ReLU، تسمح Mish بانتشار القيم السلبية، مما يساعد على التقاط المزيد من
الجدول 2 معلمات إعداد النموذج
النماذج Helformer Transformer RNN/LSTM/ BiLSTM/ GRU
عدد كتل المحول 1 1
عدد الرؤوس 4 4
حجم الرأس 16 16
الانخفاض 0.1 0.1 0.1
العصور 100 100 100
حجم الدفعة 32 32 32
الخلايا العصبية 30 30
الطبقات المخفية 1
معدل التعلم 0.001 0.001 0.001
المحسن Adams Adams Adams
الخسارة MSE MSE MSE
ff_dim 16
دالة التنشيط Mish Mish Mish
أنماط معقدة داخل البيانات. بينما تتعامل tanh أيضًا مع القيم السلبية وتقدم تدرجًا سلسًا، يمكن أن تؤدي إلى تلاشي التدرجات في الشبكات العميقة، وهو قيد أقل وضوحًا في Mish بسبب خصائصها. تجعل هذه الخصائص Mish خيارًا واعدًا لمهام الشبكات العصبية المعقدة، بما في ذلك نمذجة السلاسل الزمنية، حيث يكون فهم الاعتماد الزمني العميق أمرًا أساسيًا. تظهر تعددية Mish كدالة تنشيط، متجاوزة ReLU وSwish، في التجارب المتعددة التي أجراها Sbrana وLima de Castro [52]. تظهر دراستهم أن نماذج الشبكات العصبية مع دالة تنشيط Mish تولد باستمرار أخطاء توقع أقل من بدائلها. يوفر الشكل 6 إطارًا شاملًا لتنفيذ النموذج بالكامل وتدريبه.
نظرًا لأن مرحلة معالجة البيانات تعتبر حاسمة لنجاح هذه التجربة في التنبؤ بدقة بأسعار العملات المشفرة، تم تعديل بيانات BTC لتقليل الضوضاء والتباين، مما يعزز قدرة النموذج على التعرف على الاتجاهات الأساسية. تعتبر هذه التحويلة مهمة بشكل خاص لاستقرار التباين عبر مجموعة البيانات، مما يضمن بقاء أنماط الأسعار متميزة وقابلة للتفسير للتنبؤ الفعال. لتحقيق ذلك، تم اعتماد MinMaxScaler، الذي يقوم بتطبيع القيم ضمن نطاق ثابت من 0 إلى 1، كما هو موضح في المعادلة 7. يعتمد اختيار مقياس MinMax على قدرته على الحفاظ على العلاقات النسبية وتوزيع البيانات مع منع تقلبات الأسعار الشديدة من الهيمنة على عملية التعلم. على عكس طرق التوحيد القياسي مثل تطبيع Z-score، التي تفترض توزيع غاوسي وتدور البيانات حول متوسط صفر، يحتفظ مقياس MinMax بالهيكل الأصلي للبيانات، مما يجعله أكثر ملاءمة للسلاسل الزمنية المالية المتقلبة للغاية. بالإضافة إلى ذلك، تساعد هذه التقنية في التخفيف من مشكلات تلاشي أو انفجار التدرجات في نماذج التعلم العميق من خلال ضمان بقاء قيم المدخلات ضمن نطاق مقيد، مما يحسن كفاءة التقارب أثناء التدريب.
الشكل 6 إطار منهجي
حيث يمثل السعر المنظم في أي وقت t، بينما هو السعر الملسّ في أي وقت t.
لإجراء جميع النماذج في هذه الدراسة، تم استخدام Python 3.10.12 على Google Colab، وهو اختيار مدفوع بقدرة المنصة على توفير موارد حوسبة فعالة وسهلة الوصول. يوفر Google Colab بيئة سهلة الاستخدام تدعم المهام الحاسوبية المكثفة من خلال توفير الوصول إلى مسرعات الأجهزة الخارجية ووحدات الحوسبة. يقلل هذا بشكل كبير من الحمل الحاسوبي، مما يجعله مثاليًا للتعامل مع الاحتياجات القوية لنماذج التعلم العميق. تعمل البيئة على TensorFlow 2.17.0 وتدمج مكتبة Keras، التي تأتي مجهزة مسبقًا بمجموعة واسعة من نماذج التعلم العميق والمكتبات الجاهزة للاستخدام. تم إجراء مهام معالجة البيانات والتصور بشكل أساسي باستخدام مكتبات Python: Matplotlib وSeaborn.
نظرًا للمتطلبات الحاسوبية العالية للنماذج المقترحة، خاصة خلال مرحلة ضبط المعلمات الفائقة، تم النظر في النسخة المميزة من Google Colab، التي تتضمن الوصول إلى NVIDIA A100 GPU. تعزز هذه البطاقة الرسومية المتقدمة من قوة الحوسبة، وتسرع من سرعة المعالجة، وتوسع القدرات الحاسوبية، وهو أمر حاسم لإدارة المطالب الشديدة للنماذج التنبؤية. تُقدّر بطاقة A100 GPU بشكل خاص لقدراتها العالية في الحوسبة، مما يجعلها أداة ممتازة للمهام التي تتطلب بيانات كثيفة وضمان تنفيذ فعال لأطر التعلم العميق.

عملية تحسين المعلمات الفائقة

تعتبر عملية تحسين المعلمات الفائقة مرحلة حاسمة في تدريب التعلم الآلي. تهدف إلى تحسين المعلمات التي تتحكم في عملية التعلم، مما يؤدي إلى أعلى أداء محتمل للنموذج. يعد اختيار المعلمات الفائقة المناسبة أمرًا حاسمًا حيث أن لها تأثير مباشر على نموذج التدريب، الذي يتعلم من البيانات ويقوم بعمل توقعات دقيقة على البيانات غير المرئية. يمكن أن تؤدي المعلمات الفائقة المختارة بشكل غير كافٍ إلى مشكلات مثل الإفراط في التكيف، أو نقص التكيف، أو التعلم غير الفعال، مما يقلل في النهاية من قدرة النموذج على التنبؤ بدقة وموثوقيته. ثلاث من استراتيجيات الضبط الأكثر شيوعًا هي البحث الشبكي، البحث العشوائي، والبحث البايزي. يُستخدم البحث الشبكي على نطاق واسع بسبب تنفيذه البسيط وسهولة التوازي، بالإضافة إلى اعتماده في الفضاءات ذات الأبعاد المنخفضة وقابلية إعادة إنتاج نتائج الضبط. ومع ذلك، يواجه البحث الشبكي تحديات كبيرة، خاصة في الفضاءات ذات الأبعاد العالية، حيث ينمو عدد التجارب بشكل أسي مع زيادة المعلمات الفائقة، وهو ظاهرة تُعرف غالبًا بلعنة الأبعاد [6].
على النقيض من ذلك، يختار البحث العشوائي المعلمات الفائقة من خلال سحب عينات مستقلة من توزيع موحد [6]. يحتفظ البحث العشوائي بالعديد من المزايا العملية للبحث الشبكي، بما في ذلك البساطة وقابلية إعادة الإنتاج، ولكنه يقدم دفعة أداء كبيرة في فضاءات المعلمات الفائقة ذات الأبعاد العالية. تأخذ تحسينات بايزي نهجًا مختلفًا تمامًا في ضبط المعلمات الفائقة مقارنةً بالآخرين من خلال بناء نموذج بديل لدالة استجابة المعلمات الفائقة بدلاً من أخذ عينات شاملة من فضاء المعلمات الفائقة [49]. يستخدم هذا النموذج البديل لإبلاغ عملية البحث ويختار بشكل صريح مجموعة المعلمات الفائقة التالية للتقييم وتقليل عدم اليقين في النموذج. يتم تقييم تشغيل نموذج التعلم الآلي بعد ذلك باستخدام هذه المعلمات الفائقة، مما يحدث النموذج الاحتمالي ويخلق توزيعًا لاحقًا يوجه الاختيارات المستقبلية. تستمر هذه العملية التكرارية حتى تصبح التحسينات ضئيلة أو يتم استنفاد الموارد الحاسوبية، مما يؤدي في النهاية إلى تكوين المعلمات الفائقة المثلى. يعتبر البحث البايزي فعالًا بشكل خاص، وغالبًا ما يتطلب تقييمات أقل لتحديد الحل الأمثل. تُستخدم المعادلة 8 للعثور على القيمة القصوى للدالة الهدف غير المعروفة:
هنا، يمثل فضاء البحث للمعلمات الفائقة، المشار إليه بـ .
في تحسين بايزي، تُعتبر دالة الهدف دالة عشوائية، ويفترض توزيع سابق عليها. يعتمد هذا النهج في التحسين على عنصرين حاسمين:
العنصرين: الدالة السابقة والدالة اللاحقة، والتي يتم تمثيلها عادةً بواسطة دالة اكتساب. تقوم الدالة السابقة بنمذجة السلوك المتوقع لدالة الهدف وغالبًا ما يتم تقديرها باستخدام طرق مثل العمليات الغاوسية (GP) أو خوارزميات أكثر تخصصًا مثل مُقدّر بارزين الشجري (TPE) [22]. مع جمع تقييمات الدالة، يتم تحديث السابقة لتشكيل توزيع لاحق، والذي يلتقط رؤى من بيانات جديدة ويقوم بتحسين فهم سلوك الدالة. يعتبر هذا التوزيع اللاحق ضروريًا لبناء دالة اكتساب , الذي يوجه استراتيجياً اختيار نقطة الاستعلام التالية للتقييم، بهدف تحسين عملية البحث. تشمل الخيارات الشائعة لوظيفة الاستحواذ احتمال التحسين (PI) والتحسين المتوقع (EI)، وكلاهما مصمم لتوجيه البحث نحو مناطق من فضاء المعلمات الفائقة التي تعد بأكبر تحسينات. تركز وظيفة PI، بشكل خاص، على استكشاف المناطق المحيطة بالنقطة المثلى الحالية للعثور على قيم محتملة أفضل. هذا الاستكشاف ضروري للتنقل بكفاءة في فضاء البحث ويتم صياغته في المعادلة 9، التي تحسب احتمال أن عينة جديدة ستؤدي إلى تحسين مقارنة بأفضل ملاحظة حالية.
في هذا السياق، تمثل دالة التوزيع التراكمي (CDF) للتوزيع الغاوسي.
تتمتع وظيفة الاستحواذ PI في تحسين بايزي بحد رئيسي: حيث تميل إلى تركيز جهود العينة بالقرب من الحل الأمثل الحالي، مما يبرز الاستكشاف. يمكن أن يؤدي ذلك إلى تجاهل حلول أفضل محتملة إذا كانت تقع بعيدًا عن الأمثل المحلي، مما قد يتسبب في أن يعلق النموذج في الأمثل المحلي. للتخفيف من هذه المشكلة، غالبًا ما يتم استخدام وظيفة الاستحواذ EI. تستكشف وظيفة EI بشكل منهجي المناطق المحيطة بالأمثل الحالي وتحسب التحسين المتوقع لكل نقطة جديدة يتم تقييمها. إذا كان التحسين المتوقع المحسوب عند نقطة جديدة أقل من عتبة محددة مسبقًا، يُستنتج أن النقطة المثلى الحالية هي على الأرجح أفضل حل ضمن تلك المنطقة. وبالتالي، يقوم الخوارزمية بعد ذلك بتحويل تركيزها لاستكشاف مناطق أخرى من مجال البحث، مما يوازن بشكل فعال بين الاستكشاف والاستغلال. هذا التوازن ضروري لتجنب الأمثل المحلية وضمان بحث أكثر شمولاً في فضاء المعلمات الفائقة. درجة التحسين , الذي هو الفرق بين قيمة الدالة عند النقطة المختارة حديثًا والقيمة عند الأمثل الحالي، هو محور هذه العملية [22]. افترض أن قيمة دالة النقطة الجديدة لا تتجاوز القيمة المثلى الحالية. في هذه الحالة، يعتبر التحسين صفرًا، كما هو موضح في المعادلة 10. تضمن هذه الآلية أن عملية التحسين تتحرك باستمرار نحو اكتشاف حلول أفضل محتملة.
تمثل المعادلة 11 والمعادلة 12 دالة كثافة الاحتمال لـ و .
حيث هي دالة توزيع الاحتمال للتوزيع الطبيعي القياسي Z في المعادلة 13.
في هذا العمل، تم استخدام تحسين بايزي لضبط المعلمات الفائقة لنموذج Helformer وغيرها من نماذج التعلم العميق (RNN، LSTM، BiLSTM، GRU، وTransformer). على عكس البحث الشبكي أو العشوائي، يستكشف تحسين بايزي فضاء البحث بكفاءة باستخدام نموذج بديل احتمالي، مما يقلل من عدد تقييمات الدالة اللازمة للعثور على المعلمات الفائقة المثلى. استخدمت هذه الدراسة خوارزمية TPE من إطار عمل Optuna، الذي يقوم بنمذجة الدالة الهدف كتوزيع احتمالي ويختار قيم المعلمات الفائقة التي تعظم EI. تتبع عملية التحسين هذه الخطوات الرئيسية:
  1. تحديد فضاء البحث: يتم تحقيق ذلك من خلال تحديد القيم الممكنة لكل معلمة فائقة (مثل، معدل التعلم، معدل التسرب، حجم الدفعة).
  2. تهيئة التجارب العشوائية: يقوم الخوارزمية أولاً بتقييم بعض التكوينات المختارة عشوائيًا لبناء نموذج أولي.
  3. بناء نموذج بديل: يتم إنشاء نموذج احتمالي لتقريب الدالة الهدف.
  4. اختيار مجموعة المعلمات الفائقة التالية: بناءً على معيار EI، يتم اختيار المعلمات الفائقة الواعدة التالية.
  5. تقييم وتحديث النموذج: يتم اختبار مجموعة المعلمات الفائقة الجديدة، ويتم تحديث النموذج البديل بشكل تكراري.
  6. التقارب: تتوقف العملية عندما تصبح مكاسب الأداء ضئيلة أو عندما يتم الوصول إلى عدد محدد من التجارب.
لضمان الكفاءة، يتم تعيين عدد التجارب إلى 50، ويتم تمكين ميزة Optuna Pruner لإنهاء التجارب ذات الأداء الضعيف مبكرًا، مما يمنع الحسابات غير الضرورية. يتم تعيين اتجاه التحسين لتقليل MSE كهدف رئيسي. يتم تفصيل فضاء البحث لكل نموذج في الجدول 3، مع تحديد نطاقات المعلمات الفائقة المستكشفة خلال تحسين بايزي.

مقاييس التقييم

تم استخدام ستة مقاييس تقييم لتقييم القدرة التنبؤية للنماذج المطورة، وتم تصنيفها إلى مقاييس قائمة على التشابه ومقاييس قائمة على الاختلاف. تشمل المقاييس القائمة على التشابه R -مربع ( )، درجة التباين المفسر (EVS)، وكفاءة كلينغ-غوبتا (KGE). تقيس نسبة التباين في المتغير التابع الذي يمكن التنبؤ به من المتغيرات المستقلة، مما يشير إلى جودة ملاءمة النموذج. يقيم EVS نسبة التباين في المتغير المستهدف الذي تم حسابه بواسطة النموذج، مما يعكس قدرة النموذج على تفسير تباين البيانات. تجمع KGE بين
الجدول 3 فضاء البحث لتحسين بايزي
المعلمات الفائقة RNN/LSTM/BiLSTM/GRU Transformer Helformer
الخلايا العصبية [20، 50] (خطوة = 5) [20، 50] (خطوة = 5)
الطبقات [1، 2]
عدد الكتل [1،4] [1،4]
معدل التعلم [0.0001، 0.01] [0.0001، 0.01] [0.0001، 0.01]
معدل التسرب [0، 0.3] [0،0.3] [0،0.3]
حجم الدفعة [16، 32، 64، 128] [16، 32، 64، 128] [16، 32، 64، 128]
عدد الدورات [50، 150] (خطوة ) [50، 150] (خطوة = 5) [50، 150] (خطوة = 5)
عدد الرؤوس [2، 10] (خطوة = 2) [2، 10] (خطوة = 2)
حجم الرأس [8، 64] (خطوة = 8) [8، 64] (خطوة = 8)
ff_dim [16، 64] (خطوة = 16)
معامل ارتباط بيرسون، نسبة التحيز، ونسبة التباين لتوفير مقياس متوازن للارتباط، التحيز، وخطأ التباين بين القيم المرصودة والمتوقعة.
من ناحية أخرى، تشمل المقاييس القائمة على الاختلاف خطأ الجذر التربيعي المتوسط (RMSE)، خطأ النسبة المطلقة المتوسطة (MAPE)، وخطأ النسبة المطلقة المتوسطة (MAE). معًا، تقيم هذه المقاييس بشكل شامل أداء كل نموذج، مما يلتقط كل من المحاذاة والانحراف بين القيم المتوقعة والفعلية. تمثل المعادلات 14-19 الصيغ الخاصة بستة مقاييس تقييم تم استخدامها لتقييم أداء النماذج المطورة. توفر هذه المقاييس فهمًا شاملاً لكل من التشابه والاختلاف بين القيم المتوقعة والفعلية.
حيث، هي القيم الفعلية، هي القيم المتوقعة، هو متوسط القيم الفعلية، وN هو طول مجموعة البيانات.
حيث يدل على تباين القيم الفعلية و هو تباين الأخطاء.
حيث r هو معامل ارتباط بيرسون، هو نسبة التباين، و هو نسبة التحيز.

النتائج التجريبية والمناقشات

تقدم هذه القسم النتائج والمناقشة للنماذج الأساسية المستخدمة في هذه الدراسة. بعد تطبيق ضبط المعلمات الفائقة باستخدام Optuna، استنادًا إلى فضاء المعلمات الفائقة الموضح في الجدول 3، تم الحصول على معلمات محسنة لتدريب النسخة النهائية من نموذج Helformer جنبًا إلى جنب مع خمسة نماذج متطورة أخرى: RNN، LSTM، BiLSTM، GRU، وTransformer. يتم تقديم ومناقشة نتائج هذه النماذج المحسنة، مما يظهر تحسينات كبيرة في الأداء التنبؤي بسبب عملية الضبط. علاوة على ذلك، تم تنفيذ استراتيجية تداول لإظهار التطبيق العملي لكل نموذج من خلال مقارنة أدائها باستراتيجية B&H التقليدية. توفر النتائج من هذه الاستراتيجيات التجارية رؤى حول المكاسب المالية المحتملة وقدرات إدارة المخاطر للنماذج الفردية. للتحقق من مرونة وقوة النموذج المقترح، تم إجراء تحليل مقارن من خلال تكرار الإعدادات التجريبية والمعلمات من أعمال بارزة في الأدبيات، باستخدام مجموعاتها البيانية لتقييم أداء النموذج المقترح مقارنة بالنماذج الموجودة. أخيرًا، يبرز هذا القسم قدرة التعلم المتبادل لنموذج Helformer، الذي تم تدريبه في البداية باستخدام بيانات BTC. تم تطبيق الأوزان المحفوظة من هذا النموذج المدرب مسبقًا على 15 عملة مشفرة رائدة أخرى. أظهرت هذه الطريقة دقة تنبؤية استثنائية وعوائد كبيرة عند استخدامها في استراتيجيات التداول عبر عملات مشفرة مختلفة، مما يبرز قابلية تعميم النموذج وفعاليته في ظروف السوق المتنوعة.

نتائج النماذج الأساسية

تطبيق هذه الدراسة الإعداد التجريبي الموصوف سابقًا لبناء جميع النماذج المختارة باستخدام تكويناتها الافتراضية دون ضبط المعلمات. توفر النتائج الأولية لمحة عامة عن مقاييس التقييم، بما في ذلك RMSE و MAPE و MAE، ، EVS، و KGE على بيانات الاختبار. تقدم الجدول 4 أداء النماذج الأساسية قبل أي ضبط للمعلمات، مما يكشف عن اختلافات كبيرة في دقتها التنبؤية. من بين النماذج، يبرز Helformer بأداء استثنائي عبر جميع
الجدول 4 نموذج قاعدة BTC – مقاييس التقييم على بيانات الاختبار
نموذج جذر متوسط مربع الخطأ ماب ماي EVS KGE
شبكة عصبية متكررة ١٢٥٦.٣٧٦٧ ٢.٣٩٤٢٪ 915.7597 0.9941 0.9952 0.9851
LSTM ١٤٢٦.٥٤٥٣ ٣.١١٢١٪ ١١٢٣.٤٢٤٨ 0.9924 0.9930 0.9669
بي إل إس تي إم ١٣٣١.٣٠٤٧ ٢.٦٠٣٠٪ 980.5543 0.9933 0.9937 0.9862
GRU 1314.9097 ١.٩٢٤١٪ 830.1504 0.9935 0.9944 0.9674
محول ١٦٥٧.١٤٢٦ ٣.٠٠٥٣٪ 1174.7753 0.9897 0.9900 0.9855
هيلفورمر ١٦٫٠٨٢٢ 0.0343% 13.4487 1 1 0.9995
مقاييس التقييم. يحقق Helformer أدنى قيمة لجذر متوسط مربع الخطأ (16.0822). كما أن نسبة الخطأ المطلقة المتوسطة (MAPE) لديه منخفضة بشكل مثير للإعجاب عند ، مما يظهر دقة متفوقة مقارنة بالنماذج الأخرى. متوسط الخطأ المطلق (MAE) لنموذج Helformer هو 13.4487، مما يبرز دقته في التنبؤ. كما يحقق نموذج Helformer درجات مثالية لـ و EVS (كلاهما يساوي 1)، مما يشير إلى أنه التقط تمامًا التباين في أسعار BTC. تُظهر درجة KGE العالية البالغة 0.9995 توافقًا شبه مثالي بين القيم المرصودة والمتوقعة. يُظهر نموذج RNN، وهو بنية شبكة عصبية متكررة أبسط، RMSE أعلى بكثير يبلغ 1256.3767 و MAPE من كما أن MAE مرتفع أيضًا عند 915.7597، مما يشير إلى أن النموذج لديه خطأ متوسط نسبيًا كبير في التنبؤات. على الرغم من أن قيمة 0.9941 و EVS بقيمة 0.9952 لا تزال مرتفعة، مما يشير إلى توافق جيد مع البيانات، لكن أخطاء النموذج تشير إلى وجود مجال للتحسين. يسجل نموذج LSTM، المعروف بقدرته على إدارة الاعتمادات طويلة الأجل في بيانات السلاسل الزمنية، RMSE بقيمة 1426.5453 و MAPE من ، وMAE قدره 1123.4248. تشير هذه النتائج إلى أنه، على الرغم من أن LSTM هو نموذج فعال لتوقع السلاسل الزمنية، إلا أنه يؤدي بشكل أقل مقارنةً بـHelformer. الأدنى و EVS (0.9930) مقارنةً بـ Helformer تشير إلى أن LSTM لا تلتقط التباين في أسعار BTC بشكل جيد. نموذج BiLSTM، وهو نسخة أكثر تقدمًا من LSTM تلتقط الاعتماديات في كلا الاتجاهين الأمامي والخلفي، يظهر بعض التحسن مقارنةً بـ LSTM مع RMSE قدره 1331.3047 و MAPE لـ . ومع ذلك، فإن متوسط الخطأ المطلق الخاص به هو 980.5543 وأقل قليلاً (0.9933) مقارنةً بـ Helformer تشير إلى أنها لا تزال تفتقر إلى الدقة والصلابة اللازمة للتنبؤ الأمثل.
يؤدي نموذج GRU بشكل أفضل قليلاً من نماذج LSTM و BiLSTM مع RMSE قدره 1314.9097 و MAPE أقل. متوسط الخطأ المطلق (MAE) البالغ 830.1504 هو أيضًا أقل من ذلك الخاص بـ LSTM و BiLSTM. ومع ذلك، فإن (0.9935) و EVS (0.9944) لا تزال أقل من تلك التي حققها Helformer، مما يشير إلى أنه على الرغم من أن GRU فعّال، إلا أنه لا يؤدي بنفس كفاءة Helformer. نموذج Transformer، الذي يستخدم آليات الانتباه الذاتي، يسجل أعلى RMSE (1657.1426) و MAPE مرتفع نسبيًا من كما أن MAE هو الأعلى بين النماذج عند 1174.7753، مما يشير إلى وجود أخطاء كبيرة في التنبؤ. على الرغم من وجود مستوى عالٍ من قيمة 0.9897، أداء نموذج المحول في هذا السياق ليس بكفاءة هيلفورمر. باختصار، يتفوق هيلفورمر بوضوح على جميع النماذج الأخرى في تكويناتها الأساسية، مما يظهر دقة تنبؤ وموثوقية متفوقة. أداؤه المتميز عبر جميع المقاييس يشير إلى أن هيكله، الذي يتضمن تحليل السلاسل وآليات الانتباه، مناسب بشكل خاص للتعامل مع الطبيعة المعقدة والمتقلبة لبيانات العملات المشفرة.

نتائج النماذج المحسّنة

القيم المثلى للمعلمات الفائقة لكل نموذج، التي تم الحصول عليها من خلال تحسين بايزي، هي كما يلي: بالنسبة لنموذج المحول، تتضمن التكوينات المثلى بعدًا للتغذية الأمامية قدره 16، و2 كتلة، ومعدل تعلم قدره 0.0085، ومعدل تسرب قدره 0.0181، وحجم دفعة قدره 16، و100 دورة. بالإضافة إلى ذلك، يستخدم 10 رؤوس انتباه بحجم رأس قدره 32. تم تحسين نماذج RNN وLSTM وBiLSTM وGRU بأحجام وحدات قدرها ، و40، على التوالي، مع تحديد الطبقات عند ، و 1. تم ضبط معدلات تعلمهم على ، و0.0082، بينما كانت نسبة التسرب 0.0117، ، و0.0001، على التوالي. كانت أحجام الدفعات متفاوتة كما ، و 64 ، مع
عدد دورات التدريب المحسّنة عند ، و 85 ، على التوالي. تم تحسين نموذج هيلفورمر، الذي أظهر أداءً متفوقًا، بـ 20 وحدة، وكتلة واحدة، ومعدل تعلم قدره 0.0037، ومعدل تسرب قدره 0.0194، وحجم دفعة قدره 16، وتم تدريبه لمدة 95 دورة. تم تكوين النموذج بأربعة رؤوس انتباه وحجم رأس قدره 48. تقدم الجدول 5 النتائج المحسّنة للنماذج بعد ضبط المعلمات الفائقة، مما يظهر تحسين أدائها في توقع أسعار BTC على مجموعة البيانات الاختبارية. يكشف أن نموذج هيلفورمر، بعد التحسين، يتفوق بشكل كبير على جميع النماذج الأخرى عبر جميع مقاييس التقييم. يحقق هيلفورمر RMSE منخفضًا بشكل استثنائي قدره 7.7534، مما يشير إلى أن الانحراف بين أسعاره المتوقعة والفعلية لـ BTC ضئيل للغاية. معدل الخطأ النسبي المتوسط (MAPE) منخفض بشكل ملحوظ عند “، مما يبرز دقته المتميزة في توقع أسعار BTC. كما أن متوسط الخطأ المطلق هو الأدنى بين جميع النماذج عند 5.9252، مما يدل على دقة عالية. وتماثل مقاييس EVS كلاهما 1، مما يدل على أن نموذج Helformer يفسر تمامًا التباين في أسعار BTC، مما يشير إلى ملاءمة مثالية. تشير قيمة KGE البالغة 0.9998 إلى توافق شبه مثالي بين القيم المرصودة والمتوقعة، مما يعزز فعاليته في التقاط الديناميات المعقدة لأسعار BTC.
بالمقارنة، تظهر النماذج الأخرى: RNN وLSTM وBiLSTM وGRU وTransformer، أيضًا تحسينًا في الأداء بعد ضبط المعلمات الفائقة، لكنها لا تزال أقل من Helformer من حيث الدقة والضبط. على سبيل المثال، يحقق نموذج BiLSTM RMSE قدره 1140.4627 وMAPE قدره ، والتي تمثل تحسينات كبيرة مقارنة بأداء النموذج الأساسي. ومع ذلك، فإن متوسط الخطأ المطلق الخاص به هو 766.7234 و 0.9951 تشير إلى أن لديها أخطاء أكبر وقوة تفسيرية أقل قليلاً مقارنةً بـ Helformer. كما يظهر نموذج RNN أداءً جيدًا مع RMSE قدره 1153.1877 و MAPE من ، وMAE قدره 765.7482. إن قيمة 0.9950 و EVS بقيمة 0.9951 كلاهما مرتفع، مما يشير إلى أن النموذج يتناسب مع البيانات بشكل جيد. ومع ذلك، فإن أخطاء التنبؤ أكبر من تلك الخاصة بـ Helformer. نموذج GRU يؤدي بشكل مشابه لنموذج RNN، مع RMSE بقيمة 1151.1653 و MAPE من ، وMAE قدره 724.5279. على الرغم من أنه يظهر أداءً أفضل قليلاً من RNN، مع MAPE وMAE أقل، إلا أن دقته العامة ودرجة دقته لا تزال أقل من تلك الخاصة بـ Helformer. أيضًا، يسجل نموذج LSTM RMSE قدره 1171.6701، وMAPE قدره ، وMAE قدره 737.1088، مما يعكس تحسينات من أدائه الأساسي ولكنه لا يزال متأخراً مقارنةً بـHelformer. نموذج Transformer، المعروف بأدائه القوي في مهام التسلسل إلى التسلسل، يظهر RMSE قدره 1218.5600، وMAPE قدره “، وMAE قدره 799.6003. على الرغم من ارتفاعه وقيم EVS (0.9946)، فإن نموذج المحول لديه أعلى أخطاء في التنبؤ بين النماذج المحسّنة، مما يشير إلى أنه
الجدول 5 نموذج BTC المحسن – مقاييس التقييم على بيانات الاختبار
نموذج جذر متوسط مربع الخطأ ماب ماي EVS KGE
شبكة عصبية متكررة ١١٥٣.١٨٧٧ ١.٩١٢٢٪ 765.7482 0.9950 0.9951 0.9905
LSTM 1171.6701 1.7681% 737.1088 0.9948 0.9949 0.9815
بي إل إس تي إم 1140.4627 1.9514% ٧٦٦٫٧٢٣٤ 0.9951 0.9952 0.9901
GRU ١١٥١.١٦٥٣ ١.٧٥٠٠٪ ٧٢٤.٥٢٧٩ 0.9950 0.9950 0.9878
محول 1218.5600 ١.٩٦٣١٪ 799.6003 0.9944 0.9946 0.9902
هيلفورمر 7.7534 0.0148% 5.9252 1 1 0.9998
أقل ملاءمة لهذه المهمة الخاصة بتوقع السلاسل الزمنية دون تعديلات إضافية. الانخفاض الكبير في أخطاء التنبؤ ومقاييس الملاءمة المثالية ( و (EVS) لنموذج Helformer تسلط الضوء على فعالية هيكله وعملية ضبط Optuna. وهذا يبرز إمكانيات نموذج Helformer كأداة قوية للتنبؤ بأسعار العملات المشفرة في الأسواق المتقلبة.
توضح الشكل 7 الأداء المتميز لنموذج هيلفورمر، الذي يظهر توافقًا دقيقًا جدًا مع البيانات الحقيقية، مما يشير إلى أقل خطأ في التنبؤات. يُظهر نموذج هيلفورمر مستوى ملحوظًا من الدقة، مما يدل على قدرته الفائقة على التقاط الديناميات المعقدة لبيانات العملات المشفرة مقارنة بالنماذج الأخرى التي تم مناقشتها. يُظهر التوافق الدقيق لنموذج هيلفورمر فائدته ويوفر أداة موثوقة للمستثمرين والمحللين والباحثين الذين يسعون لاتخاذ قرارات مالية مستنيرة. باختصار، تبرر النتائج التجريبية إدخال مكون تحليل السلاسل الزمنية، وآلية الانتباه، واستبدال الشبكة العصبية التقليدية بمكون LSTM في نموذج هيلفورمر المقترح. تعزز هذه المكونات مجتمعة قدرة النموذج على التعامل مع التقلبات، والموسمية، وعدم الثبات، وعدم الخطية لبيانات السلاسل الزمنية، مما يؤدي إلى تنبؤات دقيقة للغاية تعتبر حاسمة للتنبؤ الفعال بالعملات المشفرة.

تنفيذ استراتيجية التداول

تناقش هذه الفقرة تنفيذ استراتيجية تداول بسيطة لتقييم التطبيق العملي للنماذج المحسّنة في توليد العوائد المالية من تداول BTC. تُعرض نتائج هذه الاستراتيجية في الجدول 6 والشكل 8، اللذان يقدمان مؤشرات الأداء الرئيسية مثل العائد الزائد (ER)، والتقلب (V)، وأقصى انخفاض (MDD)، ونسبة شارب (SR) لكل نموذج واستراتيجية الشراء والاحتفاظ (B&H).
تم صياغة استراتيجية تداول باستخدام ER و V و MDD و SR. إذا تجاوزت القيمة المتوقعة للقيمة الملاحظة الأخيرة ، ستبدأ الاستراتيجية في
الشكل 7 BTC—المنحنيات المتوقعة مقابل المنحنى الحقيقي
الجدول 6 استراتيجية التداول – BTC
النماذج العائد الزائد (ER) التقلب (V) أقصى انخفاض (MDD) نسبة شارب (SR)
RNN 157.57% 0.0246 -0.1871 2.2146
LSTM 90.88% 0.0247 -0.1617 1.2611
BiLSTM 171.23% 0.0246 -0.1507 2.4117
GRU 84.76% 0.0248 -0.2061 1.1743
Transformer 47.62% 0.0248 -0.4369 0.6488
Helformer 925.29% 0.0178 18.0604
B&H 277.01% 0.0247 -0.1477 1.8529
الشكل 8 نتائج التداول
مركز طويل واحد في المؤشر. بدلاً من ذلك، إذا كان أقل من ، ستبدأ في مركز قصير واحد في المؤشر. ربما لا يوجد فرق؛ لا يتم الاحتفاظ بأي مركز. يتم تحديد حساب العائد في أي وقت معين وفقًا للمعادلة 20:
تمثل العلامة (.) دالة العلامة، التي تعيد +1 إذا كانت الحجة إيجابية، -1 إذا كانت سلبية، و 0 إذا كانت صفرًا. يتم حساب القيمة الصافية (NV) للاستراتيجية، التي تمثل العائد الإجمالي، باستخدام المعادلة 21، حيث و . أيضًا، نظرًا لأن تكاليف المعاملات تختلف عبر منصات التداول وأنواع الأصول المختلفة، يُفترض أن تكون هناك تكلفة معاملات لحساب التباينات المحتملة. على سبيل المثال، تفرض Binance لتداول العملات الفورية، ولكن قد تختلف الرسوم عبر المنصات أو لعملات مشفرة مختلفة.
التقلب هو مصطلح يحدد درجة التغير في قيمة ورقة مالية أو مؤشر أو سوق خلال فترة معينة. يلعب دورًا حاسمًا كأداة للمستثمرين والمتداولين لتقييم المخاطر واتخاذ قرارات مستنيرة. تُستخدم المعادلة 22 عادةً في حساب التقلب.
حيث تمثل الانحراف المعياري للعوائد.
أقصى انخفاض هو مؤشر خطر يحدد أكبر انخفاض في قيمة محفظة أو استثمار من أعلى نقطة إلى أدنى نقطة قبل الوصول إلى ارتفاع جديد. يُستخدم بشكل متكرر لتقييم المخاطر المرتبطة باستثمار معين أو لمقارنة مستويات مخاطر الأصول المختلفة. تُستخدم المعادلة 23 عادةً في حساب أقصى انخفاض.
نسبة شارب هي مقياس مالي يحدد أداء الاستثمار بالنسبة لمستوى المخاطر. تقيس نسبة شارب العائد الإضافي المكتسب لكل وحدة من المخاطر المفترضة في الاستثمار. يمكن حساب نسبة شارب باستخدام المعادلة 24.
تمثل سعر الفائدة الخالي من المخاطر. في هذه الدراسة، يُفترض أن هو .
يوضح الجدول 6 فعالية النماذج المختلفة في سياق التداول من خلال إظهار قدرتها على تعظيم العوائد مع تقليل المخاطر. من بين جميع النماذج، يبرز نموذج هيلفورمر بشكل ملحوظ، محققًا ER بنسبة 925.29%. هذا العائد أعلى بكثير من أي نموذج آخر، مما يدل على قدرة هيلفورمر الاستثنائية على تحقيق الربح في سوق العملات المشفرة المتقلبة. بالإضافة إلى ذلك، يُظهر هيلفورمر أقل V بنسبة 0.0178، مما يشير إلى أنه يحافظ على أداء مستقر نسبيًا. MDD لنموذج هيلفورمر يكاد يكون غير ملحوظ عند ، مما يشير إلى الحد الأدنى من خطر الخسارة الكبيرة خلال فترة التداول. نسبة شارب الخاصة به، التي تقيس العائد المعدل حسب المخاطر، مرتفعة للغاية عند 18.0604، مما يؤكد أن هيلفورمر لا يولد عوائد مرتفعة فحسب، بل يفعل ذلك أيضًا مع ملف إدارة مخاطر ممتاز. بالمقارنة، تُظهر النماذج الأخرى أداءً أقل بكثير عبر جميع المقاييس. نموذج BiLSTM لديه ثاني أعلى ER بنسبة مع تقلب قدره 0.0246، وهو مشابه للنماذج الأخرى باستثناء هيلفورمر. MDD لنموذج BiLSTM
منخفض نسبيًا عند -0.1507، ونسبة شارب هي 2.0039، مما يشير إلى توازن جيد بين العائد والمخاطر. ومع ذلك، لا يزال أداؤه بعيدًا عن أداء نموذج هيلفورمر.
يؤدي نموذج RNN أيضًا أداءً جيدًا نسبيًا، مع ER بنسبة وتقلب قدره 0.0246. MDD له هو -0.1871، مما يظهر مستويات مخاطر معتدلة، ونسبة شارب الخاصة به هي 1.8401، مما يشير إلى عوائد جيدة معدلة حسب المخاطر. ومع ذلك، فهو أقل فعالية من BiLSTM وأداءه أقل بكثير مقارنة بهيلفورمر. يسجل نموذج LSTM ER بنسبة ، وتقلب قدره 0.0247، وMDD قدره -0.1617. نسبة شارب الخاصة به هي 1.0479، مما يشير إلى أنه بينما يوفر عائدًا إيجابيًا، فإنه يفعل ذلك مع مخاطر أعلى نسبيًا مقارنة بـ RNN و BiLSTM. أداء نموذج GRU أسوأ قليلاً من LSTM، مع ER بنسبة وMDD قدره -0.2061. تقلبه أعلى قليلاً عند 0.0248، ولديه أدنى نسبة شارب بين النماذج (باستثناء Transformer) عند 0.9757، مما يشير إلى أنه أقل فعالية في تقديم عوائد معدلة حسب المخاطر. يُظهر نموذج Transformer أضعف أداء، مع ER بنسبة ، وأعلى MDD عند -0.4369، ونسبة شارب قدرها 0.5391. وهذا يشير إلى أن النموذج يواجه صعوبة في الحفاظ على أداء مستقر في سوق العملات المشفرة المتقلبة للغاية ويولد عوائد منخفضة مقارنة بالمخاطر المتخذة.
تؤدي استراتيجية الشراء والاحتفاظ (B&H)، وهي نهج استثماري تقليدي، إلى ER بنسبة ، وتقلب قدره 0.0247، وMDD قدره -0.1477. تشير نسبة شارب الخاصة به إلى 1.8529 إلى أنه بينما يؤدي بشكل أفضل من معظم النماذج باستثناء هيلفورمر و BiLSTM، إلا أنه لا يزال ليس فعالًا مثل نموذج هيلفورمر في تحقيق توازن بين العوائد والمخاطر. باختصار، توضح النتائج في الجدول 6 والشكل 8 بوضوح أن نموذج هيلفورمر يتفوق بشكل كبير على جميع النماذج الأخرى واستراتيجية B&H من حيث العائد الزائد، وإدارة المخاطر، والعوائد المعدلة حسب المخاطر. إن قدرته على تحقيق عوائد مرتفعة مع تقلبات وانخفاضات طفيفة تبرز قوة وفعالية نموذج هيلفورمر لاستراتيجيات التداول العملية في العملات المشفرة. تؤكد هذه الأداءات على قدرات النموذج التنبؤية الفائقة وإمكاناته كأداة قيمة للمستثمرين والمحللين ومديري الأصول في سوق العملات المشفرة.
توضح الشكل 9 منحنيات القيمة الصافية لنماذج مختلفة واستراتيجية الشراء والاحتفاظ (B&H) لعملة البيتكوين (BTC) خلال الفترة من يناير 2023 إلى يونيو 2024. تعتبر منحنيات القيمة الصافية مؤشراً حاسماً على مدى أداء استراتيجية التداول بمرور الوقت، حيث تظهر العائد التراكمي لاستثمار أولي مع تطوره. من الرسم، يتضح أن نموذج هيلفورمر (الممثل باللون الأسود) يتفوق بشكل كبير على جميع النماذج الأخرى واستراتيجية الشراء والاحتفاظ من حيث نمو القيمة الصافية. تظهر منحنى هيلفورمر مساراً تصاعدياً ثابتاً طوال الفترة، مما يدل على أدائه القوي والمتسق في تحقيق العوائد من تداول البيتكوين. على عكس النماذج الأخرى واستراتيجية الشراء والاحتفاظ، يظهر هيلفورمر نمط نمو شبه أسّي، مع زيادة سريعة في القيمة الصافية تبدأ حوالي منتصف عام 2023. وهذا يشير إلى أن النموذج يلتقط اتجاهات السوق بفعالية وينفذ صفقات مربحة، مما يؤدي إلى مكاسب كبيرة. بالمقابل، فإن منحنيات القيمة الصافية للنماذج الأخرى، RNN وLSTM وBiLSTM وGRU وTransformer، تكون مسطحة نسبياً، مع اتجاهات صعودية متواضعة. يظهر نموذج BiLSTM (باللون السماوي) أداءً أفضل من RNN (باللون الوردي) وLSTM (باللون الأخضر) وGRU (باللون الأزرق) وTransformer (باللون البرتقالي)، مما يدل على بعض القدرة على التقاط وتحقيق الربح من تحركات السوق. ومع ذلك، فإن النمو أبطأ بكثير وأقل وضوحاً مقارنةً بهيلفورمر. تؤدي نماذج RNN وLSTM بشكل مشابه، حيث تظهر اتجاهات صعودية طفيفة، لكن منحنياتهما لا تزال أقل بكثير من منحنى هيلفورمر، مما يدل على ربحية أقل. بينما تشهد نماذج GRU وTransformer بعض الحركة الصعودية، إلا أنها تظل الأقل فعالية، مع نموذج Transformer.
الشكل 9 منحنيات القيمة الصافية لبيتكوين
النموذج، على وجه الخصوص، يظهر أقل منحنى وأكثر قيمة صافية نموًا، مما يبرز حدوده في هذا السياق.
تظهر استراتيجية B&H (البنفسجي) زيادة مستقرة ولكن معتدلة نسبيًا في القيمة الصافية، متفوقة على معظم النماذج باستثناء Helformer. وهذا يدل على أنه بينما تعتبر B&H استراتيجية أكثر أمانًا مقارنة ببعض نماذج التعلم العميق، إلا أنها لا تستفيد من الفرص السوقية قصيرة الأجل بفعالية كما يفعل Helformer. باختصار، تبرز منحنيات القيمة الصافية الأداء المتفوق لنموذج Helformer في سياق تداول BTC. إن قدرته على تحقيق نمو مستمر وكبير في القيمة الصافية دون تراجعات كبيرة تؤكد فعاليته في تحقيق عوائد مرتفعة مع استراتيجية إدارة مخاطر قوية. النماذج الأخرى، على الرغم من تقديم بعض القيمة، لا تقترب من مطابقة أداء Helformer، مما يعزز مكانته كنموذج الأكثر ملاءمة لتداول العملات المشفرة المربح.

مقارنة بين هيلفورمر والدراسات الحالية

لإظهار مرونة وقوة نموذج Helformer، تقارن هذه الدراسة أدائه مع تلك التي تم الإبلاغ عنها في أحدث الدراسات البارزة الموجودة حول توقع أسعار العملات المشفرة، وبشكل خاص تلك التي تستخدم BTC كموضوع للتوقع. تركز المقارنة بشكل أساسي على تقييم دقة التنبؤ لنموذج Helformer مقابل مجموعة من النماذج من الدراسات الحديثة. وقد شمل ذلك استخدام مجموعة بيانات متطابقة، وتطبيق نفس تقنيات معالجة البيانات، واعتماد استراتيجيات تقسيم البيانات المماثلة لضمان تحليل مقارن عادل ودقيق. بالإضافة إلى ذلك، حافظت هذه الدراسة على إعدادات تجريبية متسقة و
المعلمات كما هو موضح في الدراسات المختارة لتوفير مقارنة مباشرة وغير متحيزة. تشمل الدراسات المختارة لهذا التحليل المقارن مجموعة متنوعة من النماذج: النماذج الفردية، النماذج الهجينة، ونماذج التجميع، والتي تمثل بعض من أكثر الأساليب فعالية في أبحاث العملات المشفرة الحديثة. تشمل هذه الأعمال البارزة هانسون وآخرون [23]، سيابي وآخرون [53]، جين ولي [28]، وفلاح وآخرون [16]، الذين استخدموا تقنيات متطورة متنوعة لتعزيز دقة التنبؤ واستراتيجيات التداول. من خلال مقارنة هيلفورمر مع هذه المنهجيات المتنوعة والمتقدمة، تهدف هذه الدراسة إلى تسليط الضوء على قدراته المتفوقة من حيث دقة التنبؤ، والصلابة عبر ظروف السوق المختلفة، وقدرة التعميم عبر عدة عملات مشفرة. تعزز هذه المقارنة الشاملة المقدمة في الجدول 7 من موقف هيلفورمر كنموذج متعدد الاستخدامات وموثوق لتوقع أسعار العملات المشفرة، القادر على التفوق على كل من النماذج التقليدية والنماذج المتطورة المقدمة في الأدبيات الحالية.
الجدول 7 مقارنة نموذج هيلفورمر مع الدراسات الحالية
رقم السلسلة نماذج جذر متوسط مربع الخطأ ماب ماي
فلاح وآخرون [16]
1 أريما 13,178.34 ٣٨.٢٠٪ 11,654.64
2 SVR ١٠٤٣.٩٥ ٣.٠٠٠٪ ٨١٨.٤٧
٣ RF ١٠٣٨.٠٨ ٣.٠٠٪ ٧٣١.٧٢
٤ DNN 784.42 2.10% 588.16
٥ DNN + VAR 711.40 1.80% ٥٠٨.٤٩
٦ هيلفورمر ٣٦.٢٣ 0.10% ٢٧.٨٦
جين ولي [28]
1 أريما 253.051 1.61% 172.681
٢ RF ٣٧٢.٧٧٣ 2.78% ٢٨٣٫٢٤٦
٣ SVM ٣٣٠.٣٨٩ 2.23% 236.284
٤ مخبر ٣٣٣.١٢٤ ٢.٤٨٪ 257.918
٥ أوتوفورمر ٤٠٢.١٩٦ 3.08% ٣١٩.٢٥٧
٦ LSTM ٢٧٥.٩٥٨ 1.82% 193.817
٧ GRU 260.502 1.69% ١٨٠.٥٠١
٨ EMD-AGRU-LSTM ٢٢٣.٥٥٦ 1.75% 181.721
9 VMD-AGRU-GRU 150.032 1.04% ١١٣.٣٢
10 VMD-GRU-LSTM 127.284 0.88% 94.895
11 VMD-AGRU-LSTM ١٢٤.٦٥٧ 0.87% 93.756
12 VMD-AGRU-RESEMD-LSTM ١٠٥.١٣ 0.75% 80.417
١٣ VMD-AGRU-RESVMD-LSTM 50.651 0.39% 42.298
14 هيلفورمر 0.201 0.0014% 0.153
سيبي وآخرون [53]
1 LSTM ١٠٣١.٣٤٠١ 3.94%
2 بي إل إس تي إم ١٠٢٩.٣٦١٧ 3.56%
٣ GRU 1274.1706 5.72%
٤ هيلفورمر 19.7973 0.050%
هانسون وآخرون [23]
1 LSTM ٢٥١٨.٠٢١٧ ٤.٢١٨٪ 1617.7592
2 بي إل إس تي إم ٢٢٢٢.٧٣٥٤ ٣.٨٠٠٪ ١٤٢٢.١٩٣٣
٣ GRU 1777.306 ٣.٤٩٢٪ ١١٦٧.٣٤٦١
٤ هيلفورمر 8.0665 0.010% ٣.٧٦٧٠
يوفر الجدول 7 مقارنة شاملة لنموذج هيلفورمر مقابل نماذج مختلفة تم الإبلاغ عنها في الدراسات الحديثة. بالمقارنة مع فلاح وآخرون [16]، حيث تظهر نماذج مثل ARIMA وSVR وRF وDNN وDNN + VAR قيم RMSE أعلى (من 711.40 إلى 13,178.34) وMAPE (من إلى )، و MAE (من 508.49 إلى 11,654.64)، يحقق Helformer نتائج أفضل بكثير مع RMSE قدره 36.23، و MAPE من ، وMAE قدره 27.86. وبالمثل، عند مقارنتها بالنماذج الهجينة المتقدمة التي استخدمها جين ولي [28]، مثل VMD-AGRU-RESVMD-LSTM، التي سجلت RMSE قدره 50.651، وMAPE قدره و MAE قدره 42.298، يُظهر Helformer أداءً متفوقًا مع RMSE منخفض بشكل استثنائي قدره 0.201، و MAPE قدره ، وMAE قدره 0.153. يبرز هذا التباين الواضح في الأداء قدرة Helformer على التقاط الأنماط المعقدة في بيانات السلاسل الزمنية بدقة لا مثيل لها. علاوة على ذلك، فإن المقارنة مع دراسات Seabe وآخرين [53] وHansun وآخرين [23] تؤكد أيضًا هيمنة Helformer. تُظهر هذه المقارنات أن Helformer يتفوق على كل من النماذج التقليدية والمتقدمة المستخدمة في الدراسات الحالية، مما يثبت قوته ومرونته وقدرته المتطورة في توقع أسعار العملات المشفرة بدقة وموثوقية أكبر بكثير.

قدرة هيلفورمر على التعميم والتعلم الانتقالي

التعلم بالنقل في المالية هو منهجية تتيح تطوير نماذج عالية الأداء تم تدريبها باستخدام بيانات من سوق واحد وتطبيقها على آخر ضمن نفس المجال، وهو مفيد بشكل خاص عندما يكون الحصول على بيانات تدريب كافية مكلفًا أو صعبًا. يسمح هذا المنهج للنموذج بالاستفادة من المعرفة التي تم تعلمها سابقًا وتطبيقها على مهمة ذات صلة وثيقة ولكنها متميزة، مما يعزز من كفاءته التنبؤية العامة. على الرغم من أن التعلم بالنقل لا يزال جديدًا نسبيًا في توقعات العملات المشفرة، فإن إمكانيته في تقليل البيانات والموارد الحاسوبية المطلوبة لتدريب نماذج جديدة بشكل كبير تجعله تقنية قيمة لتوقعات السلاسل الزمنية. لتنفيذ هذا النهج، تم تدريب نموذج هيلفورمر في البداية على مجموعة بيانات BTC لتطوير نموذج أساسي قوي. بمجرد تحديد تكوين النموذج الأمثل، تم اختبار قابليته للتعميم وقدرته على التعلم المتبادل من خلال تطبيق النموذج المدرب مسبقًا على مجموعات بيانات لأعلى 15 عملة مشفرة مرتبة حسب القيمة السوقية. دون ضبط معلمات النموذج المحسّنة، ركز التقييم على تقييم قوته التنبؤية على أصول مختلفة دون إعادة التدريب من الصفر. تظهر النتائج في الجدول 8 أنه حتى دون مزيد من التعديلات على المعلمات، حقق هيلفورمر دقة تنبؤية استثنائية وموثوقية عبر عدة عملات مشفرة. وهذا يبرز قدرته على التعميم بفعالية عبر عملات مشفرة مختلفة، مما يعزز موثوقيته كنموذج توقعات متعدد الاستخدامات.
تُعرض مقاييس التقييم لـ 15 عملة مشفرة مختارة، باستخدام نموذج مدرب مسبقًا على BTC، في الجدول 8. يُظهر توقعات متميزة عبر مقاييس مختلفة، بما في ذلك RMSE و MAPE و MAE، ، EVS و KGE، مما يعكس قدرة النموذج على تعميم الأنماط التي تم تعلمها من BTC إلى عملات رقمية أخرى. بالنسبة لـ ETH و BCH، فإن قيم RMSE هي 15.0676 و 10.0356 على التوالي، مما يشير إلى بعض التباين في توقعات النموذج، ومع ذلك، كلاهما يظهر ارتفاعاً في وقيم EVS قريبة من 1، مما يشير إلى أن النموذج يلتقط نسبة كبيرة من التباين في هذه العملات المشفرة. قيم KGE لـ ETH و BCH هي 0.9916 و 0.9541 على التوالي، وهي مرتفعة نسبيًا، مما يظهر توافقًا جيدًا بين القيم المرصودة والقيم المتوقعة. العملات المشفرة مثل SOL و TRX تظهر
الجدول 8 مقاييس التقييم لـ 15 سهمًا مختارًا باستخدام نموذج مدرب مسبقًا على BTC
رقم التسلسل العملة المشفرة جذر متوسط مربع الخطأ ماب ماي EVS KGE
1 إيث 15.0676 0.6039% 14.0754 0.9995 0.9999 0.9916
2 بي ان بي 9.2982 ٢.٤٦٢٩٪ 8.5706 0.9957 0.9993 0.9652
٣ سول 2.6935 ٢.٣٣١١٪ ٢.٣٤٤٧ 0.9976 0.9994 0.9670
٤ إكس آر بي 0.0014 0.2644% 0.0014 0.9996 0.9999 0.9962
٥ طن 0.0085 0.0076 0.9999 1 0.9974
٦ دوغ 0.0001 0.0606% 0.9999 0.9999 0.9998
٧ أدا 0.0020 0.4564% 0.0018 0.9997 0.9999 0.9935
٨ تي آر إكس 1 1 1
9 أفاكس 0.4701 1.3067% 0.4270 0.9986 0.9997 0.9813
10 شيبا ٢.٤٦٢٣٪ 0.9966 0.9993 0.9653
11 نقطة 0.1339 ١.٨٥١٠٪ 0.1258 0.9939 0.9992 0.9738
12 رابط 0.3891 ٣.٠٤٤٧٪ 0.3510 0.9936 0.9988 0.9570
١٣ بي سي إتش 10.0356 ٣.٢٤٩٤٪ 8.7577 0.9944 0.9986 0.9541
14 ليو 0.1465 ٣.١٢٦٨٪ 0.1424 0.9742 0.9985 0.9558
15 قريب 0.0461 0.8978% 0.0385 0.9995 0.9998 0.9876
الجدول 9 نتائج تداول نموذج هيلفورمر مقابل استراتيجية الشراء والاحتفاظ
رقم التسلسل استراتيجية تداول العملات هيلفورمر بي آند إتش
نسبة الطوارئ (%) ف اضطراب الاكتئاب الشديد ريال سعودي نسبة الطوارئ (%) ف اضطراب الاكتئاب الشديد ريال سعودي
1 إيث 854.88 0.0204 -0.0043 16.46 ١١٩.٠٨ 0.0272 -0.2456 1.12
2 بي ان بي ٤٩٣.٨٠ 0.0244 -0.0502 ٧.٩٥ 100.95 0.0266 -0.4462 1.01
٣ شمس 937.72 0.0371 -0.0358 15.70 612.61 0.0481 -0.1940 2.52
٤ إكس آر بي ١٠٤٤.١٨ 0.0331 -0.0007 12.41 ٢٧.١٩ 0.0399 -0.3125 0.22
٥ طن 668.86 0.0320 -0.0010 19.36 236.66 0.0456 -0.1826 2.45
٦ دوغ ١٣٥٤.٧٩ 0.0305 -0.0004 17.51 66.72 0.0418 -0.4040 0.47
٧ أدا ١٢٠٤.٥٢ 0.0250 -0.0017 18.93 ١٦.٥٥ 0.0356 -0.4839 0.15
٨ تي آر إكس 656.68 0.0148 0.0000 17.42 ٨٦.٧٤ 0.0202 -0.1586 1.19
9 أفاكس ٩٨٨٫٩٤ 0.0352 -0.0061 19.45 ٢١٩.٩٩ 0.0507 -0.3093 1.58
10 شيبا ٨٣١.٦٦ 0.0555 0.0000 12.26 ٨٨.٨٨ 0.0666 -0.3144 0.77
11 نقطة ٦٩٢.٤٢ 0.0310 -0.0252 15.14 53.96 0.0399 -0.3515 0.72
12 رابط ٨٨٢.٦٣ 0.0345 -0.0350 10.05 ١٠٨.١٠ 0.0394 -0.4214 0.72
١٣ بي سي إتش 846.55 0.0437 -0.0411 7.62 216.39 0.0474 -0.2667 0.94
14 ليو 167.04 0.0169 -0.0654 ٥.٠٢ ٤٨.٥٣ 0.0176 -0.1247 1.12
15 قريب ١١٥٩.٣٩ 0.0434 -0.0079 18.87 ٣٨٢.٣٤ 0.0614 -0.2062 1.80
دقة نموذج مثيرة للإعجاب، حيث حقق TRX درجات قريبة من الكمال عبر جميع المقاييس، مما يبرز الأداء الاستثنائي للنموذج في التعامل مع هذا الأصل. بشكل عام، تُظهر النتيجة إمكانيات نموذج Helformer كأداة قوية لتوقعات العملات المشفرة، القادرة على التكيف مع السلوكيات المتعلمة من BTC لمجموعة متنوعة من العملات المشفرة الأخرى.
لتقييم نتائج استراتيجية التداول لنموذج هيلفورمر بشكل أكبر، تم مقارنة أدائه باستراتيجية الشراء والاحتفاظ لجميع العملات المشفرة المختارة. تقدم الجدول 9 النتائج، بما في ذلك مؤشرات الأداء الرئيسية مثل ER و V و MDD و SR لكلا الاستراتيجيتين عبر 15 عملة مختارة. تساعد هذه المؤشرات في تقييم ربحية استراتيجيات التداول وقدرات إدارة المخاطر، مما يكشف أن
نموذج هيلفورمر يتفوق باستمرار على استراتيجية الشراء والاحتفاظ من حيث العائد على الاستثمار لجميع العملات المشفرة الـ 15.
على سبيل المثال، يظهر ETH تحسنًا كبيرًا في نموذج Helformer، مع معدل خطأ ER قدره ونسبة شارب (SR) تبلغ 16.46، والتي تتفوق بشكل كبير على العائد المتوقع لاستراتيجية الشراء والاحتفاظ (B&H) و SR بمقدار 1.12. هذا النمط متسق عبر العملات المشفرة الأخرى، حيث أن نموذج هيلفورمر لا يحقق عوائد أعلى فحسب، بل يظهر أيضًا إدارة مخاطر أكثر كفاءة. على سبيل المثال، يقدم DOGE ER بمقدار ومعدل MDD منخفض للغاية يبلغ -0.0004، مقارنةً بمعدل ER لشركة B&H و MDD أعلى يبلغ -0.4040، مما يوضح قدرة Helformer على تحقيق عوائد كبيرة مع تقليل الخسائر المحتملة. كما يظهر نموذج Helformer باستمرار تقلبات أقل عبر معظم العملات المشفرة مقارنةً بـ B&H، مما يشير إلى أداء تداول أكثر استقرارًا وأقل خطرًا. بالنسبة لـ ADA، يحقق Helformer تقلبًا قدره 0.0250 مقارنةً بـ 0.0356 لـ ، مما يبرز فعاليته في إدارة تقلبات السوق. بالإضافة إلى ذلك، يحقق Helformer نسبة عائد مرتفعة بشكل ملحوظ، مثل 19.36 لـ TON و18.93 لـ ADA، مما يشير إلى عائد معدل للمخاطر متفوق مقارنةً بـ B&H، الذي يظهر نسبة عائد أقل بكثير.
هذا التباين الواضح في أداء التداول يتجلى بشكل أكبر في العملات المشفرة مثل SHIB و AVAX، حيث يحسن Helformer العائد ويقلل بشكل كبير من تأثير الانخفاضات الكبيرة المحتملة، كما يتضح من القيم المنخفضة لمعدل الانخفاض الأقصى (MDD). على سبيل المثال، يشهد AVAX تحت Helformer معدل انخفاض أقصى قدره -0.0061 مقارنة بـ -0.3093 تحت استراتيجية الشراء والاحتفاظ (B&H)، مما يشير إلى ضعف تعرضه للانخفاضات المفاجئة في السوق. باختصار، لا يقدم نموذج Helformer عوائد فائضة أعلى بكثير عبر جميع العملات المشفرة فحسب، بل يدير المخاطر بشكل أكثر فعالية، كما يتضح من انخفاض التقلبات، والانخفاضات الأصغر، ونسب شارب الأعلى. تؤكد هذه النتائج على مرونة وقوة نموذج Helformer في سيناريوهات التداول في العالم الحقيقي، مما يبرز قيمته كأداة قوية للمستثمرين الذين يسعون لتحقيق عوائد عالية مع التحكم في المخاطر في سوق العملات المشفرة المتقلبة.

الخاتمة، القيود، والاتجاهات المستقبلية

يقدم هذا العمل نموذج هيلفورمر، الذي يمثل تقدمًا كبيرًا في مجال توقع أسعار العملات المشفرة. يدمج النموذج تقنيات تحسين المعلمات الفائقة القوية ويستفيد من مزايا هياكل المحولات لمواجهة التحديات الفريدة التي تطرحها السلاسل الزمنية المالية شديدة التقلب مثل تلك الخاصة بالعملات المشفرة. من خلال دمج عناصر مثل التنعيم الأسي هولت-وينترز لتفكيك السلاسل الزمنية ومكون LSTM بدلاً من الشبكة العصبية التقليدية، يتعامل هيلفورمر بمهارة مع عدم الاستقرار والموسمية، وهما ميزتان شائعتان في بيانات العملات المشفرة. تظهر النتائج التجريبية من اختبارات واسعة أن هيلفورمر يتفوق في الدقة والموثوقية في توقع أسعار العملات المشفرة مقارنة بالنماذج التقليدية. إن قدرته على التعميم عبر مختلف العملات المشفرة، كما يتضح من تطبيقات التعلم الانتقالي، تعزز من فائدته العملية ومرونته في سيناريوهات التداول في العالم الحقيقي. كما أن دمج تحسين بايزي مع أوبتونا لضبط المعلمات الفائقة يبرز تقدمًا منهجيًا، مما يحسن من موثوقية النموذج وأدائه. من خلال الاستفادة من تقنيات التعلم العميق المتطورة والنماذج المتقدمة.
استراتيجيات التحسين، يتعامل نموذج هيلفورمر مع الطبيعة المتقلبة للعملات المشفرة، مما يتيح مجالاً لاستراتيجيات استثمار أكثر استقرارًا وقابلية للتنبؤ.
في المستقبل، هناك مجالات محتملة متنوعة لمزيد من البحث والاستكشاف. أولاً، توسيع نطاق النموذج ليشمل مجموعة أوسع من الأدوات المالية بخلاف العملات المشفرة يمكن أن يفتح أسواقًا جديدة وفرصًا. سيكون من المفيد دراسة قابلية تطبيق نموذج هيلفورمر في أسواق مالية متقلبة أخرى، مثل مؤشرات الأسهم أو السلع أو أسواق الفوركس. ثانيًا، بينما تركز الدراسة الحالية على التنبؤ بسلاسل زمنية أحادية المتغير، فإن دمج البيانات متعددة المتغيرات يمكن أن يعزز بشكل كبير دقة النموذج التنبؤية. يمكن أن تتضمن الأبحاث المستقبلية مؤشرات فنية، وتحليل المشاعر، ومؤشرات اقتصادية كلية، وبيانات على السلسلة لتحسين اتخاذ القرار في توقعات العملات المشفرة والأسواق المالية. سيسمح ذلك للنموذج بالتقاط التأثيرات الخارجية التي تؤثر على تحركات الأسعار وسلوك السوق. ثالثًا، يمكن أن يؤدي استكشاف تكاملات أعمق مع التعلم المعزز إلى تحسين مكون استراتيجية التداول في النموذج. يمكن أن تطور هذه المقاربة هيلفورمر من مجرد التنبؤ بالأسعار إلى اقتراح وإدارة استراتيجيات تداول ديناميكية، مما قد يزيد من الربحية ويقلل من المخاطر في بيئات التداول في الوقت الحقيقي.
بالإضافة إلى ذلك، بينما تركز الدراسة الحالية على توقعات أسعار اليوم التالي، يجب على الدراسات المستقبلية التحقيق في التوقعات متعددة الخطوات أو متعددة الآفاق، حيث تمتد التوقعات إلى ما بعد خطوة زمنية واحدة. نظرًا لأن نوافذ التوقع الأطول غالبًا ما تقدم مزيدًا من عدم اليقين ومعدلات خطأ أعلى، فإن تقييم أداء هيلفورمر في سيناريوهات التوقع على المدى الطويل سيوفر مزيدًا من الرؤى حول قدرته على التعميم وقيوده. من خلال متابعة هذه الاتجاهات المستقبلية، يمكن لنموذج هيلفورمر أن يستمر في الريادة في الابتكار التكنولوجي مع تعزيز مشهد التكنولوجيا المالية المسؤول والقابل للتكيف والعادل.

الشكر والتقدير

يود المؤلفون أن يعبروا عن امتنانهم لجامعة بوليتكنيك هونغ كونغ على الدعم المالي والتقني.

مساهمات المؤلفين

T.O. كيهيندي: التصور، المنهجية، الكتابة – المسودة الأصلية، البرمجيات. أولويينكا ج. أديودكون: الكتابة – المراجعة والتحرير، التحقيق، التحقق. أكبان جوزيف: التحليل الرسمي، الموارد. كريم مورينيكي كابيرات: البرمجيات، التصور، التحقيق. حمد أديبايو أكانو: التحقق، تنظيم البيانات. أولودولابو أ. أولانراوجو: الإشراف، إدارة المشروع، الحصول على التمويل. قام جميع المؤلفين بمراجعة المخطوطة.

التمويل

يود المؤلفون أن يعبروا عن امتنانهم لجامعة بوليتكنيك هونغ كونغ على الدعم المالي والتقني.

توفر البيانات والمواد

البيانات متاحة عند الطلب المعقول.

الإعلانات

غير قابل للتطبيق.

المصالح المتنافسة

يعلن المؤلفون عدم وجود مصالح متنافسة.
تاريخ الاستلام: 15 ديسمبر 2024 تاريخ القبول: 25 مارس 2025
تاريخ النشر على الإنترنت: 03 أبريل 2025

References

  1. Abu Bakar N, Rosbi S. Autoregressive integrated moving average (ARIMA) model for forecasting cryptocurrency exchange rate in high volatility environment: a new insight of bitcoin transaction. Int J Adv Eng Res Sci. 2017;4(11):130-7.
  2. Akyildirim E, Goncu A, Sensoy A. Prediction of cryptocurrency returns using machine learning. Ann Oper Res. 2021;297:3-36.
  3. Alonso-Monsalve S, Suárez-Cetrulo AL, Cervantes A, Quintana D. Convolution on neural networks for high-frequency trend prediction of cryptocurrency exchange rates using technical indicators. Expert Syst Appl. 2020;149: 113250.
  4. Amadeo, A. J., Siento, J. G., Eikwine, T. A., & Parmonangan, I. H. Temporal Fusion Transformer for Multi Horizon Bitcoin Price Forecasting. 2023 IEEE 9th Information Technology International Seminar (ITIS), 2023
  5. Beltagy, I., Peters, M. E., & Cohan, A. (2020). Longformer: The long-document transformer. arXiv preprint arXiv:2004. 05150.
  6. Bergstra J, Bengio Y. Random search for hyper-parameter optimization. J Mach Learn Res. 2012;13(2):2.
  7. Bouteska A, Abedin MZ, Hajek P, Yuan K. Cryptocurrency price forecasting-a comparative analysis of ensemble learning and deep learning methods. Int Rev Financ Anal. 2024;92: 103055.
  8. Catania L, Grassi S, Ravazzolo F. Forecasting cryptocurrencies under model and parameter instability. Int J Forecast. 2019;35(2):485-501.
  9. Cavalli S, Amoretti M. CNN-based multivariate data analysis for bitcoin trend prediction. Appl Soft Comput. 2021;101: 107065.
  10. Chang T-J, Lee T-S, Yang C-T, Lu C-J. A ternary-frequency cryptocurrency price prediction scheme by ensemble of clustering and reconstructing intrinsic mode functions based on CEEMDAN. Expert Syst Appl. 2023;233: 121008.
  11. Chowdhury R, Rahman MA, Rahman MS, Mahdy M. An approach to predict and forecast the price of constituents and index of cryptocurrency using machine learning. Physica A. 2020;551: 124569.
  12. Conrad C, Custovic A, Ghysels E. Long-and short-term cryptocurrency volatility components: a GARCH-MIDAS analysis. J Risk Financ Manag. 2018;11(2):23.
  13. Da Silva, R. G., Ribeiro, M. H. D. M., Fraccanabbia, N., Mariani, V. C., & dos Santos Coelho, L. Multi-step ahead bitcoin price forecasting based on VMD and ensemble learning methods. 2020 International Joint Conference on Neural Networks (IJCNN). 2020
  14. Du X, Tang Z, Wu J, Chen K, Cai Y. A new hybrid cryptocurrency returns forecasting method based on multiscale decomposition and an optimized extreme learning machine using the sparrow search algorithm. leee Access. 2022;10:60397-411.
  15. Dutta A, Kumar S, Basu M. A gated recurrent unit approach to bitcoin price prediction. J Risk Financ Manag. 2020;13(2):23.
  16. Fallah MF, Pourmansouri R, Ahmadpour B. Presenting a new deep learning-based method with the incorporation of error effects to predict certain cryptocurrencies. Int Rev Financ Anal. 2024;95: 103466.
  17. Ghosh I, Jana RK, Sharma DK. A novel granular decomposition based predictive modeling framework for cryptocurrencies’ prices forecasting. China Financ Rev Int. 2024. https://doi.org/10.1108/CFRI-03-2023-0072.
  18. Girsang AS. Hybrid LSTM and GRU for cryptocurrency price forecasting based on social network sentiment analysis using FinBERT. leee Access. 2023;11:120530-40.
  19. Golnari A, Komeili MH, Azizi Z. Probabilistic deep learning and transfer learning for robust cryptocurrency price prediction. Expert Syst Appl. 2024. https://doi.org/10.1016/j.eswa.2024.124404.
  20. Goodell JW, Jabeur SB, Saâdaoui F, Nasir MA. Explainable artificial intelligence modeling to forecast bitcoin prices. Int Rev Financ Anal. 2023;88: 102702.
  21. Hamayel MJ, Owda AY. A novel cryptocurrency price prediction model using GRU, LSTM and bi-LSTM machine learning algorithms. Ai. 2021;2(4):477-96.
  22. Hanifi S, Cammarono A, Zare-Behtash H. Advanced hyperparameter optimization of deep learning models for wind power prediction. Renew Energy. 2024;221: 119700.
  23. Hansun S, Wicaksana A, Khaliq AQ. Multivariate cryptocurrency prediction: comparative analysis of three recurrent neural networks approaches. J Big Data. 2022;9(1):50.
  24. Haryono AT, Sarno R, Sungkono KR. Transformer-gated recurrent unit method for predicting stock price based on news sentiments and technical indicators. leee Access. 2023. https://doi.org/10.1109/ACCESS.2023.3298445.
  25. Ho K-H, Hou Y, Georgiades M, Fong KC. Exploring key properties and predicting price movements of cryptocurrency market using social network analysis. leee Access. 2024. https://doi.org/10.1109/ACCESS.2024.3397723.
  26. Ibrahim A, Kashef R, Corrigan L. Predicting market movement direction for bitcoin: A comparison of time series modeling methods. Comput Electr Eng. 2021;89: 106905.
  27. Jay P, Kalariya V, Parmar P, Tanwar S, Kumar N, Alazab M. Stochastic neural networks for cryptocurrency price prediction. leee Access. 2020;8:82804-18.
  28. Jin C, Li Y. Cryptocurrency price prediction using frequency decomposition and deep learning. Fractal Fract. 2023;7(10):708.
  29. Kehinde T, Chan FT, Chung S. Scientometric review and analysis of recent approaches to stock market forecasting: two decades survey. Expert Syst Appl. 2023;213: 119299.
  30. Kehinde T, Chung S, Chan FT. Benchmarking TPU and GPU for Stock Price Forecasting Using LSTM Model Development. In: Science and information conference. Cham: Springer; 2023.
  31. Koo E, Kim G. Centralized decomposition approach in LSTM for Bitcoin price prediction. Expert Syst Appl. 2024;237: 121401.
  32. Kristjanpoller W, Minutolo MC. A hybrid volatility forecasting framework integrating GARCH, artificial neural network, technical analysis and principal components analysis. Expert Syst Appl. 2018;109:1-11.
  33. Kumarappan J, Rajasekar E, Vairavasundaram S, Kotecha K, Kulkarni A. Siamese graph convolutional split-attention network with NLP based social sentimental data for enhanced stock price predictions. J Big Data. 2024;11(1):154.
  34. Li J, Zhang Y, Yang X, Chen L. Online portfolio management via deep reinforcement learning with high-frequency data. Inf Process Manage. 2023;60(3): 103247.
  35. Li Y, Jiang S, Li X, Wang S. Hybrid data decomposition-based deep learning for bitcoin prediction and algorithm trading. Financ Innov. 2022;8(1):31.
  36. Liu M, Li G, Li J, Zhu X, Yao Y. Forecasting the price of Bitcoin using deep learning. Financ Res Lett. 2021;40: 101755.
  37. Livieris IE, Kiriakidou N, Stavroyiannis S, Pintelas P. An advanced CNN-LSTM model for cryptocurrency forecasting. Electronics. 2021;10(3):287.
  38. Lu, Y., Zhang, H., & Guo, Q. (2023). Stock and market index prediction using Informer network. arXiv preprint arXiv: 2305.14382.
  39. Misra, D. (2019). Mish: A self regularized non-monotonic activation function. arXiv preprint arXiv:1908.08681.
  40. Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Satoshi Nakamoto.
  41. Nakano M, Takahashi A, Takahashi S. Bitcoin technical trading with artificial neural network. Physica A. 2018;510:587-609.
  42. Nasirtafreshi I. Forecasting cryptocurrency prices using recurrent neural network and long short-term memory. Data Knowl Eng. 2022;139: 102009.
  43. Otabek S, Choi J. From prediction to profit: a comprehensive review of cryptocurrency trading strategies and price forecasting techniques. leee Access. 2024. https://doi.org/10.1109/ACCESS.2024.3417449.
  44. Oyedele AA, Ajayi AO, Oyedele LO, Bello SA, Jimoh KO. Performance evaluation of deep learning and boosted trees for cryptocurrency closing price prediction. Expert Syst Appl. 2023;213: 119233.
  45. Oyewola DO, Dada EG, Ndunagu JN. A novel hybrid walk-forward ensemble optimization for time series cryptocurrency prediction. Heliyon. 2022. https://doi.org/10.1016/j.heliyon.2022.e11862.
  46. Patel MM, Tanwar S, Gupta R, Kumar N. A deep learning-based cryptocurrency price prediction scheme for financial institutions. J Inf Security Appl. 2020;55: 102583.
  47. Peng P, Chen Y, Lin W, Wang JZ. Attention-based CNN-LSTM for high-frequency multiple cryptocurrency trend prediction. Expert Syst Appl. 2024;237: 121520.
  48. Poongodi M, Nguyen TN, Hamdi M, Cengiz K. Global cryptocurrency trend prediction using social media. Inf Process Manag. 2021;58(6): 102708. https://doi.org/10.1016/j.ipm.2021.102708.
  49. Quan SJ. Comparing hyperparameter tuning methods in machine learning based urban building energy modeling: a study in Chicago. Energy Build. 2024. https://doi.org/10.1016/j.enbuild.2024.114353.
  50. Rathore RK, Mishra D, Mehra PS, Pal O, Hashim AS, Shapi’i A, Ciano T, Shutaywi M. Real-world model for bitcoin price prediction. Inf Process Manag. 2022;59(4):102968. https://doi.org/10.1016/j.ipm.2022.102968.
  51. Saheed YK, Kehinde TO, Ayobami Raji M, Baba UA. Feature selection in intrusion detection systems: a new hybrid fusion of Bat algorithm and Residue Number System. J Inf Telecommun. 2024;8(2):189-207.
  52. Sbrana A, Lima de Castro PA. N-BEATS perceiver: a novel approach for robust cryptocurrency portfolio forecasting. Comput Econ. 2023;2:1-35.
  53. Seabe PL, Moutsinga CRB, Pindza E. Forecasting cryptocurrency prices using LSTM, GRU, and bi-directional LSTM: a deep learning approach. Fractal Fract. 2023;7(2):203.
  54. Sebastião H, Godinho P. Forecasting and trading cryptocurrencies with machine learning under changing market conditions. Financ Innov. 2021;7:1-30.
  55. Smyl S. A hybrid method of exponential smoothing and recurrent neural networks for time series forecasting. Int J Forecast. 2020;36(1):75-85.
  56. Sun X, Liu M, Sima Z. A novel cryptocurrency price trend forecasting model based on LightGBM. Financ Res Lett. 2020;32: 101084.
  57. Tanwar, A., & Kumar, V. (2022). Prediction of cryptocurrency prices using transformers and long short term neural networks. 2022 International Conference on Intelligent Controller and Computing for Smart Power (ICICCSP),
  58. Touzani Y, Douzi K. An LSTM and GRU based trading strategy adapted to the Moroccan market. J Big Data. 2021;8(1):126.
  59. Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser Ł, Polosukhin I. Attention is all you need. Adv Neural Inf Process Syst. 2017;30:1.
  60. Walther T, Klein T, Bouri E. Exogenous drivers of Bitcoin and Cryptocurrency volatility-a mixed data sampling approach to forecasting. J Int Finan Markets Inst Money. 2019;63: 101133.
  61. Wu H, Xu J, Wang J, Long M. Autoformer: decomposition transformers with auto-correlation for long-term series forecasting. Adv Neural Inf Process Syst. 2021;34:22419-30.
  62. Zhang Z, Dai H-N, Zhou J, Mondal SK, García MM, Wang H. Forecasting cryptocurrency price using convolutional neural networks with weighted and attentive memory channels. Expert Syst Appl. 2021;183: 115378.
  63. Zhong C, Du W, Xu W, Huang Q, Zhao Y, Wang M. LSTM-ReGAT: a network-centric approach for cryptocurrency price trend prediction. Decis Support Syst. 2023;169: 113955.
  64. Zhou H, Zhang S, Peng J, Zhang S, Li J, Xiong H, Zhang W. Informer: Beyond efficient transformer for long sequence time-series forecasting. Proc AAAI Conf Artif Intell. 2021. https://doi.org/10.1609/aaai.v35i12.17325.
  65. Zhou T, Ma Z, Wen Q, Wang X, Sun L, Jin R. Fedformer: frequency enhanced decomposed transformer for long-term series forecasting. Int Conf Mach Learn. 2022;162:27268.
  66. Zhou Z, Song Z, Xiao H, Ren T. Multi-source data driven cryptocurrency price movement prediction and portfolio optimization. Expert Syst Appl. 2023;219: 119600.
  67. Zoumpekas T, Houstis E, Vavalis M. ETH analysis and predictions utilizing deep learning. Expert Syst Appl. 2020;162: 113866.

ملاحظة الناشر

تظل Springer Nature محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.

  1. © المؤلفون 2025. الوصول المفتوح، هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي للاستخدام غير التجاري، والتي تسمح بأي استخدام غير تجاري، ومشاركة، وتوزيع، وإعادة إنتاج في أي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح إذا قمت بتعديل المادة المرخصة. ليس لديك إذن بموجب هذه الرخصة لمشاركة المواد المعدلة المشتقة من هذه المقالة أو أجزاء منها. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي للمقالة، ما لم يُشار إلى خلاف ذلك في سطر ائتمان للمادة. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي للمقالة واستخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، ستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارة http://creativecommons.org/licenses/by-nc-nd/4.0/.

Journal: Journal Of Big Data, Volume: 12, Issue: 1
DOI: https://doi.org/10.1186/s40537-025-01135-4
Publication Date: 2025-04-03

Helformer: an attention-based deep learning model for cryptocurrency price forecasting

T. O. Kehinde , Oluyinka J. Adedokun , Akpan Joseph , Kareem Morenikeji Kabirat , Hammed Adebayo Akano and Oludolapo A. Olanrewaju

*Correspondence: temitope.kehinde@connect. polyu.hk
Department of Industrial and Systems Engineering, The Hong Kong Polytechnic University, Hung Hom, Hong Kong
Department of Industrial & Systems Engineering and Engineering Management, University of Alabama in Huntsville, Huntsville, USA
Department of Industrial Engineering, Durban University of Technology, Durban, South Africa
Department of Computer Science, Federal University of Agriculture, Abeokuta, Nigeria
School of Life and Environmental Science, Deakin University, Geelong, Australia

Abstract

Cryptocurrencies have become a significant asset class, attracting considerable attention from investors and researchers due to their potential for high returns despite inherent price volatility. Traditional forecasting methods often fail to accurately predict price movements as they do not account for the non-linear and non-stationary nature of cryptocurrency data. In response to these challenges, this study introduces the Helformer model, a novel deep learning approach that integrates Holt-Winters exponential smoothing with Transformer-based deep learning architecture. This integration allows for a robust decomposition of time series data into level, trend, and seasonality components, enhancing the model’s ability to capture complex patterns in cryptocurrency markets. To optimize the model’s performance, Bayesian hyperparameter tuning via Optuna, including a pruner callback, was utilized to efficiently find optimal model parameters while reducing training time by early termination of suboptimal training runs. Empirical results from testing the Helformer model against other advanced deep learning models across various cryptocurrencies demonstrate its superior predictive accuracy and robustness. The model not only achieves lower prediction errors but also shows remarkable generalization capabilities across different types of cryptocurrencies. Additionally, the practical applicability of the Helformer model is validated through a trading strategy that significantly outperforms traditional strategies, confirming its potential to provide actionable insights for traders and financial analysts. The findings of this study are particularly beneficial for investors, policymakers, and researchers, offering a reliable tool for navigating the complexities of cryptocurrency markets and making informed decisions.

Keywords: Helformer, Cryptocurrency forecasting, Bitcoin, Transformer, Neural networks, Time series

Introduction

The cryptocurrency domain has received growing attention from investors, regulators, fund managers, policymakers, and researchers since its first coin, Bitcoin (BTC), which was initially launched in 2008 by an anonymous individual or group of individuals called Nakamoto [40]. Its growing popularity, which increased from zero worth at the time of launch in 2009 to the all-time highest price of 103,900.47 USD on 5th December 2024, is due to its appealing features such as Proof-of-Work and Proof-of-Stake, consensus
algorithm, and secured ledgers [53], which are different from conventional financial assets such as gold, bonds, physical currency, and stocks. Its worth is based on the confidence of its underlying innovative algorithms, such as traceability and decentralization [34, 36], rather than any tangible asset, making it independent of regulation, manipulation, government interference, and policy changes. It also has intrinsic characteristics such as low transaction costs and secure peer-to-peer (P2P) payment [3].
Many studies have recognized cryptocurrencies as an investment asset. In this regard, some recent research has explored the potential synergies between cryptocurrencies and other investment assets such as gold, commodities, stocks [29, 30],Kehinde, Chung, et al., 2023), and physical currencies. Some existing research provides empirical evidence demonstrating that cryptocurrencies exhibit a low correlation with traditional financial assets. Consequently, this characteristic positions cryptocurrencies as a valuable hedge in investment portfolios [27]. Consequently, BTC, which is the first, most valued, and most popular coin, has been emphasized to allow hedging investment strategy against other investment assets such as gold, oil, stocks, and commodities due to high return and low correlation with other investment assets [58]. As of March 2025, there are more than 10,700 active and valuable cryptocurrencies, with over 420 million users worldwide. Out of the active cryptocurrencies available, only the top 20 accounts for nearly of the total market, with around 251 spot exchanges and a total market cap of 2.54 trillion USD (https://coinmarketcap.com, accessed on 11th March 2025).
Due to the huge returns associated with trading cryptocurrency, it is worth noting that it comes with high risk because of the large price fluctuations commonly experienced in trading, as it is always traded online in real-time, traded round the clock with no official opening or closing time. In this connection, most people involved in this kind of trading are usually experienced traders and algorithm trading bots. It is estimated that more than half of the trading volume is typically traded by bots, and these bots require robust deep-learning models to analyze, predict, and make successful trades [7]. Given the volatile nature of cryptocurrencies, it is crucial for investors to accurately predict cryptocurrency prices to manage risks, diversify their portfolios, and maximize returns. Effective prediction strategies and algorithms can significantly guide investors in making both short and long-term investment decisions.
In the past, different cryptocurrency price forecasting methods have been developed, and these can be categorized into statistical, machine learning, and deep learning methods. Early work in this area focuses on traditional statistical techniques, whereas ARIMA is the most commonly used conventional method among these techniques [1]. However, these approaches only assume time series to be linear, which is usually not applicable to assets like cryptocurrency, especially when dealing with an extensive dataset that spans various periods such as the pandemic period (e.g., COVID-19 pandemic), war period (e.g., Russia-Ukraine war and Israel-Hamas war). Furthermore, another limitation of the statistical model is the assumption of normal distribution of variables, which is unrealistic for chaotic and non-stationary data like cryptocurrency. To this effect, machine learning methodology was introduced to overcome these limitations.
Machine learning methods are designed to extract the non-linear nature inherent in large datasets of the cryptocurrency market. Although early machine learning models like Linear regression and Logistic regression seem to be parametric, later models such
as Support Vector Machine (SVM), k-Nearest Neighbors (KNN) [51], and Multi-Level Perceptron (MLP) are non-parametric and do not require a prior understanding of the distribution of data to model the non-linear relationship among variables. However, one of the limitations of using machine learning is that they are susceptible to overfitting, especially when handling long sequence time series forecasting (LSTF) data such as cryptocurrency data. Another limitation is that their models produce a more considerable error, making the model perform poorly when subjected to trading strategy. In this regard, deep learning was later introduced to explore and overcome the weakness of machine learning models.
With its capacity to outperform statistical and machine learning models, deep learning is created to explore intricate patterns of more complex data. These models have shown exceptional performance in handling complex data, and subsequently, models such as Recurrent Neural Network (RNN) and its variants are designed to model LSTF where the order of data is a priority. RNN has shown good performance in modelling time series data; however, the problem of vanishing gradient or exploding gradient has been the limitation of this model when handling LSTF data, which, in turn, leads to the development of more variants of its kind, including Long Short-Term Memory (LSTM), Bi-directional LSTM (BiLSTM), and Gated Recurrent Unit (GRU). Though LSTM has been proven to be the most used time series model, some researchers have shown that BiLSTM and GRU can surpass the accuracy of LSTM in some instances and for some data. Despite the success recorded by RNN and its variants in making accurate predictions, its computation still suffers complexity due to the sequential processing that is inherent in these models. In this connection, more research has been done on building models that can compute in parallel and generate exceptional outputs.
Vaswani et al. [59] proposed a Transformer neural network, an NLP-focused paradigm, to address serial computation and model complexity. The authors presented the Transformer model, which uses self-attention. This invention differs from existing approaches that mainly used recurrence or convolutions. Transformer computes various attention scores simultaneously, allowing it to focus on different sequence parts and improve context understanding. Unlike other models, Transformer captures linkages and dependencies inside word vectors regardless of distance. Instead of sequential processing, the Transformer allows for better parallelization during training, improving speed relative to all other models, especially for massive data. Transformer neural networks have achieved breakthroughs in image processing, speech processing, language translation, computer vision, healthcare and bioinformatics, robotics, and autonomous designs. However, their use in LSTF, such as the cryptocurrency market, is still early. Also, it is worth noting that many researchers have proved that cryptocurrency data possess attributes like non-stationary and seasonality,meanwhile, traditional neural networks like Artificial Neural Networks (ANN), RNN, LSTM, GRU, and Transformer are not designed to handle these complexities, leading to poor predictions.
Inspired by the work of Smyl [55], which decomposes time series into trend and seasonal parts, this work introduces a new variant of Transformer called Helformer, which has been designed to handle complex data that exhibit non-stationarity and seasonality. The suggested model uses Holt-Winters exponential smoothing to extract level, trend, and seasonality from a series decomposition method. This breakdown
strategy helps the attention mechanism grasp global trends efficiently. The conventional Transformer model uses positional encoding coupled with input embedding to turn high-dimensional word vectors into low-dimensional ones for NLP applications. This study, a non-NLP problem, uses an LSTM component to substitute a Feed Forward Network (FFN) mechanism in the Encoded architecture to capture temporal dependencies, an attribute inherent in time series forecasting. This work uses only the encoder component, as Haryono et al. [24] supported the claim that using a single encoder component is more effective than using dual components, especially in time series prediction, because it reduces memory complexity and computational demand.
Although there is a continuous rise in the weekly debut of new coins, developing separate models for individual models may be time-consuming and resourcedemanding. As observed in previous works, most studies, investors and traders focus on four notable coins: BTC, Litecoin (LTC), Ethereum (ETH), and Ripple (XRP) [8, 19, 43, 60, 66]. With over 10,700 active cryptocurrencies and the possibility of new debuts periodically, developing a model for each cryptocurrency is quite challenging. The transfer learning technique capitalizes on the accumulated insights from pretrained model iterations, using them as a foundation for tackling novel tasks. This transfer learning technique allowed the model to effectively generalize across different cryptocurrencies, showcasing its potential for broader applications in cryptocurrency markets. Unlike previous studies, this work intends to build its novel model on BTC data and test its generalization and cross-learning ability on other selected cryptocurrencies. In addition, since a good model may not demonstrate a viable trading strategy, unlike previous studies, this work designs a simple trading strategy to evaluate the feasibility of the proposed model to make a profitable investment. It is worth noting that the proposed Helformer model is developed alongside other sophisticated deep learning models to serve as benchmarks. The robustness of the Helformer model is tested by doing a comparative analysis with notable existing studies to demonstrate the reliability of Helformer in outperforming existing works. The contributions of this work are as follows:
  1. A novel model is designed to predict highly volatile assets like cryptocurrency.
  2. Unlike previous studies that frequently use manual tuning for machine learning models, this work implements Bayesian optimization with Optuna for hyperparameter tuning to generate robust predictions.
  3. Empirical analysis shows minimal errors and exceptional performance, outperforming all existing state-of-the-art methods and studies.
  4. This work is the first implementation of the Helformer model, the validation of which was tested across 15 cryptocurrencies.
  5. Last, this work showcases the practical implications and potential profitability of targeted cryptocurrencies to generate substantial returns.
The remaining sections of this work are systematically structured as follows: Sect. “Related research” gives a summary of existing studies on cryptocurrency prediction. Sect. “Methodology” describes the methods and framework adopted in this study. Sect. “Empirical results and discussions” discusses empirical results, while
Sect. “Conclusion, Limitations, and Future directions” serves as the final part of the work, summarizing the acquired insights and outlining a direction for future works.
This section reviews past and current advances in cryptocurrency price forecasting. Further, it categorizes existing studies into three types: classical, machine learning, and deep learning approaches.

Cryptocurrency

The use of cryptocurrency for financial transactions has increased in the last decade. In this regard, several countries, including Ukraine, El Salvador, Japan, South Korea, the United States, Switzerland, Germany, Portugal, Malta, and UAE, have legalized its usage as a legal payment method [35, 66]. Empirical evidence suggests that the predictability issues of cryptocurrency are related to attributes such as: heavily tailed distributions of cryptocurrency returns, autocorrelations for relative and absolute returns exhibiting different decay rates, strong leverage effect and volatility clustering, and power-law correlation between price and volatility. These features contribute to the predictability issues of cryptocurrency. Ideally, most assets are generally predicted by technical analysis, financial analysis, or a combination of both. However, due to the decentralized nature of cryptocurrency, its electronic generation, and its newest to the financial world, predicting cryptocurrencies has been challenging because they are unrelated to any fundamentals, and market sentiments mainly influence them [33, 48]. In this realization, past works have explored approaches such as classical, machine learning, and deep learning in predicting cryptocurrency prices, returns, and volatilities.

Classical approach to cryptocurrency price forecasting

This approach comprises statistical models, such as Moving Average, AutoRegressive Moving Average (ARMA), AutoRegressive Integrated Moving Average (ARIMA), Seasonal ARIMA (SARIMA), Generalized AutoRegressive Conditional Heteroskedasticity (GARCH), Exponential Smoothing, which have long been applicable in time series [14]. These models are based on statistical theory and are efficient in certain market scenarios, especially when the market exhibits linear predicted patterns or trends. Generally, classical models marked a notable progression in cryptocurrency prediction, especially when predicting cryptocurrency volatility. For instance, Conrad et al. [12] explore the volatility components of cryptocurrencies, particularly BTC, using the GARCH-MIDAS model. The study investigates the influence of macroeconomic and financial factors on both short-term and long-term BTC volatility. The results suggest that BTC’s volatility is unique compared to other financial assets, behaving pro-cyclically and responding differently to economic conditions. Similarly, Walther et al. [60] examine the impact of various macroeconomic and financial factors on the volatility of major cryptocurrencies, including BTC, LTC, ETH, XRP, XLM, and the CRIX cryptocurrency index. Using the GARCH-MIDAS framework, the authors differentiate between short-term and longterm volatility components and identify the most influential exogenous drivers.
Catania et al. [8] investigated the predictability of cryptocurrency time series, particularly focusing on BTC, LTC, XRP, and ETH. The authors compare a variety of univariate
and multivariate VAR models for point and density forecasting, utilizing dynamic model averaging (DMA) and dynamic model selection (DMS) to combine and select among these models. Notably, the popularity of all the aforementioned classical models stems from their simplicity and interpretability,however, they frequently fail to capture the non-linear nature, non-stationary nature, and intricate complexities associated with the cryptocurrency market. This limitation occurs due to their dependence on linear assumptions regarding market behaviour. This gap has resulted in an increasing trend towards using more advanced techniques like machine learning that can effectively handle the non-linear and non-stationary nature of the cryptocurrency market.

Machine learning approach to cryptocurrency price forecasting

Driven by cryptocurrency’s highly volatile and non-linear nature, attention has been shifted to applying machine learning, which can analyze large volumes of data, identify patterns, and adapt to dynamic market conditions. Machine learning models can reveal complex patterns in data that may not be immediately obvious, providing a more sophisticated comprehension of market dynamics compared to conventional statistical models. In this realization, some researchers have already employed machine learning approaches such as Logistic Regression, KNN, Decision Tree, SVM, and many more to develop prediction models capable of generating super profits. In addition, to generate more robust predictions, while some researchers have employed ensemble models, including Random Forest, AdaBoost, XGBoost, CatBoost, and LightGBM, others have engaged in hybrid models to predict cryptocurrency prices, returns, and volatilities.
Existing studies already confirmed the robustness of machine learning models such as ANN to outperform classical models. For instance, Nakano et al. [41] investigated the application of ANNs for predicting BTC returns based on high-frequency trading data. The authors utilize a seven-layer ANN model that processes technical indicators calculated from BTC historical data at intervals to identify potential trading signals. Their approach significantly outperforms a traditional buy-and-hold (B&H) strategy, particularly during periods of high volatility, such as from December 2017 to January 2018, when BTC experienced substantial losses. In another study, Kristjanpoller and Minutolo [32] propose a hybrid framework combining GARCH models, ANN, technical analysis indicators, and Principal Component Analysis (PCA) for forecasting the volatility of BTC. The authors argue that while traditional GARCH models capture certain aspects of financial time series volatility, integrating them with ANN and technical indicators such as the Relative Strength Index (RSI) and Moving Average Convergence Divergence (MACD) enhances predictive performance. Ibrahim et al. [26] compare various time-series modelling methods for predicting BTC price movements in short timeframes. The study finds that the MLP achieves the highest accuracy at , outperforming several models but only slightly better than a simple momentum strategy.
Moving forward, Rathore et al. [50] explore the challenges of predicting BTC prices due to their volatility and dynamic trends. The authors compare traditional models like ARIMA and LSTM, noting their limitations in handling seasonality and outliers, and propose the use of the Facebook Prophet model for better handling of time series data. The model is designed to account for seasonality and outliers, making it more suitable for real-world cryptocurrency predictions. The study demonstrates that the Prophet
model yields more accurate results compared to Naïve and other traditional models. For robust predictions, many researchers have explored the possibility of using ensemble models for cryptocurrency forecasting. For instance, Sun et al. [56] apply a Light Gradient Boosting Machine (LightGBM), a machine learning algorithm. The study finds that the LightGBM model outperforms traditional models such as SVM and RF in terms of robustness and forecasting accuracy, particularly in medium-term predictions (e.g., 2-week periods). Next, using machine learning techniques, Sebastião and Godinho [54] investigate the predictability and profitability of trading strategies for three major cryptocurrencies: BTC, ETH, and LTC. The study spans from August 2015 to March 2019, a period marked by significant market fluctuations, including bull and bear markets. The authors employ multiple machine learning models, including linear models, RF, and SVM, to forecast cryptocurrency returns based on trading and network activity data. The findings reveal that although individual models’ performance can vary under changing market conditions, ensemble models, particularly ones requiring consensus, show robust profitability.
More recently, the work of Chang et al. [10] put forth a model for forecasting cryptocurrency price using a combination of Complete Ensemble Empirical Mode Decomposition with Adaptive Noise (CEEMDAN), time series clustering, and reconstruction of intrinsic mode functions (IMFs). The scheme decomposes the BTC price into IMFs using CEEMDAN, then groups these IMFs into three clusters using a robust ensemble clustering approach. The results of this approach demonstrate significant improvements compared to traditional and more straightforward models. Although machine learning methods are proficient in modelling non-linear connections and extracting insights from complex datasets, they are susceptible to overfitting, especially when handling LSTF data such as cryptocurrency. Consequently, investors and researchers increasingly switch to state-of-the-art approaches, such as deep learning models.

Deep learning approach to cryptocurrency price forecasting

Deep learning models are expected to provide a more thorough predictive ability in the highly volatile cryptocurrency market. The exponential increase in computational capacity in recent years has accelerated the emergence of deep learning methodologies, fundamentally transforming diverse financial domains, such as the cryptocurrency market. Deep learning, a kind of machine learning distinguished by its utilization of multilayered neural networks, has significantly transformed various domains, such as finance. The emergence of deep learning models, such as Convolutional Neural Networks (CNNs), RNNs, LSTMSs, and GRU, signifies the most recent frontier in forecasting cryptocurrency prices, returns, and volatilities, as they exhibit their outstanding performance in capturing temporal dependencies and non-linear correlations.
RNN has shown good performance in modelling time series data; however, the problem of vanishing gradient or exploding gradient has been the limitation of this model when handling long time series data, which, in turn, leads to the development of more variants of its kind which include LSTM, BiLSTM, and GRU. Though LSTM has been proven to be the most used time series model, some researchers have shown that BiLSTM and GRU can surpass the accuracy of LSTM in some instances and for some currencies. For example, Hamayel and Owda [21] developed three models, LSTM, GRU,
and Bi-LSTM, to predict the prices of cryptocurrencies such as BTC, ETH, and LTC. The study finds that the GRU model provides the most accurate predictions with the lowest error. Similar results were achieved in a similar experiment performed by Dutta et al. [15], Hansun et al. [23], and Jin and Li [28]. In contrast, Seabe et al. [53] repeated a similar experiment with a contrary result where Bi-LSTM outperforms the GRU model. More recently, Golnari et al. [19] presented a novel deep learning approach for predicting cryptocurrency prices, focusing specifically on BTC. The authors propose a Probabilistic GRU (P-GRU) model that incorporates probabilistic features to provide a probability distribution for predicted values, improving prediction accuracy under volatile market conditions. The model’s performance was compared with other established models, including GRU, LSTM, and their probabilistic variants, using 1 year of BTC price data sampled at intervals. The P-GRU model outperformed the traditional models in accuracy and robustness.
Empirical evidence from numerous studies indicates that hybrid models consistently outperform singular models, suggesting that they offer superior performance moving forward. As an example, Zhong et al. [63] introduce a hybrid model LSTM-ReGAT for predicting cryptocurrency price trends by leveraging individual cryptocurrency features and their interrelations. The hybrid model combines LSTM networks for capturing time series patterns and a Relation-wise Graph Attention Network (ReGAT) to utilize the interrelationships between cryptocurrencies. The model builds a cryptocurrency network using shared features like technology, industry, and investor co-attention. This network-centric approach is validated using real-world data, showing that LSTMReGAT outperforms traditional models in both prediction accuracy and profitability in trading simulations for BTC and cryptocurrency portfolios. Other notable studies whose work demonstrates the exceptional performance of hybrid deep learning models against straightforward models include Patel et al. [46], Nasirtafreshi [42], Goodell et al. [20], and Girsang [18]
CNN, which has been traditionally used in image processing, has shown exceptional performance when used as a feature extraction mechanism in hybrid models for cryptocurrency prediction. For example, Alonso-Monsalve et al. [3] explore the effectiveness of CNN and hybrid CNN-LSTM models in predicting high-frequency cryptocurrency price trends. The authors compare four neural network architectures: CNN, hybrid CNN-LSTM, MLP, and Radial Basis Function Neural Network (RBFNN), to classify whether six common cryptocurrencies will increase in value against USD in the next minute. Using eighteen technical indicators derived from 1 min resolution exchange rate data over one year, the study shows that the CNN-LSTM models outperform the others significantly, thus emphasizing their advantages over traditional machine learning methods in high-frequency trading scenarios. In a similar vein, Cavalli and Amoretti [9] present a novel approach for predicting BTC price trends using a One-Dimensional CNN (1D CNN) model. The authors propose a comprehensive methodology that integrates BTC historical values, financial indicators, social media sentiment analysis from Twitter, and blockchain transaction data to create extensive datasets for model training. The study introduces a cloud-based system with an efficient distributed architecture to handle large data collection and preprocessing tasks. Experimental results show that the proposed 1D CNN model outperforms traditional LSTM models in predicting BTC
trends, achieving higher accuracy rates. Other notable studies that demonstrate CNN incorporation in their hybrid models include Livieris et al. [37], Zhang et al. [62], and Peng et al. [47]
Some recent works perform comparative studies of various models, including classical, machine learning, deep learning, ensemble, and hybrid models, to determine which is exceptional. Notable works in these categories include Oyedele et al. [44] and Bouteska et al. [7]. However, most deep learning models are not equipped with attention mechanisms to process tasks in parallel, making them prone to complexity in learning more challenging temporal patterns. In this regard, consideration has been shifted to exploring attention-based related models in modelling LSTF tasks in order to explore this domain of knowledge..

Attention-based approach to cryptocurrency price forecasting

To overcome the limitation of serial computation and model complexity as frequently experienced in existing deep learning models, Vaswani et al. [59] put forth a model called Transformer. The authors proposed the Transformer model, which relies entirely on self-attention mechanisms. The fundamentals of the Transformer are the selfattention mechanism and multi-head attention, and these enable the model to assess the importance of different words in a sequence through the use of multi-head attention while processing each word. In addition, it computes multiple attention scores in parallel, giving room to concentrate on diverse parts of a sequence concurrently and enhancing its ability to understand the context. Unlike traditional models, this enables capturing relationships and dependencies regardless of distance within word vectors. Since the Transformer does not rely on sequential computation, it allows for greater parallelization during training, leading to significant speed improvements compared to all existing models, especially when dealing with big data. Although Transformer neural networks have successfully made unprecedented results in many domains such as image processing, speech processing, language translation, computer vision, healthcare and bioinformatics, robotics, and autonomous designs, their application in LSTF, such as the cryptocurrency market, is in its early stage. Figure 1 depicts a typical architecture of the Transformer model.
Recent applications of Transformer neural networks to cryptocurrency include the works of Tanwar and Kumar [57] and Amadeo et al. [4]. Tanwar and Kumar [57] explore a hybrid approach to predict cryptocurrency prices by integrating Transformer models and LSTM networks. The study focuses on forecasting the prices of major cryptocurrencies like BTC, ETH, and Binance Coin (BNB). The authors first apply Multifractal Detrended Fluctuation Analysis (MFDFA) to process the timeseries data, capturing both short and long term temporal dependencies. The hybrid model leverages LSTM’s ability to retain temporal information and the Transformers’ self-attention mechanism for better prediction accuracy. Further, Amadeo et al. [4] explore the use of the Temporal Fusion Transformer (TFT) model for predicting BTC prices across multiple future time steps. The authors highlight the significant price volatility of BTC and the challenges associated with accurate forecasting. Since the Transformer model was introduced to be successful in other domains, its application to the time series model is limited by three points, as suggested by Zhou et al. [64]
Fig. 1 Transformer model configuration [59]
and Lu et al. [38]. These limitations include significant time complexity and memory consumption, scalability challenges, and decreased processing performance for lengthy outputs. These problems can impede its direct implementation in LSTF for structured datasets.
Several variants of the Transformer model have been developed to address these inherent limitations. These variants include Autoformer, Informer, FDG-Trans, FEDFormer, Sparse Transformer, LogSparse Transformer, Longformer, Reformer, Performer, RSMformer, and many more [5, 28, 61, 65]. Conversely, none have been applied to significantly improve predictions, especially in a highly volatile cryptocurrency market. Also, it is worth noting that many researchers have proved that cryptocurrency data possess attributes like non-stationary and seasonality; meanwhile, traditional neural networks are not designed to handle these complexities, leading to poor predictions. Inspired by the work of Da Silva et al. [13], Li et al. [35], Fallah et al. [16], Ghosh et al. [17], and Koo and Kim [31], which decomposes time series before applying neural networks, this work establishes a new variant of Transformer called Helformer, which has been designed to handle complex data that exhibit non-stationarity and seasonality. Helformer differentiates itself from earlier models by automatically learning and extracting seasonal patterns directly from the time-series data instead of relying on manually developed dynamic time-dependent variables. This feature enables enhanced and simplified pattern identification without requiring manual input on time-dependent variables. The proposed model is trained using Bayesian optimization and tested for transfer learning ability, allowing it to predict the performance of other cryptocurrencies by leveraging the knowledge gained from saved weights of the previously learned model.

Methodology

This section discusses the proposed model, data collection, data preprocessing, model development, systematic framework, experimental settings, and all other requirements for a successful model implementation.

Helformer

Previous studies, including Da Silva et al. [13], Li et al. [35], Jin and Li [28], Fallah et al. [16], Ghosh et al. [17], and Koo and Kim [31], have extensively examined the trend and seasonality in cryptocurrency markets. These researchers employed decomposition methods such as Singular Spectrum Analysis (SSA), Empirical Mode Decomposition (EMD), and Variational Mode Decomposition (VMD) to analyze the data. This decomposition is crucial for enhancing neural networks, which typically lack inherent parameters to account for the levels and seasonality of time series data, as noted by Koo and Kim [31]). However, despite the use of decomposed-based neural networks in these studies, significant prediction errors persist. This highlights the ongoing need for research aimed at developing more robust and sophisticated models to address these challenges.
The proposed Helformer uses a single encoder structure instead of the dual components proposed in traditional Transformer architecture. This encoder structure of Helformer consists of a series decomposition block, an attention mechanism, residual connections, an LSTM component, and a dense layer. Using just a single structure of Transformer architecture reduces the model complexity memory bottlenecks and reduces computational resource usage without compromising prediction accuracies [24]. The Helformer model is designed to predict the closing price of BTC for the next trading day based on a specified window size. The proposed model incorporates the Holt-Winters exponential Smoothing method with a modified transformer-based architecture optimized using Optuna. Initially, the Holt-Winters smoothing layer is employed to decompose the BTC closing price data into its level, trend, and seasonal components. This decomposition allows for a better understanding and removal of seasonality from the data, resulting in a deseasonalized dataset that improves the model’s predictive capability. The normalized data is then used as input for the multiple attention blocks and an LSTM layer. The attention blocks in the model enable it to focus on significant features within the data, while the LSTM layer captures the temporal dependencies essential for accurate time-series forecasting. The model is further optimized using Optuna, which fine-tunes hyperparameters such as learning rate, dropout rate, and the number of attention heads, ensuring the best possible performance. Additionally, the exponential smoothing coefficients are directly incorporated into the neural network model, which enables them to be improved with other parameters within the same model optimizer.
The decomposition block uses Holt-Winters smoothing to pinpoint crucial parameters. These are known as local parameters: alpha ( ) and gamma ( ) whose value ranges between 0 and 1. As detailed in Eq. 1 and Eq. 2, it decomposes the inputs into seasonality and level components at every data point before being fed into the multi-head attention mechanism whose role is to study the complex, non-linear and non-stationary pattern of the smoothed data to extract the trend component and dependencies. Equation 1 computes a weighted mean by blending the seasonality with the level-adjusted observations from the previous time point ( ), while Eq. 2 forecasts
the seasonal component as a weighted mean for a future time point ( ). It predicts the seasonality component based on the past estimate ; meanwhile, the deseasonalization is conducted using Eq. 3.
The integration of the multi-head attention mechanism with the decomposition block in the proposed model transcends the mere ensemble combination of exponential smoothing and neural networks; it synchronizes the fitting of all parameters with the neural network weights concurrently. This model processes sequential data that has been refined to eliminate irrelevant information and seasonal variations, rendering it more suitable for the attention mechanism. As illustrated in Fig. 2, the multi-head attention mechanism engages with the smoothed data by analyzing all its components in parallel rather than in a sequential manner. This parallel data processing ability allows the model to recognize global dependencies across the entire input series effectively. Such a strategy significantly enhances the speed of the training process compared to traditional methods, which process data points one at a time. Typically, the self-attention configuration of the Transformer model is outlined in Eq. 4.
where is the hidden dimension of the keys. The matrices represent the query, key, and value matrices, respectively. These matrices are the outputs of three distinct linear layers that share the same input. The self-attention mechanism offers a novel approach to concentrate on crucial local information.
Nonetheless, employing multiple self-attention mechanisms, known as multi-head attention, can enhance performance. Within this framework, each attention function operates simultaneously, processing the corresponding projected versions of the query, key, and value matrices. The outputs of all these attention functions are then amalgamated through concatenation and subsequently transformed into the final output via a linear layer. The formula for multi-head attention is encapsulated in Eq. 5.
where, and are weights of networks.
Going forward, the add & norm layers are added as they are critical in stabilizing the training process and improving model performance. The incorporation of the add & norm layer in the Helformer model greatly improves stability and speed in
Fig. 2 Helformer architecture
the training process. The addition component utilizes residual connections, effectively addressing the issue of vanishing gradients by enabling the direct transfer of gradients through the layers. Subsequently, the normalizing procedure employs layer normalization to equalize the output across features. This is essential for ensuring a uniform scale that promotes accelerated and stable training. This combination not only simplifies the learning process but also guarantees that the model adjusts rapidly and efficiently to the intricacies of the input data. Also, an LSTM layer was introduced to replace the conventional FFN typically employed in regular transformers. The LSTM layer captures the temporal dependencies essential for accurate time-series forecasting. This design, as depicted in Fig. 2, presents the proposed architecture of the Helformer model.

Data

Data collection

In this work, the proposed model is trained using the dataset of the most popular and most valued cryptocurrency, BTC. As cryptocurrencies are traded round the clock with no specific opening or closing times, the closing price data used in this analysis are taken at midnight (12:00 am) each day, marking the end of the trading day. Afterward, the model leverages the pre-trained BTC model to forecast prices for 15 other active top cryptocurrencies in the decreasing order of their market cap while excluding stablecoins. This technique allowed the model to effectively generalize and perform crosslearning across different cryptocurrencies, showcasing its potential for transfer learning. The daily closing prices for all the selected cryptocurrencies analyzed in this study were downloaded from Yahoo Finance on 21st July 2024. The number of samples varies for each currency, as these coins have different launch dates; therefore, datasets were downloaded based on the maximum period available in the chosen database. Yahoo Finance was selected as a data source due to its reputation and reliability in maintaining accurate and dependable data over time, as well as its widespread use in numerous notable studies. Table 1 presents the details of the collected data along with their basic statistical analysis. It provides an overview of the collected data, including the number of samples, the start and end dates for the data collection period, and basic statistical metrics such as the mean and standard deviation. BTC has the most extended dataset, starting from January 1, 2017, with a mean price of and a standard deviation of 18,749.33, indicating high volatility. ETH and BNB also have substantial datasets starting November 9, 2017, with mean prices of 1,381.28 and 190.99, respectively. Newer coins like SOL and AVAX have fewer data points, reflecting their recent launches. Coins with low mean prices, like DOGE, SHIB, and TRX, show smaller standard deviations, suggesting relatively lower volatility compared to high-value coins like BTC and BCH.
Table 1 Descriptive statistics of top cryptocurrencies
S/N Cryptocurrency Coins Samples Start date (dd/ mm/yyyy) End date (dd/ mm/yyyy) Mean Std. Dev
1 BTC BTC 2738 01/01/2017 30/06/2024 21,908.94 18,749.32
2 Ethereum ETH 2426 09/11/2017 30/06/2024 1381.28 1195.18
3 Binance coin BNB 2426 09/11/2017 30/06/2024 190.99 191.57
4 Solana SOL 1543 10/04/2020 30/06/2024 56.29 60.04
5 Ripple XRP 2426 09/11/2017 30/06/2024 0.52 0.32
6 Toncoin TON 1039 27/08/2021 30/06/2024 2.35 1.50
7 Dogecoin DOGE 2426 09/11/2017 30/06/2024 0.06 0.08
8 Cardano ADA 2426 09/11/2017 30/06/2024 0.47 0.55
9 Tron TRX 2426 09/11/2017 30/06/2024 0.05 0.03
10 Avalanche AVAX 1380 13/07/2020 30/06/2024 31.50 26.63
11 Shiba Inu SHIB 1171 17/04/2021 30/06/2024 0.00002 0.00001
12 Polkadot DOT 1411 20/08/2020 30/06/2024 13.35 11.49
13 Chainlink LINK 2426 09/11/2017 30/06/2024 9.46 9.44
14 BTC cash BCH 2426 09/11/2017 30/06/2024 427.86 409.18
15 Unus sed leo LEO 1868 21/05/2019 30/06/2024 3.06 1.64
16 NEAR protocol NEAR 1356 14/10/2020 30/06/2024 4.64 3.82
The cryptocurrency market is highly interconnected, particularly during critical events, and its network structure evolves over time, providing new insights for investors aiming to optimize their portfolios and mitigate risks in the volatile cryptocurrency landscape [25]. While existing studies have been limited to mainly considering four popular coins, BTC, ETH, LTC, and XRP in their studies, few studies, such as the work of Akyildirim et al. [2] and Oyewola et al. [45] considering multiple cryptocurrencies, 12 and 15, respectively. To examine the intercorrelation among the 16 selected top coins and understand their correlation dynamics, Pearson correlation coefficients (PCC) were computed for all the coins using a heatmap, as depicted in Fig. 3.
The heatmap in Fig. 3 illustrates the PPC among the 16 selected cryptocurrencies, highlighting their interconnectedness within the market. To ensure uniformity in the analysis, daily closing price data from January 1, 2023, to June 30, 2024, was collected for all 16 coins, considering that each cryptocurrency has a different initial launch date. This uniform time frame allows for a fair comparison of correlations across all selected assets. BTC exhibits moderate to strong positive correlations with many other cryptocurrencies, with correlation coefficients above 0.7. This interconnected behaviour suggests that BTC often moves in tandem with other top coins, making it an ideal candidate to train and test the robustness and predictive power of the proposed model, Helformer. By focusing on BTC for initial model implementation, its market influence and significant correlation with other cryptocurrencies can be leveraged, ensuring that any insights or patterns identified are likely relevant to the broader cryptocurrency market.
Correlation between Crptocurrencies
Fig. 3 Correlation heatmap
Additionally, it is essential to note that all the selected cryptocurrencies exhibit positive correlations with one another, indicating that their price movements tend to follow similar trends within the market.

Data preprocessing

First, the daily closing price data of BTC was downloaded from Yahoo Finance for the period between January 1, 2017, and June 30, 2024. Then, an exploratory data analysis was conducted to identify potential issues and ensure data quality. Upon examination, insights show that the data is of high quality with no missing values. A quick overview of the BTC dataset reveals that there are 2,738 observations recorded, with a minimum price of 777.75 USD and a maximum price of 73,083.50 USD within the given period. The mean price across all samples is USD, and the standard deviation is 18,749.32 USD. Afterward, outliers are retained in the dataset as they provide significant information, particularly in the highly volatile cryptocurrency market, where extreme price fluctuations are common. This approach aligns with common practices in existing studies, where outliers are often preserved to reflect real-world conditions [67]. However, several strategies were employed to prevent the risk of overfitting while maintaining the model’s predictive power. First, MinMax scaling was applied to normalize the data and prevent extreme values from dominating the learning process. Additionally, dropout layers were incorporated to reduce the model’s sensitivity to outliers, while Bayesian hyperparameter tuning helped optimize model performance and avoid excessive fitting to noise. Following this, the dataset was cleaned to ensure there were no NaN values, further maintaining the integrity of the data in the current study.
Next, the BTC dataset was subjected to seasonality and stationarity tests. To achieve this, we utilized the “statsmodels” library in Python to perform a seasonal decomposition of the time series data. This decomposition allowed us to break down the data into its observed, trend, seasonal, and residual components, providing a clear visualization of underlying patterns and variations in the dataset. By analyzing these plots, we can better understand the cyclical behaviour and trends in BTC prices, which is crucial for building robust forecasting models. The seasonal decomposition plot in Fig. 4 breaks down the time series into four components: observed, trend, seasonal, and residual. The observed plot represents the original BTC price data from 01 January 2017 to 30 June 2024, showing significant volatility with notable peaks around 2021 and 2022, followed by periods of correction and recovery. The overall trend indicates an upward movement from 2017 to early 2021, followed by a decline until mid-2023, after which the trend rises again towards 2024. This long-term trend component smooths out short-term fluctuations, capturing the general direction of BTC prices, which suggests a potential for recovery or growth in the market after a significant decline.
The seasonal component illustrates repeating cyclical patterns throughout the yearly period of 365 days, indicating some level of periodicity in BTC price movements. These cycles could be driven by factors such as investor sentiment, market psychology, macroeconomic conditions, pandemics, or regular events like regulatory news or technological updates. The residual component captures the random noise and irregular fluctuations that are not explained by the trend or seasonal components. The residuals show significant volatility, particularly during periods of intense market activity like 2017-2018 and
Fig. 4 Seasonal-trend decomposition plot-BTC
2021-2022, suggesting that there are unpredictable market shocks or events impacting BTC prices. This decomposition provides valuable insights for the proposed model to identify and separate predictable cyclical patterns from random, unforeseen variations, enabling a more subtle approach to predicting BTC price movements.
To further substantiate the claim regarding the seasonality and non-stationarity nature of cryptocurrency, an Autocorrelation Function (ACF) test was conducted, as shown in Fig. 5. The ACF plot measures the correlation between the time series data and its lagged values over different periods. From the ACF plot of the BTC closing prices, it is evident that there is a high level of autocorrelation at multiple lags, which gradually declines but remains significantly positive even after 50 lags. This persistent autocorrelation indicates that the BTC price series exhibits strong temporal dependencies and long-term memory effects. Such prolonged correlations confirm that the BTC price data is non-stationary, as the correlations do not diminish quickly to zero. This behaviour is typical for financial time series data, where past prices considerably impact future prices. The high autocorrelation across many lags supports the need for more sophisticated models like Helformer, which can effectively capture these long-range dependencies and provide more accurate forecasts.
Fig. 5 ACF plot of BTC data
The non-stationarity further supports the need for sophisticated models like Helformer to effectively capture the complex patterns and temporal dependencies in BTC prices for robust prediction.

Experimental set-up

After preprocessing the data for model implementation, the proposed model will be implemented alongside five other models: RNN, LSTM, BiLSTM, GRU, and Transformer. The dataset is split into training and testing sets (80:20) to ensure a robust evaluation of each model’s performance. Additionally, a validation split is set to 0.2 . This validation step helps to fine-tune the models and prevent overfitting. The parameters used in the initial training phase are detailed in Table 2.
A time step of 30 was chosen because this window size has demonstrated better accuracy in previous studies, such as those by Dutta et al. [15], Chowdhury et al. [11], and Jin and Li [28]. The loss function was set at “mean square error,” while the activation function was set at “Mish.” The Mish activation function, a state-of-the-art activation function, is defined by the formula presented in Eq. 6.
where is the softplus activation function.
This smooth, non-monotonic Mish function integrates a self-gating property, similar to the Swish function, allowing each neuron to adjust its output based on the input it receives. The smoothness of “Mish” ensures continuous derivatives, which are crucial for maintaining a steady gradient flow through deep networks. This can be particularly advantageous in preventing issues like gradient discontinuities during the learning process. Mish offers several benefits over traditional activation functions such as ReLU and Swish, particularly in its ability to mitigate the “dying ReLU problem” by avoiding zero-gradient regions [39]. Unlike ReLU, Mish allows for the propagation of negative values, which helps capture more
Table 2 Model setup parameters
Models Helformer Transformer RNN/LSTM/ BiLSTM/ GRU
num_transformer_blocks 1 1
num_heads 4 4
head_size 16 16
dropout 0.1 0.1 0.1
epochs 100 100 100
batch_size 32 32 32
neurons 30 30
hidden_layers 1
learning_rate 0.001 0.001 0.001
optimizer Adams Adams Adams
loss MSE MSE MSE
ff_dim 16
activation function Mish Mish Mish
complex patterns within the data. While tanh also handles negative values and offers a smooth gradient, it can lead to vanishing gradients in deeper networks, a limitation less pronounced in Mish due to its characteristics. These properties make Mish a promising choice for complex neural network tasks, including time series modelling, where understanding deep temporal dependencies is essential. The versatility of Mish as an activation function, surpassing ReLU and Swish, is demonstrated in the multiple experiments conducted by Sbrana and Lima de Castro [52]. Their study shows that neural network models with Mish activation function consistently generate lower prediction errors than their alternatives. Figure 6 provides a holistic framework for the entire model implementation and training.
Given that the data preprocessing phase is critical for the success of this experiment in accurately predicting cryptocurrency prices, BTC data were scaled to reduce noise and variability, thereby enhancing the model’s ability to recognize underlying trends. This transformation is particularly important for stabilizing variance across the dataset, ensuring that price patterns remain distinct and interpretable for effective forecasting. To achieve this, MinMaxScaler is adopted, which normalizes values within a fixed range of 0 to 1 , as shown in Eq. 7. The choice of MinMax scaling is based on its ability to preserve the relative relationships and distribution of the data while preventing extreme price fluctuations from dominating the learning process. Unlike standardization methods such as Z-score normalization, which assumes a Gaussian distribution and centers data around a mean of zero, MinMax scaling retains the original structure of the data, making it more suitable for highly volatile financial time series. Additionally, this scaling technique helps mitigate vanishing or exploding gradient issues in deep learning models by ensuring that input values remain within a constrained range, improving convergence efficiency during training.
Fig. 6 Systematic framework
where denotes the normalized price at any time t , while is the smoothed price at any time t .
For the execution of all models in this study, Python 3.10.12 was utilized on Google Colab, a choice driven by the platform’s capacity to provide efficient and accessible computing resources. Google Colab offers a user-friendly environment that supports intensive computational tasks by providing access to external hardware accelerators and compute units. This significantly reduces the computational load, making it ideal for handling the robust needs of deep learning models. The environment runs TensorFlow 2.17.0 and incorporates the Keras library, which comes pre-equipped with a wide array of deep learning models and libraries ready for use. Data processing and visualization tasks were primarily conducted using the Python libraries: Matplotlib and Seaborn.
Given the high computational demands of the proposed models, particularly during the hyperparameter tuning phase, the premium version of Google Colab was considered, which includes access to the NVIDIA A100 GPU. This advanced GPU enhances computing power, accelerates processing speed, and expands computational capabilities, which are crucial for managing the intense demands of predictive models. The A100 GPU is particularly valued for its high-performance computing abilities, making it an excellent tool for data-intensive tasks and ensuring efficient execution of deep learning frameworks.

Hyperparameters optimization process

Hyperparameter optimization is a crucial stage in machine learning training. It aims to optimize the parameters that control the learning process, resulting in the highest potential model performance. The selection of suitable hyperparameters is crucial as they have a direct impact on the training model, which learns from the data and makes accurate projections on unseen data. Inadequately selected hyperparameters can result in problems such as overfitting, underfitting, or ineffective learning, which eventually diminish the model’s capacity to accurately forecast and its reliability. Three of the most commonly used tuning strategies are Grid search, Random search, and Bayesian search. Grid search is widely utilized due to its straightforward implementation and ease of parallelization, as well as its dependability in low-dimensional spaces and the reproducibility of tuning results. However, grid search faces significant challenges, particularly in high-dimensional spaces, where the number of trials grows exponentially with the increase in hyperparameters, a phenomenon often referred to as the curse of dimensionality [6].
In contrast, random search selects hyperparameters by drawing independent samples from a uniform distribution [6]. Random search retains many of the practical advantages of grid search, including simplicity and reproducibility, but offers a significant performance boost in high-dimensional hyperparameter spaces. Bayesian optimization takes a fundamentally different approach to hyperparameter tuning when compared with the others by building a surrogate model of the hyperparameter response function instead of exhaustively sampling the hyperparameter space [49]. It uses this surrogate model to inform the search process and selects explicitly the next set of hyperparameters to evaluate and reduce the uncertainty of the model. The running of the machine learning model is then assessed with these hyperparameters, updating the probabilistic model and creating a posterior distribution that guides future selections. This iterative process continues until improvements are minimal or computational resources are exhausted, ultimately yielding the optimal hyperparameter configuration. Bayesian search is particularly efficient, often requiring fewer evaluations to locate the optimal solution. Equation 8 is used to find the maximum value of the unknown objective function:
Here, represents the search space of hyperparameters, denoted by .
In Bayesian optimization, the objective function is treated as a random function, and a prior distribution is assumed over it. This optimization approach hinges on two crucial
elements: the prior function and the posterior function, the latter typically represented by an acquisition function. The prior function models the expected behaviour of the objective function and is often estimated using methods such as Gaussian Processes (GP) or more specialized algorithms like the Tree-structured Parzen Estimator (TPE) [22]. As evaluations of the function are collected, the prior is updated to form a posterior distribution, which captures insights from new data and refines the understanding of the function’s behaviour. This posterior distribution is essential for constructing an acquisition function , which strategically guides the selection of the next query point for evaluation, aiming to optimize the search process. Common choices for the acquisition function include the Probability of Improvement (PI) and Expected Improvement (EI), both designed to steer the search towards regions of the hyperparameter space that promise the most significant enhancements. The PI function, in particular, focuses on exploring areas around the current optimal point to find potentially superior values. This exploration is crucial for efficiently navigating the search space and is formalized in Eq. 9, which calculates the probability that a new sample will yield an improvement over the current best observation.
In this context, represents the cumulative distribution function (CDF) of the Gaussian distribution.
The PI acquisition function in Bayesian optimization has a key limitation: it tends to focus sampling efforts near the current optimal solution, emphasizing exploration. This can lead to potentially better solutions being overlooked if they lie farther from the localized optimum, potentially causing the model to get stuck in local optima. To mitigate this issue, the EI acquisition function is often utilized. The EI function systematically explores the vicinity of the current optimum and calculates the expected improvement for each new point evaluated. If the calculated EI at a new point falls below a predetermined threshold, it is inferred that the current optimal point is likely the best solution within that region. Consequently, the algorithm then shifts its focus to explore other areas of the search domain, thus effectively balancing exploration with exploitation. This balance is crucial for avoiding local optima and ensuring a more comprehensive search of the hyperparameter space. The degree of improvement , which is the difference between the function value at the newly selected point and the value at the current optimum, is central to this process [22]. Suppose the new point’s function value does not surpass the current optimal value. In that case, the improvement is considered zero, as depicted in Eq. 10. This mechanism ensures that the optimization process continuously moves towards discovering potentially superior solutions.
Equation 11 and Eq. 12 represent the probability density function for and .
where is the probability distribution function of the standard normal distribution Z in Eq. 13.
In this work, Bayesian optimization was employed to fine-tune the hyperparameters of the Helformer model and other deep learning baselines (RNN, LSTM, BiLSTM, GRU, and Transformer). Unlike grid or random search, Bayesian optimization efficiently explores the search space using a probabilistic surrogate model, reducing the number of function evaluations needed to find the optimal hyperparameters. This study utilized TPE algorithm from the Optuna framework, which models the objective function as a probabilistic distribution and selects hyperparameter values that maximize EI. The optimization process follows these key steps:
  1. Define the Search Space: This is achieved by specifying the possible values for each hyperparameter (e.g., learning rate, dropout rate, batch size).
  2. Initialize Random Trials: The algorithm first evaluates a few randomly chosen configurations to build an initial model.
  3. Build a Surrogate Model: A probabilistic model is constructed to approximate the objective function.
  4. Select the Next Set of Hyperparameters: Based on the EI criterion, the next promising hyperparameters are selected.
  5. Evaluate and Update the Model: The new hyperparameter combination is tested, and the surrogate model is updated iteratively.
  6. Convergence: The process stops when performance gains become negligible or when a set number of trials is reached.
To ensure efficiency, the number of trials is set to 50 , and the Optuna Pruner feature is enabled to terminate underperforming trials early, preventing unnecessary computations. The optimization direction is set to minimize the MSE as the primary objective. The search space for each model is detailed in Table 3, specifying the hyperparameter ranges explored during Bayesian optimization.

Evaluation metrics

Six evaluation metrics were employed to assess the predictive prowess of the developed models, and they were categorized into similarity-based and dissimilarity-based metrics. The similarity-based metrics include R -squared ( ), Explained Variance Score (EVS), and Kling-Gupta Efficiency (KGE). measures the proportion of the variance in the dependent variable that is predictable from the independent variables, indicating the goodness of fit of the model. EVS assesses the proportion of the variance in the target variable accounted for by the model, reflecting the model’s capability to explain data variability. KGE combines the
Table 3 Bayesian optimization search space
Hyperparameters RNN/LSTM/BiLSTM/GRU Transformer Helformer
neurons [20, 50] (step = 5) [20, 50] (step = 5)
layers [1, 2]
num_blocks [1,4] [1,4]
learning_rate [0.0001, 0.01] [0.0001, 0.01] [0.0001, 0.01]
dropout_rate [0, 0.3] [0,0.3] [0,0.3]
batch_size [16, 32, 64, 128] [16, 32, 64, 128] [16, 32, 64, 128]
epochs [50, 150] (step ) [50, 150] (step = 5) [50, 150] (step = 5)
num_heads [2, 10] (step = 2) [2, 10] (step = 2)
head_size [8, 64] (step = 8) [8, 64] (step = 8)
ff_dim [16, 64] (step = 16)
Pearson correlation coefficient, bias ratio, and variability ratio to provide a balanced measure of correlation, bias, and variability error between observed and predicted values.
On the other hand, the dissimilarity-based metrics include Root Mean Squared Error (RMSE), Mean Absolute Percentage Error (MAPE), and Mean Absolute Error (MAE). Together, these metrics comprehensively evaluate each model’s performance, capturing both the alignment and deviation between predicted and actual values. Equation 14-19 represents the formulas for the six evaluation metrics used to assess the performance of the developed models. These metrics provide a comprehensive understanding of both the similarity and dissimilarity between the predicted and actual values.
where, are the actual values, are the predicted values, is the mean of the actual values, and N is the length of the dataset.
where denotes the variance of the actual values and is the variance of the errors.
where r is the Pearson correlation coefficient, is the variability ratio, and is the bias ratio.

Empirical results and discussions

This section presents the results and discussion of the base models used in this study. After applying hyperparameter tuning using Optuna, based on the hyperparameter space outlined in Table 3, optimized parameters were obtained for training the final version of the Helformer model alongside five other sophisticated models: RNN, LSTM, BiLSTM, GRU, and Transformer. The results of these optimized models are presented and discussed, showcasing significant improvements in predictive performance due to the fine-tuning process. Furthermore, a trading strategy was implemented to demonstrate the practical applicability of each model by comparing their performance to the traditional B&H strategy. The results from these trading strategies provide insight into the potential financial gains and risk management capabilities of the individual models. To further validate the versatility and robustness of the proposed model, a comparative analysis was conducted by replicating the experimental setups and parameters from notable works in the literature, using their datasets to benchmark the performance of the proposed model against existing models. Lastly, this section highlights the cross-learning ability of the Helformer model, which was initially trained using BTC data. The saved weights from this pre-trained model were then applied to 15 other top cryptocurrencies. This approach demonstrated the model’s exceptional predictive accuracy and significant returns when employed in trading strategies across different cryptocurrencies, highlighting the model’s generalizability and effectiveness in diverse market conditions.

Results of the base models

This study applied the experimental setup described earlier to build all the selected models using their default configurations without hyperparameter tuning. The initial results provide an overview of evaluation metrics, including RMSE, MAPE, MAE, , EVS, and KGE on the test data. Table 4 presents the performance of the base models before any hyperparameter tuning, revealing significant differences in their predictive accuracy. Among the models, the Helformer stands out with exceptional performance across all
Table 4 BTC base model – Evaluation metrics on test data
Model RMSE MAPE MAE EVS KGE
RNN 1256.3767 2.3942% 915.7597 0.9941 0.9952 0.9851
LSTM 1426.5453 3.1121% 1123.4248 0.9924 0.9930 0.9669
BiLSTM 1331.3047 2.6030% 980.5543 0.9933 0.9937 0.9862
GRU 1314.9097 1.9241% 830.1504 0.9935 0.9944 0.9674
Transformer 1657.1426 3.0053% 1174.7753 0.9897 0.9900 0.9855
Helformer 16.0822 0.0343% 13.4487 1 1 0.9995
evaluation metrics. The Helformer achieves the lowest RMSE (16.0822). Its MAPE is also impressively low at , showcasing superior accuracy compared to the other models. The MAE for the Helformer is 13.4487, further highlighting its precision in prediction. The Helformer model also achieves perfect scores for and EVS (both equal to 1), indicating that it perfectly captured the variance in BTC prices. The high KGE score of 0.9995 shows a nearly perfect agreement between the observed and predicted values. The RNN model, which is a simpler recurrent neural network architecture, shows a significantly higher RMSE of 1256.3767 and MAPE of . The MAE is also high at 915.7597 , indicating that the model has a relatively large average error in predictions. Although the value of 0.9941 and EVS of 0.9952 are still high, suggesting a good fit to the data, the model’s errors indicate room for improvement. The LSTM model, known for its capability to manage long-term dependencies in time series data, records an RMSE of 1426.5453, MAPE of , and MAE of 1123.4248 . These results suggest that, although LSTM is an effective model for time series forecasting, it underperforms compared to the Helformer. The lower and EVS ( 0.9930 ) compared to the Helformer indicate that LSTM does not capture the variance in BTC prices as well. The BiLSTM model, a more advanced version of LSTM that captures dependencies in both forward and backward directions, shows some improvement over LSTM with an RMSE of 1331.3047 and MAPE of . However, its MAE of 980.5543 and slightly lower (0.9933) compared to the Helformer indicate it still lacks the precision and robustness needed for optimal forecasting.
The GRU model performs slightly better than the LSTM and BiLSTM models with an RMSE of 1314.9097 and a lower MAPE of . The MAE of 830.1504 is also lower than that of the LSTM and BiLSTM. However, the (0.9935) and EVS (0.9944) are still below those achieved by the Helformer, indicating that while GRU is effective, it does not perform as well as the Helformer. The Transformer model, which utilizes self-attention mechanisms, records the highest RMSE (1657.1426) and a relatively high MAPE of . The MAE is also the highest among the models at 1174.7753, indicating substantial prediction errors. Despite having a high value of 0.9897 , the Transformer model’s performance in this context is not as efficient as the Helformer. In sum, the Helformer clearly outperforms all other models in their base configurations, demonstrating superior prediction accuracy and robustness. Its outstanding performance across all metrics suggests that its architecture, which incorporates series decomposition and attention mechanisms, is particularly well-suited for handling the complex and volatile nature of cryptocurrency data.

Results of the optimized models

The optimal hyperparameter values for each model, obtained through Bayesian optimization, are as follows: For the Transformer model, the optimal configuration includes a feed-forward dimension of 16, 2 blocks, a learning rate of 0.0085 , a dropout rate of 0.0181 , batch size of 16, and 100 epochs. Additionally, it utilizes 10 attention heads with a head size of 32 . The RNN, LSTM, BiLSTM, and GRU models were optimized with unit sizes of , and 40 , respectively, with layers set at , and 1 . Their learning rates were tuned to , and 0.0082 , while dropout rate were 0.0117 , , and 0.0001 , respectively. Batch sizes varied as , and 64 , with
the number of training epochs optimized at , and 85 , respectively. The Helformer model, which demonstrated superior performance, was optimized with 20 units, 1 block, a learning rate of 0.0037 , a dropout rate of 0.0194 , and a batch size of 16 , trained for 95 epochs. The model was configured with 4 attention heads and a head size of 48. Table 5 presents the optimized results of the models after hyperparameter tuning, demonstrating their improved performance in predicting BTC prices on the test dataset. It reveals that the Helformer model, after optimization, significantly outperforms all other models across all evaluation metrics. The Helformer achieves an exceptionally low RMSE of 7.7534, indicating that the deviation between its predicted and actual BTC prices is exceptionally minimal. The MAPE is remarkably low at , showcasing its outstanding accuracy in predicting BTC prices. The MAE is also the lowest among all models at 5.9252, demonstrating high precision. The and EVS metrics both equal 1, signifying that the Helformer model perfectly explains the variance in BTC prices, indicating a perfect fit. The KGE of 0.9998 suggests near-perfect agreement between observed and predicted values, further validating its effectiveness in capturing the complex dynamics of BTC prices.
Comparatively, the other models: RNN, LSTM, BiLSTM, GRU, and Transformer, also show improved performance after hyperparameter tuning but still fall short of the Helformer in terms of accuracy and precision. The BiLSTM model, for example, achieves an RMSE of 1140.4627 and MAPE of , which are substantial improvements compared to its base model performance. However, its MAE of 766.7234 and of 0.9951 indicate that it still has larger errors and slightly less explanatory power compared to the Helformer. The RNN model also shows good performance with an RMSE of 1153.1877, MAPE of , and MAE of 765.7482 . Its value of 0.9950 and EVS of 0.9951 are both high, suggesting that the model fits the data well. However, the prediction errors are larger than those of the Helformer. The GRU model performs similarly to the RNN, with an RMSE of 1151.1653, MAPE of , and MAE of 724.5279. Although it demonstrates slightly better performance than RNN, with a lower MAPE and MAE, its overall accuracy and precision are still inferior to those of the Helformer. Also, The LSTM model records an RMSE of 1171.6701, MAPE of , and MAE of 737.1088, reflecting improvements from its base performance but still lagging behind in comparison to the Helformer. The Transformer model, while known for its strong performance in sequence-to-sequence tasks, shows an RMSE of 1218.5600, MAPE of , and MAE of 799.6003. Despite its high and EVS (0.9946) values, the Transformer model has the highest prediction errors among the optimized models, suggesting it is
Table 5 BTC optimized model – Evaluation metrics on test data
Model RMSE MAPE MAE EVS KGE
RNN 1153.1877 1.9122% 765.7482 0.9950 0.9951 0.9905
LSTM 1171.6701 1.7681% 737.1088 0.9948 0.9949 0.9815
BiLSTM 1140.4627 1.9514% 766.7234 0.9951 0.9952 0.9901
GRU 1151.1653 1.7500% 724.5279 0.9950 0.9950 0.9878
Transformer 1218.5600 1.9631% 799.6003 0.9944 0.9946 0.9902
Helformer 7.7534 0.0148% 5.9252 1 1 0.9998
less suitable for this particular time series forecasting task without further adjustments. The significant reduction in prediction errors and the perfect fit metrics ( and EVS) for the Helformer model bring to light the effectiveness of its architecture and Optuna tuning process. This highlights the Helformer model’s potential as a powerful tool for forecasting cryptocurrency prices in volatile markets.
Figure 7 illustrates the outstanding performance of the Helformer model, which exhibits a very accurate alignment with the true data, suggesting the most negligible error in predictions. The Helformer model demonstrates a remarkable level of precision, indicating its superior ability to capture the intricate dynamics of cryptocurrency data compared to the other models discussed. The Helformer model’s precise fit demonstrates its usefulness and provides a reliable tool for investors, analysts and researchers seeking to make well-informed financial judgements. In sum, the empirical results justify the introduction of the series decomposition component, the attention mechanism, and the replacement of the FFN with an LSTM component in the proposed Helformer model. These components collectively enhance the model’s ability to deal with the volatility, seasonality, non-stationarity, and non-linearity of time series data, leading to highly accurate predictions that are critical for effective cryptocurrency forecasting.

Implementation of trading strategy

This section discusses implementing a simple trading strategy to assess the practical applicability of the optimized models in generating financial returns from trading BTC. The results of this trading strategy are presented in Table 6 and Fig. 8, which provide key performance indicators such as Excess Return (ER), Volatility (V), Maximum Drawdown (MDD), and Sharpe Ratio (SR) for each model and the Buy & Hold (B&H) strategy.
A trading strategy is formulated using ER, V, MDD, and SR. If the forecasted value for the next day exceeds the most recent observed value , the strategy would initiate a
Fig. 7 BTC—predicted curves vs True curve
Table 6 Trading Strategy – BTC
Models Excess Return (ER) Volatility (V) Max Drawdown (MDD) Sharpe Ratio (SR)
RNN 157.57% 0.0246 -0.1871 2.2146
LSTM 90.88% 0.0247 -0.1617 1.2611
BiLSTM 171.23% 0.0246 -0.1507 2.4117
GRU 84.76% 0.0248 -0.2061 1.1743
Transformer 47.62% 0.0248 -0.4369 0.6488
Helformer 925.29% 0.0178 18.0604
B&H 277.01% 0.0247 -0.1477 1.8529
Fig. 8 Trading results
long one position in the index. Alternatively, if is lesser than , it would initiate a short one position index. Perhaps there is no difference; no position is held. The calculation of the return at any particular time is determined according to Eq. 20:
The sign (.) represents the sign function, which returns +1 if the argument is positive, -1 if negative, and 0 if zero. The net value (NV) of the strategy, which represents the total return, is calculated using Eq. 21, where and . Also, since transaction costs vary across different exchanges and asset types, a transaction cost is assumed to account for potential variations. For example, Binance charges for spot trading, but fees may differ across platforms or for different cryptocurrencies.
Volatility is a term that quantifies the degree of change in the value of a security, index, or market across a given period. It plays a crucial role as a tool for investors and traders to evaluate risk and make well-informed decisions. Equation 22 is commonly used in computing volatility.
where represents the standard deviation of returns.
Maximum drawdown is a risk indicator that quantifies the most significant decline in the value of a portfolio or investment from its highest point to its lowest point before reaching a new high. It is frequently employed to assess the risk associated with a particular investment or compare various asset risk levels. Equation 23 is commonly used in computing maximum drawdown.
The Sharpe Ratio is a financial metric that quantifies an investment’s performance to its level of risk. The Sharpe ratio measures the additional return gained per unit of risk assumed in an investment. The Sharpe Ratio can be calculated using Eq. 24.
represents risk free interest rate. In this stuudy, is assumed to be .
Table 6 illustrates the effectiveness of the different models in a trading context by showing their ability to maximize returns while minimizing risk. Among all models, the Helformer model stands out remarkably, achieving an ER of 925.29%. This return is significantly higher than that of any other model, indicating the Helformer’s exceptional capability to generate profit in the volatile cryptocurrency market. Additionally, the Helformer demonstrates the lowest V of 0.0178 , suggesting it maintains relatively stable performance. The MDD for Helformer is nearly negligible at , indicating minimal risk of substantial loss during the trading period. Its SR, which measures the risk-adjusted return, is extraordinarily high at 18.0604, confirming that the Helformer not only generates high returns but also does so with an excellent risk management profile. In comparison, the other models show significantly lower performance across all metrics. The BiLSTM model has the second-highest ER of with a volatility of 0.0246, which is comparable to other models except Helformer. The MDD for BiLSTM
is relatively low at -0.1507 , and the SR is 2.0039 , indicating a good balance of return and risk. However, its performance is still far behind that of the Helformer model.
The RNN model also performs relatively well, with an ER of and a volatility of 0.0246 . Its MDD is -0.1871 , which shows moderate risk levels, and its SR of 1.8401 indicates good risk-adjusted returns. However, it is less effective than BiLSTM and significantly underperforms compared to Helformer. The LSTM model records an ER of , a volatility of 0.0247 , and an MDD of -0.1617 . Its SR is 1.0479 , which suggests that while it provides a positive return, it does so with relatively higher risk compared to RNN and BiLSTM. The GRU model performs slightly worse than LSTM, with an ER of and an MDD of -0.2061 . Its volatility is slightly higher at 0.0248 , and it has the lowest SR among the models (excluding the Transformer) at 0.9757 , suggesting it is less effective in providing risk-adjusted returns. The Transformer model shows the weakest performance, with an ER of , the highest MDD of -0.4369 , and an SR of 0.5391 . This indicates that the model has difficulty maintaining stable performance in the highly volatile cryptocurrency market and generates low returns relative to the risk taken.
The Buy & Hold (B&H) strategy, a traditional investment approach, results in an ER of , volatility of 0.0247 , and an MDD of -0.1477 . Its SR of 1.8529 suggests that while it performs better than most models except for Helformer and BiLSTM, it is still not as effective as the Helformer model in balancing returns and risks. In sum, the results in Table 6 and Fig. 8 clearly demonstrate that the Helformer model significantly outperforms all other models and the B&H strategy in terms of excess return, risk management, and risk-adjusted returns. Its ability to achieve such high returns with minimal volatility and drawdown highlights the robustness and effectiveness of the Helformer model for practical cryptocurrency trading strategies. This performance validates the model’s superior predictive capabilities and its potential as a valuable tool for investors, analysts, and asset managers in the cryptocurrency market.
Figure 9 illustrates the Net Value curves of various models and B&H strategy for BTC over the period from January 2023 to June 2024. The Net Value curve is a crucial indicator of how well a trading strategy performs over time, showing the cumulative return of an initial investment as it evolves. From the plot, it is evident that the Helformer model (represented in black) significantly outperforms all other models and the B&H strategy in terms of net value growth. The Helformer curve shows a steady, upward trajectory throughout the period, indicating its robust and consistent performance in generating returns from BTC trading. Unlike the other models and the B&H strategy, Helformer shows an almost exponential growth pattern, with a rapid increase in net value beginning around mid-2023. This suggests that the model effectively captures market trends and executes profitable trades, leading to substantial gains. In contrast, the net value curves of the other models. RNN, LSTM, BiLSTM, GRU, and Transformer are relatively flat, with modest upward trends. The BiLSTM model (cyan) shows a better performance than the RNN (pink), LSTM (green), GRU (blue), and Transformer (orange), indicating some capacity to capture and profit from market movements. However, the growth is much slower and less pronounced compared to Helformer. The RNN and LSTM models perform similarly, showing slight upward trends, but their curves are still much lower than that of Helformer, indicating lower profitability. While having some upward movement, the GRU and Transformer models remain the least effective, with the Transformer
Fig. 9 BTC-net value curves
model, in particular, showing the flattest curve and the least net value growth, underscoring its limitations in this context.
The B&H strategy (purple) shows a stable but relatively moderate increase in net value, outperforming most models except Helformer. This demonstrates that while B&H is a safer strategy compared to some deep learning models, it does not capitalize on shortterm market opportunities as effectively as Helformer does. In sum, the Net Value curves highlight the superior performance of the Helformer model in the context of BTC trading. Its ability to achieve continuous and substantial net value growth without significant drawdowns underscores its effectiveness in generating high returns with a robust risk management strategy. The other models, while offering some value, do not come close to matching Helformer’s performance, reinforcing its status as the most suitable model for profitable cryptocurrency trading.

Comparison of helformer with existing studies

To showcase the versatility and robustness of the Helformer model, this study compares its performance with those reported in the latest and notable existing studies on cryptocurrency price prediction, specifically those using BTC as the prediction object. The comparison primarily focuses on evaluating the predictive accuracy of the Helformer model against a range of models from recent studies. This involved utilizing an identical dataset, applying the same data preprocessing techniques, and adopting similar data splitting strategies to ensure a fair and rigorous comparative analysis. Additionally, this study maintained consistent experimental setups and
parameters as outlined in the selected studies to provide a direct and unbiased comparison. The chosen studies for this comparative analysis include a variety of models: singular models, hybrid models, and ensemble models, representing some of the most effective approaches in recent cryptocurrency research. These notable works include Hansun et al. [23], Seabe et al. [53], Jin and Li [28], and Fallah et al. [16], which have employed various state-of-the-art techniques to enhance prediction accuracy and trading strategies. By benchmarking Helformer against these diverse and advanced methodologies, this study aims to highlight its superior capabilities in terms of prediction accuracy, robustness across different market conditions, and generalization ability across multiple cryptocurrencies. This comprehensive comparison presented in Table 7 strengthens Helformer’s position as a versatile and reliable model for cryptocurrency price forecasting, capable of outperforming both traditional and cuttingedge models presented in the current literature.
Table 7 Comparison of the Helformer model with existing studies
S/N Models RMSE MAPE MAE
Fallah et al. [16]
1 ARIMA 13,178.34 38.20% 11,654.64
2 SVR 1043.95 3.000% 818.47
3 RF 1038.08 3.00% 731.72
4 DNN 784.42 2.10% 588.16
5 DNN + VAR 711.40 1.80% 508.49
6 Helformer 36.23 0.10% 27.86
Jin and Li [28]
1 ARIMA 253.051 1.61% 172.681
2 RF 372.773 2.78% 283.246
3 SVM 330.389 2.23% 236.284
4 Informer 333.124 2.48% 257.918
5 Autoformer 402.196 3.08% 319.257
6 LSTM 275.958 1.82% 193.817
7 GRU 260.502 1.69% 180.501
8 EMD-AGRU-LSTM 223.556 1.75% 181.721
9 VMD-AGRU-GRU 150.032 1.04% 113.32
10 VMD-GRU-LSTM 127.284 0.88% 94.895
11 VMD-AGRU-LSTM 124.657 0.87% 93.756
12 VMD-AGRU-RESEMD-LSTM 105.13 0.75% 80.417
13 VMD-AGRU-RESVMD-LSTM 50.651 0.39% 42.298
14 Helformer 0.201 0.0014% 0.153
Seabe et al. [53]
1 LSTM 1031.3401 3.94%
2 BiLSTM 1029.3617 3.56%
3 GRU 1274.1706 5.72%
4 Helformer 19.7973 0.050%
Hansun et al. [23]
1 LSTM 2518.0217 4.218% 1617.7592
2 BiLSTM 2222.7354 3.800% 1422.1933
3 GRU 1777.306 3.492% 1167.3461
4 Helformer 8.0665 0.010% 3.7670
Table 7 provides a comprehensive comparison of the Helformer model against various models reported in recent studies. Compared to Fallah et al. [16], where models like ARIMA, SVR, RF, DNN, and DNN + VAR show higher RMSE (from 711.40 to 13,178.34), MAPE (from to ), and MAE (from 508.49 to 11,654.64), the Helformer achieves significantly better results with an RMSE of 36.23 , MAPE of , and MAE of 27.86. Similarly, when compared with the advanced hybrid models used by Jin and Li [28], such as VMD-AGRU-RESVMD-LSTM, which recorded an RMSE of 50.651, MAPE of and MAE of 42.298 , the Helformer demonstrates superior performance with an exceptionally low RMSE of 0.201 , MAPE of , and MAE of 0.153 . This stark contrast in performance highlights the Helformer’s capability to capture complex patterns in time series data with unparalleled precision. Further, the comparison with studies by Seabe et al. [53] and Hansun et al. [23] also underscores Helformer’s dominance. These comparisons show that Helformer outperforms both traditional and advanced models used in existing studies, proving its robustness, versatility, and state-of-the-art capability in predicting cryptocurrency prices with far greater accuracy and reliability.

Generalization and transfer learning ability of Helformer

Transfer learning in finance is a methodology that enables the development of high-performance models trained with data from one market and applied to another within the same domain, particularly useful when acquiring sufficient training data is costly or challenging [19]. It allows a model to leverage previously learned knowledge and apply it to a closely related but distinct task, thereby enhancing its overall predictive proficiency. Although transfer learning is still relatively new in cryptocurrency forecasting, its potential to significantly reduce the data and computational resources required for training new models makes it a valuable technique for time series prediction. To implement this approach, the Helformer model was initially trained on the BTC dataset to develop a robust foundational model. Once the optimal model configuration was identified, its generalizability and cross-learning ability were tested by applying the pre-trained model to datasets of the top 15 cryptocurrencies ranked by market capitalization. Without finetuning the optimized model parameters, the assessment focused on evaluating its predictive power on different assets without retraining from scratch. The results in Table 8 demonstrate that even without further parameter adjustments, Helformer achieved exceptional predictive accuracy and robustness across multiple cryptocurrencies. This highlights its ability to generalize effectively across different cryptocurrencies, reinforcing its reliability as a versatile forecasting model.
The evaluation metrics for 15 selected cryptocurrencies, using a pre-trained model on BTC, are presented in Table 8. It shows outstanding predictions across various metrics, including RMSE, MAPE, MAE, , EVS, and KGE, reflecting the model’s ability to effectively generalize the patterns learned from BTC to other cryptocurrencies. For ETH and BCH, RMSE values are 15.0676 and 10.0356, respectively, indicating some variability in model predictions, yet both show high and EVS values close to 1 , suggesting that the model captures a significant proportion of the variance in these cryptocurrencies. The KGE values for ETH and BCH are 0.9916 and 0.9541, respectively, which are relatively high, demonstrating good agreement between the observed and predicted values. Cryptocurrencies such as SOL and TRX showcase
Table 8 Evaluation metrics of 15 selected stocks using a pre-trained model on BTC
S/N Cryptocurrency RMSE MAPE MAE EVS KGE
1 ETH 15.0676 0.6039% 14.0754 0.9995 0.9999 0.9916
2 BNB 9.2982 2.4629% 8.5706 0.9957 0.9993 0.9652
3 SOL 2.6935 2.3311% 2.3447 0.9976 0.9994 0.9670
4 XRP 0.0014 0.2644% 0.0014 0.9996 0.9999 0.9962
5 TON 0.0085 0.0076 0.9999 1 0.9974
6 DOGE 0.0001 0.0606% 0.9999 0.9999 0.9998
7 ADA 0.0020 0.4564% 0.0018 0.9997 0.9999 0.9935
8 TRX 1 1 1
9 AVAX 0.4701 1.3067% 0.4270 0.9986 0.9997 0.9813
10 SHIB 2.4623% 0.9966 0.9993 0.9653
11 DOT 0.1339 1.8510% 0.1258 0.9939 0.9992 0.9738
12 LINK 0.3891 3.0447% 0.3510 0.9936 0.9988 0.9570
13 BCH 10.0356 3.2494% 8.7577 0.9944 0.9986 0.9541
14 LEO 0.1465 3.1268% 0.1424 0.9742 0.9985 0.9558
15 NEAR 0.0461 0.8978% 0.0385 0.9995 0.9998 0.9876
Table 9 Trading results of Helformer model vs B&H strategy
S/N Trading Strategy Coins Helformer B&H
ER (%) V MDD SR ER (%) v MDD SR
1 ETH 854.88 0.0204 -0.0043 16.46 119.08 0.0272 -0.2456 1.12
2 BNB 493.80 0.0244 -0.0502 7.95 100.95 0.0266 -0.4462 1.01
3 SOL 937.72 0.0371 -0.0358 15.70 612.61 0.0481 -0.1940 2.52
4 XRP 1044.18 0.0331 -0.0007 12.41 27.19 0.0399 -0.3125 0.22
5 TON 668.86 0.0320 -0.0010 19.36 236.66 0.0456 -0.1826 2.45
6 DOGE 1354.79 0.0305 -0.0004 17.51 66.72 0.0418 -0.4040 0.47
7 ADA 1204.52 0.0250 -0.0017 18.93 16.55 0.0356 -0.4839 0.15
8 TRX 656.68 0.0148 0.0000 17.42 86.74 0.0202 -0.1586 1.19
9 AVAX 988.94 0.0352 -0.0061 19.45 219.99 0.0507 -0.3093 1.58
10 SHIB 831.66 0.0555 0.0000 12.26 88.88 0.0666 -0.3144 0.77
11 DOT 692.42 0.0310 -0.0252 15.14 53.96 0.0399 -0.3515 0.72
12 LINK 882.63 0.0345 -0.0350 10.05 108.10 0.0394 -0.4214 0.72
13 BCH 846.55 0.0437 -0.0411 7.62 216.39 0.0474 -0.2667 0.94
14 LEO 167.04 0.0169 -0.0654 5.02 48.53 0.0176 -0.1247 1.12
15 NEAR 1159.39 0.0434 -0.0079 18.87 382.34 0.0614 -0.2062 1.80
impressive model accuracy, with TRX achieving nearly perfect scores across all metrics, highlighting the model’s exceptional performance in handling this asset. Overall, the result demonstrates the potential of the Helformer model as a powerful tool for cryptocurrency forecasting, capable of adapting learned behaviours from BTC to a diverse set of other cryptocurrencies.
To further evaluate the trading strategy results of the Helformer model, its performance was compared against the B&H strategy for all the selected cryptocurrencies. Table 9 presents the results, including key performance metrics such as ER, V, MDD, and SR for both strategies across the 15 selected coins. These metrics help assess the trading strategies’ profitability and risk management capabilities, revealing that the
Helformer model consistently outperforms the B&H strategy in terms of ER for all 15 cryptocurrencies.
For example, ETH showcases a dramatic improvement in the Helformer model, with an ER of and a Sharpe Ratio (SR) of 16.46, which significantly outperforms the B&H strategy’s ER of and SR of 1.12 . This pattern is consistent across other cryptocurrencies, where the Helformer model not only yields higher returns but also demonstrates more efficient risk management. For instance, DOGE presents an ER of and an extremely low MDD of -0.0004 , compared to B&H’s ER of and a higher MDD of -0.4040 , illustrating the Helformer’s ability to generate substantial returns while minimizing potential losses. The Helformer model also consistently exhibits lower volatility across most cryptocurrencies compared to B&H, indicating a more stable and less risky trading performance. For ADA, the Helformer achieves volatility of 0.0250 compared to 0.0356 for , further highlighting its effectiveness in managing market fluctuations. Additionally, the Helformer achieves remarkably high SR, such as 19.36 for TON and 18.93 for ADA, suggesting a superior risk-adjusted return relative to B&H, which shows considerably lower SR.
This stark contrast in trading performance is further evident in cryptocurrencies like SHIB and AVAX, where the Helformer improves the return and significantly reduces the impact of potential large drawdowns, as seen in the much lower MDD values. For example, AVAX under Helformer experiences an MDD of -0.0061 compared to -0.3093 under B&H, indicating less vulnerability to sudden market downturns. In sum, the Helformer model not only delivers much higher excess returns across all cryptocurrencies but also manages risk more effectively, as evidenced by lower volatility, smaller drawdowns, and higher Sharpe Ratios. These findings confirm the versatility and robustness of the Helformer model in real-world trading scenarios, emphasizing its value as a powerful tool for investors seeking both high returns and controlled risk in the volatile cryptocurrency market.

Conclusion, limitations, and future directions

This work introduces the Helformer model, which represents a significant progression in the field of cryptocurrency price forecasting. The model integrates robust hyperparameter optimization techniques and leverages the strengths of Transformer architectures to tackle the unique challenges presented by highly volatile financial time series like those of cryptocurrencies. By incorporating elements such as Holt-Winters exponential smoothing for time series decomposition and an LSTM component in place of the typical FFN, Helformer adeptly handles non-stationarities and seasonality, features prevalent in cryptocurrency data. The empirical results from extensive tests demonstrate Helformer’s superior accuracy and robustness in predicting cryptocurrency prices compared to traditional models. Its capability to generalize across various cryptocurrencies, as evidenced by transfer learning applications, further emphasizes its practical utility and versatility in real-world trading scenarios. The integration of Bayesian optimization with Optuna for hyperparameter tuning also highlights a methodological advancement, improving model reliability and performance. By harnessing cutting-edge deep learning techniques and sophisticated model
optimization strategies, the Helformer model addresses the volatile nature of cryptocurrencies, giving room for more stable and predictable investment strategies.
In the future, there are various potential areas for further research and exploration. Firstly, broadening the model’s scope to encompass a wider range of financial instruments beyond cryptocurrencies could unlock new markets and opportunities. Investigating the applicability of the Helformer model in other volatile financial markets, such as stock indices, commodities, or Forex markets, would be a valuable extension. Secondly, while the current study focuses on univariate time series forecasting, incorporating multivariate data could significantly enhance the model’s predictive accuracy. Future research could integrate technical indicators, sentiment analysis, macroeconomic indicators, and on-chain data to improve decision-making in cryptocurrency and financial market predictions. This would allow the model to capture external influences that impact price movements and market behavior. Third, exploring deeper integrations with reinforcement learning could refine the model’s trading strategy component. This approach could evolve Helformer from merely predicting prices to actively suggesting and managing dynamic trading strategies, potentially increasing profitability and minimizing risks in real-time trading environments.
Additionally, while the present study focuses on next-day price forecasting, future studies should investigate multi-step or multi-horizon forecasting, where predictions extend beyond a single time step. Since longer prediction windows often introduce more uncertainty and higher error rates, evaluating Helformer’s performance in long-term forecasting scenarios would provide further insights into its generalization capability and limitations. By pursuing these future directions, the Helformer model can continue to lead in technological innovation while promoting a responsible, adaptable, and equitable financial technology landscape.

Acknowledgements

The authors are grateful to the Hong Kong Polytechnic University for financial and technical support.

Author contributions

T.O. Kehinde: Conceptualization, Methodology, Writing – original draft, Software. Oluyinka J. Adedokun: Writing – review and editing, Investigation, Validation. Akpan Joseph: Formal Analysis, Resources. Kareem Morenikeji Kabirat: Software, Visualization, Investigation. Hammed Adebayo Akano: Validation, Data Curation. Oludolapo A. Olanrewaju: Supervision, Project Administration, Funding Acquisition. All authors reviewed the manuscript.

Funding

The authors are grateful to the Hong Kong Polytechnic University for financial and technical support.

Availability of data and materials

Data is available upon reasonable request.

Declarations

Not applicable.

Competing interests

The authors declare no competing interests.
Received: 15 December 2024 Accepted: 25 March 2025
Published online: 03 April 2025

References

  1. Abu Bakar N, Rosbi S. Autoregressive integrated moving average (ARIMA) model for forecasting cryptocurrency exchange rate in high volatility environment: a new insight of bitcoin transaction. Int J Adv Eng Res Sci. 2017;4(11):130-7.
  2. Akyildirim E, Goncu A, Sensoy A. Prediction of cryptocurrency returns using machine learning. Ann Oper Res. 2021;297:3-36.
  3. Alonso-Monsalve S, Suárez-Cetrulo AL, Cervantes A, Quintana D. Convolution on neural networks for high-frequency trend prediction of cryptocurrency exchange rates using technical indicators. Expert Syst Appl. 2020;149: 113250.
  4. Amadeo, A. J., Siento, J. G., Eikwine, T. A., & Parmonangan, I. H. Temporal Fusion Transformer for Multi Horizon Bitcoin Price Forecasting. 2023 IEEE 9th Information Technology International Seminar (ITIS), 2023
  5. Beltagy, I., Peters, M. E., & Cohan, A. (2020). Longformer: The long-document transformer. arXiv preprint arXiv:2004. 05150.
  6. Bergstra J, Bengio Y. Random search for hyper-parameter optimization. J Mach Learn Res. 2012;13(2):2.
  7. Bouteska A, Abedin MZ, Hajek P, Yuan K. Cryptocurrency price forecasting-a comparative analysis of ensemble learning and deep learning methods. Int Rev Financ Anal. 2024;92: 103055.
  8. Catania L, Grassi S, Ravazzolo F. Forecasting cryptocurrencies under model and parameter instability. Int J Forecast. 2019;35(2):485-501.
  9. Cavalli S, Amoretti M. CNN-based multivariate data analysis for bitcoin trend prediction. Appl Soft Comput. 2021;101: 107065.
  10. Chang T-J, Lee T-S, Yang C-T, Lu C-J. A ternary-frequency cryptocurrency price prediction scheme by ensemble of clustering and reconstructing intrinsic mode functions based on CEEMDAN. Expert Syst Appl. 2023;233: 121008.
  11. Chowdhury R, Rahman MA, Rahman MS, Mahdy M. An approach to predict and forecast the price of constituents and index of cryptocurrency using machine learning. Physica A. 2020;551: 124569.
  12. Conrad C, Custovic A, Ghysels E. Long-and short-term cryptocurrency volatility components: a GARCH-MIDAS analysis. J Risk Financ Manag. 2018;11(2):23.
  13. Da Silva, R. G., Ribeiro, M. H. D. M., Fraccanabbia, N., Mariani, V. C., & dos Santos Coelho, L. Multi-step ahead bitcoin price forecasting based on VMD and ensemble learning methods. 2020 International Joint Conference on Neural Networks (IJCNN). 2020
  14. Du X, Tang Z, Wu J, Chen K, Cai Y. A new hybrid cryptocurrency returns forecasting method based on multiscale decomposition and an optimized extreme learning machine using the sparrow search algorithm. leee Access. 2022;10:60397-411.
  15. Dutta A, Kumar S, Basu M. A gated recurrent unit approach to bitcoin price prediction. J Risk Financ Manag. 2020;13(2):23.
  16. Fallah MF, Pourmansouri R, Ahmadpour B. Presenting a new deep learning-based method with the incorporation of error effects to predict certain cryptocurrencies. Int Rev Financ Anal. 2024;95: 103466.
  17. Ghosh I, Jana RK, Sharma DK. A novel granular decomposition based predictive modeling framework for cryptocurrencies’ prices forecasting. China Financ Rev Int. 2024. https://doi.org/10.1108/CFRI-03-2023-0072.
  18. Girsang AS. Hybrid LSTM and GRU for cryptocurrency price forecasting based on social network sentiment analysis using FinBERT. leee Access. 2023;11:120530-40.
  19. Golnari A, Komeili MH, Azizi Z. Probabilistic deep learning and transfer learning for robust cryptocurrency price prediction. Expert Syst Appl. 2024. https://doi.org/10.1016/j.eswa.2024.124404.
  20. Goodell JW, Jabeur SB, Saâdaoui F, Nasir MA. Explainable artificial intelligence modeling to forecast bitcoin prices. Int Rev Financ Anal. 2023;88: 102702.
  21. Hamayel MJ, Owda AY. A novel cryptocurrency price prediction model using GRU, LSTM and bi-LSTM machine learning algorithms. Ai. 2021;2(4):477-96.
  22. Hanifi S, Cammarono A, Zare-Behtash H. Advanced hyperparameter optimization of deep learning models for wind power prediction. Renew Energy. 2024;221: 119700.
  23. Hansun S, Wicaksana A, Khaliq AQ. Multivariate cryptocurrency prediction: comparative analysis of three recurrent neural networks approaches. J Big Data. 2022;9(1):50.
  24. Haryono AT, Sarno R, Sungkono KR. Transformer-gated recurrent unit method for predicting stock price based on news sentiments and technical indicators. leee Access. 2023. https://doi.org/10.1109/ACCESS.2023.3298445.
  25. Ho K-H, Hou Y, Georgiades M, Fong KC. Exploring key properties and predicting price movements of cryptocurrency market using social network analysis. leee Access. 2024. https://doi.org/10.1109/ACCESS.2024.3397723.
  26. Ibrahim A, Kashef R, Corrigan L. Predicting market movement direction for bitcoin: A comparison of time series modeling methods. Comput Electr Eng. 2021;89: 106905.
  27. Jay P, Kalariya V, Parmar P, Tanwar S, Kumar N, Alazab M. Stochastic neural networks for cryptocurrency price prediction. leee Access. 2020;8:82804-18.
  28. Jin C, Li Y. Cryptocurrency price prediction using frequency decomposition and deep learning. Fractal Fract. 2023;7(10):708.
  29. Kehinde T, Chan FT, Chung S. Scientometric review and analysis of recent approaches to stock market forecasting: two decades survey. Expert Syst Appl. 2023;213: 119299.
  30. Kehinde T, Chung S, Chan FT. Benchmarking TPU and GPU for Stock Price Forecasting Using LSTM Model Development. In: Science and information conference. Cham: Springer; 2023.
  31. Koo E, Kim G. Centralized decomposition approach in LSTM for Bitcoin price prediction. Expert Syst Appl. 2024;237: 121401.
  32. Kristjanpoller W, Minutolo MC. A hybrid volatility forecasting framework integrating GARCH, artificial neural network, technical analysis and principal components analysis. Expert Syst Appl. 2018;109:1-11.
  33. Kumarappan J, Rajasekar E, Vairavasundaram S, Kotecha K, Kulkarni A. Siamese graph convolutional split-attention network with NLP based social sentimental data for enhanced stock price predictions. J Big Data. 2024;11(1):154.
  34. Li J, Zhang Y, Yang X, Chen L. Online portfolio management via deep reinforcement learning with high-frequency data. Inf Process Manage. 2023;60(3): 103247.
  35. Li Y, Jiang S, Li X, Wang S. Hybrid data decomposition-based deep learning for bitcoin prediction and algorithm trading. Financ Innov. 2022;8(1):31.
  36. Liu M, Li G, Li J, Zhu X, Yao Y. Forecasting the price of Bitcoin using deep learning. Financ Res Lett. 2021;40: 101755.
  37. Livieris IE, Kiriakidou N, Stavroyiannis S, Pintelas P. An advanced CNN-LSTM model for cryptocurrency forecasting. Electronics. 2021;10(3):287.
  38. Lu, Y., Zhang, H., & Guo, Q. (2023). Stock and market index prediction using Informer network. arXiv preprint arXiv: 2305.14382.
  39. Misra, D. (2019). Mish: A self regularized non-monotonic activation function. arXiv preprint arXiv:1908.08681.
  40. Nakamoto, S. (2008). Bitcoin: A peer-to-peer electronic cash system. Satoshi Nakamoto.
  41. Nakano M, Takahashi A, Takahashi S. Bitcoin technical trading with artificial neural network. Physica A. 2018;510:587-609.
  42. Nasirtafreshi I. Forecasting cryptocurrency prices using recurrent neural network and long short-term memory. Data Knowl Eng. 2022;139: 102009.
  43. Otabek S, Choi J. From prediction to profit: a comprehensive review of cryptocurrency trading strategies and price forecasting techniques. leee Access. 2024. https://doi.org/10.1109/ACCESS.2024.3417449.
  44. Oyedele AA, Ajayi AO, Oyedele LO, Bello SA, Jimoh KO. Performance evaluation of deep learning and boosted trees for cryptocurrency closing price prediction. Expert Syst Appl. 2023;213: 119233.
  45. Oyewola DO, Dada EG, Ndunagu JN. A novel hybrid walk-forward ensemble optimization for time series cryptocurrency prediction. Heliyon. 2022. https://doi.org/10.1016/j.heliyon.2022.e11862.
  46. Patel MM, Tanwar S, Gupta R, Kumar N. A deep learning-based cryptocurrency price prediction scheme for financial institutions. J Inf Security Appl. 2020;55: 102583.
  47. Peng P, Chen Y, Lin W, Wang JZ. Attention-based CNN-LSTM for high-frequency multiple cryptocurrency trend prediction. Expert Syst Appl. 2024;237: 121520.
  48. Poongodi M, Nguyen TN, Hamdi M, Cengiz K. Global cryptocurrency trend prediction using social media. Inf Process Manag. 2021;58(6): 102708. https://doi.org/10.1016/j.ipm.2021.102708.
  49. Quan SJ. Comparing hyperparameter tuning methods in machine learning based urban building energy modeling: a study in Chicago. Energy Build. 2024. https://doi.org/10.1016/j.enbuild.2024.114353.
  50. Rathore RK, Mishra D, Mehra PS, Pal O, Hashim AS, Shapi’i A, Ciano T, Shutaywi M. Real-world model for bitcoin price prediction. Inf Process Manag. 2022;59(4):102968. https://doi.org/10.1016/j.ipm.2022.102968.
  51. Saheed YK, Kehinde TO, Ayobami Raji M, Baba UA. Feature selection in intrusion detection systems: a new hybrid fusion of Bat algorithm and Residue Number System. J Inf Telecommun. 2024;8(2):189-207.
  52. Sbrana A, Lima de Castro PA. N-BEATS perceiver: a novel approach for robust cryptocurrency portfolio forecasting. Comput Econ. 2023;2:1-35.
  53. Seabe PL, Moutsinga CRB, Pindza E. Forecasting cryptocurrency prices using LSTM, GRU, and bi-directional LSTM: a deep learning approach. Fractal Fract. 2023;7(2):203.
  54. Sebastião H, Godinho P. Forecasting and trading cryptocurrencies with machine learning under changing market conditions. Financ Innov. 2021;7:1-30.
  55. Smyl S. A hybrid method of exponential smoothing and recurrent neural networks for time series forecasting. Int J Forecast. 2020;36(1):75-85.
  56. Sun X, Liu M, Sima Z. A novel cryptocurrency price trend forecasting model based on LightGBM. Financ Res Lett. 2020;32: 101084.
  57. Tanwar, A., & Kumar, V. (2022). Prediction of cryptocurrency prices using transformers and long short term neural networks. 2022 International Conference on Intelligent Controller and Computing for Smart Power (ICICCSP),
  58. Touzani Y, Douzi K. An LSTM and GRU based trading strategy adapted to the Moroccan market. J Big Data. 2021;8(1):126.
  59. Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser Ł, Polosukhin I. Attention is all you need. Adv Neural Inf Process Syst. 2017;30:1.
  60. Walther T, Klein T, Bouri E. Exogenous drivers of Bitcoin and Cryptocurrency volatility-a mixed data sampling approach to forecasting. J Int Finan Markets Inst Money. 2019;63: 101133.
  61. Wu H, Xu J, Wang J, Long M. Autoformer: decomposition transformers with auto-correlation for long-term series forecasting. Adv Neural Inf Process Syst. 2021;34:22419-30.
  62. Zhang Z, Dai H-N, Zhou J, Mondal SK, García MM, Wang H. Forecasting cryptocurrency price using convolutional neural networks with weighted and attentive memory channels. Expert Syst Appl. 2021;183: 115378.
  63. Zhong C, Du W, Xu W, Huang Q, Zhao Y, Wang M. LSTM-ReGAT: a network-centric approach for cryptocurrency price trend prediction. Decis Support Syst. 2023;169: 113955.
  64. Zhou H, Zhang S, Peng J, Zhang S, Li J, Xiong H, Zhang W. Informer: Beyond efficient transformer for long sequence time-series forecasting. Proc AAAI Conf Artif Intell. 2021. https://doi.org/10.1609/aaai.v35i12.17325.
  65. Zhou T, Ma Z, Wen Q, Wang X, Sun L, Jin R. Fedformer: frequency enhanced decomposed transformer for long-term series forecasting. Int Conf Mach Learn. 2022;162:27268.
  66. Zhou Z, Song Z, Xiao H, Ren T. Multi-source data driven cryptocurrency price movement prediction and portfolio optimization. Expert Syst Appl. 2023;219: 119600.
  67. Zoumpekas T, Houstis E, Vavalis M. ETH analysis and predictions utilizing deep learning. Expert Syst Appl. 2020;162: 113866.

Publisher’s Note

Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

  1. © The Author(s) 2025. Open Access This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License, which permits any non-commercial use, sharing, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if you modified the licensed material. You do not have permission under this licence to share adapted material derived from this article or parts of it. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by-nc-nd/4.0/.