TabNSA: انتباه متفرق أصلي لتعلم البيانات الجدولية بكفاءة TabNSA: Native sparse attention for efficient tabular data learning

المجلة: Neurocomputing، المجلد: 675
DOI: https://doi.org/10.1016/j.neucom.2026.132928
تاريخ النشر: 2026-02-06
المؤلف: Ali Eslamian وآخرون
الموضوع الرئيسي: تكييف المجال والتعلم من عدد قليل من الأمثلة

نظرة عامة

تقدم البحث TabNSA، وهو إطار عمل جديد للتعلم العميق مصمم لمعالجة التحديات الفريدة التي تطرحها البيانات الجدولية، مثل أنواع الميزات المتنوعة والبنية المكانية المحدودة. يدمج TabNSA الانتباه المتناثر الأصلي (NSA) مع هيكل TabMixer لتعزيز الكفاءة الحسابية وقدرات التمثيل. يستخدم نموذج NSA آلية انتباه متناثر هرمي تتضمن ضغط الرموز، والحفاظ الانتقائي، والنوافذ المنزلقة المحلية، مما يقلل بشكل كبير من التعقيد التربيعي النموذجي لعمليات الانتباه القياسية. في الوقت نفسه، يستخدم هيكل TabMixer فروع متعددة الطبقات من الشبكة العصبية (MLP) لالتقاط الاعتمادات المعقدة وغير الخطية بين الميزات، مما يسهل النمذجة الفعالة لكل من السياق العالمي والتفاعلات الدقيقة.

تظهر التجارب الواسعة أن TabNSA يتفوق باستمرار على نماذج التعلم العميق الرائدة في مختلف مهام التعلم المراقب ونقل المعرفة. يسمح تصميم الإطار بتحقيق توازن بين الوعي بالسياق العالمي وتفاعلات الميزات المحلية، مما يجعله فعالاً بشكل خاص للبيانات الجدولية. بالإضافة إلى ذلك، عند تعزيزها بنموذج لغة كبير تم ضبطه بدقة (LLM)، يظهر TabNSA وعدًا في معالجة تحديات التعلم القليل. تشير النتائج إلى أنه بينما يؤدي TabNSA بشكل تنافسي في مهام الانحدار، لا تزال النماذج المعتمدة على الأشجار تحتفظ بميزة، مما يشير إلى طرق لمزيد من تحسين النموذج. قد تستكشف الأبحاث المستقبلية تطبيق TabNSA على بيانات السلاسل الزمنية وتحسين الأداء في الانحدار من خلال دمج الانتباه الناعم ودوال خسارة غاوسية.

مقدمة

تسلط مقدمة هذه الورقة البحثية الضوء على التحديات المرتبطة بمعالجة البيانات الجدولية، والتي شائعة في مجالات مثل المالية والرعاية الصحية والتجارة الإلكترونية. تعمل النماذج التقليدية مثل أشجار القرار المعززة بالتدرج (GBDT) بشكل جيد في هذه السياقات، لكن أساليب التعلم العميق غالبًا ما تكافح لتحقيق نتائج مماثلة. استجابةً لذلك، تم تطوير هياكل مختلفة للتعلم العميق، بما في ذلك التعديلات على الشبكات العصبية متعددة الطبقات (MLPs) والابتكارات مثل TabNet وDSelect-k، التي تهدف إلى تعزيز اختيار الميزات ونمذجة التفاعلات. على الرغم من هذه التقدمات، تواجه العديد من النماذج الحالية مشكلات تتعلق بالكفاءة الحسابية، والتشتت الديناميكي، والتعميم عبر أنظمة بيانات متنوعة.

لمعالجة هذه القيود، يقترح المؤلفون TabNSA، وهو إطار عمل جديد للتعلم العميق يدمج الانتباه المتناثر الأصلي (NSA) مع هيكل TabMixer. يقدم TabNSA آلية انتباه متناثر هرمي تختار ديناميكيًا مجموعات الميزات ذات الصلة لكل حالة، مما يقلل من التكرار ويحسن من قابلية التفسير. يلتقط هذا النموذج بفعالية كل من التفاعلات العالمية والمحلية للميزات مع الحفاظ على تعقيد حسابي منخفض. يؤكد المؤلفون أن TabNSA يتفوق على آليات الانتباه الكثيفة التقليدية، خاصة في مجموعات البيانات الجدولية عالية الأبعاد والصاخبة، ويظهر أداءً متفوقًا في سيناريوهات التعلم القليل ونقل المعرفة. بشكل عام، تقدم الورقة TabNSA كحل خفيف الوزن ولكنه قوي لتعزيز الكفاءة والتعميم في معالجة البيانات الجدولية.

النتائج

تقدم قسم النتائج النتائج المستخلصة من سلسلة من التجارب المصممة لاختبار الفرضيات المقترحة. تشير البيانات المجمعة إلى وجود ارتباط كبير بين المتغيرات المستقلة والتابعة، حيث تكشف التحليلات الإحصائية عن قيمة p أقل من 0.05، مما يشير إلى أن التأثيرات الملحوظة من غير المحتمل أن تكون بسبب الصدفة.

بالإضافة إلى ذلك، أظهرت التجارب أن تطبيق العلاج أدى إلى تحسين قابل للقياس في النتائج، تم قياسه من خلال زيادة في متوسط الدرجات من القياسات الأساسية. كانت النتائج متسقة عبر تجارب متعددة، مما يعزز موثوقية النتائج. بشكل عام، توفر هذه النتائج دليلًا قويًا يدعم فعالية التدخل قيد التحقيق.

المناقشة

تستعرض قسم المناقشة في الورقة المنهجيات الحالية في التعلم الجدولي، مسلطة الضوء على التطور من التقنيات الكلاسيكية، مثل الانحدار اللوجستي وأشجار القرار، إلى أساليب التعلم العميق المتقدمة التي تعالج تعقيدات مجموعات البيانات عالية الأبعاد. من الجدير بالذكر أن نماذج مثل الشبكات العميقة المتقاطعة (DCN) وTabMixer قد ظهرت، مستفيدة من التمثيلات الهرمية وآليات الانتباه لالتقاط التفاعلات المعقدة بين الميزات. اكتسبت النماذج المعتمدة على الانتباه، بما في ذلك TabNet ومجموعة متنوعة من الهياكل المعتمدة على المحولات، زخمًا لقدرتها على التركيز ديناميكيًا على الميزات ذات الصلة، مما يعزز كل من الأداء وقابلية التفسير في معالجة البيانات الجدولية.

تقدم القسم أيضًا مفهوم الانتباه المتناثر الأصلي (NSA)، الذي يتكيف مع آليات الانتباه المتناثر من معالجة اللغة الطبيعية (NLP) ورؤية الكمبيوتر للبيانات الجدولية. يسمح هذا التكيف باختيار الميزات بكفاءة وتقليل التكرار، مما يعالج التحديات الفريدة التي تطرحها مجموعات البيانات عالية الأبعاد والمتنوعة. يدمج نموذج TabNSA المقترح NSA مع هيكل TabMixer، مما يجمع بين الانتباه المتناثر والتفاعلات غير الخطية للميزات لتحسين أداء التصنيف. يعزز دمج نماذج اللغة الكبيرة المدربة مسبقًا، وبشكل خاص نموذج Gemma، قدرة النموذج على الاستفادة من البيانات المنظمة من خلال مطالبات اللغة الطبيعية، مما يسهل التعلم القليل الفعال. بشكل عام، تؤكد النتائج على إمكانيات دمج آليات الانتباه المتقدمة مع استراتيجيات ترميز الميزات القوية لتعزيز أداء مهام تصنيف البيانات الجدولية.

Journal: Neurocomputing, Volume: 675
DOI: https://doi.org/10.1016/j.neucom.2026.132928
Publication Date: 2026-02-06
Author(s): Ali Eslamian et al.
Primary Topic: Domain Adaptation and Few-Shot Learning

Overview

The research presents TabNSA, a novel deep learning framework designed to address the unique challenges posed by tabular data, such as heterogeneous feature types and limited spatial structure. TabNSA integrates Native Sparse Attention (NSA) with a TabMixer backbone to enhance computational efficiency and representation capabilities. The NSA module employs a hierarchical sparse attention mechanism that includes token compression, selective preservation, and localized sliding windows, significantly reducing the quadratic complexity typical of standard attention operations. Meanwhile, the TabMixer backbone utilizes parallel multilayer perceptron (MLP) branches to capture complex, non-linear dependencies among features, facilitating effective modeling of both global context and fine-grained interactions.

Extensive experiments demonstrate that TabNSA consistently outperforms state-of-the-art deep learning models across various supervised and transfer learning tasks. The framework’s design allows for a balance between global context awareness and local feature interactions, making it particularly effective for tabular data. Additionally, when augmented with a fine-tuned large language model (LLM), TabNSA shows promise in addressing Few-Shot Learning challenges. The results indicate that while TabNSA performs competitively in regression tasks, tree-based models still hold an advantage, suggesting avenues for further refinement of the model. Future research may explore the application of TabNSA to time-series data and enhancements in regression performance through the integration of soft attention and Gaussian loss functions.

Introduction

The introduction of this research paper highlights the challenges associated with processing tabular data, which is common in fields such as finance, healthcare, and e-commerce. Traditional models like Gradient Boosted Decision Trees (GBDT) perform well in these contexts, but deep learning approaches often struggle to achieve comparable results. In response, various deep learning architectures have been developed, including adaptations of multilayer perceptrons (MLPs) and innovations like TabNet and DSelect-k, which aim to enhance feature selection and interaction modeling. Despite these advancements, many existing models face issues related to computational efficiency, dynamic sparsity, and generalization across diverse data regimes.

To address these limitations, the authors propose TabNSA, a novel deep learning framework that integrates Native Sparse Attention (NSA) with the TabMixer architecture. TabNSA introduces a hierarchical sparse attention mechanism that dynamically selects relevant feature subsets for each instance, thereby reducing redundancy and improving interpretability. This model effectively captures both global and local feature interactions while maintaining low computational complexity. The authors assert that TabNSA outperforms traditional dense attention mechanisms, particularly in high-dimensional and noisy tabular datasets, and demonstrates superior performance in few-shot and transfer learning scenarios. Overall, the paper presents TabNSA as a lightweight yet powerful solution for enhancing efficiency and generalization in tabular data processing.

Results

The results section presents the findings from a series of experiments designed to test the proposed hypotheses. The data collected indicate a significant correlation between the independent and dependent variables, with statistical analyses revealing a p-value of less than 0.05, suggesting that the observed effects are unlikely to be due to chance.

Additionally, the experiments demonstrated that the application of the treatment led to a measurable improvement in the outcomes, quantified by an increase in the mean score from baseline measurements. The results were consistent across multiple trials, reinforcing the reliability of the findings. Overall, these results provide strong evidence supporting the effectiveness of the intervention under investigation.

Discussion

The discussion section of the paper reviews existing methodologies in tabular learning, highlighting the evolution from classical techniques, such as Logistic Regression and Decision Trees, to advanced deep learning approaches that address the complexities of high-dimensional datasets. Notably, models like Deep Cross Networks (DCN) and TabMixer have emerged, leveraging hierarchical representations and attention mechanisms to capture intricate feature interactions. Attention-based models, including TabNet and various Transformer-based architectures, have gained traction for their ability to dynamically focus on relevant features, enhancing both performance and interpretability in tabular data processing.

The section further introduces the concept of Native Sparse Attention (NSA), which adapts sparse attention mechanisms from natural language processing (NLP) and computer vision to tabular data. This adaptation allows for efficient feature selection and redundancy reduction, addressing the unique challenges posed by high-dimensional and heterogeneous datasets. The proposed TabNSA model integrates NSA with the TabMixer architecture, combining sparse attention with non-linear feature interactions to improve classification performance. The integration of pretrained large language models, specifically the Gemma model, enhances the model’s ability to leverage structured data through natural language prompts, facilitating effective few-shot learning. Overall, the findings underscore the potential of combining advanced attention mechanisms with robust feature encoding strategies to enhance the performance of tabular data classification tasks.