KANELÉ: شبكات كولموغوروف-أرنولد للتقييم الفعال القائم على LUT
KANELÉ: Kolmogorov–Arnold Networks for Efficient LUT-based Evaluation

المجلة: Proceedings of the 2026 ACM/SIGDA International Symposium on Field Programmable Gate Arrays
DOI: https://doi.org/10.1145/3748173.3779202
تاريخ النشر: 2026-02-05
المؤلف: Duc Hoang وآخرون
الموضوع الرئيسي: طرق عددية وخوارزميات

نظرة عامة

تقدم البحث KANELÉ، وهو إطار تصميم مشترك بين الأجهزة والبرمجيات جديد يقوم بخرائط فعالة لشبكات كولموغوروف-أرنولد (KANs) على بنية حسابية تعتمد على جداول البحث (LUT) لـ FPGAs. تستخدم KANs دوال تنشيط 1D قابلة للتعلم محددة على مجال ثابت، حيث يتم تمثيل كل دالة تنشيط $\phi(x)$ كجدول بحث (LUT). يسمح هذا الهيكل بإزالة العقد بسهولة دون تعطيل الحساب، على عكس الشبكات العصبية التقليدية المعتمدة على LUT حيث تعقد الاعتماد المتبادل بين LUTs التعديلات. تسهل طريقة KANELÉ التثبيت المباشر على FPGAs، مما يعزز الكفاءة من خلال القضاء على الحاجة إلى DSPs و BRAMs، وتوافق المتطلبات الخوارزمية مع قدرات الأجهزة. يظهر الإطار أداءً متفوقًا عبر المعايير، محققًا زمن استجابة أقل واستخدام منطق مخفض مقارنة بتصميمات KAN-on-FPGA السابقة، بينما يتفوق أيضًا في تطبيقات التحكم في الوقت الحقيقي.

يهدف العمل المستقبلي إلى توسيع قابلية تطبيق KANELÉ من خلال استكشاف عائلات نماذج أوسع، مثل التجميعات و KANs التلافيفية، والتحقيق في قواعد متعامدة بديلة للتنشيطات القابلة للتعلم لتعزيز قوة التقريب. بالإضافة إلى ذلك، يتم التأكيد على النشر العملي في مهام التحكم، مع التركيز على تمكين التكيف السريع في الميدان من خلال تقنيات مثل إعادة التكوين الجزئي. يجادل المؤلفون بأن KANELÉ تتحدى التصور بأن KANs غير فعالة في الأجهزة، مما يظهر إمكاناتها كمعمارية استدلال عالية الإنتاجية وفعالة من حيث الطاقة يمكن أن تتوسع من الأنظمة المدمجة إلى التطبيقات العلمية الكبيرة، وبالتالي تقدم مجال الشبكات العصبية القابلة للتفسير وذات الموارد المنخفضة من خلال تصميم مشترك فعال بين البرمجيات والأجهزة.

مقدمة

تناقش مقدمة هذه الورقة البحثية ظهور الشبكات العصبية المعتمدة على جداول البحث (LUT) كنهج رئيسي للاستدلال الفعال على مصفوفات البوابات القابلة للبرمجة (FPGAs). لقد أظهرت تصميمات بارزة مثل NeuralLUT-Assemble و TreeLUT و DWN تحسينات كبيرة في المساحة وزمن الاستجابة وكفاءة الطاقة. ومع ذلك، ركزت هذه الطرق بشكل أساسي على التعلم تحت الإشراف ومهام محددة. يقترح المؤلفون أن شبكات كولموغوروف-أرنولد (KANs) توفر إطارًا قويًا للتصميمات المعتمدة على LUT من خلال استبدال التنشيطات الثابتة في الشبكات العصبية متعددة الطبقات (MLPs) بدوال حافة قابلة للتعلم واستبدال ضرب المصفوفات بجمع العقد. يتماشى هذا التشكيل جيدًا مع LUTs، مما يسمح بالتكميم وإزالة التفرعات القابلة للتعلم.

تقدم الورقة KANELÉ، وهي بنية KAN محسّنة لـ FPGA تقوم بتحسين التكميم وإزالة التفرعات ورسم خرائط دوال KAN على LUTs، مما يقلل بشكل كبير من الذاكرة والعبء المنطقي. تحقق KANELÉ تقليصًا ملحوظًا في زمن الاستجابة (حتى 2700×) واستخدام الموارد (أكثر من 4000×) مقارنة بالتطبيقات السابقة. بالإضافة إلى ذلك، فإنه يمكّن من إزالة فعالة للتفرعات بسبب الاستقلال الإضافي لـ KANs، مما يؤدي إلى تطبيقات FPGA تتفوق على تصميمات LUT الأخرى مع الحفاظ على ترددات ساعة عالية (أعلى من 800 ميغاهيرتز). يقدم المؤلفون أيضًا إطار عمل مفتوح المصدر لتنفيذ KANs بسرعة على FPGA ويمتد بتطبيق KANELÉ إلى أنظمة التحكم المستمرة، مما يوضح فعاليتها مع عدد أقل من المعلمات مقارنة بـ MLPs بينما تحقق مكافآت أعلى في المهام المرجعية.

الطرق

تحدد قسم “الطرق” الإجراءات التجريبية المستخدمة للتحقيق في فرضية البحث. استخدمت الدراسة تصميمًا تجريبيًا محكمًا، حيث تم التلاعب بالمتغيرات بشكل منهجي لتقييم تأثيراتها على النتائج المعنية. تضمنت المنهجيات المحددة استخدام تقنيات أخذ عينات عشوائية لضمان جمع بيانات تمثيلية وتطبيق تحليلات إحصائية لتقييم دلالة النتائج.

تم تحليل النتائج التجريبية باستخدام اختبارات إحصائية مناسبة، مما سمح بتحديد العلاقات بين المتغيرات المستقلة والتابعة. أشارت النتائج الرئيسية إلى أن المتغيرات التي تم التلاعب بها كان لها تأثير ذو دلالة إحصائية على النتائج، كما يتضح من قيم p التي كانت أقل من العتبة التقليدية 0.05. تسهم هذه النتائج في فهم الآليات الأساسية وتدعم الفرضيات الأولية المطروحة في الدراسة.

النتائج

يقدم قسم النتائج منحنيات التعلم لممثل KAN الكمي عبر أربعة سيناريوهات متميزة، كما هو موضح في الشكل 7. تشير هذه المنحنيات إلى أداء وسلوك التقارب للنموذج أثناء التدريب. بالإضافة إلى ذلك، توفر الجدول 6 نظرة عامة مفصلة على هياكل الشبكة المستخدمة لكل من مكوني الممثل والناقد للنموذج، والتي تعتبر حاسمة لفهم الهيكل والوظائف الأساسية لعملية التدريب. تسلط النتائج الضوء على فعالية ممثل KAN الكمي في التكيف مع ظروف التدريب المختلفة.

المناقشة

في هذا القسم، تركز المناقشة على إطار KANELÉ، الذي يستفيد من شبكات كولموغوروف-أرنولد (KANs) لنشر فعال على FPGA. تستخدم KANs تفرعات أحادية البعد قابلة للتعلم كدوال تنشيط، مما يعزز التعبيرية مع الحفاظ على بنية مدمجة مناسبة للتطبيقات ذات زمن الاستجابة المنخفض. يقدم إطار KANELÉ تدفق تصميم منهجي يدمج التدريب الواعي بالتكميم وإزالة التفرعات، محققًا تحسينات كبيرة في السرعة وكفاءة الموارد – تصل إلى تسريع بمقدار 2700x وتقليل كبير في استخدام الموارد مقارنة بالتطبيقات السابقة. من الجدير بالذكر أن KANELÉ تتفوق على الهياكل الأخرى المعتمدة على LUT في معايير مختلفة، خاصة في المهام التي تتضمن صيغ رمزية أو فيزيائية، مما يظهر تعدد استخداماتها في أنظمة التحكم في الوقت الحقيقي.

تسلط المناقشة أيضًا الضوء على المزايا المعمارية لـ KANs مقارنة بالشبكات العصبية متعددة الطبقات التقليدية (MLPs) وغيرها من الشبكات العصبية المعتمدة على LUT. من خلال اعتماد تصميم مركزي حول التنشيط، تسهل KANs تحقيق الأجهزة بكفاءة، متجاوزة التحديات السابقة المرتبطة بالتطبيقات المباشرة على FPGA. تعزز قدرة الإطار على إزالة اتصالات التفرعات بشكل مستقل توافقه مع أجهزة FPGA، مما يسمح بإدارة فعالة للموارد. علاوة على ذلك، يبرز أداء KANELÉ في مجموعات البيانات المعقدة، مثل تلك من معيار MLPerf Tiny، إمكاناتها لتطبيقات أوسع تتجاوز مهام التصنيف، مما يضعها كحل رائد لاستدلال الشبكات العصبية في الوقت الحقيقي وذات الكفاءة في استخدام الموارد على FPGAs.

Journal: Proceedings of the 2026 ACM/SIGDA International Symposium on Field Programmable Gate Arrays
DOI: https://doi.org/10.1145/3748173.3779202
Publication Date: 2026-02-05
Author(s): Duc Hoang et al.
Primary Topic: Numerical Methods and Algorithms

Overview

The research presents KANELÉ, a novel hardware-software co-design framework that effectively maps Kolmogorov-Arnold Networks (KANs) onto a LUT-native computational architecture for FPGAs. KANs utilize learnable 1D activation functions defined on a fixed domain, where each activation function $\phi(x)$ is represented as a lookup table (LUT). This structure allows for straightforward pruning of nodes without disrupting computation, contrasting with traditional LUT-based neural networks where the interdependence of LUTs complicates modifications. KANELÉ’s approach facilitates direct instantiation on FPGAs, enhancing efficiency by eliminating the need for DSPs and BRAMs, and aligning algorithmic requirements with hardware capabilities. The framework demonstrates superior performance across benchmarks, achieving lower latency and reduced logic utilization compared to previous KAN-on-FPGA designs, while also excelling in real-time control applications.

Future work aims to expand KANELÉ’s applicability by exploring broader model families, such as ensembles and convolutional KANs, and investigating alternative orthogonal bases for learnable activations to enhance approximation power. Additionally, practical deployment in control tasks is emphasized, with a focus on enabling rapid in-field adaptation through techniques like partial reconfiguration. The authors argue that KANELÉ challenges the perception of KANs as inefficient in hardware, showcasing their potential as a high-throughput, power-efficient inference architecture that can scale from embedded systems to large scientific applications, thereby advancing the field of interpretable, low-resource neural networks through effective software-hardware co-design.

Introduction

The introduction of this research paper discusses the emergence of Lookup Table (LUT) based neural networks as a key approach for efficient inference on Field Programmable Gate Arrays (FPGAs). Notable designs such as NeuralLUT-Assemble, TreeLUT, and DWN have demonstrated significant improvements in area, latency, and power efficiency. However, these methods have primarily focused on supervised learning and specific tasks. The authors propose that Kolmogorov-Arnold Networks (KANs) provide a robust framework for LUT-based designs by replacing fixed activations in Multilayer Perceptrons (MLPs) with learnable edge functions and substituting matrix multiplication with node summation. This formulation aligns well with LUTs, allowing for quantization and pruning of learnable splines.

The paper introduces KANELÉ, an FPGA-optimized KAN architecture that cooptimizes quantization, pruning, and mapping of KAN functions onto LUTs, significantly reducing memory and logic overhead. KANELÉ achieves a remarkable reduction in latency (up to 2700×) and resource usage (over 4000×) compared to previous implementations. Additionally, it enables efficient pruning due to the additive independence of KANs, resulting in FPGA implementations that outperform other LUT-based designs while maintaining high clock frequencies (above 800 MHz). The authors also provide an open-source framework for rapid FPGA implementation of KANs and extend the application of KANELÉ to continuous control systems, demonstrating its efficacy with fewer parameters than MLPs while achieving higher rewards on benchmark tasks.

Methods

The “Methods” section outlines the experimental procedures employed to investigate the research hypothesis. The study utilized a controlled experimental design, where variables were systematically manipulated to assess their effects on the outcomes of interest. Specific methodologies included the use of randomized sampling techniques to ensure representative data collection and the application of statistical analyses to evaluate the significance of the results.

The experimental results were analyzed using appropriate statistical tests, which allowed for the determination of relationships between the independent and dependent variables. Key findings indicated that the manipulated variables had a statistically significant impact on the outcomes, as evidenced by p-values below the conventional threshold of 0.05. These results contribute to the understanding of the underlying mechanisms and support the initial hypotheses posited in the study.

Results

The results section presents the learning curves for the quantized KAN actor across four distinct scenarios, as illustrated in Figure 7. These curves indicate the performance and convergence behavior of the model during training. Additionally, Table 6 provides a detailed overview of the network architectures utilized for both the actor and critic components of the model, which are critical for understanding the underlying structure and functionality of the training process. The findings highlight the effectiveness of the quantized KAN actor in adapting to various training conditions.

Discussion

In this section, the discussion centers on the KANELÉ framework, which leverages Kolmogorov-Arnold Networks (KANs) for efficient FPGA deployment. KANs utilize learnable one-dimensional splines as activation functions, enhancing expressiveness while maintaining a compact architecture suitable for low-latency applications. The KANELÉ framework introduces a systematic design flow that integrates quantization-aware training and pruning, achieving significant improvements in speed and resource efficiency—up to a 2700x speedup and substantial reductions in resource usage compared to previous implementations. Notably, KANELÉ outperforms other LUT-based architectures on various benchmarks, particularly in tasks involving symbolic or physical formulas, demonstrating its versatility in real-time control systems.

The discussion also highlights the architectural advantages of KANs over traditional multilayer perceptrons (MLPs) and other LUT-based neural networks. By employing an activation-centric design, KANs facilitate efficient hardware realization, overcoming previous challenges associated with direct FPGA implementations. The framework’s ability to prune spline connections independently enhances its compatibility with FPGA hardware, allowing for effective resource management. Furthermore, KANELÉ’s performance in complex datasets, such as those from the MLPerf Tiny benchmark, underscores its potential for broader applications beyond classification tasks, positioning it as a leading solution for real-time, resource-efficient neural network inference on FPGAs.