تم دمج التباين الزمني في الشجيرات مع الشبكات العصبية النابضة لتعلم الديناميات متعددة الأوقات Temporal dendritic heterogeneity incorporated with spiking neural networks for learning multi-timescale dynamics

المجلة: Nature Communications، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41467-023-44614-z
PMID: https://pubmed.ncbi.nlm.nih.gov/38177124
تاريخ النشر: 2024-01-04

تم دمج التباين الزمني في الشجيرات مع الشبكات العصبية النابضة لتعلم الديناميات متعددة الأوقات

تاريخ الاستلام: 31 يوليو 2023
تاريخ القبول: 21 ديسمبر 2023
تاريخ النشر على الإنترنت: 04 يناير 2024
(أ) تحقق من التحديثات

هانلي تشنغ © , تشونغ تشنغ , روي هو , بو شياو , يوجي وو , فانغ وين يو , شيوي ليو , قوقي لي & لي دينغ

الملخص

يعتقد على نطاق واسع أن الشبكات العصبية النابضة المستوحاة من الدماغ لديها القدرة على معالجة المعلومات الزمنية بفضل خصائصها الديناميكية. ومع ذلك، لا يزال من غير المستكشف كيف نفهم الآليات التي تساهم في القدرة على التعلم واستغلال الخصائص الديناميكية الغنية للشبكات العصبية النابضة لحل مهام الحوسبة الزمنية المعقدة بشكل مرضٍ في الممارسة العملية. في هذه المقالة، نحدد أهمية التقاط المكونات متعددة الأوقات، والتي بناءً عليها تم اقتراح نموذج عصبي نابض متعدد الحجرات مع تباين زمني في الشجيرات. يمكّن النموذج الديناميات متعددة الأوقات من خلال تعلم عوامل توقيت غير متجانسة تلقائيًا على فروع الشجيرات المختلفة. تم تحقيق اختراقين من خلال تجارب واسعة: تم الكشف عن آلية عمل النموذج المقترح من خلال مشكلة XOR الزمنية المفصلة لتحليل تكامل الميزات الزمنية على مستويات مختلفة؛ تم تحقيق فوائد أداء شاملة للنموذج مقارنة بالشبكات العصبية النابضة العادية على عدة معايير حوسبة زمنية للتعرف على الكلام، والتعرف البصري، والتعرف على إشارات تخطيط الدماغ، والتعرف على أماكن الروبوت، مما يظهر أفضل دقة مسجلة وملاءمة للنموذج، مما يعد بالمتانة والتعميم، وكفاءة تنفيذ عالية على الأجهزة العصبية. هذه العمل يخطو بالحوسبة العصبية خطوة كبيرة نحو التطبيقات الواقعية من خلال استغلال الملاحظات البيولوجية بشكل مناسب.

مستوحاة من الهياكل والوظائف للدارات العصبية في الدماغ، تم نمذجة الشبكات العصبية النابضة (SNNs) وتعرف بأنها الشبكات العصبية الاصطناعية من الجيل الثالث (ANNs) . لقد أخذت دراسات SNNs في الاعتبار العديد من الملاحظات البيولوجية من حيث الديناميات العصبية، وأنماط الاتصال، ومخططات الترميز، وتدفقات المعالجة، وما إلى ذلك. في السنوات الأخيرة، حصلت SNNs على اهتمام واسع في مهام التعرف على الصور , خاصة بعد زيادة الدقة من خلال استعارة خوارزمية التعلم العكسي عبر الزمن (BPTT) من مجال ANN . بفضل الخصائص الديناميكية لـ
SNNs، يُعتقد على نطاق واسع أن لديها القدرة على معالجة المعلومات الزمنية. ومع ذلك، لا يزال من غير المستكشف كيف نفهم الآليات التي تساهم في القدرة على التعلم واستغلال الخصائص الديناميكية الغنية لـ SNNs لحل مهام الحوسبة الزمنية المعقدة بشكل مرضٍ.
نحن نعيد التفكير في القدرات الرئيسية المطلوبة في أداء مهام الحوسبة الزمنية الواقعية. عادةً ما تقدم الإشارات الزمنية المعقدة أوقاتًا متغيرة وغنى طيفيًا عاليًا، مما يمكن معالجته بشكل جيد بواسطة الدماغ . على سبيل المثال، يمكن للدماغ التعرف بسهولة على
المتحدثين الذين يتحدثون بأوقات مختلفة مثل السريع أو البطيء. على عكس المعايير الرئيسية للتعرف على الصور المستخدمة من قبل SNNs بناءً على الصور الثابتة والأحداث الديناميكية التي تم جمعها بواسطة أجهزة استشعار الرؤية الديناميكية (DVS) , غالبًا ما تظهر المعلومات في مهام الحوسبة الزمنية تبعيات زمنية معقدة، وتظهر الميزات بأوقات مختلفة، مما يعني أن تعلم الديناميات الزمنية متعددة الأوقات قد يكون نقطة حاسمة. في جوهرها، لاحظ علماء الأعصاب تباينًا زمنيًا هائلًا في الدوائر والاستجابات العصبية في الدماغ , على سبيل المثال، التباين العصبي , التباين في الشجيرات والتباين المشبكي . يبدو أنه من المعقول أن هذه الأنواع من التباين ليست مجرد ضوضاء ولكنها تعد بإنتاج القدرة على التقاط ومعالجة الميزات الزمنية متعددة الأوقات . بينما تقدم دراسة التباين المشبكي رؤى قيمة، فإنها تطرح تحديات كبيرة في نمذجة الشبكة بسبب العبء الكبير على الحساب والتخزين مع العدد الهائل من المشابك. علاوة على ذلك، وجدنا أن اعتبار التباين العصبي فقط يجعل من الصعب تحقيق نتائج مرضية عند أداء مهام الحوسبة الزمنية بسبب الديناميات العصبية متعددة الأوقات غير الكافية. في ضوء هذه القيود، تركز أعمالنا على استكشاف تباين الشجيرات كبديل أكثر فعالية وكفاءة في الممارسة.
لقد أولى علماء الأعصاب الحسابية اهتمامًا لقدرات الحوسبة الزمنية للشجيرات المستنتجة من العديد من الظواهر الفيزيائية الحيوية واقترحوا نماذج عصبية أو أجهزة مصنوعة على شكل شجيرات نانوية لمحاكاة السلوكيات البيولوجية. قد تفيد الوظائف الحسابية المتقدمة التي اقترحتها الشجيرات البيولوجية بما في ذلك التحويل غير الخطي المحلي , التعديل لقواعد التعلم المشبكي , دمج مصادر مختلفة من الإشارات العصبية وتوليد الديناميات الزمنية متعددة الأوقات الشبكات العصبية في التعلم الآلي. بينما، فإن هذه الملاحظات البيولوجية يصعب تطبيقها على مهام الحوسبة الزمنية الواقعية التي يتم تنفيذها باستخدام الشبكات العصبية في المرحلة الحالية بسبب التجريد غير المناسب، وتعقيد الحساب العالي ونقص خوارزميات التعلم الفعالة. بالإضافة إلى ذلك، تعتمد معظم SNNs الحالية لحل مهام الحوسبة الزمنية الواقعية على النسخة المبسطة من خلايا عصبية من نوع التكامل والتفريغ (LIF) , والتي لا يمكنها استغلال التباين الزمني الغني بشكل كافٍ. على الرغم من أن بعض الباحثين مثل بيريز-نيفس وآخرين قد تطرقوا إلى التباين العصبي من خلال تعلم ثوابت زمن الغشاء والمشبك، إلا أنهم تجاهلوا تباين الشجيرات الذي نعتبره ذا أهمية كبيرة. مؤخرًا، لاحظ بعض الباحثين ذلك وحاولوا تطوير إطار عمل دندريفي لتسريع محاكاة سلوكيات الأعصاب. ومع ذلك، لا يزال لدينا اليوم نقص في الدراسات الصريحة والشاملة حول كيفية دمج التباين الزمني في الشجيرات في نموذج SNN عام وجعله يعمل في مهام الحوسبة الزمنية الواقعية، ناهيك عن شرح كيفية عمله.
لحل التحديات المذكورة أعلاه، نقترح نموذج خلية عصبية LIF جديد مع تباين زمني في الشجيرات يغطي أيضًا التباين العصبي، يسمى DH-LIF. ثم، نوسع نموذج الخلية العصبية إلى مستوى الشبكة، يسمى DH-SNNs، الذي يدعم كل من الشبكات التي تحتوي على اتصالات أمامية فقط (DH-SFNNs) وتلك التي تحتوي على اتصالات متكررة (DH-SRNNs). نستخرج الشكل الصريح لطريقة التعلم لـ DH-SNNs بناءً على خوارزمية BPTT عالية الأداء الناشئة لـ . من خلال تعلم عوامل توقيت غير متجانسة بشكل تكيفي على فروع الشجيرات المختلفة لنفس الخلية العصبية وعلى خلايا عصبية مختلفة، يمكن لـ DH-SNNs توليد ديناميات زمنية متعددة الأوقات لالتقاط الميزات على أوقات مختلفة. من أجل الكشف عن الآلية الأساسية للعمل، نوضح مشكلة XOR الزمنية ونجد أن تكامل الميزات بين الفروع في خلية عصبية، وتكامل الميزات بين الخلايا العصبية في طبقة متكررة، وتكامل الميزات بين الطبقات في شبكة لها تأثيرات مشابهة وتآزرية في التقاط الميزات الزمنية متعددة الأوقات. على معايير الحوسبة الزمنية الواسعة للتعرف على الكلام، والتعرف البصري، والتعرف على إشارات EEG، والتعرف على أماكن الروبوت، تحقق DH-SNNs
فوائد أداء شاملة بما في ذلك أفضل دقة مسجلة مع متانة وتعميم واعدة مقارنة بـ SNNs العادية. مع قيود إضافية على اتصالات الشجيرات، تقدم DH-SNNs ملاءمة عالية للنموذج وكفاءة تنفيذ عالية على الأجهزة العصبية. تشير هذه العمل إلى أن التباين الزمني في الشجيرات الملحوظ في الدماغ هو عنصر حاسم في تعلم الديناميات الزمنية متعددة الأوقات، مما يسلط الضوء على مسار واعد لنمذجة SNN في أداء مهام الحوسبة الزمنية المعقدة.

النتائج

خلية عصبية LIF نابضة مع تباين زمني في الشجيرات (DH-LIF)

على الرغم من أن نماذج الشبكات العصبية حققت نجاحًا هائلًا في الممارسة، لا شك أن هناك فجوة كبيرة بين الذكاء الحالي للشبكات العصبية وذكاء الدماغ، مما يحفزنا على استلهام المزيد من البيولوجيا لتحسين النمذجة. يقدم الدماغ العديد من الميزات المفيدة، بينما نركز هنا على القوة الهائلة في أداء مهام الحوسبة الزمنية متعددة المقاييس. كما توضح الشكل 1a، فإن المحفزات الخارجية مثل اللغات والموسيقى التي تُحقن في الدماغ عادةً ما تظهر تباينًا زمنيًا عاليًا، أي أنها تظهر مقاييس زمنية متغيرة، ولكن يمكن معالجتها بشكل جيد بواسطة الدماغ. علاوة على ذلك، لاحظت بعض التسجيلات البيولوجية هياكل غير متجانسة واستجابات ديناميكية متعددة المقاييس عبر الخلايا العصبية والفروع الشجرية، مما يبدو أنه رابط للوظائف القوية المذكورة.
ومع ذلك، فإن النماذج الحالية للشبكات العصبية لا تستغل بشكل كافٍ التباين الزمني في الدماغ، وهو ما قد يكون سببًا رئيسيًا في عدم قدرتها على تحقيق أداء مرضٍ في تنفيذ مهام الحوسبة الزمنية متعددة المقاييس. كما هو موضح في الشكل 1ب، فإن الخلية العصبية الاصطناعية في الشبكات العصبية الاصطناعية الشائعة (ANNs) ببساطة تقوم بنمذجة جمع خطي للمدخلات المشبكية الموزونة مع وظيفة نقل غير خطية تالية. هذه العملية بدون ديناميات عصبية لا يمكنها نمذجة الذاكرة الزمنية. لاحظ أنه على الرغم من أن الشبكات العصبية الاصطناعية يمكن أن تتذكر المعلومات الزمنية من خلال إدخال اتصالات متكررة لبناء الشبكات العصبية المتكررة (RNNs) ويمكنها أيضًا تعلم الديناميات الزمنية متعددة المقاييس من خلال تحديث الحالات العصبية بشكل غير متزامن. الديناميات الخارجية الناتجة مختلفة عن الديناميات الداخلية داخل الخلايا العصبية التي تم مناقشتها في هذا العمل، ولا تقوم الشبكات العصبية التكرارية الحالية بنمذجة التباين الشجيري الذي هو محور تركيزنا. بالمقابل، يقوم نموذج الخلية العصبية النابضة، على سبيل المثال، نموذج LIF المبسط الكلاسيكي المستخدم عادة في الشبكات العصبية النابضة العادية، بنمذجة الديناميات الزمنية من خلال تحديث جهد الغشاء للجسم الخلوي مع مرور الوقت باستخدام معامل تدهور. في هذا العمل، نطلق على نموذج LIF المبسط الكلاسيكي ومعامل تدهور جهد الغشاء اسم نموذج LIF الفانيلا وعامل التوقيت، على التوالي. يحدد عامل التوقيت مقياس الزمن لاستجابات الخلايا العصبية، مما يؤثر بالتالي على معدل النبضات. علاوة على ذلك، يمكن توسيعه لتحقيق تباين زمني عصبي من خلال تعلم مقاييس زمنية مختلفة عبر خلايا عصبية مختلفة. . ومع ذلك، فإنه يتجاهل التباين الزمني على الفروع الشجرية، والذي يُلاحظ على نطاق واسع في الخلايا العصبية البيولوجية. تجعل هذه الفجوة في التنوع الزمني للشجيرات العصبية من الصعب على نموذج الخلية العصبية المبسطة LIF تعلم المعلومات الزمنية متعددة المقاييس، مما يؤدي إلى عدم قدرته على أداء مهام الحوسبة الزمنية متعددة المقاييس بأداء عالٍ.
كما هو موضح في الشكل 1c، تكمن الفكرة الرئيسية في هذا العمل في استكشاف كيفية تحسين الشبكات العصبية النبضية (SNNs) لأداء مهام الحوسبة الزمنية متعددة الأبعاد من خلال دمج التنوع الزمني العصبي والدندري. لتحقيق ذلك، نقوم بتجريد خصائص كابل الدندريت ونقترح نموذج خلية عصبية محسّن من نوع LIF مع تنوع دندري زمني، يُسمى DH-LIF (انظر الطرق). بشكل عام، فإن خلية DH-LIF هي نموذج متعدد الحجرات: حجرة جسم خلية مع عدة حجرات دندريتية. كما هو موضح في الشكل 2a، يحتوي كل فرع دندري على وحدة ذاكرة زمنية مع متغير تيار دندري. الذي يتطور مثل الجهد الغشائي الذي يتم تحديثه مع ما قبل المشبك
الشكل 1 | الإلهامات من علم الأحياء لتحسين نمذجة الشبكات العصبية السريعة مع تباين زمني في الشجيرات. أ في الدماغ، هناك أوقات غنية في المحفزات الخارجية والأنشطة العصبية، وتباين زمني غني في الاستجابات العصبية والشجيرية. . نموذج الخلية العصبية الاصطناعية المستخدم في الشبكات العصبية الاصطناعية لا يأخذ في الاعتبار الذاكرة الزمنية، بينما نموذج الخلية العصبية النابضة المستخدم في الشبكات العصبية النابضة يأخذ في الاعتبار فقط ذاكرة زمنية أحادية المقياس في جهد الغشاء العصبي.
يمكن أن تظهر الشبكات العصبية السريعة الموجودة تباينًا زمنيًا عصبيًا من خلال تعلم مقاييس زمنية مختلفة عبر خلايا عصبية مختلفة، لكنها لا تستطيع تخزين معلومات زمنية متعددة المقاييس في خلية عصبية واحدة، مما يؤدي إلى عدم قدرتها على أداء مهام الحوسبة الزمنية المعقدة بأداء عالٍ. تهدف هذه الدراسة إلى تحسين الشبكات العصبية السريعة من خلال دمج التباين الزمني في الشجيرات العصبية في النمذجة لحل مهام الحوسبة الزمنية.
المدخلات وأيضًا تتلاشى بعامل توقيت، أي، كل خطوة زمنية. عندما تحتوي فروع مختلفة على دندريت على عوامل توقيت مختلفة، فإن مقاييس الزمن للمعلومات المحفوظة تظهر تباينًا زمنيًا دندريتيًا. علاوة على ذلك، فإن عوامل التوقيت المختلفة لإمكانات الغشاء والتيارات الدندريتية في خلايا عصبية مختلفة ستنتج أيضًا تباينًا زمنيًا عصبيًا.
يوفر الشكل 2ب مثالًا توضيحيًا يقارن بين استجابات مختلفة بين خلية عصبية DH-LIF وخلية عصبية LIF عادية. يعتبر انفجار النبضات ظاهرة شائعة تُلاحظ في الخلايا العصبية البيولوجية. نفترض أن الخلايا العصبية تلقت نوعين من المدخلات: أحدهما هو المدخلات عالية التردد التي تحفز أحداث النبضات المعزولة، والآخر هو المدخلات منخفضة التردد التي تنظم احتمال الانفجار. هذه الآلية مشابهة للتعددية، وهي وظيفة معروفة للتغصن. في الرسم التوضيحي، نعتبر أن خلايا DH-LIF يمكن أن تولد نبضات متفجرة بينما خلايا LIF العادية لا تستطيع. في خلية LIF العادية، يوجد فقط وحدة ذاكرة السوم.
بدون ذاكرة شجرية. يمكن لعامل التوقيت لجهد الغشاء أن يتطابق فقط مع مقياس الزمن لأحد المدخلين على الأكثر، على سبيل المثال، تطابق المدخل عالي التردد (عامل توقيت صغير) أو تطابق المدخل منخفض التردد (عامل توقيت كبير). عندما يتطابق العصبون فقط مع مقياس الزمن للمدخل عالي التردد، فإنه يفقد الذاكرة طويلة الأمد للمدخل منخفض التردد بسبب آلية التدهور السريع؛ وعندما يتطابق العصبون فقط مع المدخل منخفض التردد، فإنه لا يمكنه تتبع المدخل عالي التردد عن كثب بسبب الذاكرة الثقيلة للمعلومات التاريخية. وبالتالي، كما هو موضح في الشكل 2ب، لا يمكن لعصبون LIF العادي توليد نبضات متفجرة. على النقيض من ذلك، يمكننا تكوين عوامل توقيت متعددة ومرنة على فروع شجرية متعددة في عصبون DH-LIF، مما يجعله قادرًا على التعامل في الوقت نفسه مع مقاييس زمنية متغيرة لمداخل مختلفة، وتوليد النبضات المتفجرة بنجاح. في العمل السابق حول وظيفة التعددية في الشجيرات، ذكر المؤلفون أنهم قاموا بمحاكاة استجابة مجموعة من الخلايا العصبية الهرمية ذات الزوائد السميكة.
مثال على الفرع، يقدم خلية DH-LIF كل من الذاكرة طويلة الأمد للمدخلات ذات التردد المنخفض التي تنظم احتمال الانفجارات والاستجابة السريعة للمدخلات ذات التردد العالي التي تحرك أحداث الانفجار المعزولة، مما يولد الانفجارات بنجاح بينما تفشل خلية LIF العادية. ج توضيح لـ DHSFNN المبني على خلايا DH-LIF مع اتصالات تغذية أمامية فقط و DHSRNN مع اتصالات متكررة. الاتصالات نادرة بحيث لا يزيد نموذج DH-SNN من عدد المعلمات مقارنةً بشبكات SNN المعتمدة على LIF العادية.
الشكل 2 | تصميم DH-LIF و DH-SNN. أ DH-LIF، وهو خلية عصبية من نوع LIF مع تباين زمني في الشجيرات. DH-LIF هو نموذج خلية عصبية متعددة الحجرات مع حجرة جسم خلية وحجرات شجيرية متعددة. بالإضافة إلى الذاكرة على جهد الغشاء لجسم الخلية، تحتوي كل فرع شجيري على ذاكرة زمنية على التيار الشجيري مع عامل توقيت متغير مميز في المربع الأحمر. ب مقارنة بين استجابات خلية عصبية من نوع LIF عادية وخلية DH-LIF لمحاكاة ظاهرة النبضات المتفجرة. تتيح خلية DH-LIF ذاكرات متعددة المقاييس الزمنية للمعلومات بمقاييس زمنية مختلفة. في هذا النموذج ذو الشجيرات الثنائية-
(TPNs) تتلقى إشارتين مدخلتين مستقلتين بترددات مختلفة: واحدة تُحقن في الشجيرات والأخرى تُحقن في الجسم الخلوي. كما قاموا بتحديد جودة الترميز في التعددية الزمنية على مقاييس زمنية مختلفة من خلال حساب التماسك المحلّل بالتردد بين المدخلات والتقديرات. وجدوا أن التماسك بين المدخلات الشجرية والتقديرات المستندة إلى احتمال الانفجار قريب من الواحد لتقلبات المدخلات البطيئة، ولكنه ينخفض إلى الصفر لتقلبات المدخلات السريعة، وهو مشابه لنموذج الشجرة الشجرية لدينا مع عوامل توقيت كبيرة. في الوقت نفسه، وجدوا أن معدل الأحداث يمكنه فك تشفير مدخلات الجسم الخلوي بدقة عالية لترددات المدخلات تصل إلى 100 هرتز، وهو مشابه لنموذج الشجرة الشجرية لدينا مع عوامل توقيت صغيرة. على عكس السابقين
بدلاً من التركيز على فهم التواصل الهرمي في الدماغ من خلال تعددية الشجيرات، نركز على فعالية النموذج المقترح المستوحى من الملاحظات البيولوجية لحل مهام الحوسبة الزمنية المعقدة في الممارسة مع تعقيد حسابي مقبول وخوارزميات تعلم فعالة.
يمكن أن يوفر نمذجة التباين المشبكي مع عامل توقيت متغير لكل مشبك رؤى قيمة، ولكنها تأتي مع بعض العيوب، ولا سيما زيادة تكاليف الحساب والتخزين بسبب العدد الكبير من المشابك (انظر الجدول التكميلي S4). مع زيادة عدد الفروع الشجرية، يمكن أن يوفر التباين الشجيري تقريبًا معقولًا للتباين المشبكي. ومع ذلك، تشير النتائج التجريبية في الملحق
الشكل S6 إلى أن عددًا كبيرًا جدًا من الفروع الشجرية قد يشبع أو حتى يؤثر سلبًا على الأداء. لذلك، لحل مهام الحوسبة الزمنية في العالم الحقيقي، من الحكمة دمج التباين الشجيري بدلاً من التباين المشبكي. سيفضي ذلك إلى تحقيق توازن أفضل بين الكفاءة الحسابية والقدرة على نمذجة الديناميات المتعددة الزمنية المتوقعة. بشكل عام، يحتوي خلية DH-LIF على كل من الذاكرة طويلة الأمد للإدخال منخفض التردد والاستجابة السريعة للإدخال عالي التردد مع تكاليف حسابية وتخزينية معقولة، مما يعكس في الوقت نفسه التباين الزمني الغني ويعد باستخدام عملي في حل مهام الحوسبة الزمنية في العالم الحقيقي.

شبكة عصبية متفجرة مع خلايا DH-LIF (DH-SNN)

استنادًا إلى نموذج خلية DH-LIF المقترح، نقوم بمزيد من بناء SNNs مع تباين شجيري زمني، يُطلق عليه DH-SNN. بشكل خاص، يتم الإشارة إلى DH-SNN الذي يحتوي فقط على اتصالات أمامية باسم DH-SFNN بينما يتم الإشارة إلى الذي يحتوي على اتصالات متكررة باسم DHSRNN، كما هو موضح في الشكل 2c. لتجنب انفجار المعلمات مع زيادة عدد الفروع الشجرية، نضيف قيودًا نادرة على نمط الاتصال بين الخلايا العصبية (انظر الطرق). بالنسبة لكل خلية عصبية، يتم توزيع المدخلات السابقة بشكل عشوائي على الفروع الشجرية. مجموعات فهارس المدخلات على فروع مختلفة غير متداخلة وعدد المدخلات يبقى متطابقًا عبر الفروع إلى أقصى حد. القيود على الاتصال صالحة لكل من DH-SFNNs وDH-SRNNs، مما يضمن حجم معلمات ثابت عندما يزداد عدد الفروع الشجرية ويجعل عدد المعلمات قابلًا للمقارنة مع SNNs المبنية مع خلايا LIF التقليدية، والتي تُسمى SNNs التقليدية. هذا مهم لتوفير تكاليف التخزين والحساب عند نشر النموذج على الأجهزة للتنفيذ الفعال، ويمكن أن يعكس أيضًا حقيقة أن تحسينات أدائنا تستفيد بالفعل من التباين الشجيري الزمني المقدم بدلاً من استخدام المزيد من المعلمات. ستوفر تجاربنا التالية تفسيرات حول آلية عمل DH-SFNNs وDH-SRNNs في أداء مهام الحوسبة الزمنية متعددة الأبعاد.
بالنسبة لشبكة تحتوي على العديد من عوامل التوقيت، من الصعب تكوين قيمها يدويًا لتحقيق أداء تطبيق مثالي. من أجل تحقيق أداء عالٍ في المهام العملية، من المتوقع بشدة التعلم التلقائي لعوامل التوقيت لتشكيل مشهد التباين الزمني. نحن نتكيف مع خوارزمية التعلم BPTT النسخة الناشئة لـ DH-SNNs لحساب التدرجات بشكل صريح (انظر الطرق)، مما يسمح أيضًا بمقارنة مريحة مع المعايير الحديثة باستخدام خوارزميات تعلم مماثلة. في إطارنا، يتم تعلم أوزان المشابك، وعوامل توقيت الجهد الغشائي، وعوامل توقيت التيارات الشجرية تلقائيًا خلال مرحلة التدريب. عندما تكون جميع عوامل توقيت الشجرة صغيرة بما فيه الكفاية، ستفقد الشجيرات القدرة على التذكر وبالتالي تتدهور إلى SNNs التقليدية بدون تباين شجيري. لذلك، من البديهي أن DH-SNNs يمكن أن تؤدي بشكل أفضل من SNNs التقليدية حيث أن الأخيرة هي مجرد حالة خاصة من الأولى، وهو ما ستدعمه النتائج التجريبية التالية.

الذاكرة طويلة الأمد عبر الديناميات الشجرية

تمنح الديناميات الزمنية في كل خلية عصبية SNNs القدرة على تذكر المعلومات التاريخية. في خلية LIF التقليدية، يمكن اعتبار الجهد الغشائي، أي، ، ذاكرة للمعلومات التاريخية. يمكن تحقيق الذاكرة طويلة الأمد من خلال تكوين عامل توقيت كبير على الجهد الغشائي، أي، ، لإبطاء تدهور الجهد الغشائي. ومع ذلك، نرى أن خلية LIF التقليدية لا يمكنها حقًا تذكر المعلومات لفترة طويلة حتى مع قيمة كبيرة من بسبب آلية إعادة الضبط للجهد الغشائي في كل مرة تطلق فيها الخلية العصبية دفعة. لحسن الحظ، ينجح نموذج DH-LIF المقترح في الحفاظ على المعلومات طويلة الأمد بفضل نمذجة الأقسام المتعددة. على الرغم من أن الجسم الخلوي يعاني من آلية إعادة الضبط، إلا أن التيار الشجيري على كل فرع شجيري لن يتم
إعادة ضبطه. بهذه الطريقة، تمكّن الديناميات الشجرية الزمنية الذاكرة طويلة الأمد.
لإثبات توقعنا، نصمم مشكلة XOR متأخرة لاختبار قدرة الذاكرة طويلة الأمد لـ SFNNs التقليدية وDH-SFNNs. لتبسيط الأمر، نخصص فرع شجيري واحد فقط لكل خلية عصبية في DH-SFNNs. كما هو موضح في الشكل 3a، تمر مشكلة XOR المتأخرة بثلاث مراحل. في المرحلة الأولى، يتم حقن نمط دفعة أولي بمعدل إطلاق منخفض أو مرتفع في الشبكة. في المرحلة الثانية، يمر النموذج بفترة تأخير طويلة مع بعض الدفعات المزعجة. أخيرًا، يتلقى النموذج نمط دفعة إدخال آخر ويخرج نتيجة مشكلة XOR (تُشير الحقائق الأساسية إلى التسميات) من خلال إجراء عملية XOR بين أنماط دفعة الإدخال الأولية والنهائية. بشكل خاص، تأخذ نتيجة الإخراج في الاعتبار معدلات إطلاق أنماط دفعة الإدخال في البداية والنهاية، مما يتصرف مثل عملية XOR كما يظهر جدول الحقيقة الصحيح. يمكن العثور على هياكل الشبكة في الشكل التكميلي S1. مع مشكلة XOR المتأخرة، يمكننا بسهولة اختبار قدرة الذاكرة للنماذج من خلال تكوين قيم تأخير مختلفة. لاحظ أن خلية DH-LIF مع فرع شجيري واحد تشبه نموذجًا موجودًا حيث يُطلق على التيار الشجيري التيار المشبكي. ومع ذلك، ركز ذلك العمل على التباين العصبي عبر الخلايا العصبية بدلاً من التباين الشجيري عبر كل من الفروع الشجرية والخلايا العصبية في عملنا. على الرغم من أنه يمكن إجراء تجارب مماثلة مع النموذج الموجود، إلا أن دور الديناميات الشجرية لم يتم تحليله بشكل صريح.
تظهر النتائج التجريبية في الشكل 3b. تشمل النماذج المختبرة SFNNs التقليدية وDH-SFNNs ذات الفرع الشجيري الواحد مع توزيعات أولية مختلفة لعوامل التوقيت. لاحظ أنه ما لم يُذكر خلاف ذلك، يتم تهيئة عوامل توقيت الجهد الغشائي، ، وفقًا لتوزيع متوسط ويتم تعلمها في التجارب التالية في الشكل 3. يمكن العثور على مزيد من التحليلات حول تهيئة وتعلم عوامل توقيت الجهد الغشائي في الشكل التكميلي S2. عوامل توقيت الشجرة، يمكن أن تكون ثابتة أو قابلة للتعلم أثناء التدريب. يتضح أن شبكات DH-SFNN ذات الفرع الشجيري الواحد تتفوق بشكل كبير على شبكات SFNN التقليدية في مشكلة XOR ذات النبض المتأخر، مما يظهر ذاكرة طويلة الأمد. هذه النتيجة صحيحة بغض النظر عما إذا كانت عوامل توقيت الشجرة في DH-SFNN ثابتة أو قابلة للتعلم، مما يعكس الحفاظ الجيد على المعلومات التاريخية في التيارات الشجرية دون آلية إعادة الضبط. تقدم الشكل 3c مزيدًا من المعلومات حول تدرجات الخسارة بالنسبة لإمكانات الغشاء في SFNN التقليدية ولتيارات الشجرة في DH-SFNN عبر الزمن في بداية التدريب تحت عوامل توقيت كبيرة مبدئية. تتلاشى التدرجات بالنسبة لإمكانات الغشاء في SFNN التقليدية بسرعة بعد إعادة الانتشار لفترة من الزمن حتى مع وجود عوامل توقيت كبيرة، بينما يمكن أن تستمر التدرجات بالنسبة للتيارات الشجرية لفترة طويلة. هذه الفروق ناتجة عن آلية إعادة الضبط لإمكانات الغشاء التي تنظف المعلومات التاريخية المخزنة، والتي تم تحليلها بشكل أكبر في الشكل التكميلي S3 ومناقشتها في الطرق. يمكن ملاحظة استنتاجين آخرين: (1) تنتج عوامل التوقيت المبدئية الأكبر ذاكرة طويلة الأمد أكثر من الأصغر بسبب التدهور البطيء للمعلومات التاريخية؛ (2) تنتج عوامل توقيت الشجرة القابلة للتعلم ذاكرة طويلة الأمد أكثر من الثابتة. يمكن تحسين الدقة بشكل كبير خاصة عندما تكون عوامل التوقيت المبدئية غير مناسبة للمهمة، أي التوزيعات الأصغر هنا. من الشكل 3d، يمكن رؤية أن تدريب النموذج يدفع بعض عوامل توقيت الشجرة الصغيرة والمتوسطة المبدئية إلى قيم أكبر للحفاظ على طول ذاكرة أطول.
بالإضافة إلى مشكلة XOR المتأخرة، نقوم بتوسيع مقارنتنا على معايير الكلام، أي مجموعات بيانات SHD و SSC. يتم تصور أنماط النبضات في مجموعتي البيانات في الشكل 3e وتُقدم المزيد من التوصيفات الزمنية في الشكل التكميلية S5، والتي تُظهر الأبعاد الزمنية الغنية لمجموعتي البيانات وتُشير إلى الحاجة إلى تباين زمني في نموذج المعالجة. كما هو موضح في الشكل 3f، فإن DH-SFNNs ذات الفرع الشجري الواحد مع
الشكل 3 | الذاكرة طويلة الأمد على الشجيرات. أ توضيح لمشكلة XOR ذات التوصيل المتأخر لاختبار طول الذاكرة لشبكات الأعصاب البسيطة (SFNNs) وشبكات الأعصاب ذات الشجيرات المزدوجة (DH-SFNNs) مع وجود فرع شجيري واحد فقط في كل خلية عصبية من نوع DH-LIF. منحنيات الدقة لشبكات الأعصاب ذات الطبقات العادية (SFNNs) وشبكات الأعصاب ذات الفرع الشجيري الواحد (DH-SFNNs). بالنسبة لشبكات الأعصاب العادية، فإن عوامل توقيت الجهد الغشائي، ، يمكن تعلمها بثلاث توزيعات مبدئية مختلفة. بالنسبة لشبكات الأعصاب الديناميكية، قابلة للتعلم وتبدأ بتوزيع متوسط، وعوامل توقيت الشجيرات، يمكن أن يكون ثابتًا أو قابلًا للتعلم مع ثلاثة توزيعات مبدئية مختلفة. ج. تصور تدرجات الخسارة بالنسبة لإمكانات الغشاء لشبكة SFNN التقليدية ولتيارات الشجرة العصبية لشبكة DHSFNN ذات الفرع الشجري الواحد عبر الزمن في بداية التدريب تحت عوامل توقيت مبدئية كبيرة. توزيعات عوامل توقيت الشجيرات قبل وبعد التدريب. خط KDE، خط تقدير كثافة النواة. أمثلة على سلاسل النبضات المدخلة من SHD و SSC
مجموعات البيانات. مقارنة دقة التعرف بين الشبكات العصبية البسيطة (SFNNs) والشبكات العصبية ذات الشجرة الواحدة (DH-SFNNs) مع عوامل توقيت دندريتي ثابتة أو قابلة للتعلم على SHD و SSC تحت فترة زمنية معينة. . ج مقارنة دقة التعرف بين الشبكات العصبية البسيطة (SFNNs) والشبكات العصبية ذات الفرع الشجري الواحد (DH-SFNNs) مع عوامل توقيت قابلة للتعلم تحت فترات زمنية مختلفة على SHD و SSC. تم اختيار تهيئة مفيدة لعوامل التوقيت لكل فترة زمنية لإظهار دقة أفضل بشكل عام. في التجارب المذكورة أعلاه، ما لم يُذكر خلاف ذلك، يتم تهيئة عوامل توقيت الجهد الغشائي وفق توزيع متوسط وقابلة للتعلم أثناء التدريب. تمثل الانحرافات المعيارية (المقدمة كأشرطة خطأ) 10 أو 5 تجارب متكررة لمشكلة XOR النابضة أو مهام أخرى، على التوالي.
تحقق عوامل توقيت الشجيرات القابلة للتعلم دقة أفضل بكثير من الشبكات العصبية ذات الطبقات السطحية التقليدية بغض النظر عن توزيعات التهيئة. تحت فترة زمنية معينة لأخذ العينات ، تحقق شبكات DH-SFNNs ذات الشجرة العصبية الواحدة والعناصر الزمنية الكبيرة المُهيأة دقة تبلغ 82.2% على SHD و63.62% على SSC، وهي و أعلى من الشبكات العصبية البسيطة ذات الطبقات العميقة على SHD و SSC، على التوالي. لدعم مزاعمنا بشكل أكبر، نقوم بتغيير المقياس الزمني لنماذج النبضات المدخلة عن طريق ضبط فترة زمنية العينة من إلى . أصغر يشير إلى دقة أخذ عينات أفضل، ومقياس زمني أبطأ، ونافذة زمنية أطول. لاحظ أننا هنا نختار عوامل توقيت مبدئية مناسبة لكل منها. إعداد لإظهار دقة أفضل بشكل عام، أي، تهيئة عوامل توقيت أكبر للأصغر القيم. كما هو موضح في الشكل 3g،
دقة الشبكات العصبية البسيطة (SFNNs) لا تتحسن دائمًا بل قد تتدهور مع زيادة دقة العينة. الفجوة في الدقة بين الشبكات العصبية البسيطة (DH-SFNNs) والشبكات العصبية البسيطة (vanilla SFNNs) تميل إلى الزيادة مع تنخفض لأن DH-SFNNs تؤدي بشكل أفضل في الذاكرة طويلة الأمد.

دمج الميزات غير المتجانسة داخل الخلايا العصبية

عبر الشجيرات متعددة الفروع. في القسم أعلاه، أظهرنا أن الذاكرة طويلة المدى لشبكات الأعصاب الديناميكية المتأخرة (DH-SNNs) تستفيد من الديناميات الزمنية على الفرع الشجيري. لقد توقعنا في الشكل 2 أن شبكات الأعصاب الديناميكية المتأخرة مع فروع متعددة في كل خلية عصبية يمكن أن تؤدي مهام الحوسبة الزمنية عبر التباين الزمني. في هذا القسم، نقوم بترقية مشكلة XOR المتأخرة المذكورة أعلاه إلى متعددة-
الشكل 4 | دمج الميزات غير المتجانسة داخل الخلايا العصبية من خلال فروع دندريتية متعددة. أ توضيح لمشكلة XOR ذات النبضات المتعددة الزمن لاختبار قدرة معالجة المعلومات الزمنية غير المتجانسة لشبكة SFNN التقليدية و DH-SFNNs مع فرع دندريتي واحد أو اثنين في كل خلية عصبية DH-LIF. ب مقارنة دقة شبكة SFNN التقليدية و DH-SFNNs مع أعداد مختلفة من الفروع الدندريتية وتوزيعات أولية مختلفة لعوامل التوقيت. عوامل توقيت الدندريت. يمكن أن تكون ثابتة أو قابلة للتعلم أثناء التدريب. تعني التهيئة المفيدة أننا نقوم بتهيئة عوامل توقيت دندريتي كبيرة للفرع 1 في كل خلية عصبية DH-LIF بينما نقوم بتهيئة عوامل توقيت دندريتي صغيرة للفرع 2. ج توزيع عوامل توقيت الدندريت لفرعين دندريتين قبل وبعد التدريب. خط KDE، خط تقدير كثافة النواة. تصوير نمط ذروة الإخراج والتيارات الشجرية لخلية DH-LIF ذات الفرعين الشجريين
الخلايا العصبية ذات عوامل التوقيت الثابتة أثناء التدريب تحت إعداد مفيد. تصور نمط النبضات الناتجة والتيارات الشجرية لخلايا DH-LIF ذات الشجرة الشجرية الواحدة مع عوامل توقيت ثابتة أثناء التدريب تحت إعداد صغير أو كبير. مقارنة دقة التعرف بين الشبكات العصبية البسيطة (SFNNs) والشبكات العصبية ذات الهيكل الديناميكي (DHSFNNs) مع أعداد متغيرة من الفروع الشجرية وعوامل توقيت قابلة للتعلم تحت توزيع كبير على SHD و SSC. تم تعيين فترة زمنية للعينة إلى في التجارب المذكورة أعلاه، ما لم يُذكر خلاف ذلك، يتم تهيئة عوامل توقيت إمكانيات الغشاء وفقًا لتوزيع متوسط ويتم تعلمها خلال التدريب. تمثل الانحرافات المعيارية (المقدمة كأشرطة خطأ) 10 أو 5 تجارب متكررة لمشكلة XOR النابضة أو مهام أخرى، على التوالي.
مشكلة XOR المتقطعة متعددة الأوقات لاختبار قدرة النموذج على معالجة المعلومات غير المتجانسة زمنياً لدعم توقعاتنا بشكل أكبر. كما هو موضح في الشكل 4a، تستخدم مشكلة XOR المتقطعة متعددة الأوقات نوعين من إشارات النبض المدخلة. في المرحلة الأولى، يتم إدخال نمط نبض واحد (الإشارة 1) بمعدل إطلاق منخفض (يسار) أو مرتفع (يمين) إلى النموذج، مما يمثل مكوناً منخفض التردد. ثم، يتم حقن عدة أنماط نبض مشابهة بفترات أسرع (الإشارة 2) في النموذج بشكل متسلسل، مما يمثل مكوناً عالي التردد. في كل مرة يتلقى فيها النموذج نمط نبض في الإشارة 2، فإنه أيضاً ينتج نتيجة XOR بين نمط النبض الأول في الإشارة 1 والنمط الحالي في الإشارة 2. الهدف من النموذج هو تذكر الإشارة 1 منخفضة التردد وإجراء عملية XOR.
مع الإشارة عالية التردد 2، التي يمكن أن تعكس بشكل كبير قدرتها المحتملة على معالجة المعلومات غير المتجانسة زمنياً.
في مشكلة XOR المتعددة الأوقات، نقارن بين SFNN التقليدي و DH-SFNNs مع فرعين دندريين أو فرع واحد فقط وطبقة مخفية واحدة. بالنسبة لخلية DH-LIF ذات الفرع الدندري المزدوج، يتم توصيل المشابك المدخلة التي تحمل الإشارة 1 بفرع واحد (الفرع 1) بينما يتم توصيل المشابك التي تحمل الإشارة 2 بالفرع الآخر (الفرع 2). يمكن العثور على هيكل الشبكة في الشكل التكميلي S1. الشكل 4 ب يقدم نتائج الدقة. يفشل SFNN التقليدي في أداء هذه المهمة بدقة أقل بكثير من 75%. على الرغم من أن DH-SFNNs ذات الفرع الدندري الواحد لديها ذاكرة طويلة الأمد كما يتضح من الشكل 3، إلا أنها لا تستطيع معالجة المعلومات ذات الأوقات المتعددة بشكل جيد.
الذاكرة كما يتضح من الشكل 3، إلا أنها لا تستطيع معالجة المعلومات ذات الأوقات المتعددة بشكل جيد. مع زيادة عدد الفروع إلى اثنين، تظهر DH-SFNNs أداءً أفضل بكثير بفضل عدم تجانس الدندريت الزمني، خاصة عندما يتم تهيئة عوامل توقيت الدندريت بشكل مناسب وقابل للتعلم. هنا تعني التهيئة المفيدة أننا نهيئ عوامل توقيت دندريت كبيرة للفرع 1 في كل خلية DH-LIF لتمكين الذاكرة طويلة الأمد للإشارة منخفضة التردد 1 بينما نهيئ عوامل توقيت دندريت صغيرة للفرع 2 لتمكين استجابة سريعة للإشارة عالية التردد 2. الشكل 4ج يوضح عوامل توقيت الدندريت قبل وبعد التدريب. كما هو متوقع، تميل عوامل توقيت الدندريت للفرع 1 مع تهيئة صغيرة إلى أن تصبح أكبر بينما تميل عوامل توقيت الدندريت للفرع 2 مع تهيئة كبيرة إلى أن تصبح أصغر، مما يدل على أن عملية التعلم تجعل عوامل توقيت الدندريت تتناسب بشكل أفضل مع الأوقات المتعددة للإشارات المدخلة. لاحظ أنه ما لم يُذكر خلاف ذلك، يتم تهيئة عوامل توقيت الجهد الغشائي وفقًا لتوزيع متوسط وقابلة للتعلم في تجارب الشكل 4.
في الشكل 4د، نقوم بمزيد من تصور نمط النبضات الناتجة والتيارات الدندريتية لخلية DH-LIF ذات الفرعين الدندريين مع عوامل توقيت ثابتة أثناء التدريب تحت تهيئة مفيدة. تتوافق النتائج اليسرى واليمنى مع حالات الإدخال اليسرى واليمنى في الشكل 4أ، على التوالي. مع عوامل توقيت دندريت كبيرة على الفرع 1، يمكن تذكر الإشارة منخفضة التردد 1 لفترة طويلة بواسطة التيارات الدندريتية على الفرع 1؛ في حين أنه مع عوامل توقيت دندريت صغيرة على الفرع 2، يمكن تتبع الإشارة عالية التردد 2 عن كثب بواسطة التيارات الدندريتية على الفرع 2. يتم دمج التيارات الدندريتية على فرعين مع أوقات مختلفة بشكل تآزري لتحديد الجهود الغشائية والنبضات الناتجة. من المثير للاهتمام، بعد تعلم أوزان المشابك، تتعلم بعض الخلايا ميزات حساسة تعكس تركيبة معينة من الإشارة 1 والإشارة 2. على سبيل المثال، نبرز خليتين في الشكل 4د، حيث يتم الاحتفاظ بالنبضات باللون الأسود بينما يتم تمييز المناطق التي لا تحتوي على نبضات باللون الأصفر. الخلية الأولى المميزة DH-LIF (أي، ذات معرف خلية أصغر) حساسة لحالة دمج الإشارة 1 ذات معدل الإطلاق المنخفض والإشارة 2 ذات معدل الإطلاق العالي، بينما الخلية الثانية المميزة DH-LIF (أي، ذات معرف خلية أكبر) حساسة لحالة دمج الإشارة 1 ذات معدل الإطلاق العالي والإشارة 2 ذات معدل الإطلاق العالي. هنا تعني ‘حساسة’ إطلاق نبضات متتالية تتوافق مع ميزة التركيب المتعلمة بين الإشارة 1 والإشارة 2. هذه الميزات المحددة المتعلمة لخلايا DH-LIF حاسمة لأداء مشكلة XOR المتعددة الأوقات بشكل صحيح في طبقة القرار التالية. للمقارنة، نقوم بعمل تصور مشابه لخلايا DH-LIF ذات الفرع الدندري الواحد في الشكل 4هـ. إذا قمنا بتهيئة عوامل توقيت دندريت صغيرة، فإن التيارات الدندريتية لا يمكنها تذكر الإشارة منخفضة التردد 1 وتكون تحت السيطرة بشكل رئيسي من الإشارة عالية التردد 2. بالنسبة لعوامل توقيت دندريت كبيرة مهيأة، لا يمكن للتيارات الدندريتية تتبع الإشارة عالية التردد 2 بشكل محكم. لذلك، فإن DH-SFNN ذات الفرع الدندري الواحد، بالإضافة إلى SNNs مع ديناميات تيار المشابك المكافئة لـ DH-SNNs ذات الفرع الدندري الواحد، لا يمكنها تعلم ميزات محددة تجمع بين الإشارة 1 والإشارة 2، مما يؤدي إلى الفشل في أداء مشكلة XOR المتعددة الأوقات. بالإضافة إلى ذلك، نقوم بإجراء تجارب إضافية حيث يتم توصيل الإشارة 1 والإشارة 2 عشوائيًا إلى الفرعين الدندريين لـ DH-SFNNs دون قيود على الاتصال. تنجح DH-SFNNs ذات الفرعين الدندريين في التعامل مع المشكلة مما يدل على أن قيود الاتصال غير ضرورية ويمكن لـ DH-SNNs أن تكتسب الانتقائية لأوقات متعددة من الإشارات المدخلة خلال عملية التعلم (انظر الشكل التكميلي S4). تفسر نتائجنا التجريبية أن الفروع الدندريتية المتعددة لخلية عصبية قادرة على مطابقة أوقات مختلفة في نفس الوقت، مما يسمح لـ DH-SNNs باتخاذ قرارات معقدة في المجال الزمني من خلال دمج الميزات وبالتالي تعزيز القدرة على أداء مهام الحوسبة الزمنية متعددة الأوقات.
بجانب مشكلة XOR المتعددة الأوقات الاصطناعية، نقارن أيضًا أداء SFNNs التقليدية، و DH-SFNNs ذات الفرع الدندري الواحد، و DH-SFNNs ذات فرعين أو أكثر من الفروع الدندريين على مجموعات بيانات SHD و SSC. نحافظ على نفس هيكل الشبكة كما هو مستخدم في الشكل 3ف. نظرًا لأن الأوقات في SHD و SSC أكثر تعقيدًا من الأوقات الثنائية في مشكلة XOR أعلاه، فإنه من الصعب العثور على التهيئة المفيدة. من أجل البساطة، نقوم بتهيئة جميع عوامل توقيت الدندريت وفقًا لتهيئة كبيرة ونجعلها قابلة للتعلم لمطابقة أوقات مختلفة تلقائيًا. كما يوضح الشكل 4(و)، تحقق DH-SFNNs ذات الفروع الدندريتية الأكثر دقة أفضل في دقة التعرف على كلا المجموعتين. على الرغم من أن التحسين يميل إلى أن يكون مشبعًا مع الفروع الدندريتية الزائدة (انظر المزيد من التحليلات في الشكل التكميلي S6)، إلا أن النتائج تثبت بالفعل أن عدم تجانس الدندريت الزمني لخلايا DH-LIF يمكن أن يعزز قوة التمثيل لـ DH-SFNNs لأداء مهام الحوسبة الزمنية متعددة الأوقات.

دمج ميزات الخلايا العصبية عبر الاتصالات المشبكية

في التجارب السابقة، كشفنا أن الميزات الزمنية ذات الأوقات المختلفة يمكن دمجها بواسطة فروع دندريتية متعددة داخل خلايا DH-LIF. في هذه الفقرة، نحاول توضيح مسار آخر لدمج الميزات الزمنية متعددة الأوقات من خلال الاتصالات المشبكية. هنا تشمل الاتصالات المشبكية الاتصالات الأمامية بين الطبقات في SFNNs والاتصالات المتكررة داخل الطبقات في SRNNs.
لدعم توقعنا، نختبر DH-SFNN ذات الطبقة الواحدة، و DH-SFNN ذات الطبقتين، و DH-SRNN ذات الطبقة الواحدة، جميعها تحتوي فقط على فرع دندري واحد في كل خلية DH-LIF لإزالة تأثير دمج الميزات داخل الخلايا العصبية. المهمة هي نفس مشكلة XOR متعددة الأوقات كما هو مذكور أعلاه ويمكن العثور على هياكل الشبكة في الشكل التكميلي S1. نجد أن DH-SFNN ذات الطبقة الواحدة تفشل في أداء هذه المهمة، بينما تؤدي كل من DH-SFNN ذات الطبقتين و DH-SRNN ذات الطبقة الواحدة بشكل جيد بحوالي الدقة. في الشكل 5أ، نعرض نمط النبض الناتج لكل طبقة في النماذج. بشكل خاص، نجد ثلاثة أنواع من الخلايا العصبية. تمثل الخلية العصبية من النوع 1 الخلية الحساسة للإشارة 2 بتردد عالٍ، وتمثل الخلية العصبية من النوع 2 الخلية الحساسة للإشارة 1 بتردد منخفض. لاحظ أننا نحدد خلايا النوع 2 من خلال مقارنة استجابات نفس الخلايا العصبية في حالات إدخال مختلفة كما هو موضح في اللوحات اليسرى واليمنى. على سبيل المثال، عند النظر إلى الطبقة المخفية الأولى من الشبكات العصبية ذات الطبقتين، عندما يتم إدخال إشارة 1 بمعدل إطلاق منخفض في اللوحة اليسرى، تظهر خلايا النوع 2 أنشطة نبضية نادرة. على العكس، عندما يتم إدخال إشارة 1 بمعدل إطلاق عالٍ في اللوحة اليمنى، تعرض خلايا النوع 2 أنشطة نبضية كثيفة. علاوة على ذلك، فإن استجابات خلايا النوع 2 موزعة بشكل موحد، غير متأثرة بالإشارة 2 المتغيرة دوريًا. مع هذه الملاحظات، نستنتج أن خلايا النوع 2 حساسة للإشارة 1. تمثل الخلية المميزة الخلية الحساسة لمجموعة معينة من الإشارة 1 والإشارة 2، والتي تعتبر حاسمة لوظيفة حل مشكلة XOR النبضية متعددة الأوقات. بالنسبة للشبكة العصبية ذات الطبقتين DH-SFNN، نجد أنه لا توجد سوى خلايا من النوع 1 والنوع 2 في الطبقة المخفية الأولى لأن خلية DH-LIF ذات فرع دندري واحد فقط يمكنها التقاط ميزات زمنية ذات مقياس واحد فقط. في الطبقة المخفية الثانية، تظهر خلايا مميزة من خلال دمج أنماط النبض الناتجة عن خلايا النوع 1 والنوع 2. على سبيل المثال، الخلايا المميزة هنا حساسة لحالة دمج إشارة 1 ذات معدل إطلاق منخفض وإشارة 2 ذات معدل إطلاق عالٍ. بينما بالنسبة للشبكة العصبية ذات الطبقة الواحدة DH-SRNN، يتم ملاحظة خلايا النوع 2 والخلايا المميزة في الطبقة المخفية الأولى. بالمثل، الخلايا المميزة هنا حساسة لحالة دمج إشارة 1 ذات معدل إطلاق عالٍ وإشارة 2 ذات معدل إطلاق عالٍ. في DH-SRNN، يمكن للخلايا المميزة الوصول إلى ميزات الإشارة 1 التي تم حفظها بواسطة خلايا النوع 2 من خلال الاتصالات المشبكية المتكررة. بشكل خاص، يتم استقبال ميزات الإشارة 2 ذات التردد العالي على الفور ويمكن دمجها مع ميزات الإشارة 1 المحفوظة لتنشيط الخلايا المميزة. هذه التجربة تثبت بصريًا
الشكل 5 | دمج الميزات غير المتجانسة بين الخلايا العصبية من خلال الاتصالات المشبكية. أ تصور أنماط النبض الناتجة عن الشبكة العصبية ذات الطبقتين DH-SFNN (في المنتصف) والشبكة العصبية ذات الطبقة الواحدة DH-SRNN (في الأسفل) مع فرع دندري واحد في كل خلية DH-LIF عند أداء مشكلة XOR النبضية متعددة الأوقات (في الأعلى). ب مقارنة دقة الشبكات العصبية ذات الطبقة الواحدة أو ذات الطبقتين SFNNs و DH-SFNNs، والشبكات العصبية ذات الطبقة الواحدة SRNNs و DH-SRNNs على مجموعة بيانات SHD. ج مقارنة دقة الشبكات العصبية ذات الطبقة الواحدة أو ذات الطبقتين SFNNs و DH-SFNNs، والشبكات العصبية ذات الطبقة الواحدة SRNNs و DH-SRNNs على مجموعة بيانات SSC. د توضيح الاتصالات المشبكية الأمامية والمتكررة لتحليل الأداء. هـ نتائج الدقة للشبكات العصبية متعددة الطبقات SFNNs و DH-SFNNs مع
أعداد مختلفة من الفروع الدندريّة على مجموعة بيانات SSC. نتائج الدقة للشبكات العصبية متعددة الطبقات SRNNs و DH-SRNNs مع أعداد مختلفة من الفروع الدندريّة على مجموعة بيانات SSC. في التجارب السابقة، ما لم يُذكر خلاف ذلك، يمثل عدد الطبقات عدد الطبقات المخفية ويتم تهيئة عوامل توقيت جهد الغشاء وفقًا لتوزيع متوسط وقابلة للتعلم أثناء التدريب. في التجارب على مجموعات بيانات SHD و SSC، نختبر عوامل توقيت دندري قابلة للتعلم تحت كل من التهيئات المتوسطة والكبيرة ونقدم أفضل النتائج. تمثل الانحرافات المعيارية 5 تجارب متكررة.
دمج الميزات الزمنية متعددة الأوقات عبر الاتصالات المشبكية في الشبكات الأمامية والمتكررة، مما يساعد على أداء مهام الحوسبة الزمنية متعددة الأوقات.
نظرًا للتحليلات السابقة، يبدو واضحًا أن دمج الميزات بين الفروع في خلية عصبية، ودمج الميزات بين الخلايا العصبية في طبقة متكررة، ودمج الميزات بين الطبقات في شبكة لها تأثيرات مشابهة وتآزرية في التقاط الميزات الزمنية متعددة الأوقات، والتي تفيد في أداء مهام الحوسبة الزمنية متعددة الأوقات. لتقديم مزيد من الأدلة، نجري تجارب إضافية مع عدد متغير من الفروع الدندريّة على مجموعات بيانات SHD و SSC. النتائج موضحة في الشكل 5ب، ج، والتي يمكن استنتاج عدة استنتاجات منها. أولاً، تحسن خلايا DH-LIF
قدرتها على التعامل مع عدم التجانس الزمني بدقة أعلى. ثانيًا، مقارنةً بالشبكات العصبية ذات الطبقة الواحدة SFNNs، تظهر الشبكات العصبية ذات الطبقتين SFNNs والشبكات العصبية ذات الطبقة الواحدة SRNNs أداءً أفضل بكثير بفضل دمج الميزات الزمنية بين الخلايا العصبية. ثالثًا، تنتج DH-SFNNs و DH-SRNNs دقة أعلى تدريجيًا مع زيادة عدد الفروع الدندريّة. باختصار، هذه النتائج تثبت القدرة المحسنة على أداء مهام الحوسبة الزمنية متعددة الأوقات المستفيدة من عدم التجانس الزمني الدندري، وتكشف أيضًا عن آلية العمل التآزرية لدمج الميزات على مستوى الخلايا العصبية وعلى مستوى الشبكة.
على وجه التحديد، نلاحظ أن الشبكات العصبية ذات الطبقة الواحدة SRNNs تميل إلى الأداء بشكل أفضل من الشبكات العصبية ذات الطبقتين SFNNs، خاصةً على مجموعة بيانات SSC ذات
الصعوبة الأعلى. للتحليل، نوضح طوبولوجيا الاتصال لشبكة عصبية ذات طبقتين SFNN وشبكة عصبية ذات طبقة واحدة SRNN في الشكل 5د كمثال. من الواضح أن خلية عصبية في الطبقة المخفية الثانية من شبكة عصبية ذات طبقتين SFNN يمكنها فقط دمج الميزات المتعلمة من الطبقة السابقة مرة واحدة لتشكيل ميزة ذات مستوى أعلى قليلاً. على العكس، يمكن أن تساعد الاتصالات المتكررة الخلايا العصبية في شبكة عصبية ذات طبقة واحدة SRNN على دمج الميزات المتعلمة عدة مرات لتشكيل ميزات ذات مستوى أعلى بكثير. على سبيل المثال، يتم دمج الميزات ذات المستوى المنخفض و معًا لتوليد ميزة ذات مستوى أعلى قليلاً بينما يتم دمجها بشكل أكبر مع لتوليد ميزة ذات مستوى أعلى بكثير . علاوة على ذلك، نقارن الشبكات العصبية ذات الطبقتين SFNNs والشبكات العصبية ذات الطبقة الواحدة SRNNs مع الشبكات العصبية ذات الطبقة الواحدة SFNNs الأوسع (انظر الشكل التكميلي S7). هنا ‘الأوسع’ تعني المزيد من الخلايا العصبية في الطبقة المخفية، مما يؤدي إلى المزيد من المعلمات. تظهر النتائج أن تحسين الأداء للشبكات العصبية ذات الطبقة الواحدة الأوسع ليس بنفس أهمية ذلك من خلال إدخال دمج الميزات بين الخلايا العصبية في الشبكات العصبية ذات الطبقتين SFNNs والشبكات العصبية ذات الطبقة الواحدة SRNNs، مما يعني أن تحسين الأداء في أداء مهام الحوسبة الزمنية متعددة الأوقات لا يمكن تحقيقه ببساطة عن طريق زيادة عدد المعلمات.
بعيدًا عن الشبكات العصبية ذات الطبقتين SFNNs والشبكات العصبية ذات الطبقة الواحدة SRNNs للتحليل الأساسي، نقوم بتصميم تجارب إضافية مع الشبكات العصبية متعددة الطبقات SFNNs و SRNNs على مجموعة بيانات SSC. السبب في اختيار SSC هو أنها أكثر تعقيدًا من SHD، مما يمكن أن يوفر مساحة استكشاف أوسع لأداء النموذج. النتائج موضحة في الشكل 5هـ، و. عمومًا، تميل درجات الدقة للشبكات العصبية SFNNs و SRNNs إلى الزيادة مع زيادة عدد الطبقات. كما لوحظت اتجاهات مماثلة مع زيادة عدد الفروع الدندريّة. في الوقت نفسه، نجد أن الفجوة في الدقة بين SFNNs و SRNNs تضيق مع زيادة عدد الطبقات أو الفروع الدندريّة، مما يشير إلى أن أداء النماذج المختلفة سيصبح مشبعًا عندما يكون مدى دمج الميزات الزمنية كافيًا للنموذج لأداء المهمة. بشكل محدد، في الطبقات الأعمق، يظهر تشبع الدقة عند زيادة عدد الفروع الدندريّة، ويمكن أن يكون هذا الاتجاه في SRNNs مع دمج ميزات أكثر شمولاً أسرع من ذلك في SFNNs. لاحظ أن التعقيد الناتج عن زيادة عدد الطبقات يجعل النماذج الأعمق أحيانًا صعبة التدريب، مما قد يؤدي أيضًا إلى تدهور أداء النموذج.

فوائد الأداء الشاملة لشبكات DH-SNNs

عادةً، يحتوي خلية عصبية من نوع DH-LIF على المزيد من المعلمات مقارنةً بخلايا LIF التقليدية. على مستوى الخلية العصبية، هناك عوامل توقيت إضافية على الفروع الشجرية، حيث يكون حجمها متناسبًا مع عدد الفروع الشجرية. على مستوى الشبكة، سيزداد عدد المشابك بشكل كبير إذا كانت كل فرع شجري متصل بجميع المدخلات المشبكية. لتقليل حجم المعلمات، نضيف قيدًا نادرًا على نمط الاتصال المشبكي، أي أن كل فرع شجري يتصل فقط بجزء من المدخلات المشبكية ويكون عدد المشابك على كل فرع شجري متوازن إلى حد كبير (انظر الطرق). بهذه الطريقة، لا تزيد الشبكات العصبية الديناميكية DH-SNNs بشكل واضح من تكاليف التخزين والحساب مقارنةً بالشبكات العصبية التقليدية SNNs. كما هو موضح في الشكل 6a، فإن زيادة المعلمات في DH-SNNs مقارنةً بـ SNNs التقليدية تكون على مستوى الخلايا العصبية ومتناسبة مع عدد الفروع الشجرية، والتي يمكن تجاهلها مقارنةً بالأوزان المشبكية الثقيلة. علاوة على ذلك، نقدم بشكل كمي أعداد المعلمات والعمليات المشبكية لـ SNNs التقليدية و DH-SNNs مع أعداد مختلفة من الفروع الشجرية. نجمع النتائج من الشبكات العصبية ذات الطبقة الواحدة SFNNs و SRNNs على مجموعة بيانات SSC ونظهر النتائج في الشكل 6b. كما تم التنبؤ به، لا يوجد زيادة واضحة في المعلمات والعمليات المشبكية مع زيادة عدد الفروع الشجرية. إن التقلب العرضي في العمليات المشبكية ناتج عن معدل إطلاق متغير في نماذج مختلفة. نقوم أيضًا باختبار نماذجنا على مجموعات بيانات واسعة، بما في ذلك مجموعتين من بيانات الكلام (GSC و TIMIT )، مجموعتان بيانات خطاب متزايدتين (SHD و SSC) ومجموعتي بيانات تسلسلية (S-MNIST و PS-MNIST). يمكن العثور على إعدادات التجربة في الطرق والنتائج موضحة في الجدول 1. في هذه المجموعات، نجد أن DH-SNNs المقترحة لدينا
تحسين الدقة بشكل كبير مقارنةً بالأنظمة العصبية السريعة الأخرى ونماذج الذاكرة طويلة وقصيرة المدى (LSTM) حتى باستخدام عدد أقل بكثير من المعلمات. على وجه الخصوص، في SHD، مقارنةً بأفضل دقة تم الإبلاغ عنها للأنظمة العصبية السريعة. ، يمكن لنماذجنا تحسين الدقة من إلى فقط المعلمات؛ على SSC، نماذجنا تعزز أفضل دقة تم الإبلاغ عنها من إلى فقط المعلمات. الجدول التكميلي S5 يظهر أيضًا أن شبكات DH-SNN لدينا تتمتع بكفاءة حسابية أعلى بكثير مقارنةً بنماذج LSTM على هذين المجموعتين من البيانات، تصل إلى مئات إلى آلاف المرات. في المعايير الكلاسيكية المستخدمة عادةً لمهام التعرف على الكلام، أي GSC وTIMIT مع بيانات غير نابضة، تحقق شبكات DH-SNN لدينا، مع عدد أقل بكثير من المعلمات، دقة أفضل مقارنةً بنماذج SNN السابقة. في المجموعات التي تحتوي على تباين زمني أقل مثل S-MNIST وPS-MNIST، تظهر شبكات DH-SNN أيضًا دقة تنافسية.
يمكن أيضًا تعزيز قوة الشبكات العصبية السريعة (SNNs) من خلال التباين الزمني في الشجيرات العصبية. نحن نضيف ضوضاء عشوائية من النبضات إلى البيانات الأصلية لاختبار قوة الشبكات العصبية السريعة التقليدية (SFNNs) و DH-SFNNs في مقاومة الضوضاء. تتبع الضوضاء العشوائية توزيع بواسون بمعدلات متغيرة. كما هو موضح في الشكل 6c، تعاني DH-SFNNs ذات الفروع الشجرية المتعددة من تدهور دقة أبطأ مع زيادة معدل الضوضاء، مما يظهر قوة أفضل. بالنسبة لـ SFNNs التقليدية التي لا تحتوي على نمذجة شجرية أو DH-SFNNs التي تحتوي على فرع شجري واحد فقط، يتم تركيز جميع المدخلات المشبكية مباشرة على جسم الخلية أو على الفرع الشجري الوحيد. لذلك، سيؤثر كل مدخل ضوضائي على الديناميات الكاملة للعصبون. عندما يكون عامل التوقيت لإمكانات الغشاء أو التيار الشجري كبيرًا، فإن الاضطراب الناتج عن الضوضاء يتلاشى ببطء ويتراكم تدريجيًا، مما يضر في النهاية بأداء النموذج. لحسن الحظ، بالنسبة لـ DH-SFNNs ذات الفروع الشجرية المتعددة، يتم توزيع المدخلات المشبكية على فروع شجرية مختلفة. بفضل التباين الزمني الغني في الشجيرات العصبية، يكون هناك عادةً جزء من عوامل توقيت الشجيرات صغيرة، مما يؤدي إلى تلاشي الاضطراب الناتج عن الضوضاء بسرعة على تلك الفروع الشجرية، مما يقلل بشكل كبير من التأثير على الديناميات الكاملة للعصبون. بهذه الطريقة، تتمتع DH-SFNNs ذات الفروع الشجرية المتعددة بقوة أفضل من SFNNs التقليدية. نحن نلاحظ أيضًا نتائج مماثلة على SRNNs التقليدية و DH-SRNNs (انظر الشكل التوضيحي S8). بالإضافة إلى القوة، نقوم أيضًا باختبار قدرة التعميم من خلال تدريب النماذج مسبقًا تحت فترة زمنية معينة وضبطها بدقة تحت فترة زمنية مختلفة (انظر الشكل التوضيحي S9). مرة أخرى، بفضل التباين الزمني الطبيعي، تظهر DH-SNNs ذات الفروع الشجرية المتعددة قدرة أفضل على التعميم لمعلومات المدخلات ذات المقاييس الزمنية المتغيرة.

تنفيذ فعال على الأجهزة العصبية

في السنوات الأخيرة، تم تطوير منصات عصبية متنوعة لشبكات الأعصاب السريعة (SNNs)، والتي تساعد في تحقيق كفاءة تنفيذ أعلى من المنصات العامة مثل وحدات المعالجة المركزية (CPUs) ووحدات معالجة الرسوميات (GPUs). مقارنةً بشبكات الأعصاب السريعة العادية التي تحتوي فقط على ديناميات الجسم الخلوي، تتضمن الشبكات السريعة الديناميكية (DH-SNNs) أيضًا حساب ديناميات الشجيرات، مما يجعل من الصعب تشغيلها على الأجهزة العصبية التقليدية. لقد قمنا بتطوير عدة شرائح عصبية هجينة على مدار السنوات العشر الماضية، سلسلة تيانجيك. التي يمكن أن تدعم الشبكات العصبية الاصطناعية، والشبكات العصبية السريعة، والشبكات العصبية الهجينة ، مما يوفر إمكانية تنفيذ DHSNNs من خلال تكوين وضع النبضات لديناميات الجسم الخلوي ووضع عدم النبضات لديناميات الشجيرات. في هذه الفقرة، نقوم بنشر DH-SNNs على شريحة Tianjic الحديثة، TianjicX. ، لإظهار جدوى التنفيذ الفعال لشبكات الأعصاب الديناميكية على الأجهزة المخصصة. لحسن الحظ، هناك المزيد والمزيد من الشرائح العصبية مثل لوهي 2(https://download.intel.com/newsroom/2021/new-technologies/neuromorphic-computing-loihi-2-brief.pdf)، سبيننكر و BrainScale لقد اعتمدنا فكرة النموذج الهجين، التي تشير إلى أن الشبكات العصبية الديناميكية العميقة (DHSNNs) لديها إمكانيات كبيرة في تطبيقها على الأنظمة العصبية العملية.
للاستفادة بشكل أفضل من موارد TianjicX، نضيف قيدًا إضافيًا على نمط الاتصال المشبكي كما هو موضح في الشكل 6d.
(أ)
نماذج #أوزان التغذية الأمامية #الأوزان المتكررة #معلمات الخلايا العصبية #تحيزات #إجمالي المعلمات #العمليات الضمنية / خطوة الزمن #تراكمات تشابكية 1 خطوة زمنية
فانيلا SFNN 1 0
فانيلا SRNN 0
دي إتش-إس إف إن إن 1 ND 0
دي إتش-إس آر إن إن ND 0
LSTM 1
(ب)
(ج)


(هـ)
(ف)
الشكل 6 | كثافة النموذج، المتانة والتنفيذ الفعال على الأجهزة العصبية. أ العدد النظري للمعلمات والعمليات المشبكية لشبكات الأعصاب التكرارية التقليدية (SNNs)، وشبكات الأعصاب التكرارية الديناميكية (DH-SNNs)، وLSTM. نفترض أن الطبقة تحتوي على الخلايا العصبية مع المدخلات. و يمثل متوسط معدلات إطلاق النار للمدخلات والمخرجات على التوالي. تشمل عمليات الضرب والتراكم المشبكي فقط حساب مصفوفات الأوزان. مقارنة عدد التراكمات المشبكية ومعلمات الشبكات العصبية التقليدية والشبكات العصبية الديناميكية مع أعداد مختلفة من الفروع الشجرية. ج مقارنة متانة الشبكات العصبية التقليدية والشبكات العصبية الديناميكية في مقاومة الضوضاء العشوائية على مجموعات بيانات SHD (يسار) وSSC (يمين). د توضيح نمط الاتصال المشبكي للشبكات العصبية الديناميكية للنشر على الأنظمة العصبية.
الأجهزة، حيث تشارك الخلايا العصبية داخل كل مجموعة نفس النمط لتسهيل التعيين دون تقليل الدقة بشكل كبير. e لوحة تطوير TianjicX وتدفق البيانات عند تنفيذ DH-SNNs على مجموعات بيانات SHD و SSC. يستخدم النموذج على SHD أربعة نوى وظيفية مع ثلاث مجموعات زمنية، بينما يستخدم النموذج على SSC 26 نواة وظيفية مع ست مجموعات زمنية. يتم جدولة مجموعات زمنية متعددة بطريقة متسلسلة. f أداء التنفيذ بما في ذلك الإنتاجية واستهلاك الطاقة الديناميكي عند تنفيذ DHSNNs على شريحة TianjicX العصبية بتردد ساعة 400 ميجاهرتز. لاحظ أن معالجة عينة واحدة تستغرق 1000 خطوة زمنية. تمثل الانحرافات المعيارية (المقدمة كأشرطة خطأ) 5 تجارب متكررة.
على وجه التحديد، تشترك الخلايا العصبية المستمرة في طبقة ضمن مجموعة من الخلايا العصبية في نمط اتصال مشبكي واحد على الفروع الشجرية بنفس مؤشر الفرع. على سبيل المثال، في الشكل 6d، الفرع 0 من الخلية العصبية 0 والفرع 0 من الخلية العصبية 1 متصلان بنفس المدخلات المشبكية. بهذه الطريقة، يمكن تنفيذ العمليات المشبكية لهذين الفرعين معًا. في تنفيذنا، تم تعيين حجم مجموعة الخلايا العصبية إلى 32، لذا هنا نقوم بتعديل عدد الخلايا العصبية في كل طبقة مخفية لتكون مضاعفات صحيحة لـ 32. تم تنفيذ نموذجين من DH-SNN مع قيود نمط الاتصال المذكورة أعلاه على شريحة TianjicX العصبية. أحد النماذج هو DH-SFNN أحادي الطبقة على مجموعة بيانات SHD، والآخر هو DH-SFNN رباعي الطبقات على مجموعة بيانات SSC. لقد قمنا بمقارنة النموذجين مع وبدون قيود نمط الاتصال ووجدنا أن القيود تؤدي فقط إلى تدهور دقة ضئيل لا يتجاوز 0.3%. يستخدم DH-SFNN أحادي الطبقة فقط
أربعة من 160 نواة وظيفية في الشريحة، بينما تستخدم الشبكة العصبية ذات الطبقات الأربعة DH-SFNN 26 نواة وظيفية. نقسم كل نموذج إلى عدة خطوات تنفيذية ونخصص أعدادًا مختلفة من النوى الوظيفية لها كما هو موضح في الشكل 6e. يتيح الجدول الزمني المرن لـ TianjicX تنفيذًا متسلسلًا للخطوات من أجل أداء أفضل. كما هو ملخص في الشكل 6f، يمكن تنفيذ كلا الشبكتين العصبيتين DH-SNN بكفاءة على TianjicX مع إنتاجية عالية واستهلاك منخفض للطاقة. مزيد من التفاصيل حول تنفيذ الأجهزة متاحة في الطرق والشكل التكميلي S11.

تطبيق على التعرف على إشارات EEG والتعرف على مكان الروبوت

في مجال واجهة الدماغ-الكمبيوتر، كيفية التعامل مع إشارات تخطيط الدماغ الكهربائي (EEG) بفعالية هي مشكلة هامة.
الجدول 1 | مقارنة الدقة بين DH-SNNs والأساليب السابقة
مجموعة بيانات نموذج #المعلمات دقة
SHD SFNN 0.09 م 48.1٪
SRNN 1.79 م ٨٣.٢٪
SRNN 0.17 م 81.6%
SRNN 0.11 م 82.7%
إس سي إن إن 0.21 م 84.8٪
SRNN 0.14 م 90.4%
LSTM 0.43 م 89.2%
DH-SRNN (طبقة واحدة، فرعين) 0.05 م 91.34%
DH-SFNN (طبقة مزدوجة، 8 فرع) 0.05 م 92.1٪
SSC SFNN 0.09 م ٣٢.٥٪
SRNN 0.11 م 60.1%
SRNN 0.77 م 74.2%
LSTM 0.43 م 73.1%
DH-SFNN (أربعة طبقات، أربعة فروع) 0.27 مليون 81.03%
DH-SRNN (3 طبقات، 4 فروع) 0.35 مليون 82.46%
S-MNIST LSNN 0.08 م 96.4%
AHP-SNN 0.08 م ٩٦٫٠٪
SRNN 0.16 مليون 98.7٪
LSTM 0.06م 98.2%
DH-SRNN (طبقة 2، فرعان 2) 0.08 م 98.9%
بي إس- MNIST LSTM 0.06م ٨٨٪
SRNN* (مدخلات غير قياسية) 0.16 مليون 94.3٪
DH-SRNN (طبقة 2، فرع 1) 0.08 م 94.52%
جي إس سي SRNN 0.04 م 86.7%
LSNN 4.19 م 91.2%
SRNN 0.31 م 92.1٪
DH-SRNN (طبقة واحدة، 8 فروع) 0.13 م 93.86%
DH-SFNN (3 طبقات، 8 فروع) 0.11 م 94.05%
تيمت LSNN 0.4 م 66.8%
LSNN 0.4 م 65.4%
SRNN 0.63 م 66.1%
DH-SRNN (طبقة واحدة، 8 فروع) 0.18 مليون 67.42%
*الجزء المميز بالخط العريض في الجدول يمثل نتائج هذه الدراسة.
تشمل الأساليب الحالية خوارزميات التصنيف التقليدية والخوارزميات الناشئة المعتمدة على التعلم العميق مثل الشبكات العصبية التلافيفية (CNNs) وشبكات الأعصاب التكرارية مؤخراً، كانت الطرق المعتمدة على الشبكات العصبية السريعة كما تظهر إمكانيات كبيرة في معالجة إشارات EEG بكفاءة عالية لكنها لم تحقق أداءً مرضيًا بعد. بالنظر إلى المكونات متعددة الأوقات الجوهرية في إشارات EEG، نعتقد أن الشبكات العصبية الديناميكية المقترحة (DN-SNNs) يمكن أن تعزز أداء الشبكات العصبية السريعة (SNNs) في مهام التعرف على إشارات EEG.
نختار مهمة التعرف على المشاعر المعتمدة على تخطيط الدماغ الكهربائي باستخدام مجموعة بيانات DEAP لتقييم DH-SNNs. كما هو موضح في الشكل 7a، يحتوي مجموعة بيانات DEAP على إشارات EEG تم تسجيلها بواسطة أقطاب كهربائية من 32 مشاركًا تم تحفيزهم بمقاطع فيديو موسيقية. بالإضافة إلى إشارات EEG، طُلب من المشاركين الإبلاغ عن مشاعرهم أثناء مشاهدة مقاطع الفيديو الموسيقية، باستخدامها كعلامة للتعرف على المشاعر. بعد المعالجة المسبقة (انظر الطرق)، تم تغذية إشارات EEG إلى DH-SFNNs ذات الطبقة الواحدة مع أعداد مختلفة من الفروع الشجرية. نستخدم DH-SFNNs للتعرف على ثلاثة مستويات (منخفض، متوسط وعالي) من القيمة والانفعال التي تعكس المشاعر في مجموعة بيانات DEAP (انظر الطرق لمزيد من التفاصيل). يتم تقديم منحنيات الدقة خلال تدريب النموذج في الشكل 7b، c. نجد أن DH-SFNNs تظهر أداءً أفضل بكثير من SFNNs التقليدية في كلا المهمتين. باستمرار، فإن التباين الزمني في الفروع الشجرية تحت الفروع الشجرية المتعددة يساعد بالفعل في تعزيز الأداء، مما يثبت
تنبؤ بأن الشبكات العصبية الديناميكية ذات الهيكل المتسلسل (DH-SNNs) لديها إمكانيات كبيرة في معالجة إشارات EEG متعددة الأوقات. كما هو ملخص في الجدول التكميلي S6، تظهر DH-SNNs مرة أخرى أفضل دقة في التعرف على مجموعة بيانات DEAP مع عدد أقل بكثير من المعلمات مقارنة بالأساليب الحالية بما في ذلك الشبكة العصبية متعددة الطبقات (MLP). وشبكة CNN المتقطعة (SCNN) في الشكل التوضيحي الإضافي S12، نجري أيضًا تجارب مماثلة مع SRNNs والتعرف على العواطف من فئتين، حيث لا تزال الاستنتاجات المذكورة أعلاه قائمة. بالمقارنة مع النتائج باستخدام DH-SFNNs، نلاحظ دقة أعلى مع DH-SRNNs ولكن بفجوة دقة أقل عند تغيير عدد الفروع الشجرية. وهذا يدل مرة أخرى على التشبع الأسرع في الأداء لـ SRNNs.
ثم نصمم مهمة التعرف على الأماكن البصرية (VPR) لإظهار إمكانيات نموذجنا في مجال الروبوتات. لقد أصبح التعرف على الأماكن البصرية للروبوتات مجالًا مهمًا بشكل متزايد في مجتمع الروبوتات، حيث يمكّن الروبوتات من فهم الخصائص المكانية للبيئة بشكل أفضل. حالياً، هناك نهجان رئيسيان يتم استكشافهما للتعرف على الأماكن بصرياً. الأول يستخدم الصور الملتقطة زمنياً للتعرف على الأماكن، مثل SeqSLAM. فلاي نت وتعلم المكان المتسلسل بينما الأخير تستخدم حساسات عصبية الشكل مثل كاميرات الأحداث كمصدر بيانات إضافي لتحسين دقة التعرف. في تجاربنا، نصمم مهمة NeuroVPR ونستخدم روبوتًا متنقلًا لجمع تدفق أحداث النبض أثناء التحرك في البيئة الداخلية. الهدف هو التعرف على مكانه باستخدام تدفق أحداث النبض المجمعة. يمكن العثور على تفاصيل مجموعة البيانات وإعداد التجربة في الطرق. نقارن أداء نموذج DH-SNN بنموذج SNN التقليدي. تظهر النتائج في الشكل التكميلي S13 درجات دقة أعلى في المراكز الأولى (top-1، top-5، وtop-10) لنموذج DH-SNN، مما يظهر إمكانيات كبيرة في أداء المهام الروبوتية مع معلومات زمنية غنية. لاحظ أن SRNNs هنا لا تظهر أداءً أفضل من SFNNs، وهو ما قد يكون بسبب الاختلافات في هياكل الشبكات وصعوبات التدريب للشبكات المتكررة في مهام التعرف على الصور.

نقاش

نقترح نموذج الخلايا العصبية DH-LIF الذي يدمج التباين الزمني في الشجيرات العصبية داخل الخلايا العصبية النابضة، ثم نمدده إلى مستوى الشبكة لبناء DH-SFNNs و DH-SRNNs. من خلال تعلم عوامل التوقيت غير المتجانسة على فروع الشجيرات العصبية المختلفة عبر خوارزمية BPTT المعدلة، تستطيع DH-SNNs استخراج وتخزين ودمج الميزات الزمنية على مقاييس زمنية مختلفة. هذا التباين الزمني الغني يحسن بشكل كبير الأداء الشامل لشبكات الأعصاب النابضة (SNNs) من حيث الدقة والملاءمة والصلابة والتعميم عند تنفيذ معايير الحوسبة الزمنية التي تحققنا منها في التعرف على الكلام، والتعرف على الصور، والتعرف على إشارات EEG، والتعرف على أماكن الروبوت. بفضل القيود الإضافية النادرة على نمط الاتصال، لا تزيد DH-SNNs من تكاليف التخزين والحوسبة، مما يسمح بتنفيذ فعال على الأجهزة العصبية. تُظهر هذه الدراسة مسارًا محتملاً لاستغلال الملاحظات البيولوجية بشكل مناسب لدفع الحوسبة العصبية خطوة كبيرة نحو التطبيقات الواقعية.
المقاييس المذكورة أعلاه هي خيارات سهلة للاختيار من بينها لقياس أداء DH-SNNs، ومع ذلك، فهي ليست بديهية لفهم الآلية الأساسية للعمل. لهذا الغرض، نوضح مشكلة XOR المتأخرة كمعيار بسيط ولكنه واضح لـ DH-SNNs المقترحة. في مشكلة XOR المتأخرة البسيطة، نوضح الذاكرة طويلة المدى لكل فرع دندريتي دون إعادة ضبط الحالة مثل جهد الغشاء. في مشكلة XOR المتأخرة متعددة الأوقات، نكشف أن الفروع الدندريتية المختلفة مع عوامل توقيت متغيرة يمكن أن تلتقط ميزات زمنية متعددة الأوقات، على سبيل المثال، تذكر الإشارات ذات التردد المنخفض وتتبع الإشارات ذات التردد العالي في نفس الوقت، مما يمكّن من اتخاذ قرارات مشتركة عند جسم الخلية من خلال دمج الميزات. علاوة على ذلك، نكشف أن الاتصالات على مستوى الشبكة بما في ذلك الاتصالات الأمامية بين الطبقات والاتصالات المتكررة داخل الطبقة يمكن أن تدمج أيضًا الميزات.

لإنتاج ميزات زمنية عالية المستوى لاتخاذ قرارات أكثر تعقيدًا. عادةً، تولد الفروع الشجرية الأكثر ملاءمة تنوعًا زمنيًا شجريًا أغنى يعزز من قوة التمثيل لشبكات الأعصاب الزمنية الديناميكية. نظرًا للتعقيد الأعلى لدمج الميزات الناتج عن الاتصالات المتكررة، نلاحظ تشبع الأداء بشكل أسرع في الشبكات الديناميكية مقارنةً بالشبكات الثابتة عند أداء نفس المهمة مع زيادة عدد الفروع الشجرية أو الطبقات. من خلال النظر بشكل شامل في النتائج التجريبية المذكورة أعلاه، نشرح آلية عمل التنوع الزمني الشجري في الشبكات الديناميكية لأداء مهام الحوسبة الزمنية متعددة المقاييس: دمج الميزات بين الفروع في خلية عصبية، ودمج الميزات بين الخلايا العصبية في طبقة متكررة، ودمج الميزات بين الطبقات في شبكة لها تأثيرات مشابهة وتآزرية في التقاط الميزات الزمنية متعددة المقاييس.
بشكل عام، فإن نموذج DH-SNN المقترح بسيط ولكنه فعال للغاية كما يتضح من التجارب الواسعة. موضوع مثير للاهتمام في العمل المستقبلي هو تحسين النموذج نفسه. يعتمد النموذج الحالي على نموذج الخلايا العصبية LIF، وهو أبسط شكل من أشكال الخلايا العصبية النابضة على الرغم من استخدامه على نطاق واسع. طريقة محتملة لتحسين النموذج هي بناء DH-SNNs استنادًا إلى نماذج خلايا عصبية نابضة أكثر تعقيدًا بدلاً من نموذج LIF. على سبيل المثال، تبدو نماذج الخلايا العصبية التي تحتوي على خصائص شجرية أكثر الموجودة في الخلايا العصبية البيولوجية واعدة. ومع ذلك، قد لا تفيد المحاكاة الساذجة للخلايا العصبية البيولوجية أداء الشبكات العصبية في المهام العملية، بل قد تكون ضارة في إطار الذكاء الحالي بسبب المعادلات المعقدة مع عدد هائل من المعلمات الفائقة اللازمة لوصف سلوكيات الشجرية. . لذلك، فإن تجريدًا مفصلًا لخصائص الشجرة العصبية مثل عدم الخطية والتحويل الدقيق هو المفتاح لنجاح استكشاف نماذج الخلايا العصبية. الأعمال الأخيرة اقترح طريقة تعلم فعالة مدفوعة بالشوكة تعتمد على الحسابات الشجرية كضبط لقواعد التعلم المشبكي، وتم تنفيذها لاحقًا على FPGA، مما يظهر مثالًا إيجابيًا في هذا الصدد. اتجاه آخر محتمل هو استكشاف نمط اتصال شجري قابل للتعلم. على عكس الاتصال الشجري الثابت
نمط في نمذجة لدينا، تظهر الشبكات العصبية البيولوجية اتصالات متطورة على الشجيرات. من خلال استلهامنا من هذه الظاهرة البيولوجية، يمكننا استكشاف الإمكانية لتكييف نمط الاتصال خلال عملية التعلم. على سبيل المثال، يمكننا الاستفادة من طرق مثل DEEP لتعديل نمط اتصال الشبكة تلقائيًا من خلال تقليم وإعادة توصيل المشابك وفقًا لأهميتها. علاوة على ذلك، فإن طرق التحسين المصممة بشكل جيد والمهام المرجعية المناسبة تعتبر أيضًا حاسمة لاستكشاف إمكانيات نماذج الخلايا العصبية، والتي تُترك للاستكشاف في المستقبل. بالإضافة إلى ذلك، نظرًا لأننا نركز على إظهار فعالية التباين الزمني في الشجيرات وكشف آلية عمله في هذا العمل، فإننا نختار الطبقات المتصلة بالكامل البسيطة بدلاً من الطبقات التلافيفية كأساس ولا نولي اهتمامًا كبيرًا لتقنيات تحسين التدريب. هذه هي السبب الذي يجعلنا نستبعد المقارنة مع الشبكات العصبية التلافيفية السابقة في معظم حالات الاختبار. من الممكن تمامًا تحسين أداء النموذج بشكل أكبر إذا قمنا بإدخال الهيكل التلافيفي وبعض تقنيات التحسين مثل تطبيع النشاط. .
هناك العديد من القيود الكامنة في الخلايا العصبية البيولوجية. ومع ذلك، تركز أبحاثنا بشكل أساسي على دمج الملاحظات البيولوجية بشكل فعال في النماذج الحاسوبية لحل المهام الحاسوبية في العالم الحقيقي، بدلاً من الالتزام الصارم بجميع المبادئ البيولوجية. في الواقع، لم تتبع العديد من الأعمال المتعلقة بالخوارزميات المستوحاة من البيولوجيا القيود البيولوجية الصارمة. على سبيل المثال، يقومون بتمديد نطاق عوامل توقيت إمكانيات الغشاء. وتمثل الخلايا العصبية الفردية باستخدام وحدات تجريدية تتواصل من خلال معدلات إطلاق مستمرة بدلاً من إمكانات العمل المنفصلة . هذه الانحرافات عن الدقة البيولوجية غالبًا ما تكون ضرورية لمنع تدهور أداء النموذج أثناء التدريب مع الديناميات العصبية المعقدة والتفاصيل البيولوجية. في عملنا، فإن عوامل التوقيت ليست غير محدودة ونقيدها ضمن من خلال وظيفة (انظر المعادلة (6) في الطرق)، لكن هذه ليست نتيجة لأخذ القيود البيولوجية في الاعتبار. من الصعب جداً تحقيق التوازن بين الأداء في المهام العملية والجدوى البيولوجية. الابتكارات
تقدم خوارزميات التعلم إمكانيات واعدة لتحقيق هذا التوازن، وهو موضوع مثير للاهتمام للعمل في المستقبل.
معالجة المعلومات الزمنية غير المتجانسة هي قدرة مهمة ليست فقط للدماغ ولكن أيضًا للآلات التي صنعها الإنسان. على سبيل المثال، يجب على الروبوت المجهز بأجهزة استشعار متعددة الوسائط أن يستشعر ويعالج إشارات الإدخال ذات المكونات الطيفية الغنية لاتخاذ قرارات سريعة وصحيحة. بالإضافة إلى تحسين النموذج المقترح كما ذُكر سابقًا، فإن تطبيق النموذج على سيناريوهات معقدة في العالم الحقيقي ونشره على وكلاء عمليين هو عمل واعد في المستقبل، والذي سيوفر جسرًا أوضح بين علم الأعصاب والواقع. في ذلك الوقت، ستكون التصور والتحليل للتفاعلات بين الوسائط المختلفة من منظور الديناميات العصبية مثيرة للاهتمام ومفيدة لفهم كيفية معالجة الدماغ للمعلومات متعددة الوسائط بشكل متزامن وفعال.

طرق

نمذجة الذاكرة الشجرية

يمكن اعتبار هيكل الشجرة الشوكية لخلية عصبية ناطقة كسلسلة من دوائر RC الصغيرة حيث التيار والجهد على فرع شجيري تتغير بمرور الوقت والمكان وفقًا لمعادلات تفاضلية معقدة ، والذي يتم تجاهله عادةً في نماذج خلايا LIF الشائعة. من أجل تسهيل التنفيذ على الحواسيب، نقوم بتبسيط النموذج ليتناسب مع البرمجة السهلة. على وجه التحديد، نعتبر كل فرع دندري كدائرة RC كاملة مع إزالة الميزات الدندري spatial والاحتفاظ فقط بالميزات الزمنية. التيار الدندري يمكن أن يتصرف كـ
أين هو التيار المشبكي الخارجي المدخل في الفرع الشجيري، و تمثل السعة المكافئة والمقاومة، على التوالي، و يمثل المقاومة المتصلة بين الشجرة العصبية والجسم الخلوي. ثم، لدينا
أين يمثل ثابت الزمن للفرع الشجيري و يمثل المدخلات المشبكية. إذا قمنا بتفكيك المعادلة أعلاه باستخدام طريقة أويلر، يمكننا الحصول على شكلين
لذا، يمكن كتابة النسخ المنفصلة على النحو التالي
حيث عامل التوقيت يساوي أو وفقًا لصيغتي التمييز، على التوالي. على الرغم من وجود تعريفين مختلفين لـ فيما يتعلق بـ ، يشاركون تمثيلاً موحداً إذا نظرنا فقط إلى المستوى، وهو السبب الذي نتعلم من أجله بدلاً من في تجاربنا.

عصبون نابض قائم على LIF مع تباين في الشجيرات (DH-LIF)

مع نمذجة الذاكرة على كل فرع دندريتي، نقوم بإعادة تصميم نموذج الخلية العصبية النابضة القائم على LIF التقليدي. تحتوي الخلية العصبية LIF التقليدية فقط على ذاكرة ذات زمن واحد على جهد غشاء الجسم الخلوي، بينما تحتوي الخلية العصبية DH-LIF على ذاكرات متعددة الزمن على الدندريت. يمكن أن تكون سلوكيات خلية DH-LIF
تحكمه
أين هو جهد غشاء السومّا، هو عامل توقيت جهد الغشاء، هو مقاومة غشاء الجسم الخلوي والتي تم تعيينها إلى للتبسيط، هو مؤشر الفروع الشجرية، و هو عتبة إطلاق جهد الغشاء. هي دالة هيفيسايد التي تتبع متى و بخلاف ذلك. عندما يطلق العصبون دفعة، ينخفض جهد الغشاء بمقدار لتجنب العوامل الزمنية السلبية في المعادلة (5)، و يجب أن تكون مقيدة ضمن الذي يتم تحقيقه من خلال إضافة دالة سيغمويد للتثبيت الناعم:
الإدخال المشبكي على -فرع الشجرة الشجيرية هو مجموع المدخلات الأمامية والمدخلات المتكررة:
أين و تمثل متجهات المشابك الأمامية والمكررة، على التوالي، وهما متجهان نادران حيث أن المشابك المتصلة فقط بـ فروع الشجرة الشوكية -ث صحيحة.

شبكة عصبية صممت باستخدام خلايا DH-LIF (DH-SNN)

تمديد نموذج الخلايا العصبية DH-LIF إلى نموذج SNN (DH-SNN)، نضيف أولاً معلومات الطبقة إلى المعادلة (5) ونحصل على ديناميات طبقة SNN كما يلي
أين تشير إلى مؤشر الطبقة و يمثل الضرب العنصري. ثم، التيار المشبكي على يمكن أن يكون الفرع الشجيري -ث
أين و تشير إلى الأشكال المصفوفية للأوزان المشبكية الأمامية والمتكررة، على التوالي، والتي تكون مرة أخرى متفرقة حيث أن المشابك المتصلة بـ -الشُعَب الشجرية من الخلايا العصبية في الطبقة صالحة.

قيود الاتصال النادرة

عادةً، تحتوي الطوبولوجيا على مستوى الشبكة على حالتين: مع أو بدون اتصالات متكررة. نحن نسمي الشبكة العصبية الديناميكية ذات الاتصالات الأمامية فقط DH-SFNN وتلك التي تحتوي على اتصالات متكررة DH-SRNN. نفترض أن طبقة تحتوي على الخلايا العصبية لديها المدخلات، ثم لدينا و . من منظور يمكن الإشارة إلى مصفوفة وزن المشابك العصبية للعصبون -th، المتصلة بالمدخلات الأمامية والمدخلات المتكررة، على أنها و على التوالي. باختصار، و يتم تجميعها على التوالي بواسطة -صف من و .
في طبقة من DH-SFNN، هناك فقط اتصالات أمامية، أي أن المعادلة (9) تصبح . نحن نقيد الـ
روابط كل خلية عصبية كما يلي
أين يمثل مجموعة المؤشرات للوصلات العصبية الأمامية المتصلة بـ -فرع شجيري -ث، أي مجموعة العناصر غير الصفرية في -الصف في تشير إلى حجم المجموعة. وبالمثل، بالنسبة لطبقة من DH-SRNN، نقيد كل من الاتصالات الأمامية والاتصالات المتكررة على النحو التالي
أين يطبق تعريفات مماثلة مع على المشابك المتكررة. من المعادلات أعلاه، يمكن ملاحظة أن حلنا لن يزيد من تكاليف الاتصال والحساب مع زيادة عدد الفروع الشجرية. يتم تحقيق توازن كبير في عدد المشابك على كل فرع شجري من خلال تقييد الاتصالات بنمط متفرق. بهذه الطريقة، يحتفظ DH-SNN بميزة الحساب الخفيف للمشابهات العصبية العادية.

تعلم DH-SNN

من أجل تحقيق أداء عالٍ، نتبنى خوارزمية التعلم SNNversion BPTT الناشئة. وتمتد من الشبكات العصبية السريعة العادية إلى شبكاتنا العصبية السريعة الديناميكية. تشمل معلمات النموذج أوزان التشابك، W، U، وعوامل التوقيت، يتم تعلمها تلقائيًا أثناء التدريب. بافتراض أن دالة الخسارة هي وتطبيق قاعدة السلسلة في الانحدار التدرجي، يمكن أن يتبع BPTT لـ DH-SNN
أين يمثل تدرج دالة الخسارة فيما يتعلق بمتغيرات محددة. لاحظ أن في الواقع، لا يوجد بسبب الأنشطة النابضة غير القابلة للاشتقاق. لمعالجة هذه المشكلة، نتبنى التدرج البديل المستخدم على نطاق واسع ولكن نستبدل المنحنى التقريبي المستطيل الصلب بمنحنى متعدد غاوسي ناعم. :
أين تؤثر على الحجم و يؤثر على عرض التدرج. قمة دالة التدرج البديل تكون عند عتبة الإطلاق. حيث تطلق الخلية العصبية دفعة. أخيرًا، يمكن الحصول على تدرجات المعلمات بواسطة

مجموعات البيانات والمهام

تحتوي مشكلة XOR ذات التصميم الذاتي على نوعين من أنماط النبضات المدخلة بمعدلات إطلاق عالية أو منخفضة. قمنا بتعيين نمط معدل الإطلاق العالي مع احتمال إطلاق قدره 0.6 ونمط معدل الإطلاق المنخفض مع
احتمالية إطلاق 0.2. كل نمط من النبضات يستمر لمدة 10 مللي ثانية وطول كل خطوة زمنية في المحاكاة هو 1 مللي ثانية في كل من مشكلة XOR ذات النبضات المتأخرة ومشكلة XOR ذات النبضات متعددة الأوقات. على وجه التحديد، في مشكلة XOR ذات النبضات متعددة الأوقات، نحدد الفاصل الزمني بين نمطين من نبضات الإدخال إلى لإشارة 2 بفترات أسرع. بالإضافة إلى ذلك، أضفنا ضوضاء مفاجئة مع احتمال إطلاق قدره 0.01 خلال مدة التجارب. بالنسبة لمشاكل XOR النابضة، قمنا بإجراء التجارب مع 10 تجارب متكررة.
بالإضافة إلى مشاكل XOR المتفجرة المصممة ذاتيًا، نقوم أيضًا باختبار نماذجنا على معايير قياسية. تقوم مجموعات بيانات الأرقام المتفجرة من هايدلبرغ (SHD) وأوامر الكلام المتفجرة (SSC) بتحويل البيانات الصوتية الأصلية إلى تنسيق النبضات من خلال نموذج أذن داخلية بيوني. تحتوي SHD على حوالي 10,000 تسجيل عالي الجودة للكلام باللغة الإنجليزية والألمانية للأرقام من 0 إلى 9. تتضمن مجموعة البيانات 12 متحدثًا، منهم 6 إناث و6 ذكور. تتراوح أعمار المتحدثين من 21 إلى 56 عامًا، بمتوسط عمر 29 عامًا. يسجل كل متحدث حوالي 40 تسلسلًا لكل لغة ولكل رقم، مما ينتج عنه إجمالي 10,420 تسلسلًا. يتم قص كل تسجيل بواسطة عتبة مرتبطة بكل متحدث، والتي يتم تحسينها بواسطة مُحسِّن صندوق أسود. يتم تطبيق معالجة إضافية باستخدام تحويل فورييه السريع ونافذة هانينغ مدتها 30 مللي ثانية. مجموعة بيانات SSC مشتقة من مجموعة بيانات أوامر الكلام من جوجل (الإصدار GSC 0.02). يتكون كل عينة من ملف صوتي لكلمة إنجليزية منطوقة بمعدل أخذ عينات قدره 16 كيلوهرتز. يحتوي مجموعة البيانات الكاملة على 105,829 ملف صوتي مع 35 فئة. وبالمثل، يتم تطبيق نافذة هانينغ مدتها 30 مللي ثانية في بداية ونهاية كل تسجيل صوتي قبل تحويل النبضات. قمنا أيضًا بمعالجة بيانات النبضات الخام قبل إدخالها في الشبكات اللاحقة. على وجه التحديد، قمنا بأخذ عينات من سلاسل النبضات الأصلية بفاصل زمني قدره وقصت البيانات الأصلية وفقًا للحد الأقصى للوقت . يتم تحويل كل تسجيل إلى مصفوفة، حيث هو عدد الخطوات الزمنية الإجمالية. الـ عمود -th من المصفوفة هو متجه بطول 700، يسجل ما إذا كان القناة تطلق نبضات خلال [ ، idt). إذا كان هناك ارتفاع أو أكثر في المدة، فإن القيمة المقابلة للقناة هي 1، وإلا فهي 0. يتم تقسيم مجموعات البيانات المذكورة أعلاه إلى عدة مجموعات مثل مجموعات التدريب والاختبار والتحقق. على وجه الخصوص، تحتوي مجموعات تدريب واختبار SHD على 8,156 و 2,264 قطعة من البيانات، على التوالي؛ بينما تحتوي مجموعات تدريب واختبار والتحقق من SSC على 75,466 و 9,981 و 20,382 قطعة من البيانات. بالنسبة لمجموعات بيانات SHD و SSC، نقوم بإجراء التجارب مع 5 تجارب متكررة.
تستند مجموعات بيانات S-MNIST و PS-MNIST إلى مجموعة بيانات الأرقام المكتوبة بخط اليد، MNIST، لمهام التعرف على الصور. في S-MNIST، كل “ تم تحويل الصورة في مجموعة بيانات MNIST الأصلية إلى تسلسل بكسل بطول 784. في كل مرة يصل فيها بكسل إلى النموذج، يحتاج الشبكة العصبية إلى تذكر سلسلة زمنية بطول 784 ثم تصنيف الرقم المكتوب بخط اليد المدخل. في PS-MNIST، يتم خلط جميع تسلسلات البكسل قبل حقنها في النموذج، مما يزيد من صعوبة التذكر والتصنيف مقارنةً بـ S-MNIST. في جوهرها، تعتبر مجموعتا بيانات S-MNIST و PS-MNIST معيارين مهمين لتعلم التسلسل وتستخدمان بشكل رئيسي لتقييم قدرة الذاكرة طويلة المدى للشبكات الزمانية المكانية. بالنسبة لهذه المجموعات، يتم تغذية المدخلات ذات القيم الحقيقية مباشرة إلى DHSNNs. الطبقة الأولى من DH-SNNs تستقبل المدخلات ذات القيم الحقيقية بدلاً من المدخلات النابضة، لكنها لا تزال تؤدي ديناميات عصبية نابضة كطبقة DH-SNN عادية باستثناء تنسيق المدخلات المختلف. بهذه الطريقة، تعمل الطبقة الأولى فعليًا كطبقة ترميز تحول المدخلات غير النابضة إلى مخرجات نابضة ثم ترسل إلى الطبقات بعد المشبك. تعمل هذه الخطة الترميز أيضًا لجميع مجموعات البيانات غير النابضة التالية.
تحتوي مجموعة بيانات GSC v. 1 على 64,727 عبارة من 1881 متحدثًا يقولون 35 أمرًا مختلفًا في الكلام. في تجاربنا، اتبعنا إعداد مجموعة البيانات كما في طرق SNN الأخرى التي تحول 30 فئة من مجموعة البيانات إلى 12 فئة تشمل عشر كلمات: “نعم”، “لا”، “أعلى”، “أسفل”، “يسار”، “يمين”، “تشغيل”، “إيقاف”، “توقف”، “اذهب”، وفئة خاصة إضافية تُسمى “غير معروف” تغطي الفئات الـ 25 المتبقية
مع فئة إضافية “صمت” تم استخراجها عشوائيًا من ملفات الصوت الضوضائية الخلفية. استخدمنا طريقة استخراج ميزات موجودة أي، اعتماد مرشحات لوغاريتمية من نوع ميل واستخراج أول ثلاث مشتقات لها من ملفات الصوت الخام عن طريق حساب لوغاريتم معاملات 40 مرشح ميل باستخدام مقياس ميل بين 20 هرتز و 4 كيلوهرتز للمعالجة المسبقة. كل إطار من المدخلات يحتوي على قنوات. يتم تطبيع الطيف الزمني وطول كل خطوة زمنية في المحاكاة هو 10 مللي ثانية. وبالتالي، يتم تحويل كل عينة صوتية إلى تسلسل من 101 إطارًا مع 120 قناة. تحتوي مجموعة بيانات TIMIT على إشارات صوتية أكوستية لجمل نطقها 630 متحدثًا من 8 مناطق لهجات رئيسية في الولايات المتحدة. الهدف من المهام هو التعرف على الأصوات في كل إطار مدته 10 مللي ثانية في كل جملة. نتبع إعدادات التجربة لعمل سابق تحتوي مجموعات التدريب والتحقق والاختبار على و 192 تسلسل، على التوالي. يتم تقييم الأداء على مجموعة الاختبار الأساسية. تم معالجة بيانات الصوت الخام مسبقًا إلى 13 معامل تردد ميل (MFCCs) ثم تم تحويلها إلى 39 قناة إدخال تشمل المشتقات من الدرجة الأولى والثانية وتركيباتها. ينتمي كل إطار إلى 61 فئة من الأصوات. قمنا بتعيين فترة زمنية لمحاكاة DH-SNNs إلى 1 مللي ثانية، لذا يتم إدخال كل إطار من إشارة إدخال مدتها 10 مللي ثانية إلى النموذج لمدة 10 خطوات زمنية متتالية.
تحتوي مجموعة بيانات DEAP على بيانات EEG من 32 قناة وبيانات فسيولوجية طرفية من 8 قنوات تم تسجيلها بواسطة مصفوفات الأقطاب الكهربائية من 32 مشاركًا أثناء مشاهدة 40 مقطع فيديو موسيقي مدته دقيقة واحدة. قبل مشاهدة الفيديو الموسيقي، عانى كل مشارك من فترة من وقت تسجيل خط الأساس خلاله يتم عرض علامة تثبيت على الشاشة. تم أخذ عينات من إشارات EEG بمعدل 512 هرتز ثم تم تقليلها إلى 128 هرتز مع إزالة آثار تخطيط كهربائية العين (EOG) للمعالجة المسبقة. في تجاربنا، تم استخدام بيانات EEG من 32 قناة فقط للتصنيف. لذلك، فإن أبعاد بيانات EEG الكلية هي (#المشاركين #التجارب #القنوات #الطول الزمني). بعد مشاهدة الفيديو الموسيقي، طُلب من كل مشارك الإبلاغ عن عواطفهم بمستويات من الإثارة، والقيمة، والإعجاب، والسيطرة من 1 إلى 9. من بينها، تتراوح الإثارة من غير النشطة (مثل، غير مهتم، ملل) إلى النشطة (مثل، يقظ، متحمس)، بينما تتراوح القيمة من غير السارة (مثل، حزين، مضغوط) إلى السارة (مثل، سعيد، مرفوع). في تجاربنا، نستخدم بعدين لوصف العواطف، الإثارة والقيمة، ثم نربط الدرجة من 1 إلى 9 بثلاثة تسميات: منخفض (درجة أقل من 4)، متوسط (درجة بين 4 و 6)، وعالي (درجة أعلى من 6)، أو إلى تسميتين: منخفض (درجة أقل من 5) وعالي (درجة أعلى من 5). بهذه الطريقة، تحتوي كل تجربة على تسميتها من القيمة والإثارة للتعرف. تم معالجة بيانات EEG الكلية مرة أخرى قبل إدخالها إلى النماذج. نتبع طريقة المعالجة المسبقة المستخدمة من قبل تاو وآخرون. يتم استخدام أول بيانات كل تجربة لإنتاج متوسط إشارة خط الأساس عن طريق حساب متوسط البيانات في الثانية. تم تطبيع بيانات الـ 60 ثانية التالية عن طريق طرح متوسط إشارة خط الأساس كل ثانية ثم تقسيمها إلى 20 جزءًا من لكل منها. أخيرًا، يتم تحويل أبعاد بيانات EEG الكلية إلى (#عينات #القنوات #الطول الزمني). نختار من البيانات كمجموعة تدريب و 10% المتبقية كمجموعة اختبار.
تم جمع مجموعة بيانات NeuroVPR لمهمة التعرف على المكان البصري للروبوت بواسطة روبوت Clearpath Jackal في بيئة المختبر. تم نشر كاميرا DAVIS 346 الحدثية على منصة الروبوت، تجمع الصور المعتمدة على الإطارات وتدفقات أحداث النبض في الوقت الحقيقي بينما يتحرك الروبوت في مسار بطول 300 متر في غرفة المختبر. الدقة البصرية هي . تتكون مجموعة البيانات من إجمالي 10 مسارات متكررة تم تسجيلها في الليل. في كل مسار، يبدأ الروبوت ويتوقف في نفس الموقع ويتبع نفس الطريق. تتكون مجموعة البيانات من إجمالي إطارات RGB وحوالي 1.7 مليار حدث نبضي. الهدف من المهمة هو جعل الروبوت يتعرف على موقعه من خلال فترة من الإشارات البصرية على المسار. لاحظ أننا نستخدم فقط أحداث النبض في هذه المهمة. في تجاربنا، نقسم كل مسار إلى 100 جزء بطول موحد ونحدد الأحداث المقابلة في كل جزء بنفس التسمية. تم إدخال أحداث النبض في مدة 21 مللي ثانية إلى نماذج SNN وولدت التنبؤ الذي يشير إلى موقع الروبوت. اخترنا عشوائيًا ستة مسارات كمجموعة تدريب، وثلاثة مسارات كمجموعة تحقق، ومسار واحد كمجموعة اختبار.
إعداد تجريبي

لكل التجارب، تحتوي الشبكات على جزئين بما في ذلك طبقات SNN المكدسة وطبقة قراءة تالية. لمشاكل XOR النابضة المصممة ذاتيًا ومجموعة بيانات NeuroVPR، تكون طبقة القراءة طبقة خطية بسيطة تقوم بفك تشفير مخرجات النبض من آخر طبقة SNN إلى إمكانية

للفئة -th في الخطوة الزمنية -th. على مجموعات بيانات SHD و SSC و GSC و TIMIT و DEAP، تكون طبقة القراءة طبقة SNN غير نابضة مع إمكانيات غشاء متسربة وتولد إمكانية للفئة -th عن طريق فك تشفير إمكانيات الغشاء كـ على SHD و GSC، و على SSC و TIMIT و DEAP. في المهام المذكورة أعلاه، استخدمنا منحنى متعدد غاوسي يتبع لتقريب تدرج النشاط النبضي غير القابل للتفريق. على مجموعات بيانات S-MNIST و PS-MNIST، تكون طبقة القراءة طبقة SNN عادية تقوم بفك تشفير مخرجات النبض عن طريق عد النبضات لكل فئة، أي، . على هاتين المجموعتين، تكون المعلمات الفائقة لمنحنى التقريب متعدد غاوسي هي , , . بالنسبة لمجموعات البيانات غير النابضة مثل GSC و S-MNIST و PS-MNIST، لاحظ أن إدخال أول طبقة SNN هو قيم غير نابضة. بالنسبة لجميع المهام المذكورة أعلاه، فإن دالة الخسارة المعتمدة هي خسارة Cross-Entropy تتبع حيث تمثل إمكانية التنبؤ للفئة -th و هي الحقيقة الأرضية. استخدمنا مُحسِّن آدم بمعدل تعلم ابتدائي ومجدول معدل تعلم خطوة. تم بناء الكود باستخدام إطار عمل Pytorch وتم تنفيذه على 8 وحدات معالجة رسومية NVIDIA RTX 3090.
بالنسبة لشبكات DH-SNN، هناك العديد من المعلمات الفائقة التي يجب تهيئتها، مثل عتبات الإطلاق، وعوامل توقيت الجهد الغشائي، وعوامل توقيت الشجيرات. لمزيد من الإعدادات التفصيلية للمعلمات الفائقة، وهياكل الشبكات، وأحجام الدفعات، يرجى الرجوع إلى المعلومات التكميلية. على وجه التحديد، توضح الجدول التكميلية S1 تفاصيل تكوين النموذج للمهام المستخدمة في دراسات الإزالة. في هذه المهام، نظرًا لاختلاف هيكل الشبكة كثيرًا، مثل طبقة واحدة أو عدة طبقات في SFNNs أو SRNNs، نقدم فقط عدد الخلايا العصبية لكل طبقة في الجدول بينما نقدم التفاصيل في الشكل التكميلية S1. توضح الجدول التكميلية S2 تفاصيل تكوين النموذج لمهام أخرى على مجموعات بيانات الحوسبة الزمنية القياسية. في هذه المهام، لا نقوم بتنفيذ إزالة شاملة ولكن نعرض فقط أفضل النتائج مع هياكل الشبكة التي يمكن أن توازن بين الأداء والكفاءة. لذلك، نقدم مباشرة هياكل الشبكة المحددة في الجدول. لاحظ أننا نستخدم DH-SRNN مع هيكل ثنائي الاتجاه، والذي يتكون من طبقتين متوازيتين ويتلقى المدخلات من كلا الاتجاهين الأمامي والخلفي. ثم يتم دمج المخرجات النابضة للطبقتين وإدخالها إلى طبقة فك التشفير. تقدم الجدول التكميلية S3 تكوينات التهيئة لعوامل التوقيت التي استخدمناها. لاحظ أن عوامل التوقيت لكل فرع شجيري والجهد الغشائي، و و تساوي في الواقع دالة سيغمويد و على التوالي، حيث أن و

هي المعلمات المحسّنة حقًا أثناء التدريب.

تأثير آلية إعادة تعيين الجهد الغشائي
نحلل تأثير آلية إعادة تعيين الجهد الغشائي على قدرة الذاكرة طويلة الأمد باستخدام عدة مهام. تشمل نماذج الخلايا العصبية المختبرة خلية LIF العادية مع آليات إعادة تعيين مختلفة وخلية DH-LIF. تم اختيار ثلاث آليات لإعادة تعيين الجهد الغشائي: إعادة تعيين صعبة، إعادة تعيين ناعمة، وبدون إعادة تعيين. تُستخدم خلية LIF العادية مع آلية إعادة التعيين الصعبة على نطاق واسع، والتي
تحكمها
يمكن وصفها بأنها
وأخيرًا، فإن الخلية التي لا تحتوي على آلية إعادة التعيين تتبع في المعادلات أعلاه، هو الجهد الغشائي، هو عامل توقيت الجهد الغشائي، هو المدخلات المشبكية، هو المخرج النابض، و
هو عتبة الإطلاق. أولاً، نختبر قدرة الذاكرة طويلة الأمد لـ SFNNs بناءً على نماذج خلايا LIF المذكورة أعلاه باستخدام مشكلة XOR النابضة المتأخرة. يتم مقارنة نتائج SFNNs العادية مع آليات إعادة تعيين الجهد الغشائي و DH-SFNNs. كما هو موضح في الشكل التكميلية S3a، فإن SFNNs العادية مع آليات إعادة التعيين تؤدي الأسوأ في هذه المهمة. وذلك لأن آليات إعادة التعيين ستقوم بشكل دوري بمسح بعض المعلومات الزمنية المخزنة في جهد غشاء السوم. خاصة، ستقوم آلية إعادة التعيين الصعبة بمسح المعلومات تمامًا، مما يجعلها تفشل في تذكر المعلومات على المدى الطويل. تخفف آلية إعادة التعيين الناعمة هذه المشكلة قليلاً. من الواضح أن إزالة آليات إعادة التعيين أو استخدام خلية DH-LIF المقترحة مع الذاكرة الشجرية يمكن أن يتجنب هذه المشكلة، وبالتالي تحسين قدرة الذاكرة طويلة الأمد بشكل كبير. بعد ذلك، نختبر النماذج المذكورة أعلاه على مجموعات بيانات SHD و SSC تحت فترات زمنية مختلفة من إلى . كما هو موضح في الشكل التكميلية S3b، c، لا تزال SFNNs العادية بدون آلية إعادة التعيين و DH-SFNNs تظهر قدرة أفضل على الذاكرة طويلة الأمد خاصة عند معالجة بيانات ذات مقياس زمني بطيء مع . ومع ذلك، مع زيادة فترة العينة الزمنية، تتدهور أداء SFNNs العادية بدون آلية إعادة التعيين بسرعة، مما يعني أنها لا تستطيع التعامل مع المعلومات ذات المقياس الزمني السريع بدون أي آلية إعادة تعيين لمسح الذاكرة التاريخية. من بين هذه النماذج، يمكن لـ DH-SFNNs التعميم بشكل أفضل عند معالجة المعلومات من المقياس الزمني السريع إلى المقياس الزمني البطيء. ويرجع ذلك إلى كل من الذاكرة طويلة الأمد للفروع الشجرية وإزالة المعلومات التاريخية بشكل دوري على الجهد الغشائي. عندما تكون عوامل توقيت الشجيرات صغيرة، ستتصرف DH-SFNN مثل SFNN العادي مع آلية إعادة التعيين الناعمة، مما يؤدي بشكل جيد عند المقياس الزمني السريع، مثل هنا. بالمقابل، عندما تكون عوامل توقيت الشجيرات كبيرة، تتلاشى التيارات الشجرية ببطء مع ذاكرة طويلة الأمد تتصرف مثل الجهود الغشائية لـ SFNNs العادية بدون آلية إعادة التعيين، مما يؤدي بشكل جيد عند المقياس الزمني البطيء، مثل

هنا.

تأثير نمط الاتصال الشجيري للحفاظ على حجم المعلمات عند مستوى منخفض، نضيف قيودًا نادرة على الاتصالات الشجرية لـ DH-SNNs. بالتفصيل، نجعل كل فرع شجيري في خلية DH-LIF يتصل فقط بجزء من المدخلات المشبكية. في هذه التجربة، نغير نسبة ندرة الاتصال ( ) في DH-SFNN بطبقة واحدة مع ثمانية فروع شجرية في كل خلية ونقيم أدائها على مجموعات بيانات SHD و SSC. هنا تمثل نسبة الندرة نسبة المدخلات المشبكية المتصلة بكل فرع شجيري على إجمالي المدخلات المشبكية. بالنظر إلى إعداد
لدينا حيث أن يدل على مجموعة الفهارس للمدخلات المشبكية المتصلة بالفرع الشجيري و يدل على حجم المجموعة. هنا
يتم تحديده بواسطة حيث أن يمثل عدد الفروع الشجرية في كل خلية و هو تسلسل عشوائي من 1 إلى والذي يختلف لكل خلية. لذلك، عندما نحدد ، لا توجد مدخلات مشبكية متداخلة بين الفروع الشجرية في كل خلية. بينما عندما نحدد ، يمكن لبعض المدخلات المشبكية الاتصال بعدة فروع شجرية في نفس الوقت. في هذه الحالة، ستقوم آخر
بقراءة الفهارس بشكل دائري من البداية لتجنب overflow. تظهر النتائج التجريبية في الشكل التكميلية S10. عندما تكون نسبة الندرة قريبة من هنا ، تؤدي النماذج بشكل جيد. على العكس، عندما تكون نسبة الندرة صغيرة جدًا أو كبيرة جدًا، يتدهور الأداء إلى درجات دقة أقل من 88% على SHD وأقل من

على SSC. بشكل عام، من ناحية، يجب أن تغطي المدخلات المشبكية المتصلة بكل خلية جميع المدخلات المشبكية للحصول على المعلومات قدر الإمكان. من ناحية أخرى، فإن التداخل المفرط للمدخلات المشبكية المتصلة بفروع شجرية مختلفة قد يسبب الإفراط في التكيف وتدهور الأداء.

تفاصيل التنفيذ على الأجهزة العصبية يدعم شريحة TianjicX العصبية مجموعة تعليمات أولية هجينة تغطي مجموعة واسعة من العمليات. لتنفيذ DH-SNNs على الشريحة، هناك حاجة فقط إلى خمس عمليات مدرجة في الشكل التكميلية S11a. على عكس SNNs العادية، تتطلب DH-SNNs نوعين من عمليات LIF، واحدة تنتج نبضات ثنائية لديناميات السوم وواحدة تنتج تيارات مستمرة لديناميات الشجيرات. في TianjicX، يتم تمثيل النبضات بأرقام ثلاثية 2 بت بينما يتم تمثيل الجهود الغشائية بأعداد صحيحة 8 بت. يمكن العثور على التكوين التفصيلي لمعلمات عملية LIF في الجدول التكميلية S2 من مرجع حديث
يتم توضيح التعيين المنطقي لشبكات DH-SNNs على النوى الوظيفية في TianjicX في الشكل التكميلي S11b. يمثل كل مربع متقطع نواة وظيفية تحتوي على عمليات وتدفق البيانات. باستخدام مثال شبكة DH-SFNN ذات الطبقة الواحدة على مجموعة بيانات SHD باستخدام أربع نوى وظيفية (يسار)، تتلقى النواة الوظيفية في مجموعة المرحلة الزمنية الأولى (المجموعة 1) نبضات من المضيف وتقوم بإرسالها إلى النوى الوظيفية في المجموعة 2. تقسم كل نواة وظيفية في المجموعة 2 المدخلات أولاً إلى أربعة أجزاء تتوافق مع أربعة فروع شجرية، ثم تقوم كل مرة بتنفيذ عملية FC وعملية LIF غير النبضية لتوليد التيارات الشجرية بنفس مؤشر الفرع لـ 32 خلية عصبية في مجموعة الخلايا العصبية وأخيرًا تنفذ عملية جمع تليها عملية LIF نبضية لتوليد نبضات الخروج من 32 خلية عصبية نهائية. تحتوي مجموعة المرحلة الزمنية الأخيرة على نواة وظيفية واحدة فقط، والتي تنفذ عملية FC وعملية LIF غير النبضية بناءً على النبضات المجمعة من المجموعة السابقة وترسل المخرجات إلى المضيف. بالنسبة لشبكة DH-SFNN ذات الأربع طبقات على مجموعة بيانات SSC باستخدام 26 نواة وظيفية (يمين)، فإن تعيين النموذج مشابه جدًا لذلك لشبكة DH-SFNN ذات الطبقة الواحدة باستثناء الأعداد المختلفة من الطبقات والخلايا العصبية.
تُنفذ العمليات في كل نواة وظيفية بالتسلسل، بينما تعمل النوى الوظيفية في نفس مجموعة المرحلة الزمنية بشكل متوازي. بالنسبة للتنفيذ بين المجموعات، يتم جدولة مجموعات المرحلة الزمنية بطريقة متسلسلة كما هو موضح في الشكل التكميلي S11c. بهذه الطريقة، يمكن تحسين الإنتاجية، والتي تعتمد على مجموعة المرحلة الزمنية ذات أطول زمن تأخير. بالنسبة لكلا النموذجين، فإن مجموعة المرحلة الزمنية الأولى، أي المجموعة 2، التي تعالج أكبر عدد من مدخلات النبضات، تستهلك أطول زمن تأخير وتحدد الإنتاجية العامة. لاحظ أن أرقام دورات الساعة المحددة في الشكل التكميلي S11c تم الحصول عليها من محاكي الشريحة الدقيق بدلاً من اختبار الشريحة الحقيقي، لذا توجد أخطاء معينة مقارنة بالنتائج المقاسة فعليًا في الشكل 6f.

ملخص التقرير

معلومات إضافية حول تصميم البحث متاحة في ملخص تقرير Nature Portfolio المرتبط بهذه المقالة.

توفر البيانات

جميع البيانات المستخدمة في هذه الورقة متاحة للجمهور ويمكن الوصول إليها على http://yann.lecun.com/exdb/mnist/ لمجموعات بيانات S-MNIST و PS-MNIST، https://zenkelab.org/resources/spiking-heidelberg-datasets-shd/ لمجموعات بيانات SHD و SSC، https://tensorflow.google.cn/datasets/ catalog/speech_commands/لمجموعة بيانات GSC. مجموعة بيانات TIMIT متاحة عند الطلب عبر https://doi.org/10.35111/17gk-bn40. مجموعة بيانات DEAP متاحة عند الطلب عبر https://www.eecs.qmul.ac.uk/mmv/ datasets/deap/. مجموعة بيانات NeuroVPR متاحة على Zenodo: https:// doi.org/10.5281/zenodo.7825811.

توفر الشيفرة

الشيفرة المصدرية متاحة للجمهور على https://github.com/eva1801/ DH-SNN.

References

  1. Maass, W. Networks of spiking neurons: the third generation of neural network models. Neural Netw. 10, 1659-1671 (1997).
  2. Sengupta, A., Ye, Y., Wang, R., Liu, C. & Roy, K. Going deeper in spiking neural networks: Vgg and residual architectures. Front. Neurosci. 13, 95 (2019).
  3. Zheng, H., Wu, Y., Deng, L., Hu, Y. & Li, G. Going deeper with directlytrained larger spiking neural networks. In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 35, 11062-11070 (2021).
  4. Wu, Y. et al. Efficient visual recognition: A survey on recent advances and brain-inspired methodologies. Machine Intell. Res. 19, 366-411 (2022).
  5. Wu, Y. et al. Direct training for spiking neural networks: Faster, larger, better. In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, 1311-1318 (2019).
  6. Monsa, R., Peer, M. & Arzy, S. Processing of different temporal scales in the human brain. J. Cogn. Neurosci. 32, 2087-2102 (2020).
  7. Amir, A. et al. A low power, fully event-based gesture recognition system. In Proceedings of the IEEE conference on computer vision and pattern recognition, 7243-7252 (2017).
  8. Li, H., Liu, H., Ji, X., Li, G. & Shi, L. Cifar10-dvs: an event-stream dataset for object classification. Front. Neurosci. 11, 309 (2017).
  9. Golesorkhi, M. et al. The brain and its time: intrinsic neural timescales are key for input processing. Commun. Biol. 4, 1-16 (2021).
  10. Wolff, A. et al. Intrinsic neural timescales: temporal integration and segregation. Trends Cogn. Sci. 26,159-173 (2022).
  11. Harris, K. D. & Shepherd, G. M. The neocortical circuit: themes and variations. Nat. Neurosci. 18, 170-181 (2015).
  12. Gjorgjieva, J., Drion, G. & Marder, E. Computational implications of biophysical diversity and multiple timescales in neurons and synapses for circuit performance. Curr. Opin. Neurobiol. 37, 44-52 (2016).
  13. Hausser, M., Spruston, N. & Stuart, G. J. Diversity and dynamics of dendritic signaling. Science 290, 739-744 (2000).
  14. Losonczy, A., Makara, J. K. & Magee, J. C. Compartmentalized dendritic plasticity and input feature storage in neurons. Nature 452, 436-441 (2008).
  15. Meunier, C. & d’Incamps, B. L. Extending cable theory to heterogeneous dendrites. Neural Comput. 20, 1732-1775 (2008).
  16. Chabrol, F. P., Arenz, A., Wiechert, M. T., Margrie, T. W. & DiGregorio, D. A. Synaptic diversity enables temporal coding of coincident multisensory inputs in single neurons. Nat. Neurosci. 18, 718-727 (2015).
  17. Gerstner, W., Kistler, W. M., Naud, R. & Paninski, L.Neuronal dynamics: From single neurons to networks and models of cognition (Cambridge University Press, 2014).
  18. Bittner, K. C., Milstein, A. D., Grienberger, C., Romani, S. & Magee, J. C. Behavioral time scale synaptic plasticity underlies ca1 place fields. Science 357, 1033-1036 (2017).
  19. Cavanagh, S. E., Hunt, L. T. & Kennerley, S. W. A diversity of intrinsic timescales underlie neural computations. Front. Neural Circuits 14, 615626 (2020).
  20. London, M. & Häusser, M. Dendritic computation. Annu. Rev. Neurosci. 28, 503-532 (2005).
  21. Poirazi, P. & Papoutsi, A. Illuminating dendritic function with computational models. Nat. Rev. Neurosci. 21, 303-321 (2020).
  22. Bicknell, B. A. & Häusser, M. A synaptic learning rule for exploiting nonlinear dendritic computation. Neuron 109, 4001-4017 (2021).
  23. Spruston, N. Pyramidal neurons: dendritic structure and synaptic integration. Nat. Rev. Neurosci. 9, 206-221 (2008).
  24. Branco, T., Clark, B. A. & Häusser, M. Dendritic discrimination of temporal input sequences in cortical neurons. Science 329, 1671-1675 (2010).
  25. Li, X. et al. Power-efficient neural network with artificial dendrites. Nat. Nanotechnol. 15, 776-782 (2020).
  26. Boahen, K. Dendrocentric learning for synthetic intelligence. Nature 612, 43-50 (2022).
  27. Tzilivaki, A., Kastellakis, G. & Poirazi, P. Challenging the point neuron dogma: Fs basket cells as 2-stage nonlinear integrators. Nat. Commun. 10, 3664 (2019).
  28. Bono, J. & Clopath, C. Modeling somatic and dendritic spike mediated plasticity at the single neuron and network level. Nat. Commun. 8, 706 (2017).
  29. Naud, R. & Sprekeler, H. Sparse bursts optimize information transmission in a multiplexed neural code. Proc. Nat. Acad. Sci. 115, E6329-E6338 (2018).
  30. Dayan, P. & Abbott, L. F. et al. Theoretical neuroscience: computational and mathematical modeling of neural systems. J. Cogn. Neurosci. 15, 154-155 (2003).
  31. Perez-Nieves, N., Leung, V. C., Dragotti, P. L. & Goodman, D. F. Neural heterogeneity promotes robust learning. Nat. Commun. 12, 1-9 (2021).
  32. Pagkalos, M., Chavlis, S. & Poirazi, P. Introducing the dendrify framework for incorporating dendrites to spiking neural networks. Nat. Commun. 14, 131 (2023).
  33. Yin, B., Corradi, F. & Bohté, S. M. Accurate and efficient time-domain classification with adaptive spiking recurrent neural networks. Nat. Machine Intell. 3, 905-913 (2021).
  34. Liu, P., Qiu, X., Chen, X., Wu, S. & Huang, X.-J. Multi-timescale long short-term memory neural network for modelling sentences and documents. In Proceedings of the 2015 conference on empirical methods in natural language processing, 2326-2335 (2015).
  35. Loewenstein, Y. & Sompolinsky, H. Temporal integration by calcium dynamics in a model neuron. Nat. Neurosci. 6, 961-967 (2003).
  36. Warden, P. Speech commands: A dataset for limited-vocabulary speech recognition. arXiv preprint arXiv:1804.03209 (2018).
  37. Garofolo, J. S., Lamel, L. F., Fisher, W. M., Fiscus, J. G. & Pallett, D. S. Darpa timit acoustic-phonetic continous speech corpus cd-rom. nist speech disc 1-1.1. NASA STI/Recon Technical Rep. 93, 27403 (1993).
  38. Cramer, B., Stradmann, Y., Schemmel, J. & Zenke, F. The Heidelberg spiking data sets for the systematic evaluation of spiking neural networks. IEEE Transactions Neural Netw. Learning Sys. 33, 2744-2757 (2020).
  39. Pei, J. et al. Towards artificial general intelligence with hybrid tianjic chip architecture. Nature 572, 106-111 (2019).
  40. Ma, S. et al. Neuromorphic computing chip with spatiotemporal elasticity for multi-intelligent-tasking robots. Sci. Robotics 7, eabk2948 (2022).
  41. Zhao, R. et al. A framework for the general design and computation of hybrid neural networks. Nat. Commun. 13, 3427 (2022).
  42. Höppner, S. et al. The spinnaker 2 processing element architecture for hybrid digital neuromorphic computing. arXiv preprint arXiv:2103.08392 (2021).
  43. Pehle, C. et al. The brainscales-2 accelerated neuromorphic system with hybrid plasticity. Front. Neurosci. 16, 1-21 (2022).
  44. Li, M. & Lu, B.-L. Emotion classification based on gamma-band eeg. In 2009 Annual International Conference of the IEEE Engineering in medicine and biology society, 1223-1226 (IEEE, 2009).
  45. Duan, R.-N., Zhu, J.-Y. & Lu, B.-L. Differential entropy feature for eegbased emotion classification. In 2013 6th International IEEE/EMBS Conference on Neural Engineering (NER), 81-84 (IEEE, 2013).
  46. Tripathi, S., Acharya, S., Sharma, R. D., Mittal, S. & Bhattacharya, S. Using deep and convolutional neural networks for accurate emotion classification on deap dataset. In Twenty-ninth IAAI conference (2017).
  47. Tao, W. et al. Eeg-based emotion recognition via channel-wise attention and self attention. IEEE Transactions on Affective Computing 14, 382-393 (2020).
  48. Islam, M. R. et al. Eeg channel correlation based model for emotion recognition. Computers Biol. Med. 136, 104757 (2021).
  49. Tan, C., Šarlija, M. & Kasabov, N. Neurosense: Short-term emotion recognition and understanding based on spiking neural network modelling of spatio-temporal eeg patterns. Neurocomputing 434, 137-148 (2021).
  50. Koelstra, S. et al. Deap: A database for emotion analysis; using physiological signals. IEEE Transactions Affective Computing 3, 18-31 (2011).
  51. Jirayucharoensak, S., Pan-Ngum, S. & Israsena, P. Eeg-based emotion recognition using deep learning network with principal component based covariate shift adaptation. Scientific World J. 2014, 1-10 (2014).
  52. Lowry, S. et al. Visual place recognition: A survey. IEEE transactions on robotics 32, 1-19 (2015).
  53. Milford, M. J. & Wyeth, G. F. Seqslam: Visual route-based navigation for sunny summer days and stormy winter nights. In 2012 IEEE international conference on robotics and automation, 1643-1649 (IEEE, 2012).
  54. Chancán, M., Hernandez-Nunez, L., Narendra, A., Barron, A. B. & Milford, M. A hybrid compact neural architecture for visual place recognition. IEEE Robotics Automation Lett. 5, 993-1000 (2020).
  55. Chancán, M. & Milford, M. Deepseqslam: a trainable cnn+ rnn for joint global description and sequence-based place recognition. arXiv preprint arXiv:2011.08518 (2020).
  56. Fischer, T. & Milford, M. Event-based visual place recognition with ensembles of temporal windows. IEEE Robotics Automation Lett. 5, 6924-6931 (2020).
  57. Milford, M. et al. Place recognition with event-based cameras and a neural implementation of seqslam. arXiv preprint arXiv:1505.04548 (2015).
  58. Yang, S. et al. Efficient spike-driven learning with dendritic eventbased processing. Front. Neurosci. 15, 601109 (2021).
  59. Gao, T., Deng, B., Wang, J. & Yi, G. Highly efficient neuromorphic learning system of spiking neural network with multi-compartment leaky integrate-and-fire neurons. Front. Neurosci. 16, 929644 (2022).
  60. Bellec, G., Kappel, D., Maass, W. & Legenstein, R. Deep rewiring: Training very sparse deep networks. arXiv preprint arXiv:1711.05136 (2017).
  61. Fang, W. et al. Incorporating learnable membrane time constant to enhance learning of spiking neural networks. In Proceedings of the IEEE/CVF international conference on computer vision, 2661-2671 (2021).
  62. Sussillo, D. Neural circuits as computational dynamical systems. Curr. Opin. Neurobiol. 25, 156-163 (2014).
  63. Gerstner, W. & Kistler, W. M.Spiking neuron models: Single neurons, populations, plasticity (Cambridge University Press, 2002).
  64. Cramer, B. et al. Surrogate gradients for analog neuromorphic computing. Proc. Natl. Acad. Sci. 119, e2109194119 (2022).
  65. Rossbroich, J., Gygax, J. & Zenke, F. Fluctuation-driven initialization for spiking neural network training. Neuromorphic Comput. Eng. 2, 044016 (2022).
  66. Bellec, G., Salaj, D., Subramoney, A., Legenstein, R. & Maass, W. Long short-term memory and learning-to-learn in networks of spiking neurons. Adv. Neural Inform. Processing Syst. 31, 795-805 (2018).
  67. Rao, A., Plank, P., Wild, A. & Maass, W. A long short-term memory for ai applications in spike-based neuromorphic hardware. Nat. Machine Intelligence 4, 467-479 (2022).
  68. Arjovsky, M., Shah, A. & Bengio, Y. Unitary evolution recurrent neural networks. In International conference on machine learning, 1120-1128 (PMLR, 2016).
  69. Auge, D., Hille, J., Kreutz, F., Mueller, E. & Knoll, A. End-to-end spiking neural network for speech recognition using resonating input neurons. In Artificial Neural Networks and Machine Learning-ICANN 2021: 30th International Conference on Artificial Neural Networks, Bratislava, Slovakia, September 14-17, 2021, Proceedings, Part V 30, 245-256 (Springer, 2021).
  70. Salaj, D. et al. Spike frequency adaptation supports network computations on temporally dispersed information. Elife 10, e65459 (2021).
  71. Bellec, G. et al. A solution to the learning dilemma for recurrent networks of spiking neurons. Nat. Commun. 11, 1-15 (2020).

الشكر والتقدير

تم دعم هذا العمل جزئيًا من قبل STI 2030 – المشاريع الكبرى
2021ZD0200300، المؤسسة الوطنية للعلوم الطبيعية في الصين (رقم 62276151، 62106119، 62236009، U22A20103)، المؤسسة الوطنية للعلوم للعلماء الشباب المتميزين (رقم 62325603)، مركز أبحاث الحوسبة المستوحاة من الدماغ التابع لمجموعة CETC Haikang، والمعهد الصيني لأبحاث الدماغ، بكين. نود أن نشكر البروفيسور لو بينغ شي على المناقشة القيمة.

مساهمات المؤلفين

H.Z. و L.D. تصوروا العمل. H.Z. و R.H. و F.Y. نفذوا تجارب المحاكاة. Z.Z. و X.L. نفذوا التنفيذ المادي. H.Z. و Z.Z. و L.D. ساهموا في تحليل النتائج التجريبية. ساهم جميع المؤلفين في مناقشة تصميم النموذج والتجربة، وقاد L.D. المناقشة. ساهم H.Z. و Z.Z. و B.X. و Y.W. و G.L. و L.D. في كتابة الورقة. أشرف L.D. على المشروع بالكامل.

المصالح المتنافسة

يعلن المؤلفون عدم وجود مصالح متنافسة.

معلومات إضافية

المعلومات التكميلية النسخة عبر الإنترنت تحتوي على
المواد التكميلية المتاحة على
https://doi.org/10.1038/s41467-023-44614-z.
يجب توجيه المراسلات وطلبات المواد إلى لي دينغ.
معلومات مراجعة الأقران تشكر Nature Communications المراجعين المجهولين على مساهمتهم في مراجعة الأقران لهذا العمل. يتوفر ملف مراجعة الأقران.
معلومات إعادة الطبع والتصاريح متاحة على http://www.nature.com/reprints
ملاحظة الناشر تظل Springer Nature محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي للاستخدام، والمشاركة، والتكيف، والتوزيع، وإعادة الإنتاج في أي وسيلة أو تنسيق، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح ما إذا كانت هناك تغييرات قد تم إجراؤها. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي للمقالة، ما لم يُذكر خلاف ذلك في سطر ائتمان للمادة. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي للمقالة واستخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، ستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارة http://creativecommons.org/ licenses/by/4.0/.
© المؤلفون 2024

  1. مركز أبحاث الحوسبة المستوحاة من الدماغ (CBICR)، قسم الأدوات الدقيقة، جامعة تسينغوا، بكين، الصين. معهد علوم الكمبيوتر النظرية، جامعة غراتس للتكنولوجيا، غراتس، النمسا. معهد الأتمتة، الأكاديمية الصينية للعلوم، بكين، الصين.

Journal: Nature Communications, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41467-023-44614-z
PMID: https://pubmed.ncbi.nlm.nih.gov/38177124
Publication Date: 2024-01-04

Temporal dendritic heterogeneity incorporated with spiking neural networks for learning multi-timescale dynamics

Received: 31 July 2023
Accepted: 21 December 2023
Published online: 04 January 2024
(A) Check for updates

Hanle Zheng © , Zhong Zheng , Rui Hu , Bo Xiao , Yujie Wu , Fangwen Yu , Xue Liu , Guoqi Li & Lei Deng

Abstract

It is widely believed the brain-inspired spiking neural networks have the capability of processing temporal information owing to their dynamic attributes. However, how to understand what kind of mechanisms contributing to the learning ability and exploit the rich dynamic properties of spiking neural networks to satisfactorily solve complex temporal computing tasks in practice still remains to be explored. In this article, we identify the importance of capturing the multi-timescale components, based on which a multicompartment spiking neural model with temporal dendritic heterogeneity, is proposed. The model enables multi-timescale dynamics by automatically learning heterogeneous timing factors on different dendritic branches. Two breakthroughs are made through extensive experiments: the working mechanism of the proposed model is revealed via an elaborated temporal spiking XOR problem to analyze the temporal feature integration at different levels; comprehensive performance benefits of the model over ordinary spiking neural networks are achieved on several temporal computing benchmarks for speech recognition, visual recognition, electroencephalogram signal recognition, and robot place recognition, which shows the best-reported accuracy and model compactness, promising robustness and generalization, and high execution efficiency on neuromorphic hardware. This work moves neuromorphic computing a significant step toward real-world applications by appropriately exploiting biological observations.

Inspired by the structures and functions of neural circuits in the brain, spiking neural networks (SNNs) are modeled and known as the thirdgeneration artificial neural networks (ANNs) . The studies of SNNs have considered abundant biological observations in terms of neural dynamics, connection patterns, coding schemes, processing flows, and so forth. In recent years, SNNs have gained extensive attention in image recognition tasks , especially after the boost of accuracy by borrowing the backpropagation through time (BPTT) learning algorithm from the ANN domain . Owing to the dynamic attributes of
SNNs, they are widely believed to have the capability of processing temporal information. However, how to understand what kind of mechanisms contributing to the learning ability and exploit the rich dynamic properties of SNNs to satisfactorily solve complex temporal computing tasks still remain to be explored.
We rethink the key capabilities required in performing real-world temporal computing tasks. Complex temporal signals usually present variable timescales and high spectral richness, which can be well handled by the brain . For example, the brain can easily recognize
speakers who are speaking with different timescales such as fast or slow. Unlike the mainstream image recognition benchmarks used by SNNs based on static images and dynamic events collected by dynamic vision sensors (DVS) , the information in temporal computing tasks often shows complicated temporal dependencies, and the features appear with various timescales, which imply that the learning of multitimescale temporal dynamics might be a critical point. In essence, neuroscientists have observed huge temporal heterogeneity in brain circuits and responses , for example, neural heterogeneity , dendritic heterogeneity and synaptic heterogeneity . It seems believable that these kinds of heterogeneity are more than noises but promising to generate the capability of capturing and processing multi-timescale temporal features . While the investigation of synaptic heterogeneity offers valuable insights, it poses significant challenges in network modeling due to the high computation and storage overhead with the vast number of synapses. Furthermore, we found that only considering neural heterogeneity makes it hard to deliver satisfactory results when performing temporal computing tasks due to the insufficient multi-timescale neural dynamics. In light of these limitations, our work focuses on the exploration of dendrite heterogeneity as a more effective and efficient alternative in practice.
Computational neuroscientists have paid attention to the temporal computing capabilities of dendrites inferred from many biophysical phenomena and proposed neuron models or fabricated dendrite-like nanoscale devices to mimic biological behaviors. The advanced computational functions suggested by biological dendrites including local nonlinear transformation , adjustment to synaptic learning rules , multiplexing different sources of neural signals and the generation of multi-timescale dynamics may benefit neural networks in machine learning. Whereas, these biological observations are hard to apply to real-world temporal computing tasks performed with neural networks at the current stage due to the inappropriate abstraction, the high computational complexity and the lack of effective learning algorithms. In addition, most of existing SNNs for solving real-world temporal computing tasks adopt the simplified version of leaky integrate-and-fire (LIF) neurons , which cannot sufficiently exploit the rich temporal heterogeneity. Even though a few researchers such as Perez-Nieves et al. have touched the neural heterogeneity by learning membrane and synaptic time constants, they ignored the dendritic heterogeneity which we consider of great importance. Recently, some researchers have noticed it and tried to develop the dendrify software framework for accelerating the neural behavior simulation. However, today we still lack explicit and comprehensive studies on how to incorporate the temporal dendritic heterogeneity into a general SNN model and make it work in real-world temporal computing tasks, let alone explain how it works.
To solve the above challenges, we propose a novel LIF neuron model with temporal dendritic heterogeneity that also covers neural heterogeneity, termed DH-LIF. Then, we extend the neuron model to the network level, termed DH-SNNs, which support both the networks with only feedforward connections (DH-SFNNs) and those with recurrent connections (DH-SRNNs). We derive the explicit form of the learning method for DH-SNNs based on the emerging highperformance BPTT algorithm for ordinary . By adaptively learning heterogeneous timing factors on different dendritic branches of the same neuron and on different neurons, DH-SNNs can generate multi-timescale temporal dynamics to capture features at different timescales. In order to reveal the underlying working mechanism, we elaborate a temporal spiking XOR problem and find that the interbranch feature integration in a neuron, the inter-neuron feature integration in a recurrent layer, and the inter-layer feature integration in a network have similar and synergetic effects in capturing multitimescale temporal features. On extensive temporal computing benchmarks for speech recognition, visual recognition, EEG signal recognition, and robot place recognition, DH-SNNs achieve
comprehensive performance benefits including the best reported accuracy along with promising robustness and generalization compared to ordinary SNNs. With an extra sparse restriction on dendritic connections, DH-SNNs present high model compactness and high execution efficiency on neuromorphic hardware. This work suggests that the temporal dendritic heterogeneity observed in the brain is a critical component in learning multi-timescale temporal dynamics, shedding light on a promising route for SNN modeling in performing complex temporal computing tasks.

Results

Spiking LIF neuron with temporal dendritic heterogeneity (DH-LIF)

Although neural network models have achieved tremendous success in practice, there is no doubt that a huge gap between the current neural network intelligence and the brain intelligence indeed exists, which motivates us to draw more inspiration from biology to improve the modeling. The brain presents many advantageous features while here we focus on the huge power in performing multi-timescale temporal computing tasks. As Fig. 1a depicts, the external stimuli such as languages and music injected into the brain usually present high temporal heterogeneity, i.e., showing variable timescales, but can be processed well by the brain. Furthermore, some biological recordings partially observed heterogeneous structures and multi-timescale dynamic responses across neurons and dendritic branches, which seems a link to the mentioned powerful functionality.
However, current neural network models do not sufficiently exploit the temporal heterogeneity in the brain, which might be a key reason that they cannot achieve satisfactory performance in performing multi-timescale temporal computing tasks. As presented in Fig. 1b, the artificial neuron in common ANNs simply models a linear summation of weighted synaptic inputs with a following nonlinear transfer function. This process without neural dynamics cannot model temporal memory. Note that, although ANNs can memorize temporal information by introducing recurrent connections to build recurrent neural networks (RNNs) and can further learn multi-timescale temporal dynamics by updating neural states asynchronously , the resulting extrinsic dynamics is different from the intrinsic dynamics within neurons discussed in this work and current RNNs do not model the dendritic heterogeneity that is just our focus. By contrast, the spiking neuron, for example, the classic simplified LIF neuron commonly used in ordinary SNNs, models temporal dynamics by updating the membrane potential of the soma over time with a decaying coefficient. In this work, we term the classic simplified LIF neuron and the decay coefficient of the membrane potential as the vanilla LIF neuron and the timing factor, respectively. The timing factor determines the timescale of neural responses, which consequently affects the spike rate. Moreover, it can be extended to achieve temporal neural heterogeneity by learning different timescales over different neurons . However, it neglects the temporal heterogeneity on dendritic branches, which is widely observed in biological neurons . This lack of temporal dendritic heterogeneity makes the simplified LIF neuron difficult to learn multi-timescale temporal information, thus failing to perform multi-timescale temporal computing tasks with high performance.
As illustrated in Fig. 1c, the main idea of this work lies in exploring how to improve SNNs for performing multi-timescale temporal computing tasks by incorporating temporal neural and dendritic heterogeneity. To this end, we abstract the cable properties of the dendrite and propose an enhanced LIF neuron model with temporal dendritic heterogeneity, termed DH-LIF (see Methods). Overall, a DH-LIF neuron is a multi-compartment model: a soma compartment with multiple dendrite compartments. As modeled in Fig. 2a, each dendritic branch has a temporal memory unit with a dendritic current variable , which evolves like the membrane potential that is updated with pre-synaptic
Fig. 1 | Inspirations from biology to improve the modeling of SNNs with temporal dendritic heterogeneity. a In the brain, there are rich timescales in the external stimuli and neural activities, and rich temporal heterogeneity in neural and dendritic responses . The artificial neuron model used in ANNs does not consider the temporal memory, while the spiking neuron model used in SNNs only considers a single-scale temporal memory in the neuronal membrane potential.
Existing SNNs can exhibit temporal neural heterogeneity by learning different timescales over different neurons but cannot memorize multi-timescale temporal information in a single neuron, which fail to perform complex temporal computing tasks with high performance. c This work aims at improving SNNs by incorporating temporal dendritic heterogeneity into the modeling for solving temporal computing tasks.
inputs and also decays by a timing factor, i.e., , every timestep. When different branches on a dendrite have different timing factors, the timescales of memorized information present temporal dendritic heterogeneity. Furthermore, the different timing factors of membrane potentialsddddd and dendritic currents in different neurons would also produce temporal neural heterogeneity.
Figure 2b provides an illustrative example that compares different responses between a DH-LIF neuron and a vanilla LIF neuron. Spike bursting is a common phenomenon observed in biological neurons. We assume that the neurons received two types of inputs: one is the high-frequency input that drives isolated spike events and the other is the low-frequency input that regulates the burst probability. This mechanism is similar to multiplexing, a known function of the dendrite . In the illustration, we consider the illustration that DH-LIF neurons could generate bursting spikes while vanilla LIF neurons cannot. In the vanilla LIF neuron, there is only a soma memory unit
without dendritic memory. The timing factor of the membrane potential can only match the timescale of at most one of the two inputs, e.g., matching the high-frequency input (small timing factor) or matching the low-frequency input (large timing factor). When the neuron only matches the timescale of the high-frequency input, it loses long-term memory of the low-frequency input due to the fast decaying mechanism; when the neuron only matches the low-frequency input, it cannot closely track the high-frequency input due to the heavy memorization of historic information. Thus, as indicated in Fig. 2b, the vanilla LIF neuron cannot generate bursting spikes. In contrast, we can flexibly configure versatile timing factors on multiple dendritic branches in the DH-LIF neuron, which can make it capable of simultaneously dealing with variable timescales of different inputs, generating the bursting spikes successfully. In the prior work about the multiplexing function of dendrites, the authors mentioned that they simulated the response of an ensemble of hick-tufted pyramidal neurons
branch example, the DH-LIF neuron presents both long-term memory of the lowfrequency inputs that regulate the bursting probability and fast response to the high-frequency inputs that drive the isolated spike events, thus generating the bursting spikes successfully while the vanilla LIF neuron fails. c Illustration of DHSFNN constructed by DH-LIF neurons with only feedforward connections and DHSRNN with recurrent connections. The connections are sparse so that a DH-SNN model does not increase the number of parameters compared to vanilla LIFbased SNNs.
Fig. 2 | The design of DH-LIF and DH-SNN. a DH-LIF, a LIF neuron with temporal dendritic heterogeneity. DH-LIF is a multi-compartment neuron model with a soma compartment and multiple dendrite compartments. Besides the memory on the membrane potential of the soma, each dendritic branch has a temporal memory on the dendritic current with a variable timing factor highlighted in the red box. b Comparison between the responses of a vanilla LIF neuron and a DH-LIF neuron to mimic the phenomenon of bursting spikes. The DH-LIF neuron enables multitimescale memories of information with different timescales. In this two-dendritic-
(TPNs) receiving two independent input signals with different frequencies: one injected into dendrites and the other injected into the soma. They further quantified the encoding quality in multiplexing at different timescales by calculating the frequency-resolved coherence between the inputs and the estimates. They found that the coherence between the dendritic inputs and the estimates based on the burst probability is close to one for slow input fluctuations, but decreases to zero for rapid input fluctuations, which is similar to our dendritic branch modeling with large timing factors. In the meantime, they found that the event rate can decode the soma input with high accuracy for input frequencies up to 100 Hz , which is similar to our dendritic branch modeling with small timing factors. Unlike the previous
focus on understanding hierarchical brain communication through multiplexing dendrites, we focus on the effectiveness of the proposed model inspired by biological observations for solving complex temporal computing tasks in practice with acceptable computational complexity and effective learning algorithms.
Modeling synaptic heterogeneity with a variable timing factor for each synapse can indeed offer valuable insights, but it comes with certain drawbacks, notably increased computation and storage overheads due to the large number of synapses (see Supplementary Table S4). As the number of dendritic branches increases, the dendritic heterogeneity can provide a reasonable approximation of the synaptic heterogeneity. However, the experimental results in Supplementary
Fig. S6 imply that an overlarge number of dendritic branches may saturate or even negatively impact the performance. Therefore, for solving real-world temporal computing tasks, it is wiser to incorporate the dendritic heterogeneity rather than the synaptic heterogeneity. Doing so would create a better balance between computational efficiency and the ability to model the expected multi-timescale dynamics. Generally speaking, a DH-LIF neuron has both long-term memory of the low-frequency input and fast response to the high-frequency input with reasonable computation and storage overhead, which simultaneously reflects the rich temporal heterogeneity and promises practical use in solving real-world temporal computing tasks.

Spiking neural network with DH-LIF neurons (DH-SNN)

Based on the proposed DH-LIF neuron model, we further construct SNNs with temporal dendritic heterogeneity, termed DH-SNN. Specially, the DH-SNN with only feedforward connections is denoted as DH-SFNN while the one with recurrent connections is denoted as DHSRNN, as illustrated in Fig. 2c. In order to avoid the parameter exploding as the number of dendritic branches grows, we add a sparse restriction on the connection pattern between neurons (see Methods). For each neuron, the pre-synaptic inputs are randomly distributed on the dendritic branches. The sets of input indexes on different branches are non-overlapped and the number of inputs keeps identical across branches to the greatest extent. The connection restriction is valid for both DH-SFNNs and DH-SRNNs, which guarantees a constant parameter volume when the number of dendritic branches grows and makes the number of parameters comparable to SNNs constructed with vanilla LIF neurons, termed as vanilla SNNs. This is important for saving storage and computational costs when deploying the model on hardware for efficient execution, and can also reflect the fact that our performance improvements are indeed benefited from the introduced temporal dendritic heterogeneity rather than using more parameters. Our following experiments will provide explanations on the working mechanism of DH-SFNNs and DH-SRNNs in performing multitimescale temporal computing tasks.
For a network with many timing factors, it is difficult to manually configure their values for achieving optimal application performance. In order to gain high performance in practical tasks, automatic learning of timing factors to shape the landscape of temporal heterogeneity is highly expected. We adapt the emerging SNN-version BPTT learning algorithm for DH-SNNs to explicitly calculate gradients (see Methods), which also allows convenient comparison with state-of-the-art baselines using similar learning algorithms. In our framework, synaptic weights, timing factors of membrane potentials, and timing factors of dendritic currents are all learned automatically during the training phase. When all dendritic timing factors are small enough, the dendrites would lose the memorization capability thus degrading to vanilla SNNs without dendritic heterogeneity. Therefore, it is intuitive that DH-SNNs can perform better than vanilla SNNs since the latter is just a special case of the former, which would be supported by the following experimental results.

Long-term memory via dendritic dynamics

The temporal dynamics in each neuron endows SNNs with the capability to memorize historic information. In a vanilla LIF neuron, the membrane potential, i.e., , can be viewed as the memory of historic information. Long-term memory can be achieved by configuring a large timing factor on the membrane potential, i.e., , for slowing the membrane potential decaying. However, we argue that a vanilla LIF neuron cannot truly memorize information for a long time even with a large value due to the reset mechanism of the membrane potential every time the neuron fires a spike. Fortunately, the proposed DH-LIF succeeds in preserving long-term information owing to the multicompartment modeling. Although the soma suffers the reset mechanism, the dendritic current on each dendritic branch will never
be reset. In this way, the temporal dendritic dynamics enables longterm memory.
To evidence our prediction, we design a delayed spiking XOR problem for testing the capability of long-term memory of vanilla SFNNs and DH-SFNNs. For simplicity, we assign only one dendritic branch for each neuron in DH-SFNNs. As illustrated in Fig. 3a, the delayed spiking XOR problem experiences three stages. In the first stage, an initial spike pattern with a low or high firing rate is injected into the network. In the second stage, the model goes through a long delay duration with some noisy spikes. Last, the model receives another input spike pattern and outputs the result of the XOR problem (the ground truths are denoted as labels) by conducting an XOR operation between the initial and final input spike patterns. Specifically, the output result considers the firing rates of the input spike patterns at the beginning and the end, behaving like an XOR operation as the right truth table shows. The network structures can be found in Supplementary Fig. S1. With the delayed spiking XOR problem, we can easily test the memory capability of the models by configuring different delay values. Notice that here the DH-LIF neuron with one dendritic branch is similar to an existing model in which the dendritic current is called synaptic current. However, that work focused on neural heterogeneity across neurons rather than the dendritic heterogeneity across both dendritic branches and neurons in our work. Although similar experiments can be conducted with the existing model, the role of dendritic dynamics was not explicitly analyzed.
The experimental results are depicted in Fig. 3b. Testing models include vanilla SFNNs and one-dendritic-branch DH-SFNNs with different initial distributions of timing factors. Notice that unless otherwise specified, the timing factors of membrane potentials, , are initialized following a medium distribution and are learnable in the following experiments of Fig. 3. More analyses on the initialization and learning of membrane potential timing factors can be found in Supplementary Fig. S2. The dendritic timing factors, , can be fixed or learnable during training. It turns out that one-dendritic-branch DHSFNNs significantly outperform vanilla SFNNs in the delayed spiking XOR problem, showing longer-term memory. This conclusion holds no matter whether the dendritic timing factors in DH-SFNNs are fixed or learnable, which reflects the good preservation of historic information in dendritic currents without the reset mechanism. Figure 3c further presents gradients of the loss with respect to membrane potentials of the vanilla SFNN and to dendritic currents of the DH-SFNN through time at the beginning of training under large initialized timing factors. The gradients with respect to membrane potentials in the vanilla SFNN quickly vanish after backpropagating a period of time even though given large timing factors, while the gradients with respect to the dendritic currents can hold for a long time. This difference is caused by the reset mechanism of the membrane potential that cleans the memorized historic information, which is further analyzed in Supplementary Fig. S3 and discussed in Methods. Two more conclusions can be observed: (1) Larger initialized timing factors produce longer-term memory than smaller ones owing to the slow decaying of historic information; (2) Learnable dendritic timing factors produce longerterm memory than fixed ones. The accuracy can be greatly improved especially when the initialized timing factors are inappropriate for the task, i.e., smaller distributions here. From Fig. 3d, it can be seen that the model training drives some small and medium initialized dendritic timing factors to larger values for maintaining longer length of memory.
Besides the delayed spiking XOR problem, we extend our comparison on speech benchmarks, i.e., SHD and SSC datasets. The spike patterns of the two datasets are visualized in Fig. 3e and more temporal characterizations are provided in Supplementary Fig. S5, which demonstrate the rich timescales of the two datasets and implies the need for temporal heterogeneity in the processing model. As demonstrated in Fig. 3f, one-dendritic-branch DH-SFNNs with
Fig. 3 | Long-term memory on dendrites. a Illustration of the delayed spiking XOR problem for testing the memory length of vanilla SFNNs and DH-SFNNs with only one dendritic branch in each DH-LIF neuron. Accuracy curves of vanilla SFNNs and one-dendritic-branch DH-SFNNs. For vanilla SNNs, the timing factors of membrane potential, , are learnable with three different initialized distributions. For DH-SNNs, are learnable and initialized with a medium distribution, and the dendritic timing factors, , can be fixed or learnable with three different initialized distributions. c Visualizing gradients of the loss with respect to membrane potentials of the vanilla SFNN and to dendritic currents of the one-dendritic-branch DHSFNN through time at the beginning of training under large initialized timing factors. Distributions of dendritic timing factors before and after training. KDE line, kernel density estimate line. e Examples of the input spike trains from SHD and SSC
datasets. Comparing recognition accuracy of vanilla SFNNs and one-dendriticbranch DH-SFNNs with fixed or learnable dendritic timing factors on SHD and SSC under the sampling time interval of . g Comparing recognition accuracy of vanilla SFNNs and one-dendritic-branch DH-SFNNs with learnable timing factors under different sampling time intervals on SHD and SSC. A beneficial initialization of timing factors is selected for each sampling time interval to demonstrate overall better accuracy. In above experiments, unless otherwise specified, the timing factors of membrane potentials are initialized following a medium distribution and are learnable during training. The standard deviations (presented as error bars) represent 10 or 5 repeated trials for the spiking XOR problem or other tasks, respectively.
learnable dendritic timing factors achieve much better accuracy than vanilla SFNNs no matter the initialized distributions. Under the sampling time interval , our one-dendritic-branch DH-SFNNs with large initialized timing factors achieve 82.2% accuracy on SHD and 63.62% accuracy on SSC, which are and higher than vanilla SFNNs on SHD and SSC, respectively. To further support our claims, we change the timescale of the input spike patterns by tuning the sampling time interval from to . A smaller implies better sampling precision, a slower timescale, and a longer time window. Notice that here we choose appropriate initialized timing factors for each setting to show overall better accuracy, i.e., initializing larger timing factors for smaller values. As presented in Fig. 3g, the
accuracy of vanilla SFNNs do not always improve and even degrades as the sampling precision grows. The accuracy gap between DH-SFNNs and vanilla SFNNs tends to increase as decreases because DH-SFNNs do better in long-term memory.

Intra-neuron heterogeneous feature integration

via multi-branch dendrites. In the above section, we have demonstrated the long-term memory of DH-SNNs benefited from the temporal dynamics on the dendritic branch. We have predicted in Fig. 2 that DH-SFNNs with multiple branches in each neuron can perform temporal computing tasks via temporal heterogeneity. In this section, we upgrade the above delayed spiking XOR problem to a multi-
Fig. 4 | Intra-neuron heterogeneous feature integration through multiple dendritic branches. a Illustration of the multi-timescale spiking XOR problem for testing the capability of processing temporally heterogeneous information of the vanilla SFNN and DH-SFNNs with one or two dendritic branches in each DH-LIF neuron. b Comparing accuracy of the vanilla SFNN and DH-SFNNs with different numbers of dendritic branches and different initial distributions of timing factors. The dendritic timing factors, , can be fixed or learnable during training. The beneficial initialization means that we initialize large dendritic timing factors for Branch 1 in each DH-LIF neuron while initializing small dendritic timing factors for Branch 2. c Distributions of dendritic timing factors of two dendritic branches before and after training. KDE line, kernel density estimate line. Visualization of the output spike pattern and dendritic currents of two-dendritic-branch DH-LIF
neurons with fixed timing factors during training under a beneficial initialization. e Visualization of the output spike pattern and dendritic currents of one-dendriticbranch DH-LIF neurons with fixed timing factors during training under a small or large initialization. Comparing recognition accuracy of vanilla SFNNs and DHSFNNs with variable numbers of dendritic branches and learnable timing factors under a large distribution on SHD and SSC. The sampling time interval is set to . In above experiments, unless otherwise specified, the timing factors of membrane potentials are initialized following a medium distribution and are learnable during training. The standard deviations (presented as error bars) represent 10 or 5 repeated trials for the spiking XOR problem or other tasks, respectively.
timescale spiking XOR problem for testing the model’s capability of processing temporally heterogeneous information to further support our prediction. As depicted in Fig. 4a, the multi-timescale spiking XOR problem uses two types of input spike signals. At the first stage, a single spike pattern (Signal 1) with a low (left) or high (right) firing rate is fed into the model, representing a low-frequency component. Then, several similar spike patterns with faster periods (Signal 2) are injected into the model sequentially, representing a high-frequency component. Each time the model receives a spike pattern in Signal 2, it also outputs an XOR result between the beginning spike pattern in Signal 1 and the current spike pattern in Signal 2. The goal of the model is to memorize the low-frequency Signal 1 and conduct an XOR operation
with the high-frequency Signal 2, which can substantially reflect its potential capability of processing temporally heterogeneous information.
In the multi-timescale spiking XOR problem, we compare the vanilla SFNN and DH-SFNNs with one or two dendritic branches and only one hidden layer. For the two-dendritic-branch DH-LIF neuron, the input synapses carrying Signal 1 are connected to one branch (Branch 1) while the synapses carrying Signal 2 are connected to the other branch (Branch 2). The network structure can be found in Supplementary Fig. S1. Figure 4 b presents the accuracy results. The vanilla SFNN fails in performing this task with an accuracy much lower than 75%. Although one-dendritic-branch DH-SFNNs have long-term
memory as evidenced by Fig. 3, they cannot process information with multiple timescales well. As the number of branches grows to two, DHSFNNs demonstrate much better performance owing to the temporal dendritic heterogeneity especially when the dendritic timing factors are initialized appropriately and learnable. Here the beneficial initialization means that we initialize large dendritic timing factors for Branch 1 in each DH-LIF neuron to enable long-term memory for lowfrequency Signal 1 while initializing small dendritic timing factors for Branch 2 to enable fast response for high-frequency Signal 2. Figure 4c visualizes the dendritic timing factors before and after training. As expected, the dendritic timing factors of Branch 1 with a small initialization tend to become larger while the dendritic timing factors of Branch 2 with a large initialization tend to become smaller, which evidences that the learning process makes the dendritic timing factors match the multiple timescales of input signals better. Notice that unless otherwise specified, the timing factors of membrane potentials are initialized following a medium distribution and are learnable in the experiments of Fig. 4.
In Fig. 4d, we further visualize the output spike pattern and dendritic currents of two-dendritic-branch DH-LIF neurons with fixed timing factors during training under a beneficial initialization. The left and right results correspond to the left and right input cases in Fig. 4a, respectively. With large dendritic timing factors on Branch 1, the low-frequency Signal 1 can be memorized for a long term by the dendritic currents on Branch 1; meanwhile, with small dendritic timing factors on Branch 2, the high-frequency Signal 2 can be closely tracked by the dendritic currents on Branch 2. The dendritic currents on two branches with different timescales are integrated to synergistically determine the membrane potentials and output spikes. Interestingly, after learning synaptic weights, some neurons learn features that are sensitive to reflect a specific combination of Signal 1 and Signal 2. For example, we highlight two neurons in Fig. 4d, whose spikes are retained in black while the areas with no spikes are marked in yellow. The first highlighted DH-LIF neuron (i.e., with a smaller neuron ID) is sensitive to the case of combining low-firing-rate Signal 1 and high-firing-rate Signal 2, while the second highlighted DH-LIF neuron (i.e., with a larger neuron ID) is sensitive to the case of combining high-firing-rate Signal 1 and high-firing-rate Signal 2. Here ‘sensitive’ means firing consecutive spikes corresponding to the learned combination feature between Signal 1 and Signal 2. These specific learned features of DH-LIF neurons are critical for performing the multi-timescale spiking XOR problem correctly in the following decision layer. For comparison, we make the similar visualization for one-dendriticbranch DH-LIF neurons in Fig. 4e. If we initialize small dendritic timing factors, the dendritic currents cannot memorize the lowfrequency Signal 1 and are mainly controlled by the high-frequency Signal 2. For large initialized dendritic timing factors, the dendritic currents cannot tightly track the high-frequency Signal 2. Therefore, the one-dendritic-branch DH-SFNN, as well as the SNNs with synaptic current dynamics equivalent to our one-dendritic-branch DH-SNNs, cannot learn specific features combining Signal 1 and Signal 2, failing in performing the multi-timescale spiking XOR problem. In addition, we conduct extra experiments in which Signal 1 and Signal 2 are randomly connected to the two dendritic branches of DH-SFNNs without connection restriction. The two-dendritic-branch DH-SFNNs succeed in handling the problem indicating the connection restriction is unnecessary and DH-SNNs can still acquire selectivity to multiple timescales of input signals during the learning process (see Supplementary Fig. S4). Our experimental results explain that multiple dendritic branches of a neuron are able to simultaneously match different timescales, which allows DHSNNs to make complex decisions in the temporal domain via feature integration thus enhancing the capability of performing multitimescale temporal computing tasks.
Besides the synthetic multi-timescale spiking XOR problem, we also compare the performance of vanilla SFNNs, one-dendritic-branch DH-SFNNs, and DH-SFNNs with two or more dendritic branches on SHD and SSC datasets. We keep the same network architecture as that used in Fig. 3f. Because the timescales of SHD and SSC are more complicated than the two timescales in the above XOR problem, it is hard to find the beneficial initialization. For simplicity, we initialize all dendritic timing factors following a large initialization and make them learnable to automatically match different timescales. As Fig. 4(f) depicts, DH-SFNNs with more dendritic branches achieve better recognition accuracy on both datasets. Although the improvement tends to be saturated with redundant dendritic branches (see more analyses in Supplementary Fig. S6), the results indeed prove that the temporal dendritic heterogeneity of DH-LIF neurons can enhance the representation power of DH-SFNNs for performing multi-timescale temporal computing tasks.

Inter-neuron feature integration via synaptic connections

In the above experiments, we have revealed that the temporal features with different timescales can be integrated by multiple dendritic branches within DH-LIF neurons. In this subsection, we try to demonstrate another route for integrating multi-timescale temporal features through synaptic connections. Here synaptic connections include feedforward connections between layers in SFNNs and recurrent connections within layers in SRNNs.
To support our prediction, we test the one-layer DH-SFNN, the two-layer DH-SFNN, and the one-layer DH-SRNN, all of which only have one dendritic branch in each DH-LIF neuron to eliminate the influence of intra-neuron feature integration. The task is the same multitimescale spiking XOR problem as above and the network structures can be found in Supplementary Fig. S1. We find that the one-layer DHSFNN fails in performing this task, while both the two-layer DH-SFNN and the one-layer DH-SRNN perform well with about accuracy. In Fig. 5a, we show the output spike pattern of each layer in the models. Specially, we find three types of neurons. The Type 1 neuron represents the neuron sensitive to Signal 2 with high frequency and the Type 2 neuron represents the neuron sensitive to Signal 1 with low frequency. Notice that we identify Type 2 neurons by comparing the same neurons’ responses in different input cases as the left and right panels present. For example, looking at the first hidden layer of the two-layer SFNNs, when Signal 1 with a low firing rate is inputted in the left panel, Type 2 neurons exhibit sparse spiking activities. On the contrary, when Signal 1 with a high firing rate is inputted in the right panel, Type 2 neurons display dense spiking activities. Furthermore, the responses of Type 2 neurons are uniformly distributed, not influenced by the periodically changing Signal 2. With these observations, we conclude that Type 2 neurons are sensitive to Signal 1. The highlighted neuron represents the neuron sensitive to a specific combination of Signal 1 and Signal 2 which is critical for the correct functionality of solving the multi-timescale spiking XOR problem. For the two-layer DH-SFNN, we find that there are only Type 1 and Type 2 neurons in the first hidden layer because a DH-LIF neuron with only one dendritic branch can only capture single-scale temporal features. In the second hidden layer, highlighted neurons come out by integrating the output spike patterns of Type 1 and Type 2 neurons. For example, the two highlighted neurons here are sensitive to the case of combining low-firing-rate Signal 1 and high-firing-rate Signal 2. While for the one-layer DH-SRNN, Type 2 and highlighted neurons are observed in the first hidden layer. Similarly, the two highlighted neurons here are sensitive to the case of combining high-firing-rate Signal 1 and high-firing-rate Signal 2. In the DH-SRNN, highlighted neurons can access features of Signal 1 memorized by Type 2 neurons through the recurrent synaptic connections. Particularly, the high-frequency Signal 2 features are received instantaneously and can be combined with the memorized Signal 1 features to activate highlighted neurons. This experiment visually evidences
Fig. 5 | Inter-neuron heterogeneous feature integration through synaptic connections. a Visualization of output spike patterns of the two-layer DH-SFNN (middle) and the one-layer DH-SRNN (bottom) with one dendritic branch in each DH-LIF neuron when performing the multi-timescale spiking XOR problem (top). b Comparing accuracy of one-layer or two-layer SFNNs and DH-SFNNs, and onelayer SRNNs and DH-SRNNs on the SHD dataset. c Comparing accuracy of one-layer or two-layer SFNNs and DH-SFNNs, and one-layer SRNNs and DH-SRNNs on the SSC dataset. d Illustration of the feedforward and recurrent synaptic connections for performance analysis. e Accuracy results of multi-layer SFNNs and DH-SFNNs with
different numbers of dendritic branches on the SSC dataset. Accuracy results of multi-layer SRNNs and DH-SRNNs with different numbers of dendritic branches on the SSC dataset. In the above experiments, unless otherwise specified, the number of layers represents the number of hidden layers and the timing factors of membrane potentials are initialized following a medium distribution and are learnable during training. In the experiments on SHD and SSC datasets, we test learnable dendritic timing factors under both medium and large initializations and present the best results. The standard deviations represent 5 repeated trials.
the integration of multi-timescale temporal features via synaptic connections in feedforward and recurrent networks, which helps perform multi-timescale temporal computing tasks.
Given the above analyses, it looks clear that the inter-branch feature integration in a neuron, the inter-neuron feature integration in a recurrent layer, and the inter-layer feature integration in a network have similar and synergetic effects in capturing the multi-timescale temporal features, which are beneficial for performing multi-timescale temporal computing tasks. To provide more evidence, we conduct extra experiments with a variable number of dendritic branches on SHD and SSC datasets. The results are presented in Fig. 5b, c, from which several conclusions can be drawn. First, DH-LIF neurons improve
the capability of handling temporal heterogeneity with higher accuracy. Second, compared to one-layer SFNNs, two-layer SFNNs and onelayer SRNNs demonstrate much better performance owing to the interneuron integration of temporal features. Third, DH-SFNNs and DHSRNNs gradually produce higher accuracy as the number of dendritic branches grows. In short, these results evidence the improved capability of performing multi-timescale temporal computing tasks benefited from the temporal dendritic heterogeneity, and further reveal the synergistic working mechanism of the neuron-level and network-level feature integration.
Specifically, we observe that one-layer SRNNs tend to perform better than two-layer SFNNs, especially on the SSC dataset with higher
difficulty. For analysis, we illustrate the connection topology of a twolayer SFNN and a one-layer SRNN in Fig. 5d as an example. Apparently, a neuron in the second hidden layer of a two-layer SFNN can only spatially integrate the learned features of the previous layer once to form a slightly higher-level feature. In contrast, the recurrent connections can help neurons in a one-layer SRNN integrate the learned features multiple times to form much higher-level features. For example, the low-level features and are integrated together to generate a slightly higher-level feature , while is further integrated with to generate a much higher-level feature . Furthermore, we compare two-layer SFNNs and one-layer SRNNs with wider one-layer SFNNs (see Supplementary Fig. S7). Here ‘wider’ means more neurons in the hidden layer, thus leading to more parameters. The results show that the performance improvement of wider one-layer SFNNs is not as significant as that by introducing inter-neuron feature integration in two-layer SFNNs and one-layer SRNNs, which implies that the performance improvement in performing multi-timescale temporal computing tasks cannot be simply achieved by increasing the number of parameters.
Beyond two-layer SFNNs and one-layer SRNNs for basic analysis, we further design experiments with multi-layer SFNNs and SRNNs on the SSC dataset. The reason for selecting SSC is because it is more complicated than SHD, which can provide a wider exploration space of model performance. The results are depicted in Fig. 5e, f). Generally, the accuracy scores of SFNNs and SRNNs tend to increase as the number of layers grows. Similar trends are also observed as the number of dendritic branches grows. Meanwhile, we find that the accuracy gap between SFNNs and SRNNs is narrowed as the number of layers or dendritic branches increases, which indicates that the performance of different models will become saturated when the integration extent of temporal features is enough for the model to perform the task. Specifically, in deeper layers, the accuracy saturation appears when increasing the number of dendritic branches, and this trend in SRNNs with more comprehensive feature integration can be faster than that in SFNNs. Notice that the complexity introduced by the increasing number of layers makes deeper models sometimes challenging to train, which might also degrade the model performance.

Comprehensive performance benefits of DH-SNNs

Usually, a DH-LIF neuron has more parameters than a vanilla LIF neuron. At the neuron level, there are additional timing factors on dendritic branches, whose volume is proportional to the number of dendritic branches. At the network level, the number of synapses would explode if each dendritic branch is connected to all synaptic inputs. To reduce the parameter volume, we add a sparse restriction on the synaptic connection pattern, i.e., each dendritic branch only connects to a part of synaptic inputs and the number of synapses on each dendritic branch is balanced to a great extent (see Methods). In this way, DH-SNNs do not obviously increase storage and computational costs compared to vanilla SNNs. As given in Fig. 6a, the increase of parameters of DH-SNNs over vanilla SNNs is neuron-wise and proportional to the number of dendritic branches, which can be neglected compared to the heavy synaptic weights. Furthermore, we quantitatively present the numbers of parameters and synaptic operations of vanilla SNNs and DH-SNNs with different numbers of dendritic branches. We collect results from one-layer SFNNs and SRNNs on the SSC dataset and show the results in Fig. 6b. As predicted, there is no obvious increase of parameters and synaptic operations as the number of dendritic branches grows. The occasional fluctuation of synaptic operations is caused by the variable firing rate in different models. We further test our models on extensive datasets, including two speech datasets (GSC and TIMIT ), two spiking speech datasets (SHD and SSC) , and two sequence datasets (S-MNIST and PS-MNIST). The experimental settings can be found in Methods and results are provided in Table 1. On these datasets, we find that our proposed DH-SNNs
improve accuracy significantly over other SNNs and long short-term memory (LSTM) models even using much fewer parameters. In particular, on SHD, compared to the best reported accuracy of SNNs , our models can improve accuracy from to with only parameters; on SSC, our models boost the best reported accuracy from to with only parameters. Supplementary Table S5 also shows that our DH-SNNs enjoy much higher computational efficiency over LSTM models on these two datasets, as high as hundreds to thousands of times. On the classic benchmarks commonly used for speech recognition tasks, i.e., GSC and TIMIT with non-spiking data, our DH-SNNs with much fewer parameters again obtain better accuracy compared to previous SNN models. On datasets with less temporal heterogeneity such as S-MNIST and PS-MNIST, DH-SNNs also demonstrate competitive accuracy.
The robustness of SNNs can also be enhanced by temporal dendritic heterogeneity. We add random spike noises into the original data for testing the robustness of vanilla SFNNs and DH-SFNNs in resisting noises. The random spike noises follow a Poisson distribution with variable rates. As depicted in Fig. 6c, DH-SFNNs with multiple dendritic branches suffer from slower accuracy degradation as the noise rate increases, thus presenting better robustness. For vanilla SFNNs without dendritic modeling or DH-SFNNs with only one dendritic branch, all synaptic inputs are directly concentrated at the soma or on the only dendritic branch. Therefore, each noisy input would influence the entire dynamics of the neuron. When the timing factor of the membrane potential or the dendritic current is large, the disturbance caused by the noise decays slowly and accumulates gradually, finally harming model performance. Fortunately, for DH-SFNNs with multiple dendritic branches, synaptic inputs are distributed on different dendritic branches. Owing to the rich temporal dendritic heterogeneity, there is usually a part of dendritic timing factors being small, which would decay the disturbance caused by noises on those dendritic branches fast, greatly reducing the influence on the entire dynamics of the neuron. In this way, DH-SFNNs with multiple dendritic branches enjoy better robustness than vanilla SFNNs. We also observe similar results on vanilla SRNNs and DH-SRNNs (see Supplementary Fig. S8). Besides robustness, we further test the generalization capability by pre-training models under a sampling time interval and fine-tuning them under a different time interval (see Supplementary Fig. S9). Again owing to the natural temporal heterogeneity, DH-SNNs with multiple dendritic branches demonstrate better generalization to input information with variable timescales.

Efficient execution on neuromorphic hardware

In recent years, various neuromorphic platforms have been developed for SNNs, which help achieve higher execution efficiency than generalpurpose platforms such as CPUs and GPUs. Compared to ordinary SNNs with only soma dynamics, DH-SNNs additionally involve the computation of dendritic dynamics, which make them difficult to operate on conventional neuromorphic hardware. We have developed several hybrid-paradigm neuromorphic chips during the past ten years, Tianjic series , which can support ANNs, SNNs, and hybrid neural networks , thus providing the possibility of performing DHSNNs by configuring the spiking mode for soma dynamics and the nonspiking mode for dendritic dynamics. In this subsection, we deploy DH-SNNs on a recent Tianjic chip, TianjicX , to demonstrate the feasibility of efficient execution of DH-SNNs on domain-specific hardware. Fortunately, more and more neuromorphic chips such as Loihi 2(https://download.intel.com/newsroom/2021/new-technologies/ neuromorphic-computing-loihi-2-brief.pdf), SpiNNaker and BrainScale have adopted hybrid-paradigm idea, which indicates DHSNNs have great potential in applying to practical neuromorphic systems.
To better utilize the resources of TianjicX, we add an extra restriction on the synaptic connection pattern as illustrated in Fig. 6d.
(a)
Models #Feedforward weights #Recurrent weights #Neuron parameters #Biases #Total parameters #Synaptic multiplications / timestep #Synaptic accumulations 1 timestep
Vanilla SFNN 1 0
Vanilla SRNN 0
DH-SFNN 1 ND 0
DH-SRNN ND 0
LSTM 1
(b)
(c)


(e)
(f)
Fig. 6 | Model compactness, robustness and efficient execution on neuromorphic hardware. a Theoretical number of parameters and synaptic operations of vanilla SNNs, DH-SNNs, and LSTM. We assume that a layer has neurons with inputs. and represents the mean firing rates of spike inputs and outputs, respectively. Synaptic multiplications and accumulations only include the computation of weight matrices. Comparing the number of synaptic accumulations and parameters of vanilla SNNs and DH-SNNs with different numbers of dendritic branches. c Comparing robustness of vanilla SFNNs and DH-SFNNs in resisting random spike noises on SHD (left) and SSC (right) datasets. d Illustration of the synaptic connection pattern of DH-SNNs for deployment on neuromorphic
hardware, where neurons within each group share the same pattern for easier mapping without degrading much accuracy. e The TianjicX development board and the dataflow when performing DH-SNNs on SHD and SSC datasets. The model on SHD uses four functional cores with three timing phase groups and the model on SSC uses 26 functional cores with six timing phase groups. Multiple timing phase groups are scheduled in a pipelined manner. f The execution performance including throughput and dynamic power consumption when performing DHSNNs on the TianjicX neuromorphic chip at 400 MHz clock frequency. Notice that processing one sample takes 1000 timesteps. The standard deviations (presented as error bars) represent 5 repeated trials.
Specifically, the continuous neurons in a layer within a neuron group share one synaptic connection pattern on the dendritic branches with the same branch index. For example, in Fig. 6d, branch 0 of neuron 0 and branch 0 of neuron 1 are connected to the same synaptic inputs. In this way, the synaptic operations of these two branches can be performed together. In our implementation, the neuron group size is set to 32 , so here we modify the number of neurons in each hidden layer to be integer multiples of 32. Two DH-SNN models with the above connection pattern restriction are implemented on the TianjicX neuromorphic chip. One model is a single-layer DH-SFNN on the SHD dataset, and the other is a four-layer DH-SFNN on the SSC dataset. We have compared the two models with and without the connection pattern restriction and found the restriction only induces negligible accuracy degradation within 0.3%. The single-layer DH-SFNN only uses
four of a chip’s 160 functional cores, while the four-layer DH-SFNN uses 26 functional cores. We divide each model into several execution steps and allocate different numbers of functional cores to them as presented in Fig. 6e. The flexible timing schedule of TianjicX enables a pipelined execution of the steps for better performance. As summarized in Fig. 6f, both DH-SNNs can be efficiently performed on TianjicX with high throughput and low power consumption. More details of hardware implementation are provided in Methods and Supplementary Fig. S11.

Application to EEG signal recognition and robot place recognition

In the field of brain-computer interface, how to handle electroencephalogram (EEG) signals effectively is a significant problem.
Table 1 | Accuracy comparison between DH-SNNs and prior methods
Dataset Model #Parameters Accuracy
SHD SFNN 0.09 M 48.1%
SRNN 1.79 M 83.2%
SRNN 0.17 M 81.6%
SRNN 0.11 M 82.7%
SCNN 0.21 M 84.8%
SRNN 0.14 M 90.4%
LSTM 0.43 M 89.2%
DH-SRNN (1-layer, 2-branch) 0.05M 91.34%
DH-SFNN (2-layer, 8-branch) 0.05M 92.1%
SSC SFNN 0.09 M 32.5%
SRNN 0.11 M 60.1%
SRNN 0.77 M 74.2%
LSTM 0.43 M 73.1%
DH-SFNN (4-layer, 4-branch) 0.27M 81.03%
DH-SRNN (3-layer, 4-branch) 0.35M 82.46%
S-MNIST LSNN 0.08M 96.4%
AHP-SNN 0.08 M 96.0%
SRNN 0.16M 98.7%
LSTM 0.06M 98.2%
DH-SRNN (2-layer, 2-branch) 0.08M 98.9%
PS-MNIST LSTM 0.06M 88%
SRNN* (not standard inputs) 0.16M 94.3%
DH-SRNN (2-layer, 1-branch) 0.08M 94.52%
GSC SRNN 0.04 M 86.7%
LSNN 4.19 M 91.2%
SRNN 0.31 M 92.1%
DH-SRNN (1-layer, 8-branch) 0.13 M 93.86%
DH-SFNN (3-layer, 8-branch) 0.11 M 94.05%
TIMIT LSNN 0.4 M 66.8%
LSNN 0.4 M 65.4%
SRNN 0.63 M 66.1%
DH-SRNN (1-layer, 8-branch) 0.18M 67.42%
*The bolded portion in the table represents the results of this study.
Existing approaches include conventional classification algorithms and emerging deep learning-based algorithms such as convolutional neural networks (CNNs) and RNNs . Recently, SNN-based methods also show great potential in processing EEG signals with high efficiency but have not achieved satisfactory performance yet. Considering the intrinsic multi-timescale components in EEG signals, we believe our proposed DN-SNNs can boost the performance of SNNs in EEG signal recognition tasks.
We select an EEG-based emotion recognition task with the DEAP dataset to evaluate DH-SNNs. As illustrated in Fig. 7a, the DEAP dataset contains EEG signals recorded by electrodes from 32 participants stimulated with music videos. Along with EEG signals, participants were asked to report their emotions while watching music videos, using as the label for emotion recognition. After pre-processing (see Methods), EEG signals were fed to one-layer DH-SFNNs with different numbers of dendritic branches. We use DH-SFNNs to recognize three levels (low, medium and high) of valence and arousal which reflect emotion on the DEAP dataset (see Methods for more details). The accuracy curves during model training are provided in Fig. 7b, c. We find that DH-SFNNs show much better performance than vanilla SFNNs in both tasks. Consistently, the temporal dendritic heterogeneity under multiple dendritic branches indeed helps boost performance, which evidences our
prediction that DH-SNNs have great potential in processing multitimescale EEG signals. As summarized in Supplementary Table S6, DHSNNs once more demonstrate the best recognition accuracy on the DEAP dataset with much fewer parameters compared to existing approaches including multi-layered perceptron (MLP) , and spiking CNN (SCNN) . In Supplementary Fig. S12, we additionally conduct similar experiments with SRNNs and two-class emotion recognition, where the above conclusions still hold. Compared to the results with DH-SFNNs, we observe higher accuracy with DH-SRNNs but a reduced accuracy gap when varying the number of dendritic branches. This evidences again the faster performance saturation of SRNNs.
We then design a visual place recognition (VPR) task to demonstrate the potential of our model in the field of robots. The robot visual place recognition has become an increasingly important area in the robotics community, as it enables robots to better comprehend the spatial properties of the environment . Currently, there are two primary approaches being explored for visual place recognition. The former uses temporally captured images for place recognition, such as SeqSLAM , FlyNet and sequential place learning , while the latter uses neuromorphic sensors such as event cameras as an extra data source for improving recognition accuracy. In our experiments, we design a NeuroVPR task and use a mobile robot to collect the spike event stream while moving in the indoor environment. The target is to recognize where it is using the collected spike event stream. The details of the dataset and the experiment setting can be found in Methods. We compare the performance of our DH-SNN model to the vanilla SNN model. The results in Supplementary Fig. S13 demonstrate higher top-1, top-5, and top-10 accuracy scores of the DH-SNN model, which shows great potential in performing robotic tasks with rich temporal information. Notice that here SRNNs do not show better performance than SFNNs, which might be due to the differences in network architectures and the training difficulties of recurrent networks in image recognition tasks.

Discussion

We propose the DH-LIF neuron model which incorporates temporal dendritic heterogeneity into the spiking neuron and then extend to the network level for constructing DH-SFNNs and DH-SRNNs. By learning heterogeneous timing factors on different dendritic branches through the adapted BPTT algorithm, DH-SNNs are able to extract, memorize, and integrate temporal features at different timescales. This rich temporal heterogeneity significantly improves the comprehensive performance of SNNs in terms of accuracy, compactness, robustness, and generalization when performing temporal computing benchmarks we validated for speech recognition, visual recognition, EEG signal recognition, and robot place recognition. Owing to the additional sparse restriction on the connection pattern, DH-SNNs do not increase storage and computational costs, allowing efficient execution on neuromorphic hardware. This work demonstrates a potential route to exploit biological observations appropriately for moving neuromorphic computing a big step toward real-world applications.
The above metrics are easy options to select for measuring the performance of DH-SNNs, however, they are not intuitive for understanding the underlying working mechanism. To this end, we elaborate on a delayed spiking XOR problem as a simple but clear benchmark for the proposed DH-SNNs. In the naive delayed spiking XOR problem, we demonstrate the long-term memory of each dendritic branch without state reset like the membrane potential. In the multi-timescale spiking XOR problem, we reveal that different dendritic branches with variable timing factors can capture multi-timescale temporal features, for example simultaneously memorizing low-frequency signals and tracking high-frequency signals, enabling combined decisions at the soma through feature integration. Furthermore, we reveal that the network-level connections including inter-layer feedforward connections and intra-layer recurrent connections can also integrate features

to produce high-level temporal features for making more complicated decisions. Usually, appropriately more dendritic branches generate richer dendritic temporal heterogeneity that enhances the representation power of DH-SNNs. Due to the higher complexity of feature integration given by recurrent connections, we observe faster performance saturation in DH-SRNNs compared to DH-SFNNs when performing the same task as the number of dendritic branches or layers grows. Comprehensively considering the above experimental results, we explain the working mechanism of temporal dendritic heterogeneity in DH-SNNs for performing multi-timescale temporal computing tasks: the inter-branch feature integration in a neuron, the interneuron feature integration in a recurrent layer, and the inter-layer feature integration in a network have similar and synergetic effects in capturing multi-timescale temporal features.
Overall, the proposed DH-SNN model is simple but quite effective as evidenced by extensive experiments. An interesting topic in future work is to improve the model itself. The current modeling is based on the LIF neuron model, which is the simplest form of spiking neurons even though it is widely used. A possible way for model improvement is to build DH-SNNs based on more complicated spiking neuron models rather than the LIF one. For example, neuron models with more dendritic properties found in biological neurons seem promising. However, the naive imitation of biological neurons may not benefit the performance of neural networks in practical tasks but even be harmful under the current intelligence framework due to the complicated equations with massive hyper-parameters needed for describing dendritic behaviors . Therefore, an elaborate abstraction of dendritic properties like nonlinearity and careful transformation is the key to the success of neuron model exploration. Recent works proposed an efficient spike-driven learning method based on dendritic computation serving as the adjustment to synaptic learning rules and further implemented them on FPGA, demonstrating a positive example in this regard. Another potential direction is to explore a learnable dendritic connection pattern. In contrast to the fixed dendritic connection
pattern in our modeling, biological neural networks exhibit evolving connections on dendrites. Drawing inspiration from this biological phenomenon, we can investigate the potential for adapting the connection pattern during the learning process. For instance, we can leverage methods like DEEP to automatically modify the network’s connection pattern by pruning and rewiring synapses according to their significance. Moreover, well-designed optimization methods and appropriate benchmarking tasks are also critical for mining the potential of neuron models, which are left for future exploration. In addition, because we focus on demonstrating the effectiveness of temporal dendritic heterogeneity and revealing its working mechanism in this work, we select the simple fully-connected rather than convolutional layers as the backbone and do not pay much attention to training optimization techniques. This is the reason that we exclude the comparison with prior CNNs in most testing cases. It is quite possible to further improve the model performance if we introduce the convolutional topology and some optimization techniques such as activity normalization .
There are many inherent constraints in biological neurons. However, our research primarily centers on effectively integrating biological observations into computational models to solve real-world computing tasks, rather than strictly adhering to all biological principles. In fact, many works on bio-inspired algorithms did not follow strict biological constraints. For example, they extend the range of the timing factors of membrane potentials , and represent individual neurons using abstract units that communicate through continuous firing rates instead of discrete action potentials . These departures from biological fidelity are often necessary to prevent the degradation of model performance during training with complicated neural dynamics and biological details. In our work, the timing factors are not unbounded and we restrict them within through the function (see Equation (6) in Methods), but this is not the result of considering biological constraints. It is very hard to balance the performance in practical tasks and the biological plausibility. Innovations
in learning algorithms offer promising potential to realize this balance, which is an interesting topic for future work.
Processing temporally heterogeneous information is an important capability of not only the brain but also man-made machines. For example, a robot embedded with multimodal sensors must sense and process input signals with rich spectral components to make prompt and correct decisions. Besides improving the proposed model as aforementioned, applying the model to real-world complex scenarios and deploying it on practical agents are promising future work, which will bridge neuroscience and reality more clearly. At that time, visualization and analysis of the interactions between different modalities from the perspective of neural dynamics would be of interest and helpful for understanding how the brain processes multimodal information concurrently and efficiently.

Methods

Modeling dendritic memory

The dendrite structure of a spiking neuron can be regarded as a series of small RC circuits where the current and voltage on a dendritic branch vary over time and location following complex differential equations , which is usually neglected in popular LIF neuron models. In order to ease the implementation on computers, we simplify the model for friendly programming. Specifically, we consider each dendritic branch as a whole RC circuit while removing the spatial dendritic features and only keeping the temporal features. The dendritic current can behave as
where is the external synaptic current injected into the dendritic branch, and represent the equivalent capacitance and resistance, respectively, and denotes the connecting resistance between the dendrite and the soma. Then, we have
where represents the time constant of the dendritic branch and denotes the synaptic inputs. If we discretize the above equation using the Euler method, we can have two formats
Thus, the discrete versions can be written as
where the timing factor equals or according to the two discretization formats, respectively. Although there are two different definitions of with respect to , they share a unified representation if we only look at the level, which is just the reason that we learn rather than in our experiments.

LIF-based spiking neuron with dendritic heterogeneity (DH-LIF)

With the modeling of the memory on each dendritic branch, we redesign the classic LIF-based spiking neuron model. The classic LIF neuron only has single-timescale memory on the soma’s membrane potential, while the DH-LIF neuron further has multi-timescale memories on the dendrite. The behaviors of a DH-LIF neuron can be
governed by
where is the soma’s membrane potential, is the timing factor of the membrane potential, is the soma’s membrane resistance which is set to for simplification, is the index of dendritic branches, and is the firing threshold of the membrane potential. is the Heaviside function that follows when and otherwise. When the neuron fires a spike, the membrane potential decreases by . To avoid negative timing factors in Equation (5), and should be restricted within , which is realized by adding a sigmoid function for soft clamping:
The synaptic input on the -th dendritic branch is the sum of the feedforward input and the recurrent input:
where and represent feedforward and recurrent synapse vectors, respectively, which are two sparse vectors since only the synapses connected to the -th dendritic branch are valid.

SNN with DH-LIF neurons (DH-SNN)

Extending the DH-LIF neuron model to an SNN model (DH-SNN), we first add the layer information into Equation (5) and get the dynamics of an SNN layer as follows
where denotes the layer index and represents the element-wise multiplication. Then, the synaptic current on the -th dendritic branch can be
where and denote the matrix forms of feedforward and recurrent synaptic weights, respectively, which are again sparse since only the synapses connected to the -th dendritic branches of neurons in the layer are valid.

Sparse connection restriction

Usually, the topology at the network level has two cases: with or without recurrent connections. We term the DH-SNN with only feedforward connections as DH-SFNN and the one with recurrent connections as DH-SRNN. We assume that a layer with neurons has inputs, then we have and . From the perspective of the -th neuron, its synaptic weight matrix connected to feedforward and recurrent inputs can be denoted as and , respectively. Briefly, and are respectively assembled by the -th row of and .
In a layer of the DH-SFNN, there are only feedforward connections, i.e., Equation (9) becomes . we restrict the
connections of each neuron as follows
where denotes the index set of feedforward synapses connected to the -th dendritic branch, i.e., the set of non-zero elements in the -th row in denotes the set size. Similarly, for a layer of the DH-SRNN, we restrict both feedforward and recurrent connections as follows
where applies similar definitions with on recurrent synapses. From the above equations, it can be seen that our solution would not increase connection and computational costs as the number of dendritic branches grows. The number of synapses on each dendritic branch is balanced to a great extent by limiting the connections to a sparse pattern. In this way, the DH-SNN maintains the lightweight computational advantage of ordinary SNNs.

Learning of DH-SNN

In order to achieve high performance, we adopt the emerging SNNversion BPTT learning algorithm and extend it from ordinary SNNs to our DH-SNNs. The model parameters including synaptic weights, W, U, and timing factors, , are automatically learned during training. Assuming the loss function is and applying the chain rule of the gradient descent, the BPTT for the DH-SNN can follow
where denotes the gradient of the loss function with respect to specific variables. Note that actually does not exist due to the nondifferentiable spiking activities. To address this issue, we adopt the widely used surrogate gradient but replace the hard rectangle approximate curve with a soft multi-Gaussion curve :
where affect the magnitude and affect the width of the gradient. The peak of the surrogate gradient function is at the firing threshold where the neuron fires a spike. Finally, the gradients of parameters can be achieved by

Datasets and tasks

The self-designed spiking XOR problem has two types of input spike patterns with high or low firing rates. We set the high-firing-rate pattern with a firing probability of 0.6 and the low-firing-rate pattern with
a firing probability of 0.2 . Each spike pattern lasts 10 ms and the length of each timestep in the simulation is 1 ms in both the delayed spiking XOR problem and the multi-timescale spiking XOR problem. Specifically, in the multi-timescale spiking XOR problem, we set the time interval between two input spike patterns to for Signal 2 with faster periods. In addition, we added spike noises with a firing probability of 0.01 in the duration of experiments. For the spiking XOR problems, we run the experiments with 10 repeated trials.
Besides the self-designed spiking XOR problems, we also test our models on standard benchmarks. Spiking Heidelberg digits (SHD) and spiking speech command (SSC) datasets convert the original audio data into the spike format through a bionic inner ear model. SHD contains about 10,000 high-quality recordings of English and German speech for digits ranging from 0 to 9 . A total of 12 speakers are included in the dataset, in which 6 are female and 6 are male. The speakers range in age from 21 to 56, with an average of 29 years old. Each speaker records about 40 sequences for each language and each digit, producing a total of 10,420 sequences. Each recording is clipped by a threshold associated with each speaker, which is optimized by a black-box optimizer. Further processing applies a fast Fourier transform and a 30 ms Hanning window. The SSC dataset is derived from the Google speech command dataset (GSC 0.02 version). Each sample consists of a audio file of a spoken English word with a sampling rate of 16 KHz . The whole dataset contains 105,829 audio files with 35 classes. Likewise, a 30 ms Hanning window is applied at the beginning and the end of each audio recording before the spike conversion. We further pre-processed the raw spike data before feeding it into downstream networks. Specifically, we sampled the original spike trains with the time interval of , and truncated the original data according to the maximum time . Each recording is converted into a matrix, where is the number of total timesteps. The -th column of the matrix is a vector with a length of 700 , recording whether the channel emits spikes during [ , idt). If there is a spike or more in the duration, the corresponding value of the channel is 1 , otherwise is 0 . The above datasets are divided into several sets such as training, testing, and validation sets. In particular, the SHD training and testing sets contain 8,156 and 2,264 pieces of data, respectively; the SSC training, testing, and validation sets contain 75,466, 9,981, and 20,382 pieces of data. For the SHD and SSC datasets, we run the experiments with 5 repeated trials.
S-MNIST and PS-MNIST datasets are based on the handwritten digit dataset, MNIST, for image recognition tasks. In S-MNIST, each image in the original MNIST dataset is converted into a pixel sequence of length 784. Each time a pixel comes to the model, the neural network needs to memorize a time series of length 784 and then finally classify the input handwritten digit. In PS-MNIST, all pixel sequences are shuffled before being injected into the model, which increases the memorization and classification difficulty compared to S-MNIST. In essence, S-MNIST and PS-MNIST datasets are two important standard benchmarks for sequence learning and are mainly used to evaluate the long-term memory capability of spatiotemporal networks. For these datasets, the real-value inputs are directly fed into DHSNNs. The first layer of DH-SNNs receives real-value inputs rather than spiking inputs, but still performs the spiking neural dynamics as a normal DH-SNN layer except for the different input format. In this way, the first layer actually acts as an encoding layer that converts nonspiking inputs to spiking outputs and then sends to post-synaptic layers. This encoding scheme also works for all following non-spiking datasets.
The GSC dataset v. 1 contains 64,727 utterances from 1881 speakers saying 35 different speech commands. In our experiments, we followed the dataset setting as other SNN methods that transform the 30 classes of the dataset into 12 classes including ten words: “Yes”, “No”, “Up”, “Down”, “Left”, “Right”, “On”, “Off”, “Stop”, “Go”, and an additional special class named “Unknown” covering the left 25 classes
with an extra class “Silence” extracted randomly from the background noise audio files. We used an existing feature extraction method , i.e., adopting log Mel filters and extracting their first three derivative orders from the raw audio files by calculating the logarithm of 40 Mel filters coefficients using the Mel scale between 20 Hz and 4 KHz for pre-processing. Each frame of the inputs has channels. The spectrograms are normalized and the length of each timestep in the simulation is 10 ms . Thus, each audio sample is transformed into a sequence of 101 frames with 120 channels. The TIMIT dataset contains acoustic speech signals of sentences spoken by 630 speakers from 8 major dialect regions of the United States. The goal of the tasks is to recognize the phonemes of every 10 ms frame in each sentence. We follow the experimental settings of a prior work . The training, validation, and testing sets contain , and 192 sequences, respectively. The performance is evaluated on the core testing set. The raw audio data are pre-processed into 13 Mel Frequency Cepstral Coefficients (MFCCs) and then converted into 39 input channels including the first- and second-order derivatives and their combinations. Each frame belongs to 61 classes of phonemes. We set the simulation time interval of DH-SNNs to 1 ms , so every frame of a 10 ms input signal is fed into the model for 10 consecutive timesteps.
The DEAP dataset contains 32-channel EEG data and 8-channel peripheral physiological signals recorded by the electrode arrays from 32 participants when watching 40 pieces of one-minute music videos. Before watching the music video, each participant experienced a period of baseline recording time during which a fixation cross is presented on the screen. The EEG signals were sampled at 512 Hz and then downsampled to 128 Hz while removing electrooculography (EOG) artifacts for pre-processing. In our experiments, only the 32 -channel EEG data was used for classification. Therefore, the dimension of total EEG data is (#participants #trials #channels temporal length). After watching the music video, each participant was asked to report their emotion in levels of arousal, valence, liking, and dominance from 1 to 9 . Among them, arousal ranges from inactive (e.g., uninterested, bored) to active (e.g., alert, excited), while valence ranges from unpleasant (e.g., sad, stressed) to pleasant (e.g., happy, elated). In our experiments, we use two emotion description dimensions, arousal and valence, and then map the score of 1 to 9 to three labels: low (score lower than 4), medium (score between 4 and 6), and high (score higher than 6), or to two labels: low (score lower than 5) and high (score higher than 5). In this way, each trial has its label of valence and arousal for recognition. The total EEG data were pre-possessed again before feeding to models. We follow the pre-possessing method used by Tao et al. . The first data of each trial is used for producing the average baseline signal by averaging the data per second. The following 60 s data was normalized by subtracting the average baseline signal every second and then divided into 20 segments of for each. Finally, the dimension of total EEG data is transferred to (#samples #channels temporal length). We choose of the data as the training set and the remaining 10% as the testing set.
The NeuroVPR dataset for the robot visual place recognition task was collected by a Clearpath Jackal robot in the laboratory environment. A DAVIS 346 event camera is deployed on the robot platform, collecting frame-based images and spike event streams in real-time while the robot moves a 300 m trajectory in the laboratory room. The visual resolution is . The dataset consists of a total 10 repeated trajectories recorded at night. In each trajectory, the robot starts and stops at the same position and follows the same route. The dataset consists of a total RGB frames and about 1.7 billion spike events. The goal of the task is to make the robot recognize its position through a period of visual signals on the running track. Notice that we only use the spike events in this task. In our
experiments, we divide each trajectory into 100 segments with uniform length and mark the corresponding events in each segment with the same label. The spike events in the duration of 21 ms were fed into the SNN models and generated the prediction which indicates the robot’s position. We randomly chose six trajectories as the training set, three trajectories as the validation set, and one trajectory as the test set.

Experimental setting

For all experiments, networks have two parts including stacked SNN layers and a following readout layer. For the self-designed spiking XOR problems and the NeuroVPR dataset, the readout layer is a simple linear layer that decodes the spike output of the last SNN layer into the possibility of the -th class at the -th timestep. On SHD, SSC, GSC, TIMIT, and DEAP datasets, the readout layer is a nonspiking SNN layer with leaky membrane potentials and generates the possibility of the -th class by decoding the membrane potentials as on SHD and GSC, and on SSC, TIMIT, and DEAP. In the above tasks, we used a multi-Gaussian curve following to approximate the gradient of the non-differentiable spike activity. On S-MNIST and PS-MNIST datasets, the readout layer is a vanilla SNN layer that decodes the spike output by counting spikes of each class, i.e., . On these two datasets, the hyperparameters of the multi-Gaussian approximation curve are , . For the non-spiking datasets such as GSC, S-MNIST, and PS-MNIST, note that the input of the first SNN layer is nonspiking values. For all the above tasks, the loss function adopted is the Cross-Entropy loss following , where represents the predicted possibility of the -th class and is the ground truth. We used the Adam optimizer with an initial learning rate and a step learning rate scheduler. The code is built with the Pytorch framework and executed on 8 NVIDIA RTX 3090 GPUs.
For DH-SNNs, there are many hyper-parameters to initialize, such as firing thresholds, membrane potential timing factors, and dendritic timing factors. For the detailed settings of hyper-parameters, network structures, and batch sizes please refer to Supplementary Information. Specifically, Supplementary Table S1 shows the model configuration details for the tasks used in ablation studies. In these tasks, since the network structure varies a lot, e.g., a single layer or multiple layers in SFNNs or SRNNs, we only offer the number of neurons per layer in the table while presenting details in Supplementary Fig. S1. Supplementary Table S2 shows the model configuration details for other tasks on standard temporal computing datasets. In these tasks, we do not implement comprehensive ablation but only show the best results with the network structures that can balance performance and efficiency. Therefore, we directly provide specific network structures in the table. Note that we use the DH-SRNN with a bidirectional structure, which consists of two parallel layers and receives inputs from both forward and backward directions. The spiking outputs of the two layers are then concatenated and fed to the decoding layer. Supplementary Table S3 presents the initialization configurations of the timing factors we used. Notice that the timing factors of each dendritic branch and the membrane potential, and , actually equal sigmoid and , respectively, wherein and are the truly optimized parameters during training.

Influence of the membrane potential reset mechanism

We analyze the influence of the membrane potential reset mechanism on the capability of long-term memory using several tasks. The tested neuron models include the vanilla LIF neuron with different reset mechanisms and the DH-LIF neuron. Three membrane potential reset mechanisms are selected: hard reset, soft reset, and without reset. The vanilla LIF neuron with the hard reset mechanism is widely used, which
is governed by
The one with the soft reset mechanism can be described as
Last, the one without the reset mechanism follows
In above equations, is the membrane potential, is the timing factor of the membrane potential, is the synaptic input, is the spike output, and is the firing threshold.
First, we test the long-term memorization capability of SFNNs based on the above LIF neuron models using the delayed spiking XOR problem. Results of vanilla SFNNs with different membrane potential reset mechanisms and DH-SFNNs are compared. As depicted in Supplementary Fig. S3a, the vanilla SFNNs with reset mechanisms perform the worst in this task. This is because reset mechanisms would periodically clear some temporal information stored in the soma’s membrane potential. Especially, the hard reset mechanism would clear the information completely, making it fail to memorize information for the long term. The soft reset mechanism slightly alleviates this problem. Apparently, the removal of reset mechanisms or using the proposed DH-LIF neuron with dendritic memory can avoid this problem, thus significantly improving the long-term memorization capability. Next, we further test above models on SHD and SSC datasets under different sampling time intervals from to . As presented in Supplementary Fig. S3b, c, vanilla SFNNs without the reset mechanism and DH-SFNNs still show better long-term memorization capability especially when processing slow-timescale data with . However, as the sampling time interval increases, the performance of vanilla SFNNs without the reset mechanism degrades quickly, which implies that it cannot handle fasttimescale information without any reset mechanism to clear the historic memory. Among these models, DH-SFNNs can generalize the best when processing information from the fast timescale to the slow timescale. This is owing to both the long-term memory of dendritic branches and the periodical clearing of historic information on the membrane potential. When the dendritic timing factors are small, the DH-SFNN would behave like the vanilla SFNN with the soft reset mechanism, performing well at the fast timescale, e.g., here. By contrast, When the dendritic timing factors are large, the dendritic currents decay slowly with a longterm memory behaving like the membrane potentials of vanilla SFNNs without the reset mechanism, performing well at the slow timescale, e.g., here.

Influence of the dendritic connection pattern

To maintain the volume of parameters to a low level, we add a sparse restriction on the dendritic connections of DH-SNNs. In detail, we make each dendritic branch in a DH-LIF neuron only connect to a part of synaptic inputs. In this experiment, we vary the connection sparsity ratio ( ) in a one-layer DH-SFNN with eight dendritic branches in each neuron and evaluate its performance on SHD and SSC datasets. Here the sparsity ratio represents the ratio of synaptic inputs connected to each dendritic branch over total synaptic inputs. Given an setting, we have
where denotes the index set of synaptic inputs connected to the -th dendritic branch and denotes the set size. Here is determined by
where represents the number of dendritic branches in each neuron and is a random sequence from 1 to which is different for each neuron. Therefore, when we set , there is no overlapped synaptic input between dendritic branches in each neuron. While when we set , some synaptic inputs can connect to multiple dendritic branches in the meantime. In this case, the last will circularly read indexes from scratch for avoiding overflow.
The experimental results are shown in Supplementary Fig. S10. When the sparsity ratio is close to here , the models perform well. On the contrary, when the sparsity ratio is too small or too large, the performance degrades to accuracy scores lower than 88% on SHD and lower than on SSC. Generally speaking, on one hand, the synapse inputs connected to each neuron should better cover all synaptic inputs to get information as much as possible. On the other hand, the excessive overlap of synapse inputs connected to different dendritic branches would cause overfitting and performance degradation.

Details of implementation on neuromorphic hardware

The TianjicX neuromorphic chip supports a hybrid-paradigm primitive instruction set that covers a wide range of operations. To implement DH-SNNs on the chip, only five operations listed in Supplementary Fig. S11a are necessary. Unlike ordinary SNNs, DH-SNNs require two types of LIF operations, one outputting binary spikes for soma dynamics and one outputting continuous currents for dendritic dynamics. In TianjicX, the spikes are represented by 2-bit ternary numbers while the membrane potentials are represented by 8 -bit integers. The detailed configuration of LIF operation parameters can be found in Supplementary Table S2 of a recent reference .
The logical mapping of DH-SNNs onto functional cores in TianjicX is illustrated in Supplementary Fig. S11b. Each dashed box represents a functional core with operations and the dataflow. Taking the singlelayer DH-SFNN on the SHD dataset using four functional cores (left) as an example, the functional core in the first timing phase group (Group 1), receives spikes from the host and multicasts them to the two functional cores in Group 2. Each functional core in Group 2 first divides the inputs into four parts corresponding to four dendritic branches, then every time performs an FC operation and a non-spiking LIF operation to simultaneously generate the dendritic currents with the same branch index of 32 neurons in a neuron group and finally executes a sum operation followed by a spiking LIF operation to generate the output spikes of the final 32 neurons. The last timing phase group contains only one functional core, which performs an FC operation and a non-spiking LIF operation based on the spikes collected from the previous group and sends the outputs to the host. For the four-layer DH-SFNN on the SSC dataset using 26 functional cores (right), the model mapping is quite similar to that of the single-layer DH-SFNN except for the different numbers of layers and neurons.
The operations in each functional core are executed in series, while the functional cores in the same timing phase group work in parallel. For inter-group execution, the timing phase groups are scheduled in a pipelined manner as illustrated in Supplementary Fig. S11c. In this way, the throughput can be improved, which depends on the timing phase group with the longest latency. For both models, the first timing phase group, i.e., Group 2, which processes the largest number of spike inputs, consumes the longest latency and determines the overall throughput. Notice that the specific clock cycle numbers in Supplementary Fig. S11c are acquired from the cycle-accurate chip simulator instead of real chip testing, so there exist certain errors compared to the physically measured results in Fig. 6f.

Reporting summary

Further information on research design is available in the Nature Portfolio Reporting Summary linked to this article.

Data availability

All data used in this paper are publicly available and can be accessed at http://yann.lecun.com/exdb/mnist/ for S-MNIST and PS-MNIST datasets, https://zenkelab.org/resources/spiking-heidelberg-datasets-shd/ for SHD and SSC datasets, https://tensorflow.google.cn/datasets/ catalog/speech_commands/for the GSC dataset. The TIMIT dataset is available on request via https://doi.org/10.35111/17gk-bn40. The DEAP dataset is available on request via https://www.eecs.qmul.ac.uk/mmv/ datasets/deap/. The NeuroVPR dataset is available on Zenodo: https:// doi.org/10.5281/zenodo.7825811.

Code availability

The source code is publicly available at https://github.com/eva1801/ DH-SNN.

References

  1. Maass, W. Networks of spiking neurons: the third generation of neural network models. Neural Netw. 10, 1659-1671 (1997).
  2. Sengupta, A., Ye, Y., Wang, R., Liu, C. & Roy, K. Going deeper in spiking neural networks: Vgg and residual architectures. Front. Neurosci. 13, 95 (2019).
  3. Zheng, H., Wu, Y., Deng, L., Hu, Y. & Li, G. Going deeper with directlytrained larger spiking neural networks. In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 35, 11062-11070 (2021).
  4. Wu, Y. et al. Efficient visual recognition: A survey on recent advances and brain-inspired methodologies. Machine Intell. Res. 19, 366-411 (2022).
  5. Wu, Y. et al. Direct training for spiking neural networks: Faster, larger, better. In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, 1311-1318 (2019).
  6. Monsa, R., Peer, M. & Arzy, S. Processing of different temporal scales in the human brain. J. Cogn. Neurosci. 32, 2087-2102 (2020).
  7. Amir, A. et al. A low power, fully event-based gesture recognition system. In Proceedings of the IEEE conference on computer vision and pattern recognition, 7243-7252 (2017).
  8. Li, H., Liu, H., Ji, X., Li, G. & Shi, L. Cifar10-dvs: an event-stream dataset for object classification. Front. Neurosci. 11, 309 (2017).
  9. Golesorkhi, M. et al. The brain and its time: intrinsic neural timescales are key for input processing. Commun. Biol. 4, 1-16 (2021).
  10. Wolff, A. et al. Intrinsic neural timescales: temporal integration and segregation. Trends Cogn. Sci. 26,159-173 (2022).
  11. Harris, K. D. & Shepherd, G. M. The neocortical circuit: themes and variations. Nat. Neurosci. 18, 170-181 (2015).
  12. Gjorgjieva, J., Drion, G. & Marder, E. Computational implications of biophysical diversity and multiple timescales in neurons and synapses for circuit performance. Curr. Opin. Neurobiol. 37, 44-52 (2016).
  13. Hausser, M., Spruston, N. & Stuart, G. J. Diversity and dynamics of dendritic signaling. Science 290, 739-744 (2000).
  14. Losonczy, A., Makara, J. K. & Magee, J. C. Compartmentalized dendritic plasticity and input feature storage in neurons. Nature 452, 436-441 (2008).
  15. Meunier, C. & d’Incamps, B. L. Extending cable theory to heterogeneous dendrites. Neural Comput. 20, 1732-1775 (2008).
  16. Chabrol, F. P., Arenz, A., Wiechert, M. T., Margrie, T. W. & DiGregorio, D. A. Synaptic diversity enables temporal coding of coincident multisensory inputs in single neurons. Nat. Neurosci. 18, 718-727 (2015).
  17. Gerstner, W., Kistler, W. M., Naud, R. & Paninski, L.Neuronal dynamics: From single neurons to networks and models of cognition (Cambridge University Press, 2014).
  18. Bittner, K. C., Milstein, A. D., Grienberger, C., Romani, S. & Magee, J. C. Behavioral time scale synaptic plasticity underlies ca1 place fields. Science 357, 1033-1036 (2017).
  19. Cavanagh, S. E., Hunt, L. T. & Kennerley, S. W. A diversity of intrinsic timescales underlie neural computations. Front. Neural Circuits 14, 615626 (2020).
  20. London, M. & Häusser, M. Dendritic computation. Annu. Rev. Neurosci. 28, 503-532 (2005).
  21. Poirazi, P. & Papoutsi, A. Illuminating dendritic function with computational models. Nat. Rev. Neurosci. 21, 303-321 (2020).
  22. Bicknell, B. A. & Häusser, M. A synaptic learning rule for exploiting nonlinear dendritic computation. Neuron 109, 4001-4017 (2021).
  23. Spruston, N. Pyramidal neurons: dendritic structure and synaptic integration. Nat. Rev. Neurosci. 9, 206-221 (2008).
  24. Branco, T., Clark, B. A. & Häusser, M. Dendritic discrimination of temporal input sequences in cortical neurons. Science 329, 1671-1675 (2010).
  25. Li, X. et al. Power-efficient neural network with artificial dendrites. Nat. Nanotechnol. 15, 776-782 (2020).
  26. Boahen, K. Dendrocentric learning for synthetic intelligence. Nature 612, 43-50 (2022).
  27. Tzilivaki, A., Kastellakis, G. & Poirazi, P. Challenging the point neuron dogma: Fs basket cells as 2-stage nonlinear integrators. Nat. Commun. 10, 3664 (2019).
  28. Bono, J. & Clopath, C. Modeling somatic and dendritic spike mediated plasticity at the single neuron and network level. Nat. Commun. 8, 706 (2017).
  29. Naud, R. & Sprekeler, H. Sparse bursts optimize information transmission in a multiplexed neural code. Proc. Nat. Acad. Sci. 115, E6329-E6338 (2018).
  30. Dayan, P. & Abbott, L. F. et al. Theoretical neuroscience: computational and mathematical modeling of neural systems. J. Cogn. Neurosci. 15, 154-155 (2003).
  31. Perez-Nieves, N., Leung, V. C., Dragotti, P. L. & Goodman, D. F. Neural heterogeneity promotes robust learning. Nat. Commun. 12, 1-9 (2021).
  32. Pagkalos, M., Chavlis, S. & Poirazi, P. Introducing the dendrify framework for incorporating dendrites to spiking neural networks. Nat. Commun. 14, 131 (2023).
  33. Yin, B., Corradi, F. & Bohté, S. M. Accurate and efficient time-domain classification with adaptive spiking recurrent neural networks. Nat. Machine Intell. 3, 905-913 (2021).
  34. Liu, P., Qiu, X., Chen, X., Wu, S. & Huang, X.-J. Multi-timescale long short-term memory neural network for modelling sentences and documents. In Proceedings of the 2015 conference on empirical methods in natural language processing, 2326-2335 (2015).
  35. Loewenstein, Y. & Sompolinsky, H. Temporal integration by calcium dynamics in a model neuron. Nat. Neurosci. 6, 961-967 (2003).
  36. Warden, P. Speech commands: A dataset for limited-vocabulary speech recognition. arXiv preprint arXiv:1804.03209 (2018).
  37. Garofolo, J. S., Lamel, L. F., Fisher, W. M., Fiscus, J. G. & Pallett, D. S. Darpa timit acoustic-phonetic continous speech corpus cd-rom. nist speech disc 1-1.1. NASA STI/Recon Technical Rep. 93, 27403 (1993).
  38. Cramer, B., Stradmann, Y., Schemmel, J. & Zenke, F. The Heidelberg spiking data sets for the systematic evaluation of spiking neural networks. IEEE Transactions Neural Netw. Learning Sys. 33, 2744-2757 (2020).
  39. Pei, J. et al. Towards artificial general intelligence with hybrid tianjic chip architecture. Nature 572, 106-111 (2019).
  40. Ma, S. et al. Neuromorphic computing chip with spatiotemporal elasticity for multi-intelligent-tasking robots. Sci. Robotics 7, eabk2948 (2022).
  41. Zhao, R. et al. A framework for the general design and computation of hybrid neural networks. Nat. Commun. 13, 3427 (2022).
  42. Höppner, S. et al. The spinnaker 2 processing element architecture for hybrid digital neuromorphic computing. arXiv preprint arXiv:2103.08392 (2021).
  43. Pehle, C. et al. The brainscales-2 accelerated neuromorphic system with hybrid plasticity. Front. Neurosci. 16, 1-21 (2022).
  44. Li, M. & Lu, B.-L. Emotion classification based on gamma-band eeg. In 2009 Annual International Conference of the IEEE Engineering in medicine and biology society, 1223-1226 (IEEE, 2009).
  45. Duan, R.-N., Zhu, J.-Y. & Lu, B.-L. Differential entropy feature for eegbased emotion classification. In 2013 6th International IEEE/EMBS Conference on Neural Engineering (NER), 81-84 (IEEE, 2013).
  46. Tripathi, S., Acharya, S., Sharma, R. D., Mittal, S. & Bhattacharya, S. Using deep and convolutional neural networks for accurate emotion classification on deap dataset. In Twenty-ninth IAAI conference (2017).
  47. Tao, W. et al. Eeg-based emotion recognition via channel-wise attention and self attention. IEEE Transactions on Affective Computing 14, 382-393 (2020).
  48. Islam, M. R. et al. Eeg channel correlation based model for emotion recognition. Computers Biol. Med. 136, 104757 (2021).
  49. Tan, C., Šarlija, M. & Kasabov, N. Neurosense: Short-term emotion recognition and understanding based on spiking neural network modelling of spatio-temporal eeg patterns. Neurocomputing 434, 137-148 (2021).
  50. Koelstra, S. et al. Deap: A database for emotion analysis; using physiological signals. IEEE Transactions Affective Computing 3, 18-31 (2011).
  51. Jirayucharoensak, S., Pan-Ngum, S. & Israsena, P. Eeg-based emotion recognition using deep learning network with principal component based covariate shift adaptation. Scientific World J. 2014, 1-10 (2014).
  52. Lowry, S. et al. Visual place recognition: A survey. IEEE transactions on robotics 32, 1-19 (2015).
  53. Milford, M. J. & Wyeth, G. F. Seqslam: Visual route-based navigation for sunny summer days and stormy winter nights. In 2012 IEEE international conference on robotics and automation, 1643-1649 (IEEE, 2012).
  54. Chancán, M., Hernandez-Nunez, L., Narendra, A., Barron, A. B. & Milford, M. A hybrid compact neural architecture for visual place recognition. IEEE Robotics Automation Lett. 5, 993-1000 (2020).
  55. Chancán, M. & Milford, M. Deepseqslam: a trainable cnn+ rnn for joint global description and sequence-based place recognition. arXiv preprint arXiv:2011.08518 (2020).
  56. Fischer, T. & Milford, M. Event-based visual place recognition with ensembles of temporal windows. IEEE Robotics Automation Lett. 5, 6924-6931 (2020).
  57. Milford, M. et al. Place recognition with event-based cameras and a neural implementation of seqslam. arXiv preprint arXiv:1505.04548 (2015).
  58. Yang, S. et al. Efficient spike-driven learning with dendritic eventbased processing. Front. Neurosci. 15, 601109 (2021).
  59. Gao, T., Deng, B., Wang, J. & Yi, G. Highly efficient neuromorphic learning system of spiking neural network with multi-compartment leaky integrate-and-fire neurons. Front. Neurosci. 16, 929644 (2022).
  60. Bellec, G., Kappel, D., Maass, W. & Legenstein, R. Deep rewiring: Training very sparse deep networks. arXiv preprint arXiv:1711.05136 (2017).
  61. Fang, W. et al. Incorporating learnable membrane time constant to enhance learning of spiking neural networks. In Proceedings of the IEEE/CVF international conference on computer vision, 2661-2671 (2021).
  62. Sussillo, D. Neural circuits as computational dynamical systems. Curr. Opin. Neurobiol. 25, 156-163 (2014).
  63. Gerstner, W. & Kistler, W. M.Spiking neuron models: Single neurons, populations, plasticity (Cambridge University Press, 2002).
  64. Cramer, B. et al. Surrogate gradients for analog neuromorphic computing. Proc. Natl. Acad. Sci. 119, e2109194119 (2022).
  65. Rossbroich, J., Gygax, J. & Zenke, F. Fluctuation-driven initialization for spiking neural network training. Neuromorphic Comput. Eng. 2, 044016 (2022).
  66. Bellec, G., Salaj, D., Subramoney, A., Legenstein, R. & Maass, W. Long short-term memory and learning-to-learn in networks of spiking neurons. Adv. Neural Inform. Processing Syst. 31, 795-805 (2018).
  67. Rao, A., Plank, P., Wild, A. & Maass, W. A long short-term memory for ai applications in spike-based neuromorphic hardware. Nat. Machine Intelligence 4, 467-479 (2022).
  68. Arjovsky, M., Shah, A. & Bengio, Y. Unitary evolution recurrent neural networks. In International conference on machine learning, 1120-1128 (PMLR, 2016).
  69. Auge, D., Hille, J., Kreutz, F., Mueller, E. & Knoll, A. End-to-end spiking neural network for speech recognition using resonating input neurons. In Artificial Neural Networks and Machine Learning-ICANN 2021: 30th International Conference on Artificial Neural Networks, Bratislava, Slovakia, September 14-17, 2021, Proceedings, Part V 30, 245-256 (Springer, 2021).
  70. Salaj, D. et al. Spike frequency adaptation supports network computations on temporally dispersed information. Elife 10, e65459 (2021).
  71. Bellec, G. et al. A solution to the learning dilemma for recurrent networks of spiking neurons. Nat. Commun. 11, 1-15 (2020).

Acknowledgements

This work was partially supported by STI 2030 – Major Projects
2021ZD0200300, National Natural Science Foundation of China (No. 62276151, 62106119, 62236009, U22A20103), National Science Foundation for Distinguished Young Scholars (No. 62325603), CETC Haikang Group-Brain Inspired Computing Joint Research Center, and Chinese Institute for Brain Research, Beijing. We would like to thank Prof. Luping Shi for the valuable discussion.

Author contributions

H.Z. and L.D. conceived the work. H.Z., R.H., and F.Y. carried out the simulation experiments. Z.Z. and X.L. carried out the hardware implementation. H.Z., Z.Z., and L.D. contributed to the analyses of experimental results. All of the authors contributed to the discussion of model and experiment design, and L.D. led the discussion. H.Z., Z.Z., B.X., Y.W., G.L., and L.D. contributed to the writing of the paper. L.D. supervised the whole project.

Competing interests

The authors declare no competing interests.

Additional information

Supplementary information The online version contains
supplementary material available at
https://doi.org/10.1038/s41467-023-44614-z.
Correspondence and requests for materials should be addressed to Lei Deng.
Peer review information Nature Communications thanks the anonymous reviewers for their contribution to the peer review of this work. A peer review file is available.
Reprints and permissions information is available at http://www.nature.com/reprints
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons license, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons license, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons license and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this license, visit http://creativecommons.org/ licenses/by/4.0/.
© The Author(s) 2024

  1. Center for Brain Inspired Computing Research (CBICR), Department of Precision Instrument, Tsinghua University, Beijing, China. Institute of Theoretical Computer Science, Graz University of Technology, Graz, Austria. Institute of Automation, Chinese Academy of Sciences, Beijing, China.