ترميز المعلومات العاطفية متعددة الأنماط من خلال واجهة وجه لاسلكية مدمجة في الجلد مخصصة Encoding of multi-modal emotional information via personalized skin-integrated wireless facial interface

المجلة: Nature Communications، المجلد: 15، العدد: 1
DOI: https://doi.org/10.1038/s41467-023-44673-2
PMID: https://pubmed.ncbi.nlm.nih.gov/38225246
تاريخ النشر: 2024-01-15

ترميز المعلومات العاطفية متعددة الأنماط من خلال واجهة وجه لاسلكية مدمجة في الجلد مخصصة

تاريخ الاستلام: 30 أغسطس 2023
تاريخ القبول: 28 ديسمبر 2023
تاريخ النشر على الإنترنت: 15 يناير 2024
(أ) تحقق من التحديثات

جين بييو لي , هانهيوك جانغ , يون وو جانغ © , هيون سيو سونغ , سو وو لي , بوي سي لي (1) & جي يون كيم

الملخص

تعتبر المشاعر والعواطف والمزاجات من العوامل الأساسية التي تعزز التفاعل بين البشر والآلات والأنظمة المتنوعة. ومع ذلك، فإن طبيعتها المجردة والغموض تجعل من الصعب استخراج المعلومات العاطفية بدقة واستغلالها. هنا، نطور نظامًا للتعرف على مشاعر الإنسان متعددة الأنماط يمكنه استخدام المعلومات العاطفية الشاملة بكفاءة من خلال دمج بيانات التعبير اللفظي وغير اللفظي. يتكون هذا النظام من نظام واجهة وجه مدمجة في الجلد مخصصة (PSiFI) تعمل بالطاقة الذاتية، وسهلة الاستخدام، وقابلة للتمدد، وشفافة، وتتميز بمستشعر ثنائي الاتجاه للضغط والاهتزاز مما يمكننا من استشعار ودمج بيانات التعبير اللفظي وغير اللفظي للمرة الأولى. إنه متكامل تمامًا مع دائرة معالجة البيانات لنقل البيانات لاسلكيًا مما يسمح بإجراء التعرف على المشاعر في الوقت الحقيقي. بمساعدة التعلم الآلي، يتم تنفيذ مهام التعرف على مشاعر الإنسان بدقة في الوقت الحقيقي حتى أثناء ارتداء القناع، وتم عرض تطبيق الكونسيرج الرقمي في بيئة الواقع الافتراضي.

يتم التعرف بشكل متزايد على استخدام المشاعر البشرية، بما في ذلك العواطف والمزاجات والمشاعر، كعامل حاسم في تحسين التفاعل بين البشر والآلات والأنظمة المتنوعة. . وبالتالي، هناك توقع متزايد بأن التقنيات القادرة على اكتشاف والتعرف على المشاعر ستساهم في التقدم عبر مجالات متعددة، بما في ذلك أجهزة واجهة الإنسان والآلة، , الروبوتات، , التسويق، , الرعاية الصحية، , التعليم، , إلخ. من خلال تمييز التفضيلات الشخصية وتقديم تجارب تفاعلية غامرة، تمتلك هذه التقنيات القدرة على تقديم خدمات أكثر ملاءمة وتخصيصًا للمستخدمين. ومع ذلك، فإن فك وترميز المعلومات العاطفية يمثل تحديات كبيرة بسبب التجريد الفطري، والتعقيد، والطبيعة الشخصية للعواطف. . للتغلب على هذه التحديات، يتطلب الاستخدام الناجح للمعلومات العاطفية الشاملة استخراج أنماط ذات مغزى من خلال الكشف ومعالجة
البيانات المجمعة من عدة أنماط، مثل الكلام، تعبير الوجه، الإيماءات، ومجموعة متنوعة من الإشارات الفسيولوجية (مثل درجة الحرارة، والنشاط الكهربائي الجلدي) . يصبح ترميز هذه الأنماط المستخرجة إلى معلمات تفاعلية مصممة لتطبيقات محددة أمرًا ضروريًا أيضًا.
تعتمد الأساليب التقليدية للتعرف على المعلومات العاطفية من البشر غالبًا على تحليل صور تعبيرات الوجه أو الكلام من التعبير اللفظي . ومع ذلك، غالبًا ما تعيق هذه الطرق عوامل بيئية مثل ظروف الإضاءة، والتداخل الضوضائي، والعوائق المادية. كبديل، تم استكشاف تقنيات تحليل النصوص لاكتشاف المشاعر، باستخدام كميات هائلة من المعلومات المتاحة على منصات التواصل الاجتماعي المتنوعة. ومع ذلك، تقدم هذه الطريقة تحديات بسبب الغموض المتنوع والمصطلحات الجديدة التي يتم تقديمها، مما يزيد من تعقيد الكشف الدقيق عن المشاعر من النص.
للتغلب على هذه القيود، تم استخدام أجهزة استشعار قادرة على التقاط التغيرات في الإشارات الفسيولوجية، بما في ذلك و GSR لجمع بيانات أكثر دقة وموثوقية. يمكن لهذه الأجهزة إقامة علاقات بين هذه الإشارات والمشاعر البشرية بغض النظر عن العوامل البيئية، ولكن الحاجة إلى معدات ضخمة تحد من تطبيقها في سيناريوهات التواصل اليومية.
في الدراسات الحديثة، أظهرت الأجهزة المرنة المدمجة في الجلد إمكانية توفير الكشف والتعرف في الوقت الحقيقي على المعلومات العاطفية من خلال أنماط متعددة مثل تعبيرات الوجه، والكلام، والنص، وإيماءات اليد، والإشارات الفسيولوجية، إلخ. . على وجه التحديد، تم استخدام مستشعر ضغط مقاوم للكشف مباشرة عن تشوهات الضغط الوجهية التي تحدث أثناء تعبيرات الوجه . تقدم هذه الطريقة بساطة من خلال استخدام واجهات أقطاب كهربائية مدمجة في الجلد رقيقة وناعمة لتدفق التيار، مما يسمح بتطبيقات قابلة للارتداء أو محمولة. ومع ذلك، فإن الحاجة إلى مصدر طاقة إضافي، ونطاق تردد عمل منخفض، ومكونات إضافية لتحويل الإشارة تسبب في أن تكون النمط البسيط مقصورًا فقط على الارتباط من واحد إلى واحد مما يفرض قيودًا على نطاق التطبيقات مثل الرعاية الصحية، والواقع الافتراضي حيث تكون المعلومات التكميلية مطلوبة لتقريب التفاعل الطبيعي، ويمكن تحسين تجربة المستخدم بطرق متعددة من المدخلات. علاوة على ذلك، ركزت معظم الدراسات الحالية بشكل أساسي على التعرف على واستغلال مشاعر الإنسان، أو نوايا أو أوامر باستخدام بيانات أحادية النمط التي يمكن أن تكون لها نقاط ضعف في سياقات معينة، مما يحد من استخدام السياقات العاطفية الشاملة والعالية المستوى. . من ناحية أخرى، للتغلب على عيوب كل نمط من أجل نظام أكثر مرونة، تم إجراء التعرف على المشاعر متعددة الأنماط لرسم معلومات عالية المستوى مدمجة باستخدام المعرفة المجمعة من جميع بيانات الاستشعار المتاحة. . وبالتالي، للتشفير الفعال والدقيق للمعلومات العاطفية، يتطلب تنسيق متقدم لجهاز مدمج في الجلد تحسين القابلية للارتداء بشكل سلس مع الأفراد، مع امتلاك قدرات استشعار متعددة الأنماط لمعالجة واستخراج معلومات عالية المستوى. أيضًا، يجب أن يكون هذا الجهاز المخصص، القادر على جمع بيانات متعددة الأنماط موثوقة ودقيقة في الوقت الحقيقي بغض النظر عن العوامل البيئية الخارجية، مصحوبًا بتقنية التصنيف المناسبة لترميز البيانات المجمعة إلى معلمات تغذية راجعة مخصصة للتطبيقات المستهدفة.
هنا، اقترحنا نظامًا للتعرف على مشاعر الإنسان في محاولة لاستخدام حالات عاطفية معقدة مع واجهة وجه مدمجة في الجلد مخصصة (PSiFI) تقدم الكشف المتزامن ودمج تعبير الوجه والكلام الصوتي. تتضمن PSiFI قناع وجه مخصص يعمل بالطاقة الذاتية، سهل التطبيق، قابل للتمدد، شفاف، قادر على الاتصال اللاسلكي، ومخصص للغاية ليتناسب بشكل متوافق مع انحناءات وجه الفرد بناءً على إعادة بناء الوجه ثلاثي الأبعاد. تعزز هذه الميزات من قابلية استخدام الجهاز وموثوقيته في التقاط وتحليل الإشارات العاطفية، مما يسهل الكشف في الوقت الحقيقي عن إشارات الاستشعار متعددة الأنماط المستمدة من ضغوط الوجه واهتزازات الصوت. لترميز إشارات الاستشعار المجمعة إلى معلمات تغذية راجعة مخصصة، نستخدم تقنية تصنيف تعتمد على الشبكة العصبية التلافيفية (CNN) التي تتكيف بسرعة مع سياق الفرد من خلال التعلم الانتقالي. في سياق التعرف على مشاعر الإنسان، نركز بشكل خاص على تعبير الوجه والكلام الصوتي كبيانات متعددة الأنماط المختارة، مع الأخذ في الاعتبار ملاءمتها لجمع البيانات والتصنيف بناءً على نتائج الأبحاث السابقة.
يتكون جهاز PSiFI أساسًا من وحدات استشعار الضغط والاهتزاز بناءً على الكهرباء الاحتكاكية للكشف عن ضغط الوجه لتعبير الوجه واهتزاز الصوت للتعرف على الكلام، على التوالي. يتيح دمج مولد نانو كهربائي احتكاكي (TENG) لجهاز الاستشعار أن يمتلك قدرات طاقة ذاتية بينما يقدم مجموعة واسعة من إمكانيات التصميم من حيث المواد والهياكل , وبالتالي تلبية متطلبات أجهزة الاستشعار المخصصة والمتعددة الأنماط. تتكون وحدات الاستشعار من فيلم PDMS كطبقة عازلة و
فيلم PDMS المغلف بـ PEDOT:PSS كطبقة إلكترود تم تحضيره بواسطة طريقة شبه المعالجة التي تمكن الفيلم من إظهار شفافية جيدة مع موصلية كهربائية معقولة. علاوة على ذلك، أظهرنا التعرف على المشاعر في الوقت الحقيقي مع دائرة معالجة البيانات لنقل البيانات اللاسلكية والتصنيف في الوقت الحقيقي بناءً على نموذج الشبكة العصبية التلافيفية (CNN) الذي يتكيف بسرعة بمساعدة التعلم الانتقالي باستخدام طرق زيادة البيانات. أخيرًا، عرضنا تطبيق الكونسيرج الرقمي كاحتمالية مثيرة في بيئة الواقع الافتراضي (VR) عبر واجهات الإنسان والآلة (HMIs) مع PSiFI لدينا. يتعرف الكونسيرج الرقمي على نية المستخدم ويقدم خدمات مفيدة بشكل تفاعلي اعتمادًا على عاطفية المستخدم. يقدم عملنا طريقة واعدة للمساعدة في جمع البيانات المتعلقة بالكلام العاطفي بشكل مستمر مع التواصل بدون حواجز ويمكن أن يمهد الطريق نحو تسريع التحول الرقمي.

النتائج

نظام واجهة الوجه المتكاملة مع الجلد المخصصة (PSiFI)

قمنا بتصميم نظام واجهة الوجه المتكاملة مع الجلد المخصصة (PSiFI) الذي يتكون من مستشعرات كهربائية متعددة الأوضاع (TES)، ودائرة معالجة البيانات لنقل البيانات اللاسلكية ومصنف متعلم عميق. توضح الشكل 1A المخططات العامة للعملية الكاملة للتعرف على المشاعر البشرية باستخدام PSiFI من التصنيع إلى مهمة التصنيف. فيما يتعلق بصنع الجهاز المخصص، أدخلنا عملية إعادة بناء الوجه ثلاثية الأبعاد من خلال جمع بيانات ثلاثية الأبعاد لمظهر المستخدم من الصور الممسوحة ضوئيًا وتحويل البيانات إلى نماذج رقمية. سمحت لنا هذه العملية بتصنيع جهاز مخصص يتناسب بشكل جيد مع وجوه المستخدمين المختلفة وتأمين بيانات المستخدم الفردية بنجاح لمهمة التعرف الدقيقة. (الشكل التكميلي 1). بعد ذلك، استخدمنا كل من المعلومات التعبيرية اللفظية وغير اللفظية المكتشفة من المستشعرات متعددة الأوضاع وصنفنا المشاعر البشرية في الوقت الحقيقي باستخدام التعلم الانتقالي المطبق على الشبكة العصبية التلافيفية (CNN).
كما هو موضح في الشكل 1B، تم إرسال المعلومات العاطفية المستندة إلى التعبير اللفظي وغير اللفظي في شكل إشارات رقمية إلى قناع PSiFI وتم نقلها لاسلكيًا مع دائرة معالجة البيانات. لاكتشاف الإشارات بشكل فعال للمعلومات العاطفية، تم دمج PSiFI مع TES متعددة الأوضاع لالتقاط إجهادات جلد الوجه واهتزازات الحبال الصوتية من خلال اكتشاف الإشارات الكهربائية من الجبهة، والعين، والأنف، والشفتين، والذقن، والحبال الصوتية المختارة كمناطق تمثيلية بناءً على الدراسات السابقة المتعلقة بأنماط تنشيط عضلات الوجه أثناء التعبير الوجه. .
يوفر الشكل 1C المخطط والصورة الحقيقية لـ TES التي تتكون من هيكل بسيط من طبقتين حيث تم استخدام PDMS المغلف بـ PEDOT:PSS وPDMS النانوي كإلكترود قابل للتمدد وطبقة عازلة على التوالي بحيث تعتمد TES لدينا على وضع إلكترود واحد من حيث المبدأ. يظهر الشكل 1D المخططات الخاصة بـ PDMS المغلف بـ PEDOT:PSS وطبقات العزل لكل نوع من أنواع الإجهاد والاهتزاز. تم تصنيع PDMS المغلف بـ PEDOT:PSS بواسطة عملية شبه معالجة حيث يتم الطلاء قبل المعالجة الكاملة للمرن (فيلم تكميلي 1). تم تصنيف إلكترودنا القابل للتمدد المستند إلى عملية شبه المعالجة وأظهر أداءً أفضل عند مقارنته بالإلكترود المعالج تقليديًا من حيث الجوانب البصرية والميكانيكية والكهربائية. (الشكل التكميلي 2) كما هو موضح في صورة المجهر الإلكتروني الماسح (SEM) في الشكل 1D، بالنسبة لطبقات العزل التي قمنا بتصنيعها، تم إدخال هندسة سطح نانوية بواسطة عملية الحفر الأيوني التفاعلي المتصل بالبلasma (ICP-RIE) لتحسين الأداء الكهربائي من خلال تعزيز المساحة السطحية المحددة. (الشكل التكميلي 3) بالإضافة إلى ذلك، تم تثقيب طبقة العزل الخاصة بالاهتزاز مثل الثقوب الصوتية التي تعزز اهتزاز حجم الهواء داخلها (فيلم تكميلي 2).

آلية العمل وخصائص وحدة استشعار الإجهاد

تحويل إجهاد جلد الوجه أثناء التعبير الوجه إلى إشارات كهربائية مميزة وإرسال البيانات كمعلومات غير لفظية إلى

نظام الدائرة هو وظيفة وحدة استشعار الإجهاد لدينا. كما هو موضح بشكل تخطيطي في الشكل 2A، تم تصنيع وحدة استشعار الإجهاد باستخدام PDMS النانوي لمنطقة الاتصال الفعالة العالية كطبقة عازلة وPDMS المدمج بـ PEDOT:PSS كطبقة إلكترود لصنع TES بهيكل إلكترود واحد لتسهيل تكوين بسيط ليكون مستشعرات قابلة للارتداء. تم فصل هاتين الطبقتين بواسطة شريط مزدوج الجوانب تم تطبيقه على كلا طرفي الطبقات كفاصل ليكون
تولد باستمرار سلسلة من الإشارات الكهربائية خلال دورة التشغيل. بالإضافة إلى ذلك، جميع الأجزاء في وحدات الاستشعار مصنوعة من مواد قابلة للتمدد وصديقة للبشرة ويمكن تحضيرها من خلال عمليات تصنيع قابلة للتوسع (للتفاصيل انظر قسم “الطرق” والشكل التكميلي 4). تسمح هذه الخصائص للمواد المستخدمة في وحدة استشعار الإجهاد لجهاز الاستشعار لدينا بالاحتفاظ بموصلية كهربائية جيدة نسبيًا حتى تحت التمدد في نطاق
الشكل 1 | نظرة عامة على النظام مع PSiFI. A توضيح تخطيطي لواجهات الوجه المتكاملة مع الجلد المخصصة (PSiFI) بما في ذلك المستشعرات الكهربائية (TES)، ودائرة معالجة البيانات للتواصل اللاسلكي ومصنف متعلم عميق للتعرف على التعبير الوجه والصوت. B مخططات تظهر تخطيط ثنائي الأبعاد لـ PSiFI في شكل قناع قابل للارتداء وتوضح نوعين مختلفين من TES من حيث التحفيز الحسي مثل إجهاد الوجه واهتزاز الصوت. C مخطط يوضح TES التي تتكون من هيكل بسيط من طبقتين مثل طبقة الإلكترود وطبقة العزل وصورة لمكونات TES، على التوالي. مقياس الشريط: 1 سم.
D مخططات توضح المكونات المصنعة لـ TES لدينا. بالنسبة لطبقة الإلكترود، تم صنع الإلكترود القائم على PEDOT:PSS عبر عملية شبه المعالجة. (يسار). بالنسبة لطبقة العزل، تم تصميمها بشكل مختلف مع مراعاة المحفزات الحسية مثل الإجهاد والاهتزاز لتحقيق أداء استشعار مثالي. الصورة الصغيرة في المركز تظهر صورة SEM لسطح نانوي من طبقة العزل من نوع الإجهاد وفي اليمين تظهر صورة للثقوب المثقوبة كثقوب صوتية من نوع طبقة العزل الاهتزازية. مقياس الشريط: و 1 مم.
إجهاد جلد الوجه أثناء التعبير الوجه وضمان متانة وحدة الاستشعار. كما هو موضح بشكل تخطيطي في الشكل 2B، يتراكم جهد كهربائي بسبب الفرق بين سلسلة الكهرباء الساكنة بناءً على اختلاف الألفة للإلكترونات، حيث لعب PDMS مادة سلبية كهربائيًا عن طريق استلام الإلكترونات ولعب الإلكترود القابل للتمدد القائم على PEDOT:PSS مادة إيجابية كهربائيًا عن طريق التبرع بالإلكترونات في TES. بالإضافة إلى ذلك، تجعل وحدة استشعار الإجهاد لدينا منطقة الاتصال تتغير عند التمدد وتحقق حتى حالات انثناء بحيث يمكنها اكتشاف حركة الإجهاد ثنائية الاتجاه بين مستشعرات الإجهاد المعتمدة على الكهرباء الساكنة للمرة الأولى، حسب علمنا. وبالمثل، تم عرض الإشارات الناتجة من وحدة استشعار الإجهاد لدينا خلال دورة الانثناء والتمدد في الشكل 2C. تم توضيح الآلية الشاملة لعمل مستشعر الإجهاد ثنائي الاتجاه لكل وضع في الشكل التكميلي 5.
لتوصيف وحدة استشعار الإجهاد من حيث الخصائص الميكانيكية والكهربائية، تم استخدام محرك خطي لتطبيق قوة دورية على وحدة الاستشعار كما هو موضح في الشكل 2D. الشكل 2E وF يوفران قياس حساسية وحدة استشعار الإجهاد لدينا في نطاق إجهاد من إلى عن طريق الانثناء والتمدد، على التوالي. تم اشتقاق الحساسية من حيث هو التغير النسبي في الجهد و هو الإجهاد. أما بالنسبة لإجهاد الانبعاج، فقد تم الحصول على خطية الاستجابات الكهربائية وحساسية قدرها 5 مللي فولت في نطاق إجهاد يصل إلى 50% على الرغم من حدوث منطقة غير خطية بعد الإجهاد بسبب تغير الشكل الشاذ. تم تمييز الإشارات في المنطقة غير الخطية مع الفرق في عرض الوقت كما هو موضح في الشكل التكميلية 6. أما بالنسبة لإجهاد الشد، فقد تم الحصول على خطية مقبولة وحساسية قدرها 3 مللي فولت في نطاق إجهاد واسع يصل إلى قمنا بقياس زمن استجابة وحدة استشعار الإجهاد لتقييم أداء الوحدة حيث يمكن تنفيذ مهام التصنيف في الوقت الحقيقي. كما هو موضح في الشكل 2G، لا يوجد زمن تأخير واضح بين قوة الشد والجهد الناتج المقابل، مما يضمن أن وحدة الاستشعار يمكنها اكتشاف الاستشعار في الوقت الحقيقي. يظهر تمدد-إفراج دورة واحدة (الشكل 2G، الإطار) زمن استجابة أقل من 20 مللي ثانية. لذلك، مقارنةً بمستشعرات الإجهاد الأخرى، تتمتع وحدة استشعار الإجهاد لدينا بميزة بسبب حساسيتها العالية في الاتجاهين، وزمن استجابة سريع، وقابلية تمدد عالية، مما يضمن استشعارًا دقيقًا للتعبيرات الوجهية عبر إشارات كهربائية محولة في الوقت الحقيقي.
قمنا أيضًا بقياس جهد الخرج عند إجهاد ثابت من اعتمادًا على ترددات العمل التي تتراوح من 0.5 إلى 3 هرتز، تم التأكيد على أن وحدة استشعار الإجهاد لدينا يمكن أن تظهر أداءً موثوقًا بغض النظر عن الترددات كما هو موضح في الشكل 2H. عندما يتعلق الأمر بالاستخدام طويل الأمد في التطبيقات العملية، يمكن اعتبار الاستقرار الميكانيكي لوحدة الاستشعار لدينا خاصية مهمة أيضًا. كما هو موضح في الشكل 2I، لم تُلاحظ تغييرات واضحة في الفولتية الناتجة لوحدة استشعار الإجهاد بعد 3000 دورة عمل متواصلة تحت الضغط. من الجدير بالذكر أن تغير الإجهاد يتجاوز بكثير المتطلبات لمعظم إجهاد جلد الوجه أثناء عروض تعبيرات الوجه. .

آلية العمل وخصائص وحدة استشعار الصوت

وحدة استشعار الصوت لدينا لديها وظيفة التقاط الاهتزازات الصوتية على الحبال الصوتية أثناء التعبير اللفظي وإرسال البيانات كصوتي.
معلومات إلى نظام الدائرة. كما هو موضح في الشكل 3A، تم تصنيع وحدة استشعار الصوت باستخدام طبقة عازلة من PDMS ذات ثقوب مصممة وطبقة إلكترود من PDMS المدمج مع PEDOT:PSS لصنع TES. تم إدخال الثقوب في وحدة استشعار الصوت كثقوب صوتية تعمل ليس فقط كأوعية تواصل لتهوية الهواء بين سطحي الاتصال والهواء المحيط، مما يؤدي إلى تحسين استجابة التردد المسطح، ولكن أيضًا تقلل من الصلابة من خلال تحسين حركة حافة الأغشية. (الشكل التوضيحي الإضافي 7 والجدول S1). ليتم تكوينه في TES، مثل وحدة استشعار الضغط، تم فصل طبقة العازل وطبقة الأقطاب الكهربائية بواسطة شريط لاصق مزدوج الجوانب تم تطبيقه على كلا طرفي الطبقات كفاصل لضمان عمليات متسقة خلال دورات العمل. يوفر الشكل المرفق في الشكل 3A عرضًا مكبرًا لوحدة استشعار الصوت التي تلتقط اهتزازات الصوت على الحبال الصوتية. كما هو موضح بشكل تخطيطي في الشكل 3B، يتراكم جهد كهربائي بسبب اختلاف سلسلة التريبوإلكتريك بناءً على ألفة الإلكترون. يوفر الشكل 3C الرسم التخطيطي الذي يظهر تكوين نمط الثقوب المطبق في مستشعر اهتزاز الصوت لرؤية كيف يؤثر النمط على الناتج وصور SEM للثقوب.
قمنا بقياس إشارات جهد الخرج لوحدات استشعار الاهتزاز مع نسب فتح مختلفة (ORs) التي اعتبرت نسبة المساحة المثقوبة بالثقوب الصوتية إلى المساحة الكلية على استجابة التردد للأجهزة كما هو موضح في الشكل 3D. نطاقات التردد التي اختبرناها تشمل التردد الأساسي للرجال والنساء البالغين النموذجيين والتي تتراوح من 100 إلى 150 هرتز (الشكل 3D، الأزرق) ومن 200 إلى 250 هرتز (الشكل 3D، الأحمر)، على التوالي. تشير النتائج إلى أن وحدة استشعار الاهتزاز بقيمة OR تبلغ 10 أظهرت أفضل أداء لجهد الخرج وأوسع نطاق ترددي للاستجابة الترددية المسطحة. هذه الملاحظة التجريبية ناتجة عن توازن بين انحراف الطبقة العازلة ومساحة الاتصال الفعالة. يؤدي OR الأكبر إلى انحراف أكبر للغشاء العازل وبالتالي جهد كهربائي أعلى. ومع ذلك، فإن زيادة OR ستقلل من مساحة الاتصال الفعالة للتريوبوإلكتريفيكاشن، وبالتالي جهد كهربائي أقل. وبناءً عليه، هناك حاجة إلى قيمة محسّنة من OR لتحقيق أقصى قدر من الجهد الكهربائي. توفر الشكل 3E بيانات مقاسة لجهود الخرج لكل OR مختلف عند تردد الاختبار 100 هرتز.
كما هو موضح في الشكل 3F و G، تأثرت جهد الخرج لوحدة استشعار الاهتزاز بالمعلمات الهيكلية مثل سمك الدعم وعدد الثقوب. مع زيادة سمك الدعم، يصبح الفجوة بين الطبقات الكهروستاتيكية أكبر، مما يؤدي إلى تقليل مساحة الاتصال الفعالة وبالتالي تقليل إشارات الخرج الكهروستاتيكية المتولدة. من ناحية أخرى، فإن زيادة عدد الثقوب مع نفس حالة OR تجعل الأغشية تنحرف بشكل أكثر حيوية، مما يعزز أداء الخرج الكهروستاتيكي. تم إجراء هذه التجارب عند تردد اختبار يبلغ 100 هرتز. أخيرًا، كما هو موضح في الشكل 3H، قمنا بقياس جهد الخرج بين وحدة استشعار الاهتزاز مع الثقوب وبدونها كدالة لتسارع الاهتزاز المدخل في النطاق من 0.1 إلى 1.0 ج عند نفس تردد الاختبار 100 هرتز. كلا وحدتي الاستشعار لهما حساسية موحدة تم الحصول عليها من خلال قسمة جهد الخرج المقاس على تسارع الاهتزاز. أما بالنسبة للحساسية، فإن وحدات استشعار الاهتزاز ذات نمط الثقوب تظهر حوالي 2.8 مرة أكبر من وحدة استشعار الاهتزاز النقية.
الشكل 2 | آلية العمل وخصائص وحدة استشعار الإجهاد.
رسم توضيحي تخطيطي لوحدة استشعار الإجهاد. إدراج: عرض مكبر لوحدة الاستشعار التي تكشف عن إجهاد الوجه. ب توزيع الجهد الكهربائي لوحدة استشعار الإجهاد في حالة الانحناء والتمدد. ج إشارات كهربائية ناتجة عن وحدة استشعار الإجهاد خلال دورة الانحناء والتمدد. د صورة حقيقية للإعداد التجريبي لقياسات الناتج. مقياس الرسم: 1 سم. هـ و F قياس الحساسية
أثناء الانبعاج ) وتمديد وحدة الاستشعار ( ). قياس زمن الاستجابة بترددات مختلفة. الإضافات: مشاهد مكبرة لعمليات التحميل والتفريغ في دورة واحدة. إشارات الجهد الناتجة من وحدة الاستشعار بترددات مختلفة عند إجهاد ثابت من . اختبار المتانة الميكانيكية لمدة تصل إلى 3000 دورة عمل مستمرة ووجهات نظر موسعة لدورات التشغيل المختلفة، على التوالي.
الشكل 3 | آلية العمل وخصائص وحدة استشعار الاهتزاز.
رسم توضيحي تخطيطي لوحدة استشعار الاهتزاز. في الإطار: عرض مكبر لوحدة الاستشعار التي تكتشف اهتزاز الحبال الصوتية. توزيع الجهد الكهربائي لوحدة الاستشعار خلال دورة العمل. ج. مخطط لتكوين نمط الثقوب المستخدم في مستشعر اهتزاز الصوت وصور SEM للثقوب في تكوين 32 ثقب. مقياس الرسم: 2 مم (إدراج: عرض مكبر يظهر ثقبًا صوتيًا. مقياس الرسم: ). بيانات استجابة التردد ( كنتيجة لتردد الصوت) لوحدة استشعار الاهتزاز مع نسب فتح مختلفة (ORs) تبلغ 5 و10 و20. نطاقات تردد الحبال الصوتية للذكور والإناث ملونة باللون الأزرق والأحمر، على التوالي.
تم قياس بيانات مخططات إشارات الجهد الناتج لكل OR مختلف عند تردد الاختبار 100 هرتز. F، G تأثيرات سمك الدعم وعدد الثقوب على حساسية الاهتزاز عند تردد العمل 100 هرتز. لكل رسم بياني، تم استخدام PDMS كمواد للغشاء، وتم تصميم الثقوب الصوتية على الغشاء، وتم تثبيت المعلمات الهيكلية كما يلي ما لم يُذكر خلاف ذلك: سمك الغشاء سمك الدعم من ومجموعة من 32 ثقبًا. تشير أشرطة الخطأ إلى الانحراف المعياري للمعيار. عند التردد المقاس 100 هرتز. مقارنة بين جهد الخرج المقاس لوحدة استشعار الاهتزاز مع الثقوب وبدونها.

عملية معالجة البيانات اللاسلكية وتصنيف الوقت الحقيقي القائم على التعلم الآلي

توفر الأشكال 4 أ و ب صورًا حقيقية لقناع PSiFI بالكامل والمشارك الذي يرتدي قناع PSiFI مثبتًا بشكل صحيح على وجه المشارك، مما جعله يبدو شفافًا ومريحًا بما يكفي لارتدائه لفترة طويلة والتواصل بشكل جيد دون مقاطعة التعبيرات التي قد تسببها الأجهزة الملونة. كما هو موضح بشكل تخطيطي في الشكل 4 ج، تم تنفيذ عملية جمع البيانات ونقلها لاسلكيًا من جمع بيانات القناع الوجه المدمج في الجلد بواسطة لوحة دائرة بحجم عدة سنتيمترات كمرسل إشارة يعمل ببطارية محمولة صغيرة لنقل البيانات لاسلكيًا إلى اللوحة الرئيسية كجهاز استقبال متصل بالكمبيوتر المحمول لتخزين البيانات التي كانت تستخدم كبيانات لمتعلم الآلة.
توفر الشكل 4D أنماط الإشارات الكهروستاتيكية المجمعة من كل مستشعر نمطي مثل الشفاه، العين، الجبين، الأنف، الذقن (لوحدة استشعار الضغط) والأحبال الصوتية (لوحدة استشعار الاهتزاز). بالنسبة للإشارات المكتسبة من وحدات استشعار الضغط، تم عرض أنماط مميزة وفقًا للتعبيرات الوجهية المختلفة مثل السعادة، المفاجأة، الاشمئزاز، الغضب والحزن التي عبر عنها المشارك. أما بالنسبة للإشارات من وحدة استشعار الصوت، فقد عرضت كل إشارة من كلمات مختلفة من المقاطع مثل “A”، “B”، “C” إلى جملة بسيطة مثل “أحبك” أنماطها المميزة بوضوح وتم تحويلها لاحقًا بواسطة تحويل فورييه السريع (FFT) الذي يحول البيانات من مجال الزمن إلى مجال التردد للعثور على أنماط ملحوظة في مجال التردد بحيث يتم تنفيذ التعرف على الأنماط بشكل جيد. قمنا بإجراء تدريب منفصل للإشارات الصوتية وإشارات الضغط حيث يبدو أن الاعتماد المتبادل بين التعبيرات اللفظية وغير اللفظية يعتبر غير ذي أهمية نسبية مقارنة بالقياسات المميزة والمتزامنة للمدخلات متعددة الأنماط (الشكل التكميلي 8).
عندما يتعلق الأمر بتعلم الآلة، قمنا بتطبيق خوارزمية CNN كمثال على خوارزمية التصنيف. على وجه التحديد، استخدمنا CNN أحادية الأبعاد لتصنيف تعبيرات الوجه وCNN ثنائية الأبعاد لتصنيف الكلام، على التوالي (الشكل التكميلي 9 والجدول S2). بشكل عام، كلما زادت مجموعات البيانات التي يتدرب عليها مصنفنا، كانت أداؤه أفضل. ومع ذلك، فإنه ليس من العملي ويستغرق وقتًا طويلاً اختبار القناع القابل للارتداء المدمج مع المستشعرات على العديد من الأشخاص من الناحية العملية. ستختلف حركات عضلات الوجه، اهتزاز الحبال الصوتية وقيم المستشعرات المرتبطة بالتعبيرات اللفظية/غير اللفظية للمستخدمين الجدد عن تلك الخاصة بالمستخدمين السابقين، حيث أن لكل إنسان خصائصه الخاصة. لذلك، نحتاج إلى التكيف مع شبكة يمكن تدريبها حتى مع كميات صغيرة من مجموعات البيانات وضبطها مع مجموعات البيانات الجديدة من المستخدمين الجدد.
يوفر الشكل 4E مخططات تخطيطية توضح العملية العامة من تحقيق البيانات لنموذج مدرب مسبقًا تم تدريبه بدقة محسنة من خلال إدخال تقنية زيادة البيانات (الشكل التكميلي 10 والجدول S3) إلى شبكة تم ضبطها بدقة للتخصيص من خلال استغلال المعلمات المدربة مسبقًا المعروفة باسم التعلم الانتقالي، مما يمكّن الشبكة من التدريب في وقت أقل والتكيف بفعالية مع مجموعات بيانات المستخدمين الجدد بحيث جعل التصنيف في الوقت الحقيقي ممكنًا. بالتفصيل، كرر أحد المشاركين، على التوالي، التعبير اللفظي وغير اللفظي 20 مرة لإظهار موثوقية إجمالي اكتساب 100 نمط إشارة تعرف لكل تعبير. تم اختيار 70 نمطًا من الإجمالي بشكل عشوائي من الإشارات المكتسبة لتكون مجموعة التدريب التي تم زيادتها لاحقًا بمقدار 8 مرات بناءً على طرق مختلفة (التشويش، القياس، تشويه الزمن، تشويه المقدار) من أجل التعلم الفعال، وتم تخصيص الـ 30 إشارة المتبقية كمجموعة اختبار. علاوة على ذلك، وفقًا للتقرير السابق، وُجد أن أنماط حركة وتفعيل عضلات الوجه أثناء التعبيرات الوجهية لم تكن مختلفة اعتمادًا على الأفراد. استنادًا إلى هذه الحقيقة، نتوقع أن يتمكن الشبكة من التكيف مع تعبيرات جديدة من مستخدمين جدد من خلال تدريب بيانات التعلم المقابلة بسرعة. أما بالنسبة للتعلم الانتقالي،
بعد أن قام المشارك الأول بالتدريب مع المصنف باستخدام طريقة التدريب المذكورة أعلاه، كان المشاركون التاليون يرتدون جهاز PSiFI وكانوا قادرين على التدريب السريع مع المصنف من خلال تكرار 10 مرات فقط على كلا التعبيرين، مما سمح بنجاح بعرض التصنيف في الوقت الحقيقي. عندما يتعلق الأمر بالتطبيق العملي، مقارنةً بأساليب التصنيف الأخرى المعتمدة على أنواع مختلفة من كاميرات الفيديو والميكروفونات، فإن قناع PSiFI لدينا خالٍ من القيود البيئية مثل الموقع، والعوائق، والوقت. كما هو موضح في الشكل 4F، أظهر نتيجة التصنيف في الوقت الحقيقي للتعبيرات اللفظية وغير اللفظية المجمعة دون أي قيود دقة عالية جدًا بلغت 93.3% وحتى دقة جيدة من تم تحقيق ذلك على الرغم من إجراء التصنيف مع وجود عوائق مثل ارتداء قناع الوجه (فيلم إضافي 3).

تطبيق كونسيرج رقمي في بيئة الواقع الافتراضي

أما بالنسبة للتطبيق مع PSiFI، فقد أدخلنا بيئة الواقع الافتراضي التي تتيح للأفراد تجربة كيفية تأثير مشاعرهم وكيف يمكن التعبير عنها وتنفيذها في مواقف محددة في العالم الافتراضي. . وهذا بدوره يمكن أن يعمق الاتصالات في بيئة الواقع الافتراضي من خلال التفاعل مع المشاعر الإنسانية. في هذا السياق، اخترنا تطبيق الكونسيرج الرقمي الذي يمكن أن يُثري بمعلومات عاطفية من حيث الاستخدام العملي وسهولة الاستخدام. من المحتمل أن يُتوقع من الكونسيرج الرقمي أن يقدم خدمات موجهة للمستخدم تعمل على تحسين جودة حياة المستخدم من خلال تعزيز تجربة المستخدم. هنا، ولأول مرة، عرضنا التطبيق الذي يقدم خدمة كونسيرج رقمي يعمل مع نظام PSiFI الخاص بنا بناءً على واجهة الإنسان والآلة في بيئة الواقع الافتراضي لبرنامج Unity كما هو موضح في الشكل 5.
يوفر الشكل 5A مخططًا مفهوميًا يوضح كيف يمكن للبشر والآلات التفاعل بذكاء مع السياق العاطفي الشخصي من خلال ارتداء PSiFI. لتحقيق ذلك، نعرض تطبيق كونسيرج رقمي قائم على الواقع الافتراضي عبر واجهة الإنسان والآلة (HMI) مع PSiFI الخاص بنا كما هو موضح في الشكل 5B. بشكل محدد، تم تشغيل نظام الكونسيرج الرقمي بناءً على المحادثة بين صورة المستخدم الرمزية وصورة رمزية تم إنشاؤها عشوائيًا تعمل ككونسيرج افتراضي. بالإضافة إلى ذلك، قمنا ببناء الكونسيرج الرقمي لتقديم خدمات تطبيقات متنوعة من المنزل الذكي إلى الترفيه مع الأخذ في الاعتبار المواقف التي تحدث على الأرجح في الحياة الواقعية.
يوفر الشكل 5C ثلاثة سيناريوهات مختلفة توضح تطبيقات المنزل الذكي، المكتب، والترفيه في فضاء Unity (فيلم إضافي 4؛ لمزيد من التفاصيل، انظر قسم “الطرق”). بالنسبة للسيناريو الأول لتطبيق المنزل الذكي، قام الكونسيرج الرقمي بتقييم مزاج المستخدم من الحزن واقترح بعض قوائم التشغيل من موقع الويب لتخفيف المزاج على الرغم من كلمة المستخدم البسيطة. أما بالنسبة للسيناريو الثاني لتطبيق المكتب، فقد كان الكونسيرج الرقمي قادرًا على التحقق مما إذا كان المستخدم يفهم محتويات العرض التقديمي وفتح نافذة جديدة تظهر تفسير المحتوى الذي يساعد على تعزيز فهم المستخدم. أما بالنسبة للسيناريو الأخير لتطبيق الترفيه، فقد قام الكونسيرج الرقمي بتحديد رد فعل المستخدم تجاه إعلان الفيلم وقام بتنسيق محتويات ملائمة للمستخدم وفقًا لرد فعل المستخدم. يمكن أن تتنوع التطبيقات مع واجهة المستخدم البشرية المعتمدة على PSiFI وفضاء الواقع الافتراضي المدمج بشكل كبير من خلال التعلم والتكيف مع بيانات جديدة تتعلق بالتعبيرات اللفظية وغير اللفظية من مستخدمين جدد، لذا نتوقع بشدة أن تساهم منصتنا الشخصية للغاية المعتمدة على PSiFI في تطبيقات عملية متنوعة مثل التعليم، التسويق، والإعلانات التي يمكن أن تُثري بمعلومات عاطفية.

نقاش

في هذا العمل، اقترحنا نظام PSiFI مدعوم بتعلم الآلة للتعرف على مشاعر الإنسان القابلة للارتداء. تم تصنيع PSiFI من طبقات عازلة قائمة على PDMS وموصلات قابلة للتمدد تكون شفافة للغاية ومريحة قدر الإمكان للارتداء في الحياة الواقعية. من خلال تزويد PSiFI لدينا بقدرة متعددة الأنماط للكشف عن تعبيرات الوجه والصوت في الوقت نفسه باستخدام وحدات استشعار قائمة على الكهرباء الساكنة ذاتية الطاقة، يمكننا الحصول على معلومات عاطفية أفضل بغض النظر عن ذلك.
الشكل 4 | اكتساب الكلام العاطفي في الوقت الحقيقي. صورة تظهر تعددية الأبعاد لجهاز PSiFI المرفق بوحدات نشطة مثل الجبين، والعين، والأنف، والشفتين، والذقن، والأحبال الصوتية لجمع البيانات اللفظية وغير اللفظية في وقت واحد. مقياس الرسم: 2 سم. ب صور حقيقية للوجه الأمامي (أعلى) والجانب (أسفل) للمشارك الذي يرتدي جهاز PSiFI. ج مخططات تخطيطية لنظام تصنيف الكلام العاطفي اللاسلكي بما في ذلك PSiFI، ولوحة معالجة الإشارات لنقل البيانات اللاسلكية. د إجهاد الوجه.
تم جمع إشارات اهتزاز صوتية من واجهة مدمجة في الجلد. تم تنفيذ عمليات خوارزمية التعلم في نظام التصنيف لدينا حيث تم تطبيق طرق التعلم الآلي مثل زيادة البيانات والتعلم الانتقالي لتقليل وقت التدريب بكفاءة من أجل التصنيف في الوقت الحقيقي. مقارنة بين مصفوفة الالتباس (يسار) والصور الملتقطة (يمين) في التصنيف في الوقت الحقيقي بين الحالة بدون عقبة ومع وجود عقبة مثل قناع.
أ
التفاعل بين الإنسان والآلة مع سياق عاطفي مخصص
الشكل 5 | العرض التوضيحي للكونسيرج الرقمي القائم على نظام تصنيف الكلام العاطفي في بيئة الواقع الافتراضي. A توضيح مفاهيمي لتفاعل الإنسان مع الآلة مع سياق عاطفي مخصص يتم تحقيقه من خلال ارتداء جهاز PSiFI الخاص بالمستخدم. B مخطط بياني يوضح كيفية تفاعل المستخدم مع الكونسيرج الرقمي الذي يقدم خدمات مفيدة متنوعة. C الصورة الملتقطة المقابلة
صور لثلاث سيناريوهات مختلفة كمهام (مثل ردود الفعل التفاعلية المزاجية، البحث التلقائي عن الكلمات الرئيسية، والإعلانات سهلة الاستخدام) لمساعد رقمي من المحتمل أن تحدث في أماكن متنوعة مثل المنزل، المكتب، والمسرح في بيئة الواقع الافتراضي لبرنامج يونيتي.
من العوامل الخارجية مثل الوقت والمكان والعقبات. علاوة على ذلك، أدركنا الاتصال اللاسلكي للبيانات من أجل التعرف على المشاعر البشرية في الوقت الحقيقي بمساعدة وحدة معالجة البيانات المصممة ونموذج التعلم السريع التكيف، وحققنا معيارًا مقبولًا من حيث دقة الاختبار حتى مع الحواجز مثل القناع. أخيرًا، عرضنا لأول مرة تطبيق الكونسيرج الرقمي في بيئة الواقع الافتراضي القادر على الاستجابة لنوايا المستخدم بناءً على معلومات الكلام العاطفي للمستخدم. نعتقد أن PSiFI يمكن أن يساعد ويعجل الاستخدام النشط للمشاعر من أجل التحول الرقمي في المستقبل القريب.

طرق

المواد

تم شراء PDMS من داو كورنينغ والذي يتكون من قاعدة مطاطية ومجموعة معالجة. تشتتات مائية من محلول PEDOT:PSS (>3%)، الإيثيلين جلايكول (99.8%)، وجزيئات الذهب النانوية (جزيئات Au NPs) تم شراء التشتت في الماء المنزوع الأيونات (DI) من سيغما-ألدريتش. تم شراء الأسيتون (99.5%) والكحول الإيزوبروبيلي (IPA) (99.5%) من شركة سامتشون كيميكل.

تحضير تشتت موصل وموصل قابل للتمدد

تم تصفية محلول مائي من PEDOT:PSS أولاً من خلال فلتر حقن نايلون بقطر 0.45 مم. بعد ذلك، تم إضافة DMSO إلى المحلول، ثم تم خلطه مع تم إذابة المذيب IPA عن طريق التحريك بقوة في درجة حرارة الغرفة لمدة نصف ساعة. بعد ذلك، تم خلط المونومر الأساسي ووكيل المعالجة بنسبة وزن 10:1 في درجة حرارة الغرفة، ثم تم وضعه في جهاز التفريغ لإزالة الغازات من خليط PDMS. بعد تم نشر الخليط في شكل طبقة مستمرة على فيلم كابتون المنظف كركيزة باستخدام جهاز تطبيق الفيلم القابل للتعديل بالميكرومتر، وسمح له بالتصلب ليصبح فيلمًا غير متبلور قائمًا بذاته عن طريق التسخين في فرن عند لمدة 5 دقائق. تم بعد ذلك طلاء التعليق الموصل المحضر على الـ PDMS لتثبيت البوليمرات الموصلّة داخل مصفوفة الـ PDMS قبل أن يتصلب الفيلم بالكامل.

تصنيع تعديل سطح الفيلم العازل القائم على الأسلاك النانوية

تم تشكيل الأسلاك النانوية على سطح فيلم PDMS باستخدام تقنية الحفر الأيوني التفاعلي المتصل بالتحريض (ICP). كانت الأفلام العازلة بسمك تم تنظيفها أولاً بواسطة الأسيتون و IPA و DI، ثم تم تجفيفها بالهواء النيتروجيني. في عملية النقش، تم تحضير جزيئات الذهب النانوية بواسطة خلاط دوار لتوزيع متجانس وتم إيداعها بواسطة الصب بالتنقيط. بعد 30 دقيقة من التجفيف في الفرن عند تم طلاء جزيئات الذهب النانوية على السطح العازل كقناع مزخرف نانوي. بعد ذلك، تم استخدام غاز مختلط يتضمن ، و تم إدخالها في غرفة ICP، بمعدل تدفق متوافق قدره 15.0 و 10.0 و 30.0 SCCM، على التوالي. تم نقش الأفلام العازلة لمدة 300 ثانية للحصول على هيكل نانو سلك على السطح. تم استخدام مصدر طاقة واحد بقوة 400 واط للحصول على كثافة كبيرة من البلازما، بينما تم استخدام 100 واط آخر لتسريع أيونات البلازما.

تصنيع أفلام عازلة بنمط ثقوب

تم تصنيع صفائف من الثقوب الصوتية الدائرية بأشكال وتوزيعات متنوعة وتم ثقبها من خلال فيلم PDMS (سمك ) باستخدام تقنية القطع بالليزر (شركة أنظمة الليزر العالمية). قطر أصغر ثقب هو ، وهو قريب من حد عرض الخط لقطع الليزر على سطح اللوحة.

تصنيع وحدات استشعار ذاتية الطاقة

أما بالنسبة لوحدة استشعار الشد، فقد تم قطع الموصل القابل للتمدد بحجم . بعد ذلك، تم تثبيت كابل مرن مسطح (FFC) باستخدام شريط السيليكون الطبي مزدوج الوجه (3M 2476P، شركة 3M المحدودة) للاتصال الكهربائي (الشكل التوضيحي التكميلي 11). ثم، تم تعديل سطح الفيلم العازل (سمك تم وضعه بعد ذلك على الطبقة واستخدم كطبقة تحمل الشحنة.
أما بالنسبة لوحدة استشعار الاهتزاز، فقد تم قطع الموصل القابل للتمدد بحجم . بعد ذلك، تم تثبيت FFC بشريط لاصق طبي مزدوج الوجهين للاتصال الكهربائي كما في وحدة استشعار الإجهاد. ثم، الـ تم تطبيق فيلم PDMS المعدل بسماكة معينة ومزخرف بالثقوب كطبقة عازلة بشكل متتابع على الطبقة واستخدم ك diaphragم ينحني مع اهتزاز الصوت.

توصيف وقياس

تمت دراسة الأشكال والسمك للموصل القابل للتمدد المدمج من PEDOT:PSS والمواد العازلة ذات النمط النانوي باستخدام مجهر إلكتروني مسح ميداني Nano 230 (FEI، الولايات المتحدة الأمريكية) عند جهد تسريع قدره 10 كيلو فولت. تم إجراء قياسات النقل البصري للموصلات القابلة للتمدد على مطياف الأشعة فوق البنفسجية-visible (Cary 5000، Agilent) من 400 إلى 800 نانومتر. كانت مقاومات الصفائح ( تم قياس الموصلات القابلة للتمدد باستخدام طريقة فان دير باو بأربعة نقاط مع مجسات متوازية (مسافة 0.5 سم) متصلة بنظام قياس بأربعة نقاط (CMT2000N، AIT). بالنسبة للقياس الكهربائي لوحدة مستشعر الإجهاد، تم تطبيق قوة قص خارجية بواسطة محرك ميكانيكي خطي تجاري (X-LSM 100b، Zaber Technologies) وتم استخدام مقياس كهربائي قابل للبرمجة (نموذج كيثلي 6514) لقياس جهد الدائرة المفتوحة والتيار في الدائرة القصيرة. بالنسبة لوحدة مستشعر الاهتزاز، تم استخدام مذبذب رقمي فوسفوري (DPO 3052، Tektronix) لقياس إشارات الخرج الكهربائية بمعدل أخذ عينات من لنظام الاستشعار متعدد القنوات، تم استخدام نظام DAQ (PCIe-6351، NI) لقياس إشارات الخرج الكهربائية لوحدات الاستشعار متعددة القنوات في الوقت نفسه.

إرفاق الجهاز على الجلد

لتثبيت جهاز الاستشعار بالكامل على جلد الوجه والرقبة، قمنا بتطبيق شريط طبي شفاف ورفيع للغاية ومتوافق حيوياً (Tegaderm TM Film 1622W، 3M) على حافة المستشعر والخطوط المعدنية المتصلة بدائرة الواجهة. تم تطوير الشريط الطبي واستخدامه على نطاق واسع كحل لاصق صديق للبشرة. لذلك، لم يكن هناك أي تهيج أو حكة في الجلد خلال عدة ساعات من الاستخدام. تم إعفاء الاختبار من لجنة مراجعة الأخلاقيات وفقاً لموافقة لجنة مراجعة الأخلاقيات في UNIST. يؤكد المؤلفون أن المشاركين في البحث البشري قدموا موافقة مستنيرة قبل الانضمام إلى هذه الدراسة ونشر الصور في الأشكال 4 و5.

تعلم الآلة للتعرف على المشاعر

بالنسبة للتدريب المسبق، تم جمع إجمالي 100 نمط إشارة تعرف لكل تعبير من مشارك يقوم بتكرار 20 مرة لكل من التعبيرات اللفظية وغير اللفظية، على التوالي. تم اختيار 70 نمطًا من الإجمالي بشكل عشوائي كمجموعة تدريب، وتم تعزيزها بمقدار 8 مرات بناءً على طرق تعزيز مختلفة (التشويش، التغيير في الحجم، تغيير الزمن، تغيير المقدار)، وتم تخصيص الـ 30 إشارة المتبقية كمجموعة اختبار. بعد خطوة المعالجة المسبقة لمجموعات البيانات مثل القص وفقًا لحجم الإدخال لشبكة الأعصاب وتحويلها إلى صورة بواسطة FFT، تم تطبيق 1D-CNN و2D-CNN لتدريب التعبير غير اللفظي والتعبير اللفظي. مع هذا المصنف المدرب مسبقًا، يمكن للمستخدم الجديد تخصيص المصنف بسرعة باستخدام بياناته الخاصة من خلال تكرار 10 مرات لكل من التعبيرات، والمعروفة باسم التعلم الانتقالي، وتم إثبات التصنيف في الوقت الحقيقي بنجاح.

عرض التطبيق

البيئة الافتراضية ثلاثية الأبعاد (3D) التي رآها المستخدم تم توفيرها بواسطة Unity3D على جهاز الكمبيوتر، وتم إرسال بيانات إجهاد الوجه واهتزاز الصوت إلى Unity3D من خلال الاتصال التسلسلي اللاسلكي من Buleinno2، وتمت التفاعل بين PSiFI والكمبيوتر بواسطة حزمة PySerial في بايثون. قمنا ببناء سيناريو كونسيرج رقمي قائم على الواقع الافتراضي يتكون من أصول بيئية وأفاتار تم إنشاؤها كما يلي. تم تنزيل أصول البيئات الافتراضية مثل المنزل، المكتب، والمسرح من متجر أصول Unity.
تم إنشاء الصور الرمزية المستخدمة في بيئات الواقع الافتراضي ببساطة من صورة فردية باستخدامريدي بلاير.ميالموقع الإلكتروني. في العرض التوضيحي، قام الصورة الرمزية المولدة بتنفيذ السيناريو بناءً على المعلومات الحية المرسلة من PSiFI وتلقى استجابات تكيفية من الصورة الرمزية المسماة MIBOT التي تم إنشاؤها افتراضيًا لخدمة الكونسيرج الرقمي.

ملخص التقرير

معلومات إضافية حول تصميم البحث متاحة في ملخص تقارير مجموعة ناتشر المرتبط بهذه المقالة.

توفر البيانات

البيانات التي تدعم الرسوم البيانية داخل هذه الورقة وغيرها من نتائج الدراسة موجودة في الورقة و/أو المعلومات التكميلية. تتوفر مجموعات البيانات الأصلية للتعرف على المشاعر البشرية منhttps://github.com/MATTER-INTEL-LAB/PSIFI.git.

توفر الشيفرة

جميع الأكواد المستخدمة لتنفيذ زيادة البيانات والتصنيف متاحة منhttps://github.com/MATTER-INTELLAB/PSIFI.git.

References

  1. Rahman, M. M., Poddar, A., Alam, M. G. R. & Dey, S. K. Affective state recognition through EEG signals feature level fusion and ensemble classifier. Preprint at https://doi.org/10.48550/arXiv.2102. 07127 (2021).
  2. Niklander, S. & Niklander, G. Combining sentimental and content analysis for recognizing and interpreting human affects. in HCl International 2017—Posters’ Extended Abstracts (ed. Stephanidis, C.) 465-468 (Springer International Publishing, 2017).
  3. Torres, E. P., Torres, E. A., Hernández-Álvarez, M., Yoo, S. G. & EEGBased, B. C. I. Emotion recognition: a survey. Sensors 20, 5083 (2020).
  4. Palaniswamy, S. & Suchitra, A. Robust pose & illumination invariant emotion recognition from facial images using deep learning for human-machine interface. In 2019 4th International Conference on Computational Systems and Information Technology for Sustainable Solution (CSITSS) 1-6 (2019).
  5. Thirunavukkarasu, G. S., Abdi, H. & Mohajer, N. A smart HMI for driving safety using emotion prediction of EEG signals. In 2016 IEEE International Conference on Systems, Man, and Cybernetics (SMC) 004148-004153 (2016).
  6. Huo, F., Zhao, Y., Chai, C. & Fang, F. A user experience map design method based on emotional quantification of in-vehicle HMI. Humanit. Sci. Soc. Commun. 10, 1-10 (2023).
  7. Breazeal, C. Emotion and sociable humanoid robots. Int. J. Hum.-Comput. Stud. 59, 119-155 (2003).
  8. Stock-Homburg, R. Survey of emotions in human-robot interactions: perspectives from robotic psychology on 20 years of research. Int. J. Soc. Robot. 14, 389-411 (2022).
  9. Chuah, S. H.-W. & Yu, J. The future of service: The power of emotion in human-robot interaction. J. Retail. Consum. Serv. 61, 102551 (2021).
  10. Consoli, D. A new concept of marketing: the emotional marketing. BRAND Broad Res. Account. Negot. Distrib. 1, 52-59 (2010).
  11. Bagozzi, R. P., Gopinath, M. & Nyer, P. U. The role. Emot. Mark. J. Acad. Mark. Sci. 27, 184-206 (1999).
  12. Yung, R., Khoo-Lattimore, C. & Potter, L. E. Virtual reality and tourism marketing: conceptualizing a framework on presence, emotion, and intention. Curr. Issues Tour. 24, 1505-1525 (2021).
  13. Hasnul, M. A., Aziz, N. A. A., Alelyani, S., Mohana, M. & Aziz, A. A. Electrocardiogram-based emotion recognition systems and their applications in healthcare-a review. Sensors 21, 5015 (2021).
  14. Dhuheir, M. et al. Emotion recognition for healthcare surveillance systems using neural networks: a survey. Preprint at https://doi.org/ 10.48550/arXiv.2107.05989 (2021).
  15. Jiménez-Herrera, M. F. et al. Emotions and feelings in critical and emergency caring situations: a qualitative study. BMC Nurs. 19, 60 (2020).
  16. Schutz, P. A., Hong, J. Y., Cross, D. I. & Osbon, J. N. Reflections on investigating emotion in educational activity settings. Educ. Psychol. Rev. 18, 343-360 (2006).
  17. Tyng, C. M., Amin, H. U., Saad, M. N. M. & Malik, A. S. The influences of emotion on learning and memory. Front. Psychol. 8, 1454 (2017).
  18. Li, L., Gow, A. D. I. & Zhou, J. The role of positive emotions in education: a neuroscience perspective. Mind Brain Educ. 14, 220-234 (2020).
  19. Ben-Ze’Ev, A. The Subtlety of Emotions (MIT Press, 2001).
  20. Lane, R. D. & Pollermann, B. Z. Complexity of emotion representations. in The Wisdom in Feeling: Psychological Processes in Emotional Intelligence 271-293 (The Guilford Press, 2002).
  21. Boehner, K., DePaula, R., Dourish, P. & Sengers, P. How emotion is made and measured. Int. J. Hum.-Comput. Stud. 65, 275-291 (2007).
  22. Mauss, I. B. & Robinson, M. D. Measures of emotion: a review. Cogn. Emot. 23, 209-237 (2009).
  23. Meiselman, H. L. Emotion Measurement (Woodhead Publishing, 2016).
  24. Ioannou, S. V. et al. Emotion recognition through facial expression analysis based on a neurofuzzy network. Neural Netw. 18, 423-435 (2005).
  25. Tarnowski, P., Kołodziej, M., Majkowski, A. & Rak, R. J. Emotion recognition using facial expressions. Procedia Comput. Sci. 108, 1175-1184 (2017).
  26. Abdat, F., Maaoui, C. & Pruski, A. Human-computer interaction using emotion recognition from facial expression. In 2011 UKSim 5th European Symposium on Computer Modeling and Simulation (ed Sterritt, R.) 196-201 (IEEE computer society, 2011).
  27. Akçay, M. B. & Oğuz, K. Speech emotion recognition: emotional models, databases, features, preprocessing methods, supporting modalities, and classifiers. Speech Commun. 116, 56-76 (2020).
  28. Issa, D., Fatih Demirci, M. & Yazici, A. Speech emotion recognition with deep convolutional neural networks. Biomed. Signal Process. Control 59, 101894 (2020).
  29. Lech, M., Stolar, M., Best, C. & Bolia, R. Real-time speech emotion recognition using a pre-trained image classification network: effects of bandwidth reduction and companding. Front. Comput. Sci. 2, 14 (2020).
  30. Nandwani, P. & Verma, R. A review on sentiment analysis and emotion detection from text. Soc. Netw. Anal. Min. 11, 81 (2021).
  31. Acheampong, F. A., Wenyu, C. & Nunoo-Mensah, H. Text-based emotion detection: advances, challenges, and opportunities. Eng. Rep. 2, e12189 (2020).
  32. Alm, C. O., Roth, D. & Sproat, R. Emotions from text: machine learning for text-based emotion prediction. In Proc. Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing 579-586 (Association for Computational Linguistics, 2005).
  33. Murugappan, M., Ramachandran, N. & Sazali, Y. Classification of human emotion from EEG using discrete wavelet transform. J. Biomedical Science and Engineering 3, 390-396 (2010).
  34. Gannouni, S., Aledaily, A., Belwafi, K. & Aboalsamh, H. Emotion detection using electroencephalography signals and a zero-time windowing-based epoch estimation and relevant electrode identification. Sci. Rep. 11, 7071 (2021).
  35. Jenke, R., Peer, A. & Buss, M. Feature Extraction and Selection for Emotion Recognition from EEG. IEEE Trans. Affect. Comput. 5, 327-339 (2014).
  36. Balconi, M., Bortolotti, A. & Gonzaga, L. Emotional face recognition, EMG response, and medial prefrontal activity in empathic behaviour. Neurosci. Res. 71, 251-259 (2011).
  37. Künecke, J., Hildebrandt, A., Recio, G., Sommer, W. & Wilhelm, O. Facial EMG responses to emotional expressions are related to emotion perception ability. PLoS ONE 9, e84053 (2014).
  38. Kulke, L., Feyerabend, D. & Schacht, A. A comparison of the affectiva imotions facial expression analysis software with EMG for identifying facial expressions of emotion. Front. Psychol. 11, 329 (2020).
  39. Brás, S., Ferreira, J. H. T., Soares, S. C. & Pinho, A. J. Biometric and emotion identification: an ECG compression based method. Front. Psychol. 9, 467 (2018).
  40. Selvaraj, J., Murugappan, M., Wan, K. & Yaacob, S. Classification of emotional states from electrocardiogram signals: a non-linear approach based on hurst. Biomed. Eng. OnLine 12, 44 (2013).
  41. Agrafioti, F., Hatzinakos, D. & Anderson, A. K. ECG pattern analysis for emotion detection. IEEE Trans. Affect. Comput. 3, 102-115 (2012).
  42. Goshvarpour, A., Abbasi, A. & Goshvarpour, A. An accurate emotion recognition system using ECG and GSR signals and matching pursuit method. Biomed. J. 40, 355-368 (2017).
  43. Dutta, S., Mishra, B. K., Mitra, A. & Chakraborty, A. An analysis of emotion recognition based on GSR signal. ECS Trans. 107, 12535 (2022).
  44. Wu, G., Liu, G. & Hao, M. The analysis of emotion recognition from GSR based on PSO. In 2010 International Symposium on Intelligence Information Processing and Trusted Computing. (ed Sterritt, R.) 360-363 (IEEE computer society, 2010).
  45. Wang, Y. et al. A durable nanomesh on-skin strain gauge for natural skin motion monitoring with minimum mechanical constraints. Sci. Adv. 6, eabb7043 (2020).
  46. Roh, E., Hwang, B.-U., Kim, D., Kim, B.-Y. & Lee, N.-E. Stretchable, transparent, ultrasensitive, and patchable strain sensor for human-machine interfaces comprising a nanohybrid of carbon nanotubes and conductive elastomers. ACS Nano 9, 6252-6261 (2015).
  47. Su, M. et al. Nanoparticle based curve arrays for multirecognition flexible electronics. Adv. Mater. 28, 1369-1374 (2016).
  48. Yoon, S., Sim, J. K. & Cho, Y.-H. A flexible and wearable human stress monitoring patch. Sci. Rep. 6, 23468 (2016).
  49. Jeong, Y. R. et al. A skin-attachable, stretchable integrated system based on liquid GalnSn for wireless human motion monitoring with multi-site sensing capabilities. NPG Asia Mater. 9, e443-e443 (2017).
  50. Hua, Q. et al. Skin-inspired highly stretchable and conformable matrix networks for multifunctional sensing. Nat. Commun. 9, 244 (2018).
  51. Ramli, N. A., Nordin, A. N. & Zainul Azlan, N. Development of low cost screen-printed piezoresistive strain sensor for facial expressions recognition systems. Microelectron. Eng. 234, 111440 (2020).
  52. Sun, T. et al. Decoding of facial strains via conformable piezoelectric interfaces. Nat. Biomed. Eng. 4, 954-972 (2020).
  53. Wang, M. et al. Gesture recognition using a bioinspired learning architecture that integrates visual data with somatosensory data from stretchable sensors. Nat. Electron. 3, 563-570 (2020).
  54. Zhou, Z. et al. Sign-to-speech translation using machine-learningassisted stretchable sensor arrays. Nat. Electron. 3, 571-578 (2020).
  55. Wang, Y. et al. All-weather, natural silent speech recognition via machine-learning-assisted tattoo-like electronics. Npj Flex. Electron. 5, 20 (2021).
  56. Zhuang, M. et al. Highly robust and wearable facial expression recognition via deep-learning-assisted, soft epidermal electronics. Research 2021, 2021/9759601 (2021).
  57. Zheng, W.-L., Dong, B.-N. & Lu, B.-L. Multimodal emotion recognition using EEG and eye tracking data. In 2014 36th Annual International Conference of the IEEE Engineering in Medicine and Biology Society, (ed Melley, D.) 5040-5043 (IEEE express conference publishing, Chicago, IL, USA, 2014).
  58. Schirmer, A. & Adolphs, R. Emotion perception from face, voice, and touch: comparisons and convergence. Trends Cogn. Sci. 21, 216-228 (2017).
  59. Ahmed, N., Aghbari, Z. A. & Girija, S. A systematic survey on multimodal emotion recognition using learning algorithms. Intell. Syst. Appl. 17, 200171 (2023).
  60. Zhang, R. & Olin, H. Material choices for triboelectric nanogenerators: a critical review. EcoMat 2, e12062 (2020).
  61. Kim, W.-G. et al. Triboelectric nanogenerator: structure, mechanism, and applications. ACS Nano 15, 258-287 (2021).
  62. Schumann, N. P., Bongers, K., Guntinas-Lichius, O. & Scholle, H. C. Facial muscle activation patterns in healthy male humans: a multichannel surface EMG study. J. Neurosci. Methods 187, 120-128 (2010).
  63. Lee, J.-G. et al. Quantitative anatomical analysis of facial expression using a 3D motion capture system: application to cosmetic surgery and facial recognition technology: quantitative anatomical analysis of facial expression. Clin. Anat. 28, 735-744 (2015).
  64. Zarins, U. Anatomy of Facial Expression (Exonicus Incorporated, 2018).
  65. Kim, K. N. et al. Surface dipole enhanced instantaneous charge pair generation in triboelectric nanogenerator. Nano Energy 26, 360-370 (2016).
  66. Lee, J. P. et al. Boosting the energy conversion efficiency of a combined triboelectric nanogenerator-capacitor. Nano Energy 56, 571-580 (2019).
  67. Lu, Y. et al. Decoding lip language using triboelectric sensors with deep learning. Nat. Commun. 13, 1401 (2022).
  68. Yang, J. et al. Triboelectrification-based organic film nanogenerator for acoustic energy harvesting and self-powered active acoustic sensing. ACS Nano 8, 2649-2657 (2014).
  69. Yang, J. et al. Eardrum-inspired active sensors for self-powered cardiovascular system characterization and throat-attached antiinterference voice recognition. Adv. Mater. 27, 1316-1326 (2015).
  70. Lee, S. et al. An ultrathin conformable vibration-responsive electronic skin for quantitative vocal recognition. Nat. Commun. 10, 2468 (2019).
  71. Calvert, D. R. Clinical measurement of speech and voice, by Ronald J. Baken, PhD, 528 pp, paper, College-Hill Press, Boston, MA, 1987, $35.00. Laryngoscope 98, 905-906 (1988).
  72. Diemer, J., Alpers, G. W., Peperkorn, H. M., Shiban, Y. & Mühlberger, A. The impact of perception and presence on emotional reactions: a review of research in virtual reality. Front. Psychol. 6, 26 (2015).
  73. Allcoat, D. & Mühlenen, A. von. Learning in virtual reality: Effects on performance, emotion and engagement. Res. Learn. Technol. 26, 2140 (2018).
  74. Colombo, D., Díaz-García, A., Fernandez-Álvarez, J. & Botella, C. Virtual reality for the enhancement of emotion regulation. Clin. Psychol. Psychother. 28, 519-537 (2021).

شكر وتقدير

تم دعم هذا العمل من قبل مؤسسة البحث الوطنية في كوريا (NRF) من خلال منح ممولة من الحكومة الكورية، NRF2020R1A2C2102842، NRF-2021R1A4A3033149، NRF-RS-202300302525، برنامج البحث الأساسي لمعهد كوريا لعلوم المواد، PNK7630 ومنحة معهد كوريا لتقدم التكنولوجيا (KIAT) الممولة من الحكومة الكورية (MOTIE) (POO23703، برنامج HRD للابتكار الصناعي).

مساهمات المؤلفين

قام J.P.L. بتنفيذ وتصميم معظم العمل التجريبي وتحليل البيانات. ساعد H.J. وH.S. وS.L. في معالجة المواد وتصنيع الأجهزة. ساعد Y.J. في خوارزميات التعلم الآلي وتحليل النتائج. قام P.S.L. بمراجعة وتحسين المخطوطة بتعليقات فنية. أشرف J.K. على المشروع بأكمله وكان جهة الاتصال الرئيسية. ناقش جميع المؤلفين وكتبوا وعلقوا على المخطوطة.

المصالح المتنافسة

يعلن المؤلفون عدم وجود مصالح متنافسة.

معلومات إضافية

معلومات إضافية النسخة الإلكترونية تحتوي على مواد إضافية متاحة علىhttps://doi.org/10.1038/s41467-023-44673-2.
يجب توجيه المراسلات والطلبات للحصول على المواد إلى بوي سي لي أو جيون كيم.
تُعرب مجلة Nature Communications عن شكرها لكانان داغديفيرين، ويونغ آن هوانغ والمراجعين الآخرين المجهولين على مساهمتهم في مراجعة هذا العمل. يتوفر ملف مراجعة الأقران.
معلومات إعادة الطباعة والتصاريح متاحة على
http://www.nature.com/reprints
ملاحظة الناشر: تظل شركة سبرينغر ناتشر محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي النسب 4.0 الدولية، التي تسمح بالاستخدام والمشاركة والتكيف والتوزيع وإعادة الإنتاج بأي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح ما إذا تم إجراء تغييرات. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمواد. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، فسيتعين عليك الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارةhttp://creativecommons.org/رخصة/بواسطة/4.0/.
© المؤلف(ون) 2024

  1. مدرسة علوم المواد والهندسة، المعهد الوطني للعلوم والتكنولوجيا في أولسان، أولسان 44919، كوريا الجنوبية. مدرسة علوم المواد والهندسة، جامعة نانيانغ التكنولوجية، 50 شارع نانيانغ، سنغافورة 639798، سنغافورة. مركز المواد القابلة للبرمجة متعددة الأبعاد، المعهد الوطني للعلوم والتكنولوجيا في أولسان، أولسان 44919، كوريا الجنوبية. البريد الإلكتروني:pslee@ntu.edu.sg; jiyunkim@unist.ac.kr

Journal: Nature Communications, Volume: 15, Issue: 1
DOI: https://doi.org/10.1038/s41467-023-44673-2
PMID: https://pubmed.ncbi.nlm.nih.gov/38225246
Publication Date: 2024-01-15

Encoding of multi-modal emotional information via personalized skin-integrated wireless facial interface

Received: 30 August 2023
Accepted: 28 December 2023
Published online: 15 January 2024
(A) Check for updates

Jin Pyo Lee , Hanhyeok Jang , Yeonwoo Jang © , Hyeonseo Song , Suwoo Lee , Pooi See Lee (1) & Jiyun Kim

Abstract

Human affects such as emotions, moods, feelings are increasingly being considered as key parameter to enhance the interaction of human with diverse machines and systems. However, their intrinsically abstract and ambiguous nature make it challenging to accurately extract and exploit the emotional information. Here, we develop a multi-modal human emotion recognition system which can efficiently utilize comprehensive emotional information by combining verbal and non-verbal expression data. This system is composed of personalized skin-integrated facial interface (PSiFI) system that is self-powered, facile, stretchable, transparent, featuring a first bidirectional triboelectric strain and vibration sensor enabling us to sense and combine the verbal and non-verbal expression data for the first time. It is fully integrated with a data processing circuit for wireless data transfer allowing real-time emotion recognition to be performed. With the help of machine learning, various human emotion recognition tasks are done accurately in real time even while wearing mask and demonstrated digital concierge application in VR environment.

The utilization of human affects, encompassing emotions, moods, and feelings, is increasingly recognized as a crucial factor in improving the interaction between humans and diverse machines and systems . Consequently, there is a growing expectation that technologies capable of detecting and recognizing emotions will contribute to advancements across multiple domains, including HMI device , robotics , marketing , healthcare , education , etc. By discerning personal preferences and delivering immersive interaction experiences, these technologies have the potential to offer more userfriendly and customized services. Nonetheless, decoding and encoding emotional information poses significant challenges due to the inherent abstraction, complexity, and personalized nature of emotions . To overcome these challenges, the successful utilization of comprehensive emotional information necessitates the extraction of meaningful patterns through the detection and processing of
combined data from multiple modalities, such as speech, facial expression, gesture, and various physiological signals (e.g., temperature, electrodermal activity) . Encoding these extracted patterns into interaction parameters tailored for specific applications also becomes essential.
Conventional approaches for recognizing emotional information from humans often rely on analyzing images of facial expressions or speech of verbal expression . However, these methods are frequently impeded by environmental factors such as lighting conditions, noise interference, and physical obstructions. As an alternative, text analysis techniques have been explored for emotion detection, utilizing vast amounts of information available on diverse social media platforms. However, this approach presents challenges due to the diverse ambiguities and new terminologies being introduced, which further complicates the accurate detection of emotions from the text.
To overcome these limitations, sensing devices capable of capturing changes in physiological signals, including and GSR have been employed to collect more accurate and reliable data. These devices can establish correlations between these signals and human emotions irrespective of environmental factors, but the requirement of bulky equipment limits their application to everyday communication scenarios.
In recent studies, flexible skin-integrated devices have shown the possibility of providing real-time detection and recognition of emotional information through various modalities such as facial expressions, speech, text, hand gestures, physiological signals, etc. . Specifically, a resistive strain sensor has been employed to directly detect facial strain deformations that occur during facial expressions . This approach offers simplicity by using thin and soft skin-integrated electrode interfaces for current flow, allowing for wearable or portable applications. However, an additional power source, low working frequency range, and extra components for the signal conversion cause simple modality only limited to one-to-one correlation that imposes constraints on the range of applications such as healthcare, VR where complementary information is needed to approximate natural interaction, and user experience can be enhanced by multiple ways of inputs. Furthermore, most existing studies have primarily focused on recognizing and exploiting human emotions, intentions or commands using the single-modal data that can have weaknesses in specific context, thus limiting the use of higher-level and comprehensive emotional contexts . On the other hand, to overcome the drawbacks of each modality for a more resilient system, multi-modal emotion recognition was conducted to draw embedded high-level information by using the combined knowledge from all the accessible data sensing . Consequently, to effectively and precisely encode emotional information, an advanced format of the skinintegrated device necessitates improved wearability seamlessly integrating with individuals, while possessing multi-modal sensing capabilities to process and extract higher-level of information. Also, this personalized device, capable of real-time collection of reliable and accurate multi-modal data regardless of external environmental factors, should be accompanied by the corresponding classification technique to encode the gathered data into personalized feedback parameters for target applications.
Here, we proposed a human emotion recognition system in an attempt to utilize complex emotional states with our personalized skin-integrated facial interface (PSiFI) offering simultaneous detection and integration of facial expression and vocal speech. The PSiFI incorporates a personalized facial mask that is self-powered, easily applicable, stretchable, transparent, capable of wireless communication, and highly customized to conformally fit into an individual’s face curvatures based on 3D face reconstruction. These features enhance the device’s usability and reliability in capturing and analyzing emotional cues, facilitating the real-time detection of multi-modal sensing signals derived from facial strains and vocal vibrations. To encode the combinatorial sensing signals into personalized feedback parameters, we employ a convolutional neural network (CNN)-based classification technique that rapidly adapts to an individual’s context through transfer learning. In the context of human emotion recognition, we specifically focus on facial expression and vocal speech as the chosen multi-modal data, considering their convenience for data collection and classification based on prior research findings.
The PSiFI device is basically comprised of strain and vibration sensing units based on triboelectrification to detect facial strain for facial expression and vocal vibration for speech recognition, respectively. The incorporation of a triboelectric nanogenerator (TENG) enables the sensor device to possess self-powering capabilities while offering a broad range of design possibilities in terms of materials and architectures , thus fulfilling the requirements of personalized and multi-modal sensing devices. The sensing units are made of PDMS film as a dielectric layer and
PEDOT:PSS coated PDMS film as an electrode layer prepared by the semi-curing method which enables the film to exhibit good transparency with decent electrical conductivity. Furthermore, we demonstrated realtime emotion recognition with data processing circuit for wireless data transfer and real-time classification based on rapidly adapting convolution neural network (CNN) model with the help of transfer learning using data augmentation methods. Last, we demonstrated digital concierge application as an exciting possibility in virtual reality (VR) environment via human machine interfaces (HMIs) with our PSiFI. The digital concierge recognizes a user’s intention and interactively offers helpful services depending on the user’s affectivity. Our work presents a promising way to help to consistently collect data regarding emotional speech with barrier-free communication and can pave the way toward acceleration of digital transformation.

Results

Personalized skin-integrated facial interface (PSiFI) system

We devised personalized skin-integrated facial interface (PSiFI) system consisting of multimodal triboelectric sensors (TES), data processing circuit for wireless data transfer and deep-learned classifier. Figure 1A illustrates the schematics of overall process for human emotion recognition with PSiFI from fabrication to classification task. As for making personalized device, we brought in 3D face reconstruction process by collecting 3D data of user’s appearance from scanned photos and converting the data to digital models. This process allowed us to fabricate personalized device fitted in well with various user faces and successfully secure individual user data for accurate recognition task. (Supplementary Fig. 1). Subsequently, we utilized both verbal/ non-verbal expression information detected from multimodal sensors and classified human emotions in real-time using transfer learning applied convolution neural network (CNN).
As shown in Fig.1B, the emotional information based on verbal/ non-verbal expression in the form of digital signals was sent to be the PSiFI mask and wirelessly transferred with data processing circuit. To effectively detect the signals for the emotional information, the PSiFI was integrated with multi-modal TES to capture facial skin strains and vocal cord vibrations by detecting electrical signals from glabella, eye, nose, lip, chin and vocal cord selected as representative regions based on previous studies regarding facial muscle activation patterns during facial expression .
Figure 1C provides the schematic and real image of the TES consisting of simple two-layer structure where PEDOT:PSS-coated polydimethylsiloxane (PDMS) and nanostructured PDMS were used as stretchable electrode and dielectric layer respectively so that our TES are based on single electrode mode in principle. Figure 1D shows schematics of the PEDOT:PSS-coated PDMS and dielectric layers for each strain and vibration type. The PEDOT:PSS-coated PDMS was fabricated by semi-cured process where coating is conducted before full-curing of the elastomer (Supplementary Movie 1). Our stretchable electrode based on the semi-curing process was characterized and showed better performance when it compared to conventional surface treated electrode in terms of optical, mechanical, and electrical aspects. (Supplementary Fig. 2) As shown in scanning electron microscope (SEM) image in Fig.1D, for the dielectric layers we fabricated, nano surface engineering was introduced by inductively coupled plasma reactive ion etching process (ICP-RIE) to improve triboelectric performance by enhancing specific surface area. (Supplementary Fig. 3) Additionally, the dielectric layer for the vibration sensing was perforated like the acoustic holes which enhance vibrate the volume of air inside (Supplementary Movie 2).

Working mechanism and characterization of the strain sensing unit

Converting facial skin strain during facial expression into distinct electrical signals and sending the data as non-verbal information to the

circuit system is the function of our strain sensing unit. As depicted schematically in Fig. 2A, the strain sensing unit was fabricated with the nanostructured PDMS for its high effective contact area as a dielectric layer and PEDOT:PSS embedded PDMS as an electrode layer to make TES with the single electrode structure for simple configuration to be facilitated as wearable sensors. These two layers were separated by double sided tapes applied to both ends of the layers as a spacer to be
consistently generate a series of electrical signals during the operation cycle. Besides, all the parts in the sensing units are made of stretchable and skin-friendly viable materials and can be prepared through scalable fabrication processes (for the details see the “Methods” section and Supplementary Fig. 4). These characteristics of the materials used in the strain sensing unit allow our strain sensor to retain relatively good electrical conductivity even under stretching in the range of
Fig. 1 | The system overview with PSiFI. A Schematic illustration of personalized skin-integrated facial interfaces (PSiFI) including triboelectric sensors (TES), data processing circuit for wireless communication and deep-learned classifier for facial expression and voice recognition. B Schemes showing 2d layout for the PSiFI in the form of wearable mask and depicting two different types of TES in terms of sensory stimulus such as facial strain and vocal vibration. C Schematic diagram of the TES which consists of simple two-layer structure such as electrode layer and dielectric layer and photograph of the TES components, respectively. Scale bar: 1 cm .
D Schematics demonstrating fabricated components for our TES. As for the electrode layer, PEDOT:PSS based electrode was made via semi-curing process. (left). As for the dielectric layer, it was designed differently considering sensing stimuli such as strain and vibration to achieve optimal sensing performance. The inset in center showing SEM image for nanostructured surface of strain type dielectric layer and in right showing photograph for punched holes as acoustic holes of vibration type dielectric layer. Scale bar: and 1 mm .
facial skin strain during facial expression and guarantee robustness of the sensing unit. As schematically shown in Fig. 2B, an electrical potential builds up due to the difference between triboelectric series based on different affinity for electrons, which the PDMS played a triboelectrically negative material by receiving electrons and the PEDOT:PSS based stretchable electrode played a triboelectrically positive material by donating electrons in TES. On top of that, our strain sensing unit makes the contact area changes when stretched and achieved even buckled states so that it can detect bidirectional strain motion among the triboelectric based strain sensors for the first time, according to our knowledge. Correspondingly, the generated output signals of our strain sensing unit during the buckle-stretch cycle were shown in Fig. 2C. The comprehensive working mechanism of the bidirectional strain sensor for each mode was demonstrated in Supplementary Fig. 5.
To characterize the strain sensing unit in terms of mechanical and electrical properties, a linear motor was employed to exert a cyclic force on the sensing unit as shown in Fig. 2D. Figure 2E and F provides our strain sensing unit sensitivity measurement in a strain range from to by buckling and stretching, respectively. The sensitivity was derived from where is the relative potential change and is the strain. As for the buckling strain, linearity of the electrical responses and a sensitivity of 5 mV was obtained in a strain range up to 50% despite non-linear region occurred beyond the strain due to anomalous shape change. The signals in the non-linear region were differentiated with the difference in the width of time as shown in Supplementary Fig. 6. As for the stretching strain, an acceptable linearity and sensitivity of 3 mV was obtained in wide strain range up to . We measured the response time of the strain sensing unit to evaluate the performance of the unit as it can be executed real-time classification tasks. As shown in Fig. 2G, there is no apparent latency time between the stretching force and corresponding the output voltage so that we can make sure the sensing unit can detect the sensing in real time. The stretch-release of one cycle (Fig. 2G, inset) exhibits a response time of below 20 ms . Therefore, compared with other strain sensors, our strain sensing unit has an advantage because of its high sensitivity in bi-direction, fast-response time and high stretchability, which can ensure an accurate sensing of the facial expression via converted electrical signals in real time.
We also measured the output voltage at constant strain of depending on the working frequencies ranging from 0.5 to 3 Hz and confirmed that our strain sensing unit can show reliable performance regardless of the frequencies as shown in Fig. 2 H . When it comes to long-term use in practical application, the mechanical stability of our sensing unit also can be considered as important property. As demonstrated in Fig. 2I, apparent output voltages changes were not observed for the strain sensing unit after 3000 continuous working cycles under strain. It is noteworthy that the strain change is way beyond the requirement for most facial skin strain during facial expression demonstrations .

Working mechanism and characterization of the vocal sensing unit

Our vocal sensing unit has a function of capturing vocal vibrations on the vocal cord during verbal expression and sending the data as verbal
information to the circuit system. As shown in Fig. 3A, the vocal sensing unit was fabricated with the holes patterned PDMS as dielectric layer and PEDOT:PSS embedded PDMS as an electrode layer to make TES. The holes were introduced into the vocal sensing unit as acoustic holes which not only act as communicating vessels to ventilate an air between two contact surfaces to the ambient air, which results in enhanced flat frequency response but also reduce the stiffness by improving the movement of the rim of diaphragms (Supplementary Fig. 7 and Table S1). To be configured into TES, like the strain sensing unit, the dielectric and electrode layer were separated by double-sided tapes applied to both ends of the layers as a spacer for consistent operations during working cycles. The inset to Fig. 3A provides an enlarged view of the vocal sensing unit capturing vocal vibrations on vocal cord. As schematically depicted in Fig. 3B, an electrical potential builds up due to triboelectric series difference based on an electron affinity. Figure 3C provides the schematic drawing showing hole pattern configuration applied in vocal vibration sensor to see how the pattern influence the output and SEM images of the holes.
We measured output voltage signals of the vibration sensing units with different open ratios (ORs) considered the proportion of area perforated with acoustic holes in the whole area on the frequency response of the devices as shown in Fig. 3D. The frequency ranges we tested encompass the fundamental frequency of typical adult men and women ranging from 100 to 150 Hz (Fig. 3D, blue) and from 200 to 250 Hz (Fig. 3D, red), respectively . The results indicate that the vibration sensing unit with OR value of 10 exhibited best output voltage performance and the wideset bandwidth of flat frequency response. This experimental observation is originated from a trade-off between the deflection of dielectric layer and the effective contact area. Larger OR leads to a larger deflection of the dielectric diaphragm and thus a higher electric output. However, increased OR will reduce the effective contact area for triboelectrification, and thus a lower electrical output. Accordingly, an optimized value of OR is needed for maximization of the electrical output. Figure 3E provides measured data plots of output voltage signals per each different OR at the testing frequency of 100 Hz .
As shown in Fig. 3F and G, the output voltage of the vibration sensing unit was affected by structural parameters such as the support thickness and number of holes. As the support thickness is increased, the gap between the triboelectric layers is larger so that the effective contact area can be reduced thus the generated triboelectric output signals is decreased. On the other hand, the larger number of holes with the same OR condition makes the diaphragms deflect more vigorously, thus enhancing the triboelectric output performance. These experiments were carried out at the testing frequency of 100 Hz . Lastly, as shown in Fig. 3 H , we measured the output voltage between the vibration sensing unit with and without holes as a function of input vibration acceleration in the ranging from 0.1 to 1.0 g at the same testing frequency of 100 Hz . Both sensing units have a uniform sensitivity obtained from dividing the measured output voltage by the vibration acceleration. As for the sensitivity, the hole-patterned vibration sensing units exhibits around 2.8 times larger than that of the pristine vibration sensing unit.
Fig. 2 | Working mechanism and characterization of the strain sensing unit.
A Schematic illustration of the strain sensing unit. Inset: enlarged view of the sensing unit detecting facial strain. B Electrical potential distribution of the strain sensing unit under buckled and stretched state. C Output electrical signals of the strain sensing unit during the buckle-stretch cycle. D Real image of experimental set-up for output measurements. Scale bar: 1 cm . E and F Sensitivity measurement
during buckling ( ) and stretching of the sensing unit ( ). Response time measurement with various frequencies. Insets: enlarged views of the loading and unloading processes in one cycle. Generated voltage signals of the sensing unit with various frequencies at a constant strain of . I Mechanical durability test for up to 3000 continuous working cycles and enlarged views of different operation cycles, respectively.
Fig. 3 | Working mechanism and characterization of the vibration sensing unit.
A Schematic illustration of the vibration sensing unit. Inset: enlarged view of the sensing unit detecting vocal-cord vibration. Electrical potential distribution of the sensing unit during working cycle. C Schematic of hole pattern configuration applied in vocal vibration sensor and SEM images of the holes in 32-hole configuration. Scale bar: 2 mm (inset: magnified view showing an acoustic hole. Scale bar: ). D Frequency response data ( as a function of acoustic frequency) for the vibration sensing unit with different open ratios (ORs) of 5,10 and 20. The vocal cord frequency ranges for male and female are colored blue and red, respectively.
E Measured data plots of output voltage signals per each different OR at the testing frequency of 100 Hz . F, G Effects of support thickness and number of holes on vibration sensitivity at working frequency of 100 Hz . For each graph, PDMS used as diaphragm material, acoustic holes were patterned on the diaphragm, and the structural parameters were fixed as follows unless otherwise specified: diaphragm thickness of , support thickness of and an array of 32 holes. The error bars indicate the s.d. of the normalized at the measured frequency of 100 Hz . H Comparison of measured output voltage between the vibration sensing unit with and without holes.

Wireless data processing process and machine learning based real time classification

Figure 4 A and B provides real images of the whole PSiFI mask and the participant wearing the PSiFI mask properly laminated onto the participant’s face, which made it look transparent and comfortable enough to be worn for long time and communicate well without interrupting expressions that can be caused by a colored device. As schematically depicted in Fig. 4C, our wireless data acquisition and transfer process was carried out from the data collection of the skinintegrated facial mask by the several centimeter size of circuit board as a signal transmitter powered by a tiny portable battery to wirelessly transmitted data received by the main board as the receiver connected to the laptop for storing data used to be datasets for the machined learning.
Figure 4D provides collected triboelectric signal patterns from each modal sensor such as lip, eye, glabella, nose, chin (for strain sensing unit) and vocal cord (for vibration sensing unit). As for the acquired signals from the strain sensing units, distinct patterns were exhibited in accordance with the different facial expressions such as happiness, surprise, disgust, anger and sadness that the participant expressed. As for the signals from the vocal sensing unit, each signals for different speech from the syllable such as ” A “, ” B “, ” C ” to the simple sentence such as “I love you” clearly exhibited its own distinct patterns and were further transformed by fast Fourier transformation (FFT) which converts data from time domain to frequency domain to find remarkable patterns in frequency domain so that the pattern recognition performed well. We conducted separate training for the vocal and strain signals as the interdependence between verbal and nonverbal expressions appears to be relatively insignificant when compared to the distinct and concurrent measurements of the multi-modal inputs (Supplementary Fig. 8).
When it comes to machine learning, we applied the CNN algorithm as an example of algorithm for classification. Specifically, we utilized one-dimensional CNN to classify the facial expressions and two-dimensional CNN for speech classification, respectively (Supplementary Fig. 9 and Table S2). Generally, the more datasets our classifier trains, the better performance it shows. However, it is not viable and time consuming to test the sensor integrated wearable mask to many people in practical terms. The facial muscle movements, vocal cord vibration and sensor values corresponding to the verbal/non-verbal expressions of the new users would be different from those of the previous users since every human has its own characteristics. We therefore need to adapt to a network which can be trained with even small amounts of datasets and tuned with the new datasets from the new users.
Figure 4E provides schematic diagrams showing the overall process from data achieving pre-trained model trained with enhanced accuracy by introducing data augmentation technique (Supplementary Fig. 10 and Table S3) to fine-tunned network for personalization by exploiting pre-trained parameters called as transfer learning, which enables the network to be trained in reduced time and effectively adapt to new user’s datasets so that it made the real time classification possible. In detail, a participant repeated, respectively, verbal and nonverbal expression 20 times to demonstrate reliability for a total acquisition of 100 recognition signal patterns per each expression. 70 patterns of total were randomly selected from the acquired signals to serve as the training set which are subsequently augmented 8 -fold based on different methods (Jittering, Scaling, Time-warping, Magni-tude-warping) for effective learning, and the remaining 30 signals were assigned as the test set. Furthermore, according to the previous report, it was found that the movement and activation patterns of facial muscles during facial expressions was not dissimilar depending on the individuals . Based on this fact, we anticipate that the network can get used to adapt to new expressions from new users by rapidly training the corresponding learning data. As for the transfer learning,
after the initial participant had firstly trained with the classifier by the above-mentioned training method, the following participants were wearing with the PSiFI device and able to fast train with the classifier by only repeating 10 times each on both expressions, which successfully allow the real-time classification to be demonstrated. When it comes to practical application, compared with other classification methods based on various kinds of video camera and microphone, our PSiFI mask is free from environmental restrictions such as the location, obstruction, and time. As shown in Fig. 4F, the real-time classification result for combined verbal/nonverbal expressions without any restriction exhibited very high accuracy of 93.3% and even the decent accuracy of was achieved despite carrying out the classification with obstruction such as wearing a facial mask (Supplementary Movie 3).

Digital concierge application in VR environment

As for the application with the PSiFI, we brought in VR environment which allows individuals to experiment with how their emotions could influence and can be expressed and implemented into specific situations in the virtual world . This in turn can deepen communications in VR environment by engaging with human emotions. In this sense, we selected digital concierge application that can be enriched with emotional information in terms of practical use and usability. The digital concierge is likely to be anticipated that it can provide user-oriented services which improve quality of user’s life by promoting user’s experience. Herein, for the first time, we demonstrated the application which offers a digital concierge service operated with our PSiFI based on HMI in VR environment of Unity software as shown in Fig. 5.
Figure 5A provides conceptual schematic showing how human and machine can interact smartly with personalized emotional context by wearing the PSiFI. To realize this, we demonstrate VR-based digital concierge application via HMI with our PSiFI as the overall process was shown in Fig. 5B. Specifically, the digital concierge system was operated based on conversation between the user’s avatar and randomly generated avatar who serves as the virtual concierge. Additionally, we built the digital concierge to provide various application services from smart home to entertainment by taking into account the situations which take place very probably in real life.
Figure 5C provides three different scenarios demonstrating smart home, office, and entertainment application in Unity space (Supplementary Movie 4; for details, see the “Methods” secton). As for the first scenario for smart home application, the digital concierge accessed the user’s mood of sadness and recommend some playlist from website to relieve the mood despite of user’s simple word. As for the second scenario for office application, the digital concierge was able to check if the user understands contents of presentation and pop out new window showing content interpretation that helps to promote user’s understanding. As for the last scenario for entertainment application, the digital concierge identifies user’s reaction to the movie trailer and curates user-friendly contents in accordance with user’s reaction. The applications with our PSiFI-based HMI and built-in VR space can be greatly diversified with learning and adapting new data regarding verbal and non-verbal expressions from new users so that we strongly anticipate our highly personalized PSiFI platform contributes to various practical applications such as education, marketing, and advertisements that can be enriched with emotional information.

Discussion

In this work, we proposed a machine-learning assisted PSiFI for wearable human emotion recognition system. The PSiFI was made of PDMSbased dielectric and stretchable conductor layers that are highly transparent and comfortable as possible to wear in real life. By endowing our PSiFI with multi-modality to detect simultaneously both facial and vocal expressions using self-powered triboelectric-based sensing units, we can acquire better emotional information regardless
Fig. 4 | Real-time emotional speech acquisition. A Photograph showing the multimodality of the PSiFI attached to active units such as glabellar, eye, nose, lip, chin, and vocal cord for simultaneous verbal/non-verbal data collection. Scale bar: 2 cm . B Real images of front (top) and side view (bottom) of the participant wearing the PSiFI. C Schematic diagrams of the wireless emotional speech classifying system including PSiFI, signal processing board for wireless data transfer. D Facial strain
and vocal vibration signals were collected from the skin-integrated interface. E The processes of learning algorithm architecture implemented in our classification system where machine learning methods such as data augmentation and transfer learning were applied to efficiently reduce training time for the real-time classification. F Comparison of confusion matrix (left) and captured images (right) in realtime classification between without and with an obstacle such as a mask.
A
Human-Machine Interaction with Personalized Emotional Context
Fig. 5 | The demonstration for digital concierge based on the emotional speech classifying system in VR environment. A Conceptual illustration of human machine interaction with personalized emotional context achieved by wearing user’s PSiFI. B Schematic diagram of the way the user interacts with the digital concierge providing various helpful services. C The corresponding captured
images of three different scenarios as tasks (such as mood interactive feedback, automatic keyword search and user-friendly advertising) of digital concierge which likely take place in various places such as home, office and theater in VR environment of Unity software.
of external factors such as time, place, and obstacles. Furthermore, we realized wireless data communication for real-time human emotion recognition with the help of designed data-processing circuit unit and the rapid adapting learning model and achieved acceptable standard in terms of test accuracy even with the barrier such as mask. Finally, we first demonstrated digital concierge application in VR environment capable of responding to user’s intention based on the user’s emotional speech information. We believe that the PSiFI could assist and accelerate the active usage of emotions for digital transformation in the near future.

Methods

Materials

PDMS was purchased from Dow corning which consists of elastomer base and curing set ( ). Aqueous dispersions of PEDOT:PSS solution (>3%), ethylene glycol (99.8%), and Au nanoparticles (Au NPs) dispersion in deionized water (DI) was purchased from Sigma-Aldrich. Acetone (99.5%) and isopropyl alcohol (IPA) (99.5%) were purchased from Samchun Chemical.

Preparation of conductive dispersion and stretchable conductor

An aqueous solution of PEDOT:PSS was firstly filtered through a 0.45 mm nylon syringe filter. Next, DMSO was added to the solution, and it was then mixed with IPA solvent by vigorously stirring at room temperature for half an hour. Subsequently, the base monomer and curing agent were mixed with a weight ratio of 10:1 at room temperature and then, placed into the vacuum desiccator to degas the PDMS mixture. After of mixture was spread in the form of a continuous layer onto the cleaned Kapton film as a substrate using a micrometer adjustable film applicator, and allowed to solidify into an amorphous free-standing film by heating on an oven at for 5 min . The prepared conductive dispersion was subsequently coated on the PDMS to anchor the conductive polymers within the PDMS matrix before the film is fully solidified.

Fabrication of nanowire-based surface modification of dielectric film

Nanowires on the surface of the PDMS film were formed by using inductively coupled plasma (ICP) reactive ion etching. The dielectric films with a thickness of were first cleaned subsequently by Acetone, IPA and DI, then blown dry with nitrogen gas. In the etching process, Au NPs were prepared by vortex mixer for homogeneous distribution and deposited by drop-casting. After 30 min of drying in oven at , the Au NPs were coated on the dielectric surface as a nano-patterned mask. Subsequently, a mixed gas including , and was introduced in the ICP chamber, with a corresponding flow rate of 15.0, 10.0, and 30.0 sccm, respectively. The dielectric films were etched for 300 s to obtain a nanowire structure on the surface. One power source of 400 W was used to yield a large density of plasma, while another 100 W was used to accelerate the plasma ions.

Fabrication of hole-patterned dielectric films

Arrays of circular acoustic holes with various shapes and distributions were fabricated and punched through the PDMS film (thickness ) using laser-cutting technology (Universal Laser Systems Inc.). The diameter of the smallest hole is , which is close to the linewidth limitation of the laser cutting on a plate surface.

Fabrication of self-powered sensing units

As for the strain sensing unit, the prepared stretchable conductor was cut in the size of . Next, a flat flexible cable (FFC) was attached with the double-sided medical silicone tape (3M 2476P, 3M Co., Ltd) for electrical connection (Supplementary Fig. 11). Then, the surface modified dielectric film (thickness ) was subsequently placed on the layer and used as space-charge carrying layer.
As for the vibration sensing unit, the prepared stretchable conductor was cut in the size of . Next, the FFC was attached with the double-sided medical tape for electrical connection like in the strain sensing unit. Then, the -thick surface modified and hole patterned PDMS film as dielectric layer was sequentially applied on the layer and used as diaphragm deflecting with the vocal vibration.

Characterization and measurement

The morphologies and thickness of the PEDOT:PSS embedded stretchable conductor and the nano-patterned dielectrics were investigated by using a Nano 230 field-emission scanning electron microscope (FEI, USA) at an accelerating voltage of 10 kV . Optical transmission measurements of the stretchable conductors were performed on ultraviolet-visible spectrophotometer (Cary 5000, Agilent) from 400 to 800 nm . The sheet resistances ( ) of the stretchable conductors were measured using the four-point van der Pauw method with collinear probes ( 0.5 cm spacing) connected to a four-point probing system (CMT2000N, AIT). For the electrical measurement of the strain sensor unit, an external shear force was applied by a commercial linear mechanical motor (X-LSM 100b, Zaber Technologies) and a programmable electrometer (Keithley model 6514) was used to measure the open-circuit voltage and short-circuit current. For the vibration sensor unit, a Digital Phosphor Oscilloscope (DPO 3052, Tektronix) was used to measure the electrical output signals at the sampling rate of . For the multi-channel sensing system, a DAQ system (PCIe-6351, NI) was used to simultaneously measure electrical output signals of multi-channel sensor units.

Attachment of the device on the skin

To mount the sensor device completely onto the facial and neck skin, we applied a bio-compatible, ultrathin, and transparent medical tape (Tegaderm TM Film 1622W, 3M) over the edge of the sensor and the metal lines connected to the interface circuit. The medical tape is developed and widely utilized for skin-friendly adhesive solution. Therefore, there was no skin irritation or itch during several hours of wearing. The test was exempted from IRB in accordance with the approval by UNIST IRB Committee. The authors affirm that human research participants provided informed consent prior to inclusion in this study and for publication of the images in Figs. 4 and 5.

Machine learning for emotion recognition

For the pre-training, a total acquisition of 100 recognition signal patterns per each expression were collected from a participant repeating 20 times each on both verbal and non-verbal expressions, respectively. 70 patterns of total were randomly selected as training set, further augmented 8 -fold based on different augmentation methods (Jittering, Scaling, Time-warping, Magnitude-warping), and the remaining 30 signals were assigned as the test set. After pre-processing step for the datasets such as trimming in accordance with input size of the neural network and converting to image by FFT, the 1D-CNN and 2DCNN were applied for non-verbal expression and verbal-expression training. With this pre-trained classifier, a new user can rapidly customize the classifier with its own data by repeating 10 times each on both expressions, known as transfer learning, the real-time classification was successfully demonstrated.

Demonstration of the application

The three-dimensional (3D) VR environment that the user saw was provided by Unity3D on a computer, the facial strain and vocal vibration sensing data were sent to Unity3D through wireless serial communication from Buleinno2, and the interaction between PSiFI and the computer was done by PySerial package in python. We built VR-based digital concierge scenario comprising of environmental assets and generated avatars as follows. The virtual environments assets such as home, office, and theater were downloaded at Unity Asset Store. The
avatars used in the VR environments were simply created from individual photo using readyplayer.me website. In demonstration, the generated avatar proceeded the scenario based on the real-time information transmitted from PSiFI and got adaptive responses from the avatar called MIBOT virtually created for digital concierge.

Reporting summary

Further information on research design is available in the Nature Portfolio Reporting Summary linked to this article.

Data availability

The data that support the plots within this paper and other finding of the study are present in the paper and/or the Supplementary Information. The original datasets for human emotion recognition are available from https://github.com/MATTER-INTEL-LAB/PSIFI.git.

Code availability

All codes used for implementation of the data augmentation and classification are available from https://github.com/MATTER-INTELLAB/PSIFI.git.

References

  1. Rahman, M. M., Poddar, A., Alam, M. G. R. & Dey, S. K. Affective state recognition through EEG signals feature level fusion and ensemble classifier. Preprint at https://doi.org/10.48550/arXiv.2102. 07127 (2021).
  2. Niklander, S. & Niklander, G. Combining sentimental and content analysis for recognizing and interpreting human affects. in HCl International 2017—Posters’ Extended Abstracts (ed. Stephanidis, C.) 465-468 (Springer International Publishing, 2017).
  3. Torres, E. P., Torres, E. A., Hernández-Álvarez, M., Yoo, S. G. & EEGBased, B. C. I. Emotion recognition: a survey. Sensors 20, 5083 (2020).
  4. Palaniswamy, S. & Suchitra, A. Robust pose & illumination invariant emotion recognition from facial images using deep learning for human-machine interface. In 2019 4th International Conference on Computational Systems and Information Technology for Sustainable Solution (CSITSS) 1-6 (2019).
  5. Thirunavukkarasu, G. S., Abdi, H. & Mohajer, N. A smart HMI for driving safety using emotion prediction of EEG signals. In 2016 IEEE International Conference on Systems, Man, and Cybernetics (SMC) 004148-004153 (2016).
  6. Huo, F., Zhao, Y., Chai, C. & Fang, F. A user experience map design method based on emotional quantification of in-vehicle HMI. Humanit. Sci. Soc. Commun. 10, 1-10 (2023).
  7. Breazeal, C. Emotion and sociable humanoid robots. Int. J. Hum.-Comput. Stud. 59, 119-155 (2003).
  8. Stock-Homburg, R. Survey of emotions in human-robot interactions: perspectives from robotic psychology on 20 years of research. Int. J. Soc. Robot. 14, 389-411 (2022).
  9. Chuah, S. H.-W. & Yu, J. The future of service: The power of emotion in human-robot interaction. J. Retail. Consum. Serv. 61, 102551 (2021).
  10. Consoli, D. A new concept of marketing: the emotional marketing. BRAND Broad Res. Account. Negot. Distrib. 1, 52-59 (2010).
  11. Bagozzi, R. P., Gopinath, M. & Nyer, P. U. The role. Emot. Mark. J. Acad. Mark. Sci. 27, 184-206 (1999).
  12. Yung, R., Khoo-Lattimore, C. & Potter, L. E. Virtual reality and tourism marketing: conceptualizing a framework on presence, emotion, and intention. Curr. Issues Tour. 24, 1505-1525 (2021).
  13. Hasnul, M. A., Aziz, N. A. A., Alelyani, S., Mohana, M. & Aziz, A. A. Electrocardiogram-based emotion recognition systems and their applications in healthcare-a review. Sensors 21, 5015 (2021).
  14. Dhuheir, M. et al. Emotion recognition for healthcare surveillance systems using neural networks: a survey. Preprint at https://doi.org/ 10.48550/arXiv.2107.05989 (2021).
  15. Jiménez-Herrera, M. F. et al. Emotions and feelings in critical and emergency caring situations: a qualitative study. BMC Nurs. 19, 60 (2020).
  16. Schutz, P. A., Hong, J. Y., Cross, D. I. & Osbon, J. N. Reflections on investigating emotion in educational activity settings. Educ. Psychol. Rev. 18, 343-360 (2006).
  17. Tyng, C. M., Amin, H. U., Saad, M. N. M. & Malik, A. S. The influences of emotion on learning and memory. Front. Psychol. 8, 1454 (2017).
  18. Li, L., Gow, A. D. I. & Zhou, J. The role of positive emotions in education: a neuroscience perspective. Mind Brain Educ. 14, 220-234 (2020).
  19. Ben-Ze’Ev, A. The Subtlety of Emotions (MIT Press, 2001).
  20. Lane, R. D. & Pollermann, B. Z. Complexity of emotion representations. in The Wisdom in Feeling: Psychological Processes in Emotional Intelligence 271-293 (The Guilford Press, 2002).
  21. Boehner, K., DePaula, R., Dourish, P. & Sengers, P. How emotion is made and measured. Int. J. Hum.-Comput. Stud. 65, 275-291 (2007).
  22. Mauss, I. B. & Robinson, M. D. Measures of emotion: a review. Cogn. Emot. 23, 209-237 (2009).
  23. Meiselman, H. L. Emotion Measurement (Woodhead Publishing, 2016).
  24. Ioannou, S. V. et al. Emotion recognition through facial expression analysis based on a neurofuzzy network. Neural Netw. 18, 423-435 (2005).
  25. Tarnowski, P., Kołodziej, M., Majkowski, A. & Rak, R. J. Emotion recognition using facial expressions. Procedia Comput. Sci. 108, 1175-1184 (2017).
  26. Abdat, F., Maaoui, C. & Pruski, A. Human-computer interaction using emotion recognition from facial expression. In 2011 UKSim 5th European Symposium on Computer Modeling and Simulation (ed Sterritt, R.) 196-201 (IEEE computer society, 2011).
  27. Akçay, M. B. & Oğuz, K. Speech emotion recognition: emotional models, databases, features, preprocessing methods, supporting modalities, and classifiers. Speech Commun. 116, 56-76 (2020).
  28. Issa, D., Fatih Demirci, M. & Yazici, A. Speech emotion recognition with deep convolutional neural networks. Biomed. Signal Process. Control 59, 101894 (2020).
  29. Lech, M., Stolar, M., Best, C. & Bolia, R. Real-time speech emotion recognition using a pre-trained image classification network: effects of bandwidth reduction and companding. Front. Comput. Sci. 2, 14 (2020).
  30. Nandwani, P. & Verma, R. A review on sentiment analysis and emotion detection from text. Soc. Netw. Anal. Min. 11, 81 (2021).
  31. Acheampong, F. A., Wenyu, C. & Nunoo-Mensah, H. Text-based emotion detection: advances, challenges, and opportunities. Eng. Rep. 2, e12189 (2020).
  32. Alm, C. O., Roth, D. & Sproat, R. Emotions from text: machine learning for text-based emotion prediction. In Proc. Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing 579-586 (Association for Computational Linguistics, 2005).
  33. Murugappan, M., Ramachandran, N. & Sazali, Y. Classification of human emotion from EEG using discrete wavelet transform. J. Biomedical Science and Engineering 3, 390-396 (2010).
  34. Gannouni, S., Aledaily, A., Belwafi, K. & Aboalsamh, H. Emotion detection using electroencephalography signals and a zero-time windowing-based epoch estimation and relevant electrode identification. Sci. Rep. 11, 7071 (2021).
  35. Jenke, R., Peer, A. & Buss, M. Feature Extraction and Selection for Emotion Recognition from EEG. IEEE Trans. Affect. Comput. 5, 327-339 (2014).
  36. Balconi, M., Bortolotti, A. & Gonzaga, L. Emotional face recognition, EMG response, and medial prefrontal activity in empathic behaviour. Neurosci. Res. 71, 251-259 (2011).
  37. Künecke, J., Hildebrandt, A., Recio, G., Sommer, W. & Wilhelm, O. Facial EMG responses to emotional expressions are related to emotion perception ability. PLoS ONE 9, e84053 (2014).
  38. Kulke, L., Feyerabend, D. & Schacht, A. A comparison of the affectiva imotions facial expression analysis software with EMG for identifying facial expressions of emotion. Front. Psychol. 11, 329 (2020).
  39. Brás, S., Ferreira, J. H. T., Soares, S. C. & Pinho, A. J. Biometric and emotion identification: an ECG compression based method. Front. Psychol. 9, 467 (2018).
  40. Selvaraj, J., Murugappan, M., Wan, K. & Yaacob, S. Classification of emotional states from electrocardiogram signals: a non-linear approach based on hurst. Biomed. Eng. OnLine 12, 44 (2013).
  41. Agrafioti, F., Hatzinakos, D. & Anderson, A. K. ECG pattern analysis for emotion detection. IEEE Trans. Affect. Comput. 3, 102-115 (2012).
  42. Goshvarpour, A., Abbasi, A. & Goshvarpour, A. An accurate emotion recognition system using ECG and GSR signals and matching pursuit method. Biomed. J. 40, 355-368 (2017).
  43. Dutta, S., Mishra, B. K., Mitra, A. & Chakraborty, A. An analysis of emotion recognition based on GSR signal. ECS Trans. 107, 12535 (2022).
  44. Wu, G., Liu, G. & Hao, M. The analysis of emotion recognition from GSR based on PSO. In 2010 International Symposium on Intelligence Information Processing and Trusted Computing. (ed Sterritt, R.) 360-363 (IEEE computer society, 2010).
  45. Wang, Y. et al. A durable nanomesh on-skin strain gauge for natural skin motion monitoring with minimum mechanical constraints. Sci. Adv. 6, eabb7043 (2020).
  46. Roh, E., Hwang, B.-U., Kim, D., Kim, B.-Y. & Lee, N.-E. Stretchable, transparent, ultrasensitive, and patchable strain sensor for human-machine interfaces comprising a nanohybrid of carbon nanotubes and conductive elastomers. ACS Nano 9, 6252-6261 (2015).
  47. Su, M. et al. Nanoparticle based curve arrays for multirecognition flexible electronics. Adv. Mater. 28, 1369-1374 (2016).
  48. Yoon, S., Sim, J. K. & Cho, Y.-H. A flexible and wearable human stress monitoring patch. Sci. Rep. 6, 23468 (2016).
  49. Jeong, Y. R. et al. A skin-attachable, stretchable integrated system based on liquid GalnSn for wireless human motion monitoring with multi-site sensing capabilities. NPG Asia Mater. 9, e443-e443 (2017).
  50. Hua, Q. et al. Skin-inspired highly stretchable and conformable matrix networks for multifunctional sensing. Nat. Commun. 9, 244 (2018).
  51. Ramli, N. A., Nordin, A. N. & Zainul Azlan, N. Development of low cost screen-printed piezoresistive strain sensor for facial expressions recognition systems. Microelectron. Eng. 234, 111440 (2020).
  52. Sun, T. et al. Decoding of facial strains via conformable piezoelectric interfaces. Nat. Biomed. Eng. 4, 954-972 (2020).
  53. Wang, M. et al. Gesture recognition using a bioinspired learning architecture that integrates visual data with somatosensory data from stretchable sensors. Nat. Electron. 3, 563-570 (2020).
  54. Zhou, Z. et al. Sign-to-speech translation using machine-learningassisted stretchable sensor arrays. Nat. Electron. 3, 571-578 (2020).
  55. Wang, Y. et al. All-weather, natural silent speech recognition via machine-learning-assisted tattoo-like electronics. Npj Flex. Electron. 5, 20 (2021).
  56. Zhuang, M. et al. Highly robust and wearable facial expression recognition via deep-learning-assisted, soft epidermal electronics. Research 2021, 2021/9759601 (2021).
  57. Zheng, W.-L., Dong, B.-N. & Lu, B.-L. Multimodal emotion recognition using EEG and eye tracking data. In 2014 36th Annual International Conference of the IEEE Engineering in Medicine and Biology Society, (ed Melley, D.) 5040-5043 (IEEE express conference publishing, Chicago, IL, USA, 2014).
  58. Schirmer, A. & Adolphs, R. Emotion perception from face, voice, and touch: comparisons and convergence. Trends Cogn. Sci. 21, 216-228 (2017).
  59. Ahmed, N., Aghbari, Z. A. & Girija, S. A systematic survey on multimodal emotion recognition using learning algorithms. Intell. Syst. Appl. 17, 200171 (2023).
  60. Zhang, R. & Olin, H. Material choices for triboelectric nanogenerators: a critical review. EcoMat 2, e12062 (2020).
  61. Kim, W.-G. et al. Triboelectric nanogenerator: structure, mechanism, and applications. ACS Nano 15, 258-287 (2021).
  62. Schumann, N. P., Bongers, K., Guntinas-Lichius, O. & Scholle, H. C. Facial muscle activation patterns in healthy male humans: a multichannel surface EMG study. J. Neurosci. Methods 187, 120-128 (2010).
  63. Lee, J.-G. et al. Quantitative anatomical analysis of facial expression using a 3D motion capture system: application to cosmetic surgery and facial recognition technology: quantitative anatomical analysis of facial expression. Clin. Anat. 28, 735-744 (2015).
  64. Zarins, U. Anatomy of Facial Expression (Exonicus Incorporated, 2018).
  65. Kim, K. N. et al. Surface dipole enhanced instantaneous charge pair generation in triboelectric nanogenerator. Nano Energy 26, 360-370 (2016).
  66. Lee, J. P. et al. Boosting the energy conversion efficiency of a combined triboelectric nanogenerator-capacitor. Nano Energy 56, 571-580 (2019).
  67. Lu, Y. et al. Decoding lip language using triboelectric sensors with deep learning. Nat. Commun. 13, 1401 (2022).
  68. Yang, J. et al. Triboelectrification-based organic film nanogenerator for acoustic energy harvesting and self-powered active acoustic sensing. ACS Nano 8, 2649-2657 (2014).
  69. Yang, J. et al. Eardrum-inspired active sensors for self-powered cardiovascular system characterization and throat-attached antiinterference voice recognition. Adv. Mater. 27, 1316-1326 (2015).
  70. Lee, S. et al. An ultrathin conformable vibration-responsive electronic skin for quantitative vocal recognition. Nat. Commun. 10, 2468 (2019).
  71. Calvert, D. R. Clinical measurement of speech and voice, by Ronald J. Baken, PhD, 528 pp, paper, College-Hill Press, Boston, MA, 1987, $35.00. Laryngoscope 98, 905-906 (1988).
  72. Diemer, J., Alpers, G. W., Peperkorn, H. M., Shiban, Y. & Mühlberger, A. The impact of perception and presence on emotional reactions: a review of research in virtual reality. Front. Psychol. 6, 26 (2015).
  73. Allcoat, D. & Mühlenen, A. von. Learning in virtual reality: Effects on performance, emotion and engagement. Res. Learn. Technol. 26, 2140 (2018).
  74. Colombo, D., Díaz-García, A., Fernandez-Álvarez, J. & Botella, C. Virtual reality for the enhancement of emotion regulation. Clin. Psychol. Psychother. 28, 519-537 (2021).

Acknowledgements

This work was supported by National Research Foundation of Korea (NRF) grants funded by the Korean government, NRF2020R1A2C2102842, NRF-2021R1A4A3033149, NRF-RS-202300302525, the Fundamental Research Program of the Korea Institute of Material Science, PNK7630 and Korea Institute for Advancement of Technology (KIAT) grant funded by the Korea Government (MOTIE) (POO23703, HRD Program for Industrial Innovation).

Author contributions

J.P.L. carried out and designed most of the experimental work and data analysis. H.J., H.S., and S.L. assisted in the materials processing and device fabrication. Y.J. assisted in the machine learning algorithms and analysis of the results. P.S.L. revised and improved the manuscript with technical comments. J.K. supervised the whole project and was the lead contact. All authors discussed and wrote and commented on the manuscript.

Competing interests

The authors declare no competing interests.

Additional information

Supplementary information The online version contains supplementary material available at https://doi.org/10.1038/s41467-023-44673-2.
Correspondence and requests for materials should be addressed to Pooi See Lee or Jiyun Kim.
Peer review information Nature Communications thanks Canan Dagdeviren, YongAn Huang and the other, anonymous, reviewer(s) for their contribution to the peer review of this work. A peer review file is available.
Reprints and permissions information is available at
http://www.nature.com/reprints
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons license, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons license, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons license and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this license, visit http://creativecommons.org/ licenses/by/4.0/.
© The Author(s) 2024

  1. School of Material Science and Engineering, Ulsan National Institute of Science and Technology, Ulsan 44919, South Korea. School of Materials Science and Engineering, Nanyang Technological University, 50 Nanyang Avenue, Singapore 639798, Singapore. Center for Multidimensional Programmable Matter, Ulsan National Institute of Science and Technology, Ulsan 44919, South Korea. e-mail: pslee@ntu.edu.sg; jiyunkim@unist.ac.kr