التحقق من صحة تقسيم صوت البلع السائل الرقيق الآلي 5 مل لتقدير وقت إزالة البلعوم المستمد من الصوت
Validation of automated 5 mL thin liquid swallowing sound segmentation for estimating audio-derived pharyngeal clearance time

المجلة: Scientific Reports، المجلد: 16، العدد: 1
DOI: https://doi.org/10.1038/s41598-026-39699-7
PMID: https://pubmed.ncbi.nlm.nih.gov/41775747
تاريخ النشر: 2026-03-03
المؤلف: Dushyantha Jayatilake وآخرون
الموضوع الرئيسي: تقييم وإدارة عسر البلع

نظرة عامة

تستكشف هذه الدراسة فعالية الأحداث الصوتية المقطعة تلقائيًا في الكشف عن نشاط البلع البلعومي من خلال مقارنة توقيتها مع العلامات الفسيولوجية من دراسات البلع بالفيديو (VFSS). شملت الأبحاث تسجيل أصوات البلع من 45 مريضًا يشتبه في إصابتهم بالبلع، باستخدام سماعة إلكترونية ترتدي حول الرقبة (NWES). تم استخدام خوارزمية لتحديد بداية ونهاية أصوات البلع، والتي تمت مقارنتها بعد ذلك بالأحداث المعلنة في VFSS، بما في ذلك اتصال الكتلة مع لسان المزمار (P-Start)، وفتح المصرة المريئية العلوية (UES) (E-Start)، وإغلاق UES (E-End). شملت التحليل توقيتات الفروق وقياسات المدة، مع مقارنات فرعية بناءً على حالة الاحتواء الفموي.

تشير النتائج إلى أن التقسيم الصوتي التلقائي يلتقط بشكل فعال المرحلة البلعومية للبلع، مما يوفر تقديرات للمدة تتماشى عن كثب مع المقاييس المستمدة من VFSS. على الرغم من أن الطريقة لا تعالج العوائق ما قبل البلعومية، إلا أنها تظهر إمكانات كبيرة كأداة غير جراحية لتقييم إزالة البلعوم أثناء بلع السوائل الرقيقة بكمية 5 مل في كل من البيئات السريرية والمنزلية. تدعو هذه النتائج إلى دمج الاستماع العنقي مع تقسيم البلع التلقائي في مبادرات الصحة الرقمية لفحص ومراقبة البلع، على الرغم من ملاحظة تباين أكبر بين الأفراد واستثناءات في مدة “E-Start – P-Start”.

مقدمة

تناقش مقدمة الورقة البحثية البلع، وهي حالة تتميز بصعوبة في البلع، تؤثر بشكل أساسي على كبار السن والأفراد الذين يعانون من اضطرابات عصبية، بما في ذلك أولئك الذين تعرضوا لسكتات دماغية، أو لديهم مرض باركنسون، أو تم تشخيصهم بمرض التصلب الجانبي الضموري (ALS)، بالإضافة إلى المرضى الذين يعانون من سرطانات الرأس والعنق. إذا تركت دون علاج، يمكن أن تؤدي البلع إلى مضاعفات خطيرة مثل سوء التغذية، والجفاف، والالتهاب الرئوي الناتج عن الاستنشاق، وهو سبب رئيسي للمراضة والوفيات بين السكان الأكبر سنًا.

تؤكد الورقة على أهمية تقييمات البلع للكشف المبكر والتدخل. يتم استخدام طرق تقييم متنوعة في الممارسة السريرية، كل منها له مزايا وعيوب فريدة. بينما تُفضل التقييمات السريرية بجانب السرير، مثل اختبار بلع الماء واختبار بلع اللعاب المتكرر، لسهولة استخدامها وفعاليتها من حيث التكلفة، إلا أنها ذات طابع ذاتي إلى حد كبير. بالمقابل، تُبرز الطرق الآلية، وخاصة دراسة البلع بالفيديو (VFSS)، كمعيار ذهبي لتقييم البلع، حيث توفر تصورًا ديناميكيًا في الوقت الحقيقي لتدفق الكتلة والحركات الهيكلية أثناء عملية البلع.

النتائج

أظهرت خوارزمية تقسيم الصوت معدل اكتشاف مرتفع، حيث نجحت في تحديد 80 من أصل 84 حدث بلع. تم نسب الأحداث الأربعة غير المكتشفة إلى مزيج من انخفاض سعة الصوت بسبب عطل في الجهاز والرفض التلقائي من قبل الخوارزمية لتجاوزها عتبة المدة، والتي حدثت في حالات محاولات بلع متعددة، والكلام بعد البلع، وتنظيف الحلق. من بين الأحداث المكتشفة، كان متوسط نسبة التداخل (OLP) 64.0 (SD = 25.4)، مع وسيلة قدرها 64.4.

كشف التحليل الزمني أنه في 96% من الحالات، حدث بدء الصوت بعد P-Start المحدد بواسطة VFSS (اللحظة التي تتصل فيها الكتلة بلسان المزمار)، مع تأخير متوسط قدره 354.2 ± 322.3 مللي ثانية. ومن الجدير بالذكر أن 80% من بدايات الصوت كانت ضمن 500 مللي ثانية بعد P-Start. تأخر بدء الصوت خلف فتح UES (E-Start) في 67.5% من الحالات، مع تأخير وسطي قدره 58.5 مللي ثانية، مما يشير إلى أن اكتشاف الصوت يتماشى عن كثب مع مرحلة الانتقال البلعومي. عادةً ما حدث انتهاء الصوت بعد إغلاق UES (E-End) في 82.5% من الحالات، مع تأخير متوسط قدره 271.2 ± 293.9 مللي ثانية، مما يشير إلى نشاط صوتي متأخر. كانت مدة فتح UES أكثر اتساقًا (المتوسط = 482.9 ± 99.5 مللي ثانية)، بينما أبرزت التباينات في تأخير بدء UES (المتوسط = 307.1 ± 308.7 مللي ثانية) اختلافات كبيرة في توقيت بدء البلع بين المشاركين.

المناقشة

تتناول قسم المناقشة في الدراسة فعالية خوارزمية تقسيم الصوت في الكشف عن أحداث البلع البلعومي من خلال مقارنتها بمعالم دراسة البلع بالفيديو (VFSS) المعتمدة. تشير النتائج إلى أن الخوارزمية تلتقط بنجاح بداية ونهاية النشاط البلعومي، حيث حدث 96% من بدايات الصوت بعد أن تلامس الكتلة لسان المزمار (P-Start) و82.5% من النهايات بعد إغلاق المصرة المريئية العلوية (UES) (E-End). وهذا يشير إلى أن زمن إزالة البلعوم المستمد من الصوت (PCT) هو مقياس موثوق لكفاءة البلع، يتماشى عن كثب مع المدد المستمدة من VFSS، خاصة في الحالات التي تتضمن احتواء فموي.

علاوة على ذلك، تسلط الدراسة الضوء على إمكانية استخدام التقييمات المستندة إلى الصوت كأداة غير جراحية وقابلة للتوسع لفحص البلع، خاصة في البيئات السريرية والمنزلية. يظل PCT المستمد من الصوت، على الرغم من كونه أقصر قليلاً من قياسات VFSS، متسقًا عبر ظروف البلع وليس متأثرًا بشكل كبير بالأنشطة ما قبل البلعومية. يدعو المؤلفون إلى مزيد من البحث لاستكشاف قابلية تطبيق هذه الطريقة عبر مختلف الفئات السكانية، حيث قد يظهر البلع بشكل مختلف اعتمادًا على الظروف الأساسية. بشكل عام، يمكن أن يعزز دمج تقسيم الصوت في إدارة البلع الكشف المبكر ومراقبة خلل البلع.

القيود

تقدم الدراسة عدة قيود قد تؤثر على قابلية تعميم نتائجها. أولاً، كان المشاركون حصريًا مرضى يخضعون لدراسات البلع بالفيديو (VFSS) خلال المرحلة الحادة من المرض، مما قد لا يمثل بدقة أنماط البلع المستقرة أو المزمنة. تثير هذه القيود مخاوف بشأن قابلية تطبيق النتائج على الأفراد الأصحاء أو أولئك الذين في إعادة التأهيل لعلاج البلع. بالإضافة إلى ذلك، كانت مجموعة الدراسة تتكون فقط من مرضى يابانيين، مما قد يحد من صلة النتائج بالسكان الذين لديهم خصائص تشريحية مختلفة، مثل الاختلافات في حجم الرقبة أو بروز الحنجرة، والتي يمكن أن تؤثر على نقل الصوت وأداء المستشعر.

علاوة على ذلك، كان التحليل مقصورًا على كتلة سائلة رقيقة بكمية 5 مل، وقد تؤثر الاختلافات في حجم الكتلة وملاءمتها على الخصائص الصوتية الملاحظة. تم توضيح معالم VFSS بواسطة مقيم مدرب واحد، مما ترك تباين المقيمين غير محدد، مما قد يساهم في الفروق الزمنية في النتائج. ومن الجدير بالذكر أنه بينما كانت مدة انتقال UES متسقة (المتوسط: 480 مللي ثانية)، أظهر تأخير فتح UES تباينًا كبيرًا، خاصةً في المرضى الذين يعانون من مشكلات في الاحتواء الفموي. تؤكد هذه النتائج على الحاجة إلى مزيد من البحث للتحقق من النتائج عبر مجموعات سكانية وظروف متنوعة.

Journal: Scientific Reports, Volume: 16, Issue: 1
DOI: https://doi.org/10.1038/s41598-026-39699-7
PMID: https://pubmed.ncbi.nlm.nih.gov/41775747
Publication Date: 2026-03-03
Author(s): Dushyantha Jayatilake et al.
Primary Topic: Dysphagia Assessment and Management

Overview

This study investigates the efficacy of automatically segmented audio events in detecting pharyngeal swallowing activity by comparing their timing with physiological markers from videofluoroscopic swallowing studies (VFSS). The research involved recording swallowing sounds from 45 patients suspected of dysphagia using a neck-worn electronic stethoscope (NWES). An algorithm was employed to identify the onset and offset of swallowing sounds, which were then compared to VFSS-annotated events, including bolus contact with the epiglottis (P-Start), upper esophageal sphincter (UES) opening (E-Start), and UES closure (E-End). The analysis included timing offsets and duration measures, with subgroup comparisons based on oral containment status.

The findings indicate that automatic audio-based segmentation effectively captures the pharyngeal phase of swallowing, yielding duration estimates that align closely with VFSS-derived metrics. Although the method does not address pre-pharyngeal impairments, it shows significant potential as a non-invasive tool for assessing pharyngeal clearance during 5 mL thin liquid swallows in both clinical and home environments. These results advocate for the integration of cervical auscultation with automatic swallowing segmentation in digital health initiatives for dysphagia screening and monitoring, despite observing greater inter-individual variability and outliers in the “E-Start – P-Start” duration.

Introduction

The introduction of the paper discusses dysphagia, a condition characterized by difficulty in swallowing, which predominantly affects older adults and individuals with neurological disorders, including those who have suffered strokes, have Parkinson’s Disease, or are diagnosed with Amyotrophic Lateral Sclerosis (ALS), as well as patients with head and neck cancers. If left untreated, dysphagia can lead to severe complications such as malnutrition, dehydration, and aspiration pneumonia, which is a significant cause of morbidity and mortality among older populations.

The paper emphasizes the importance of swallowing assessments for early detection and intervention. Various assessment methods are employed in clinical practice, each with unique advantages and limitations. While clinical bedside evaluations, like the water swallow test and the repetitive saliva swallowing test, are favored for their simplicity and cost-effectiveness, they are largely subjective. In contrast, instrumental methods, particularly the videofluoroscopic swallowing study (VFSS), are highlighted as the gold standard for swallowing assessment, providing dynamic, real-time visualization of bolus flow and structural movements during the swallowing process.

Results

The audio segmentation algorithm demonstrated a high detection rate, successfully identifying 80 out of 84 swallowing events. The four undetected events were attributed to a combination of low audio amplitude due to device malfunction and automatic rejection by the algorithm for exceeding a duration threshold, which occurred in cases of multiple swallowing attempts, post-swallow speech, and throat clearing. Among the detected events, the mean overlap percentage (OLP) was 64.0 (SD = 25.4), with a median of 64.4.

Temporal analysis revealed that in 96% of the cases, audio onset occurred after the VFSS-defined P-Start (the moment the bolus contacts the epiglottis), with an average delay of 354.2 ± 322.3 ms. Notably, 80% of audio onsets were within 500 ms post-P-Start. The audio onset lagged behind the UES opening (E-Start) in 67.5% of cases, with a median lag of 58.5 ms, indicating that audio detection aligns closely with the pharyngeal transit phase. The audio offset typically occurred after the UES closure (E-End) in 82.5% of instances, with an average delay of 271.2 ± 293.9 ms, suggesting trailing audio activity. The UES opening duration was more consistent (mean = 482.9 ± 99.5 ms), while the variability in UES start delay (mean = 307.1 ± 308.7 ms) highlighted significant differences in swallow initiation timing among participants.

Discussion

The discussion section of the study examines the effectiveness of an audio segmentation algorithm in detecting pharyngeal swallowing events by comparing them with established videofluoroscopic swallowing study (VFSS) landmarks. The findings indicate that the algorithm successfully captures the onset and offset of pharyngeal activity, with 96% of audio onsets occurring after the bolus contacted the epiglottis (P-Start) and 82.5% of offsets occurring after upper esophageal sphincter (UES) closure (E-End). This suggests that the audio-derived Pharyngeal Clearance Time (PCT) is a reliable measure of swallowing efficiency, closely aligning with VFSS-derived durations, particularly in cases with oral containment.

Moreover, the study highlights the potential of using audio-based assessments as a non-invasive, scalable tool for dysphagia screening, especially in clinical and home settings. The audio-derived PCT, while slightly shorter than VFSS measurements, remains consistent across swallowing conditions and is not significantly affected by pre-pharyngeal activities. The authors advocate for further research to explore the applicability of this method across various patient populations, as dysphagia may present differently depending on underlying conditions. Overall, the integration of audio segmentation into dysphagia management could enhance early detection and monitoring of swallowing dysfunction.

Limitations

The study presents several limitations that may affect the generalizability of its findings. Firstly, the participants were exclusively patients undergoing Videofluoroscopic Swallowing Studies (VFSS) during the acute stage of illness, which may not accurately represent stable or chronic swallowing patterns. This limitation raises concerns about the applicability of the results to healthy individuals or those in rehabilitation for dysphagia. Additionally, the study’s cohort comprised only Japanese patients, potentially restricting the findings’ relevance to populations with differing anatomical characteristics, such as variations in neck size or laryngeal prominence, which could influence acoustic transmission and sensor performance.

Furthermore, the analysis was confined to a 5 mL thin liquid bolus, and variations in bolus volume and consistency could affect the audio characteristics observed. The VFSS landmarks were annotated by a single trained rater, leaving inter-rater variability unquantified, which may contribute to timing discrepancies in the results. Notably, while the upper esophageal sphincter (UES) transit duration was consistent (mean: 480 ms), the UES opening delay exhibited significant variability, particularly in patients with oral containment issues. These findings underscore the need for further research to validate the results across diverse populations and conditions.