سد الفجوة في محو الأمية لموافقات الجراحة: نهج تعاوني بين الذكاء الاصطناعي والخبراء البشريين Bridging the literacy gap for surgical consents: an AI-human expert collaborative approach

المجلة: npj Digital Medicine، المجلد: 7، العدد: 1
DOI: https://doi.org/10.1038/s41746-024-01039-2
PMID: https://pubmed.ncbi.nlm.nih.gov/38459205
تاريخ النشر: 2024-03-08

سد الفجوة في محو الأمية لموافقات الجراحة: نهج تعاوني بين الذكاء الاصطناعي والخبراء البشريين

روهيد علي © , لان د. كونولي , أوليفر ي. تانغ , فاطمة ن. ميرزا , بنيامين جونستون © , هائل ف. عبد الرزاق , راشيل ك. ليم , بول ف. جالاماغا , تيفاني ج. ليبي , نيل ر. سوده , مايكل و. غروف , زيا ل. غوكاسلان , ألبرت إ. تيلفيان , جون هـ. شين , وائل ف. أسعد © , جيمس زو & كورتيس إ. دوبيرشتاين

الملخص

على الرغم من أهمية الموافقة المستنيرة في الرعاية الصحية، فإن قابلية قراءة ونوعية نماذج الموافقة غالبًا ما تعيق فهم المرضى. تبحث هذه الدراسة في استخدام GPT-4 لتبسيط نماذج الموافقة الجراحية وتقدم نهجًا تعاونيًا بين الذكاء الاصطناعي والخبراء البشريين للتحقق من ملاءمة المحتوى. تم تقييم نماذج الموافقة من مؤسسات متعددة من حيث قابلية القراءة وتم تبسيطها باستخدام GPT-4، مع مقارنة مقاييس قابلية القراءة قبل وبعد التبسيط باستخدام اختبارات غير معلمية. تم إجراء مراجعات مستقلة من قبل مؤلفين طبيين ومحامي دفاع عن الأخطاء الطبية. أخيرًا، تم تقييم إمكانية GPT-4 في إنشاء نماذج موافقة محددة للإجراءات الجديدة، مع تقييم النماذج باستخدام مقياس موثق من 8 عناصر ومراجعة من جراحين متخصصين. أظهرت تحليل نماذج الموافقة من 15 مركزًا طبيًا أكاديميًا انخفاضات كبيرة في متوسط وقت القراءة، ندره الكلمات، وتكرار الجمل المبنية للمجهول (جميع ) بعد التبسيط الذي تم تسهيله بواسطة GPT-4. تحسنت قابلية القراءة من مستوى طالب السنة الأولى في الكلية إلى مستوى الصف الثامن ( )، مما يتماشى مع مستوى قراءة الأمريكيين العاديين. تم تأكيد اتساق الكفاية الطبية والقانونية. أنشأ GPT-4 نماذج موافقة محددة للإجراءات لخمس إجراءات جراحية متنوعة بمستوى قراءة متوسط يبلغ الصف السادس. حصلت هذه النماذج على درجات كاملة في مقياس نماذج الموافقة الموحد ونجت من التدقيق عند مراجعة جراحين متخصصين. توضح هذه الدراسة أول تعاون بين الذكاء الاصطناعي والخبراء البشريين لتحسين نماذج الموافقة الجراحية، مما يحسن بشكل كبير قابلية القراءة دون التضحية بالتفاصيل السريرية. يمكن توسيع إطار عملنا ليشمل مواد التواصل الأخرى مع المرضى، مع التأكيد على التواصل الواضح والتخفيف من الفجوات المتعلقة بحواجز محو الأمية الصحية.

الموافقة المستنيرة هي مبدأ أخلاقي أساسي ومتطلب قانوني في الرعاية الصحية، مما يضمن أن يتم تزويد المرضى بمعلومات كافية لاتخاذ قرارات مستنيرة بشأن خيارات علاجهم. تعمل نماذج الموافقة كأداة تعليمية ووثائق قانونية لـ
النقاش الذي يحمي كل من المريض والطبيب. عندما يتم تصميمها بشكل جيد، توفر الموافقة الجراحية للمرضى معلومات واضحة وموجزة وقابلة للفهم بشأن المخاطر والفوائد والبدائل للإجراء الجراحي المقترح. ومع ذلك، فإن التحدي الكبير في تحقيق
الموافقة المستنيرة حقًا يكمن في قابلية قراءة هذه النماذج . أظهرت الأبحاث السابقة أن نسبة كبيرة من نماذج الموافقة الجراحية مكتوبة بمستوى قراءة يتجاوز فهم المريض العادي . بينما يتم كتابة معظم نماذج الموافقة بمستوى طالب السنة الأولى في الكلية أو أعلى، فإن متوسط مستوى قراءة البالغين الأمريكيين يعادل مستوى طالب الصف الثامن . هذه الفجوة ذات صلة خاصة في ضوء الأبحاث الواسعة التي تظهر أن محو الأمية الصحية مرتبط بنتائج المرضى بسبب تأثيره على عوامل مثل البحث عن الرعاية، وسلوكيات تعزيز الصحة، والامتثال لتوصيات الأطباء، والدفاع عن النفس في بيئة سريرية . وفقًا لذلك، لتحسين الفهم واتخاذ القرار في البيئة المحيطة بالعملية، يجب على الأطباء تقليل الحواجز المحتملة أمام محو الأمية الصحية للمرضى.
بالإضافة إلى تحدي قابلية القراءة، غالبًا ما تكتب نماذج الموافقة الإجرائية في تنسيق “مقاس واحد يناسب الجميع” يمكن تعميمه على أي إجراء محتمل ولكنه يفشل في مناقشة الخصائص المحددة للإجراء، مثل الخطوات والمخاطر والفوائد، بدقة كافية. قد يتجاوز الجراحون مشكلة نماذج الموافقة العامة من خلال تقديم مكملات شفهية أو من خلال استخدام أدبيات تعليمية فريدة خاصة بالإجراء أو موافقات. ومع ذلك، فإن تنفيذ هذه التدابير يواجه عدة حواجز محتملة، مثل المتطلبات المؤسسية للحفاظ على الموافقات العامة أو الأدلة المتطورة باستمرار بشأن المخاطر والفوائد الفردية للإجراءات المحددة، مما يتطلب مراجعة دقيقة مستمرة من الخبراء.
التنقل بين التحديين المتمثلين في إدارة نماذج الموافقة التي يصعب قراءتها أو غير مخصصة بشكل غير محدد لإجراء معين أمر صعب، حيث قد تتطلب حلول تحسين الجودة المحتملة استثمارًا كبيرًا من حيث الوقت والموارد ورأس المال البشري. علاوة على ذلك، ليس من الواضح ما إذا كانت الموافقة المعدلة التي تستخدم لغة أكثر بساطة قد تضر بشمولية النموذج الأصلي من منظور قانوني طبي. في ضوء هذه الحواجز، نقترح إطار عمل جديد بين الذكاء الاصطناعي والخبراء البشريين لمعالجة هذه المشكلات. أظهرت أنظمة الذكاء الاصطناعي التي تم تطويرها حديثًا، وخاصة في شكل نماذج لغوية كبيرة (LLMs)، وعدًا في قدرتها على تلخيص وتعديل وإعادة صياغة النص بطريقة قد تكون ذات صلة كبيرة بهذه المهمة . تبحث هذه الدراسة أ) بشكل كمي ونوعي في تطبيق GPT-4 (OpenAI؛ سان فرانسيسكو، كاليفورنيا) LLM العام لتقييم وتحويل نماذج الموافقة الجراحية إلى مستوى قراءة أكثر سهولة بطريقة فعالة ومعيارية وفعالة؛ ب) تطوير إطار عمل مبسط وقابل للتوسيع يتضمن مراجعة طبية وقانونية لضمان بقاء المحتوى كما هو بين الموافقات الأصلية والمبسطة، و ) يتحقق من قدرة GPT-4 على إنشاء موافقات محددة للإجراءات بشكل جديد تلبي تدقيق الخبراء. لدى هذا النهج القدرة على تعزيز عملية الموافقة بشكل كبير من خلال تزويد المرضى بمعلومات واضحة وقابلة للفهم ومحددة، مما يعزز في النهاية الموافقة المستنيرة حقًا.

النتائج

تم اختيار نماذج الموافقة من 15 مركزًا طبيًا أكاديميًا كبيرًا (المعلومات التكميلية 1). حسب المنطقة، كان سبعة منها في الشمال الشرقي، واثنان في منتصف المحيط الأطلسي، وواحد في كل من الجنوب الشرقي، والجنوب، والجنوب الغربي، والغرب، والشمال الغربي، والوسط الغربي. كانت 6 مؤسسات مملوكة للجمهور (أو كانت ارتباطها الأكاديمي مرتبطًا بمدرسة طبية عامة)، بينما كانت الـ 9 الأخرى خاصة. كانت جميعها مرتبطة بمدرسة طبية وتعمل كمستشفى تعليمي. كان متوسط عدد الأسرة في كل مؤسسة 791 مع انحراف معياري قدره 256. جميعها كانت معتمدة كمراكز صدمات من المستوى 1. كانت 14 من 15 مؤسسة مستشفيات للبالغين بشكل أساسي. كانت نماذج الموافقة تتكون من وسيلة قدرها 3976.0 حرفًا (نطاق الربع [IQR] = 2113.0-4485.5 حرفًا) و651.0 كلمة ( كلمات)، مما يتطلب في المتوسط و15 ثانية من وقت القراءة.
بعد تبسيط نص النموذج بواسطة LLM، راجع ثلاثة مؤلفين طبيين (RA، HA، وIDC) نماذج الموافقة بشكل مستقل قبل وبعد التبسيط لضمان بقاء المحتوى قابلاً للمقارنة، واتفق الثلاثة جميعًا على أن المحتوى ظل قابلاً للمقارنة لجميع نماذج الموافقة الـ 15. بالإضافة إلى ذلك، قام محامي دفاع عن الأخطاء الطبية (PG)
بمراجعة الموافقات قبل وبعد التبسيط وقرر أن جميع أزواج الموافقة الـ 15 تلبي نفس الكفاية القانونية.
بعد معالجة الموافقة بواسطة LLM، كان هناك انخفاض كبير في الوسيط لعدد الأحرف (قبل مقابل بعد أحرف، ) والكلمات (قبل مقابل بعد كلمات، )، مما قلل وقت القراءة من 3.26 إلى 2.42 دقيقة ( , الشكل 1A). علاوة على ذلك، انخفض الوسيط لعدد الأحرف لكل كلمة (قبل . بعد أحرف، ) والكلمات لكل جملة (قبل مقابل بعد كلمات، ) (الشكل 1). كان هناك أيضًا انخفاض كبير في نسبة الجمل المكتوبة بصيغة المبني للمجهول (قبل مقابل بعد ).
قبل معالجة LLM، كان لمستوى قراءة FleschKincaid في نماذج موافقة الجراحة وسطي يبلغ 13.9 (IQR=12.8-14.2؛ الشكل 1B) ودرجة سهولة قراءة Flesch تبلغ 35.3 (IQR=33.0-39.9؛ الشكل 1C)، وكلاهما يدل على مستوى صعوبة قراءة يتطلب تعليمًا جامعيًا. بعد التبسيط، كان هناك انخفاض كبير في مستوى القراءة (قبل مقابل بعد , ) وتحسين في سهولة القراءة (قبل مقابل بعد ” ) من مستوى قراءة طالب السنة الأولى في الجامعة إلى مستوى طالب في الصف الثامن. علاوة على ذلك، انخفض متوسط ندرة الكلمات المستخدمة في النص بشكل ملحوظ بعد التبسيط (قبل مقابل بعد ، ; الشكل 1E).
أخيرًا، لتقييم نماذج الموافقة الخاصة بالإجراءات، طلبنا من GPT-4 إنشاء نماذج موافقة لخمس إجراءات جراحية متنوعة بمستوى القراءة الأمريكي المتوسط، وحققنا فيما إذا كانت هذه الموافقات المولدة تتماشى مع التوصيات المقدمة من سباتز وآخرين. تضمنت الموافقات الخاصة بالإجراءات: (1) وضع أقطاب التحفيز العميق لنواة تحت المهاد (STN-DBS) أثناء اليقظة مع تسجيلات الميكروإلكترودات والتحفيز التجريبي لمرض باركنسون (الشكل التكميلي 1A)؛ (2) استئصال القرص القطني بالمنظار عبر الجلد (PELD) للفقرات القطنية 4-5 (L4-5) لعلاج اعتلال الجذور القطنية L4 (الشكل التكميلي 1B)؛ (3) استئصال الزائدة الدودية بالمنظار لعلاج التهاب الزائدة الدودية الحاد (الشكل التكميلي 3C)؛ (4) جراحة تحويل الشرايين التاجية (CABG) لعلاج احتشاء عضلة القلب الحاد غير المرتفع في مقطع ST (NSTEMI) مع مرض الشرايين التاجية متعدد الأوعية (الشكل التكميلي 1D)؛ و(5) جراحة موهس المجهرية لعلاج سرطان الخلايا القاعدية (الشكل التكميلي 1E). كان متوسط عدد الكلمات في هذه النماذج الخاصة بالإجراءات 414، مع وقت قراءة تقديري قدره دقيقتان و4 ثوانٍ. تم حساب مستوى فليتش-كينكايد ليكون 6.7، وهو ما يتوافق تقريبًا مع الصف السادس في مدرسة أمريكية. قام ثلاثة مؤلفين طبيين (RA وIDC وHA) بتقييم نماذج الموافقة التي تم إنشاؤها باستخدام المعايير التي وضعتها سباتز وآخرون ووجدوا أن جميع الموافقات الخاصة بالإجراءات الخمس حصلت على درجة كاملة قدرها 20 من بعبارة أخرى، توافقت جميع نماذج الموافقة مع الحد الأدنى من المتطلبات، والتي شملت وصف الإجراء، وشرح كيفية تنفيذ الإجراء، وتقديم المبررات السريرية، وتحديد الفوائد الموجهة للمرضى، وعرض البدائل، وتضمين مساحة لتحديد تاريخ توقيع نموذج الموافقة. على الرغم من تنوع الإجراءات التي تشملها هذه المهمة، لم تسفر المراجعة المتخصصة للإجراءات من قبل جراحي التخصص الفرعي (WFA، AET، NRS، NRS، وTJL، على التوالي) عن أي تغييرات في الصياغة أو أخطاء سريرية كبيرة تتطلب التصحيح.

نقاش

في عام 1980، نشر غراندر نداءً للعمل في مجلة نيو إنجلاند الطبية لتحسين قابلية قراءة نماذج موافقة الجراحة، التي تُكتب عادةً بمستوى التعليم الجامعي أو الدراسات العليا، على الرغم من أن مستوى القراءة الأمريكي أقرب إلى مستوى الصف الثامن. بعد عدة عقود، لا يزال يتم توثيق أدلة على ضعف قابلية القراءة في نماذج الموافقة الإجرائية، حتى في النماذج العامة التي لا تحتوي على تفاصيل محددة للإجراءات، عبر عدة تخصصات، بما في ذلك الجراحة العامة، وجراحة زراعة الأعضاء، وطب الأنف والأذن والحنجرة. علاوة على ذلك، تشير الأدلة إلى أن التحولات السريعة في الممارسات السريرية، بدءًا من جائحة COVID-19 إلى إدخال تقنيات جديدة، قد تؤدي إلى تفاقم الفجوات في النتائج بسبب مستوى الصحة المعرفية، نتيجة للأضرار غير المتناسبة التي تلحق بالمرضى الأقل معرفة. . نظرًا للتداعيات الواسعة المحتملة لـ

في دمج الذكاء الاصطناعي في الطب، من الضروري أن يعمل الأطباء على ضمان أن استخدام هذه التقنيات يحسن، بدلاً من أن يعزز، الفجوات القائمة في رعاية المرضى.
تظهر نتائجنا أن نموذج GPT-4 يمكنه تبسيط نماذج الموافقة الجراحية العامة بفعالية، بالإضافة إلى إنشاء نماذج موافقة متخصصة جديدة مصممة لتناسب العملية الفريدة والحالة التي يتم علاجها. في هذا
أظهرت الدراسة أن GPT-4 حسّن بشكل كبير من قابلية قراءة نماذج الموافقة العامة المستخدمة حاليًا في المؤسسات، من خلال خفض مستوى القراءة المطلوب من مستوى طالب السنة الأولى في الكلية الأمريكية (الصف 13) إلى مستوى الصف الثامن، مما جعل النماذج أكثر وصولاً لفئة أوسع من المرضى. بالإضافة إلى ذلك، أظهرت النماذج المبسطة انخفاضًا كبيرًا في نسبة الجمل المكتوبة بصيغة المبني للمجهول.
الشكل 1 | الفروق في قابلية قراءة نموذج الموافقة الجراحية والمعايير اللغوية قبل وبعد التبسيط. الفروق في قابلية قراءة نموذج الموافقة الجراحية قبل وبعد التبسيط التي تم التوسط فيها بواسطة GPT-4. تم رسم الوسيط والمدى الربعي لكل متغير. -القيم المبلغ عنها تتوافق مع نتائج اختبارات مان-ويتني غير المعلمية. بالنسبة لـ (A-C)، تم استخدام لون مميز لتسمية كل مؤسسة فردية ( أ) اختلافات في وقت القراءة. ب) اختلافات في مستوى قراءة فليتش-كينكايد. ج) اختلافات في درجة سهولة قراءة فليتش. د) اختلافات في متغيرات لغوية أخرى قبل (أحمر) وبعد (أزرق) التبسيط. نظرًا للاختلافات في المقياس بين المتغيرات، تم الإبلاغ عن جميع النتائج كـ
نسب المئوية ( ) من ثابت محدد مسبقًا: 5000 لإجمالي الأحرف، 900 لإجمالي الكلمات، 40 لإجمالي الجمل، 30 لإجمالي الفقرات، 6 لأحرف لكل كلمة، 25 كلمة لكل جملة، 2.5 جملة لكل فقرة، و4000 لندرة الكلمات المتوسطة. E رسم بياني يوضح التغيرات في توزيع تصنيف تكرار الكلمات لنص نموذج الموافقة قبل (باللون الأزرق) وبعد (باللون الأحمر) التبسيط الذي تم بوساطة GPT-4. يتم رسم تكرار الكلمات من حيث التصنيف داخل اللغة الإنجليزية على المحور السيني، مع دلالة التصنيف الأعلى على زيادة الندرة، وتم دمج التصنيفات 10,000 وما فوق في فئة واحدة. الخطوط الصلبة تشير إلى توزيع تصنيف تكرار الكلمات بعد ملاءمة البيانات إلى توزيع.
تشير إلى لغة أكثر وضوحًا ووضوحًا. لأن مستوى قراءة فليتش-كينكايد ودرجة سهولة قراءة فليتش لا تلتقط عوامل مثل تكرار الكلمات أو التعقيد، والتي تعتبر أيضًا عوامل مهمة تؤثر على فهم القارئ. قمنا أيضًا بإجراء تحليل لكيفية تأثير التبسيط المدعوم من LLM على ندرة الكلمات المتوسطة في مستندات نماذج الموافقة. من خلال استبدال المصطلحات الطبية، مثل وصف “فشل التنفس” بأنه “فقدان القدرة على التنفس”، تم تقليل ندرة الكلمات المتوسطة بشكل كبير. علاوة على ذلك، كان بإمكان GPT-4 توليد نماذج موافقة محددة للإجراءات تلبي الحد الأدنى من المتطلبات التي حددها سباتز وآخرون، بمستوى قراءة أمريكي متوسط من الصف السادس، ودرجة كاملة قدرها 20 من 20 على نظام تقييم موثق لمدى شمولية نماذج الموافقة، وتفاصيل حول المخاطر والفوائد المحددة للإجراءات التي تحملت تدقيق الخبراء. .
تم تقييم مجموعة واسعة من التدخلات لتحسين فهم المرضى أثناء الحصول على الموافقة المستنيرة للإجراءات في الأدبيات السابقة، بما في ذلك تسجيل اللقاءات السريرية، ودمج مواد سمعية بصرية إضافية، واستخدام تقنيات المحادثة مثل طلب من المريض أن “يعيد شرح” الإجراء. في هذه الدراسة، نقدم سير عمل فعال بين الذكاء الاصطناعي والخبراء البشريين يمكن تطبيقه على كل من الموافقات العامة والموافقة الخاصة بالإجراءات. تتطلب هذه السلاسل الزمنية الحد الأدنى من الوقت والموارد والتدريب، بينما تحسن بشكل كبير من قابلية قراءة مستندات الموافقة دون التضحية بالمعلومات السريرية التفصيلية. علاوة على ذلك، يجب ألا تُعتبر هذه السلاسل الزمنية متعارضة مع التدخلات المذكورة أعلاه، بل كأدوات إضافية في مجموعة الأدوات التي قد تكمل الجهود القائمة لتحسين التواصل بين الأطباء والمرضى.
من المهم أن الابتكار المقدم في الدراسة لا يقتصر على هذه الوظائف المدعومة بالذكاء الاصطناعي، بل يتعلق أيضًا بتطوير إطار عمل عام وفعال لضمان جودة كافية لهذه الوثائق، مثل الحماية من الأخطاء الواقعية أو “الهلاوس”. تعمل نماذج الموافقة العامة والمحددة للإجراءات بشكل تكاملي، حيث تُستخدم الأولى لتقديم مبادئ عالمية لجميع الإجراءات، مثل مشاركة المقيمين، بينما تُستخدم الثانية لتثقيف المرضى حول التفاصيل الدقيقة الإضافية المتعلقة بعمليتهم. بالنسبة لنماذج الموافقة العامة المستخدمة حاليًا، ولضمان دقة وامتثال النسخ المبسطة التي تم إنشاؤها بواسطة نماذج اللغة الكبيرة، قمنا بإدراج مراجعة إضافية من قبل خبراء بشريين من خلال جهد متعدد التخصصات بين ثلاثة محترفين في الرعاية الصحية ومحامي دفاع عن الأخطاء الطبية؛ حيث قام كل منهم بإجراء مراجعة مستقلة للنماذج المبسطة للتحقق من عدم فقدان أو تغيير أي معلومات حيوية خلال عملية التبسيط. بالنسبة لنماذج الموافقة المحددة للإجراءات، تم تطبيق عدة طبقات إضافية من التدقيق، بما في ذلك معيار موضوعي لمدى شمولية نموذج الموافقة ومراجعة التفاصيل السريرية من قبل خبراء محددين للإجراءات. توفر هذه المنهجية التي تعزز التحسينات المدعومة بالذكاء الاصطناعي في قابلية القراءة والتفاصيل السريرية مع مراجعة الخبراء البشر إطار عمل موثوق وقابل للتوسع لأولئك الذين يرغبون في دمج هذا التدفق في الممارسة السريرية. على سبيل المثال، بينما قمنا بتجربة هذا النهج لتطوير 5 نماذج موافقة محددة للإجراءات، قد يسهل ذلك تطوير والتحقق الجماعي من الوثائق لأي إجراء محتمل يتم تنفيذه حاليًا في الطب السريري. علاوة على ذلك، يمكن تطبيق هذا الإطار نحو تبسيط مستهدف لأشكال أخرى من التواصل والتثقيف للمرضى، مثل المواد الترويجية للمستشفيات، والمواقع العامة، ونماذج موافقة البحث، وحتى التواصل الفوري مع المرضى ضمن السجل الصحي الإلكتروني. . هذه التعاون بين الذكاء الاصطناعي والمهنيين الطبيين والخبراء القانونيين يقدم اتجاهًا واعدًا للبحث المستقبلي والتطبيق العملي
التطبيقات في الطب السريري، تمهد الطريق من أجل تواصل رعاية صحية أكثر شمولاً وسهولة، مع الحفاظ على الصرامة المناسبة.
من المهم أن ندرك أن نموذج الموافقة المكتوبة هو مجرد جزء من عملية الموافقة المستنيرة، وأن كمية كبيرة من المعلومات تُنقل شفهياً، وهو ما لا تأخذه هذه الدراسة في الاعتبار. بالإضافة إلى ذلك، في الممارسة العملية، لا يقرأ العديد من المرضى نماذج الموافقة الكاملة. وقد وثقت الأبحاث السابقة التي تقيس نسبة المرضى الذين يقرؤون نماذج الموافقة الإجرائية معدلات متباينة تتراوح من 1 إلى ومع ذلك، قد يؤدي تحسين قابلية قراءة استمارات الموافقة إلى فوائد في الإعدادات السريرية مثل تقليل الوقت الذي يحتاجه مقدمو الرعاية لشرح المفاهيم السريرية المعقدة أو زيادة استعداد المرضى لقراءة مستندات الموافقة. إن اتخاذ خطوات في كل مرحلة من مراحل عملية الموافقة المستنيرة للتواصل بالمعلومات بمستوى مناسب أمر حاسم للحد من الفجوات الصحية بسبب حواجز الثقافة الصحية. علاوة على ذلك، قد يكون تبسيط استمارات الموافقة مفيدًا في سياق الإعدادات القانونية مثل محاكمة سوء الممارسة، حيث تكون الوضوح للجمهور العام أمرًا حاسمًا.
في هذه الدراسة، يمكن فهم نتائجنا على ثلاثة مستويات متميزة. أولاً، نقدم أول مثال معروف في الأدبيات عن إطار عمل يجمع بين الذكاء الاصطناعي والخبراء البشريين لتعزيز الموافقات الجراحية وأول إطار عمل معروف للذكاء الاصطناعي في المجال الطبي والقانوني لتحسين الجودة في الطب. ثانياً، تسلط هذه الدراسة الضوء على الدور الحاسم الذي يلعبه البشر في هذه المرحلة المبكرة من الذكاء الاصطناعي. من خلال تدقيق الموافقات بدقة من حيث الكفاية الطبية أو القانونية، يعمل الخبراء البشر كدليل اجتماعي محوري، مما يمكّن الذكاء الاصطناعي من أن يُدمج بثقة في الممارسة السريرية. ثالثاً وأخيراً، يتطلب التقييم الرسمي لمنتجات الذكاء الاصطناعي حالياً جهدًا بشريًا لتقييم البيانات، وصياغة المخطوطات، والمشاركة في عملية مراجعة الأقران، ونشر النتائج على نطاق أوسع في المجتمع الطبي. يشكل هذا الجهد الجماعي طبقة أخرى من الدليل الاجتماعي وهو ضروري لتحديد كيفية دمج الذكاء الاصطناعي بشكل آمن وفعال في الممارسة السريرية، مما يضمن في النهاية أن تصل فوائده إلى مجموعة واسعة من المرضى، بما في ذلك الأكثر ضعفًا.

طرق

جمع البيانات وتحليلها

تم الحصول على نماذج الموافقة من مؤسسات المؤلفين الخاصة، ومن مؤسسات أخرى، تم تحديد نماذج الموافقة المتاحة للجمهور على مواقعها الإلكترونية الخاصة. كانت هذه الموافقات “عامة” بمعنى أنها لم تشير إلى أي إجراء أو عملية معينة. نظرًا لعدم تضمين أي موضوعات بشرية أو معلومات صحية محمية في هذه الدراسة، لم يكن من الضروري إجراء مراجعة من قبل مجلس المؤسسة. استنادًا إلى التقديرات الشائعة، تم استخدام سرعة قراءة تبلغ 200 كلمة في الدقيقة لحساب إجمالي وقت القراءة للنماذج. لتحديد قابلية قراءة نماذج الموافقة، استخدمنا مستوى قراءة فليتش-كينكايد، ودرجة سهولة قراءة فليتش، وقياسات ندرة الكلمات. مستوى قراءة فليتش-كينكايد هو مقياس موثق ومستخدم على نطاق واسع يقيس قابلية القراءة من حيث مستوى التعليم في الولايات المتحدة، استنادًا إلى متوسط عدد الكلمات في الجملة ومتوسط عدد المقاطع في الكلمة. تستخدم درجة سهولة القراءة فليتش هذين المتغيرين لحساب درجة تتراوح من 0 إلى 100، حيث تشير الدرجات الأعلى إلى تحسين قابلية القراءة. درجة من يتوافق مع مستوى قراءة أقل من الصف التاسع، في حين أن درجة تشير إلى مستوى قراءة خريج كلية . تم حساب هذه الدرجات القابلة للقراءة تلقائيًا عبر Microsoft Word (مايكروسوفت؛ ريدموند، واشنطن). تم حساب متوسط ندرة الكلمات لكل شكل من خلال متوسط ندرة كل ليمّا أو جذر كلمة (على سبيل المثال، “operate” هو الليمّا لكلمتي “operated” و”operating”) في النص العام، وفقًا لـ
الشكل 2 | منهجية تبسيط قابلية قراءة نموذج الموافقة الجراحية. مخطط منهجية تبسيط قابلية قراءة نموذج الموافقة الجراحية. تم استخدام مطالبة موحدة على GPT-4 لتسهيل التبسيط، مع مراجعة طبية وقانونية للتحقق من أن المعنى والجودة قد تم الحفاظ عليهما.
استبعاد “الكلمات التوقف” التي تشمل الكلمات المستخدمة بشكل شائع، مثل الروابط والمحددات تم استخدام حزمة koRpus في R الإصدار 4.1.2 (مؤسسة الحوسبة الإحصائية، فيينا، النمسا) وبرنامج TreeTagger لتقسيم النص إلى أجزاء دلالية، ووضع علامات على أجزاء الكلام، ودمج الجذور مع بيانات التكرار على 61,000 من الجذور الأكثر شيوعًا التي تم حسابها باستخدام مجموعة بيانات تتكون من مليار كلمة من اللغة الإنجليزية الأمريكية المعاصرة. .

تبسيط

بعد ذلك، قمنا بتطبيق نموذج GPT-4 في 2 أبريل 2023 لتبسيط كل نموذج موافقة من خلال تقديم الطلب التالي: “مع الحفاظ على نفس المحتوى والمعنى، يرجى تحويله إلى مستوى القراءة الأمريكي المتوسط:” متبوعًا بنص الموافقة. ثم قمنا بإعادة تقييم مقاييس قابلية القراءة بعد التبسيط (الشكل 2). قام ثلاثة مؤلفين طبيين (RA، IDC، وHA) ومحامي دفاع عن الأخطاء الطبية (PG) بمراجعة نماذج الموافقة بشكل مستقل قبل وبعد التحويل لضمان بقاء المحتوى قابلاً للمقارنة. تم استخدام اختبارات مان-ويتني غير المعلمية المقترنة لمقارنة مقاييس قابلية القراءة قبل وبعد التبسيط، مع تقييم الأهمية الإحصائية عند .
بالإضافة إلى الطرق المذكورة أعلاه للحصول على الموافقات العامة، سعينا لاستكشاف إمكانيات GPT-4 في إنشاء نماذج موافقة خاصة بالإجراءات. قمنا بتحفيز GPT-4 في 23 أبريل 2023 لإنشاء نماذج موافقة جراحية جديدة لخمس عمليات فريدة عبر التخصصات الجراحية التالية: (1) جراحة الأعصاب القحفية، (2) جراحة العمود الفقري، (3) الجراحة العامة، (4) جراحة القلب والصدر، و(5) جراحة موهس المجهرية (أي، الجلدية). تمثل العمليات الخمس المختارة تنوع الإجراءات الجراحية من حيث المواقع (الرعاية العاجلة، العيادات الخارجية، أو العيادات)، مستويات الحدة (العاجلة إلى الاختيارية)، التدخل، أنظمة الأعضاء، وتنوع الأدوات المستخدمة في العملية الجراحية (انظر النتائج لقائمة العمليات). علاوة على ذلك، طلبنا من GPT-4 إنتاج نص بمستوى القراءة الأمريكي المتوسط. بعد ذلك، وفقًا لإطار عمل الذكاء الاصطناعي-الخبير البشري المقدم في هذه الدراسة، استخدمنا ذراعين مستقلتين للمراجعة لضمان شمولية ودقة النماذج الجديدة: مراجعة الخبراء الخاصة بالإجراءات من قبل جراحي التخصصات الفرعية وهدف موثق.
معيار لتقييم جودة نموذج الموافقة بالنسبة للأخير، استخدمنا مقياسًا مكونًا من ثمانية عناصر يتراوح من 0 إلى 20 تم تطويره بواسطة سباتز وآخرين لتحديد متطلبات صارمة لنموذج الموافقة، مع دمج مدخلات من مراكز خدمات Medicare وMedicaid، والمرضى، ومدافعي المرضى. تشمل العناصر التي تتبعها النتيجة لغة واضحة تصف الإجراء نفسه، والفوائد، والاحتمالات الكمية والنوعية للمخاطر، والبدائل. تم التحقق من صحة هذا المقياس مع اتفاقية عالية بين المقيمين، وتم استخدامه سابقًا لتقييم التباين بين المستشفيات في جودة نموذج الموافقة. .

توفر البيانات

لم يتم إيداع البيانات الخام علنًا بسبب تضمين مجموعات بيانات ملكية، مثل مجموعة اللغة الإنجليزية الأمريكية المعاصرة. ومع ذلك، تتوفر البيانات عند الطلب من أجل إمكانية التكرار.

توفر الشيفرة

الكود المستخدم في هذه التحليلات متاح من المؤلفين عند الطلب من أجل إمكانية التكرار.
تاريخ الاستلام: 30 يونيو 2023؛ تاريخ القبول: 14 فبراير 2024؛
نُشر على الإنترنت: 08 مارس 2024

References

  1. Paasche-Orlow, M. K., Taylor, H. A. & Brancati, F. L. Readability standards for informed-consent forms as compared with actual readability. N. Engl. J. Med. 348, 721-726 (2003).
  2. Sand, K., Eik-Nes, N. L. & Loge, J. H. Readability of informed consent documents (1987-2007) for clinical trials: a linguistic analysis. J. Empir. Res. Hum. Res. Ethics 7, 67-78 (2012).
  3. Bothun, L. S., Feeder, S. E. & Poland, G. A. Readability of participant informed consent forms and informational documents: from phase 3 COVID-19 vaccine clinical trials in the United States. Mayo Clin. Proc. 96, 2095-2101 (2021).
  4. Grundner, T. M. On the readability of surgical consent forms. N. Engl. J. Med. 302, 900-902 (1980).
  5. Amezcua, L., Rivera, V. M., Vazquez, T. C., Baezconde-Garbanati, L. & Langer-Gould, A. Health disparities, inequities, and social determinants of health in multiple sclerosis and related disorders in the US: a review. JAMA Neurol. 78, 1515-1524 (2021).
  6. Kessels, R. P. Patients’ memory for medical information. J. R. Soc. Med. 96, 219-222 (2003).
  7. Nutbeam, D. & Lloyd, J. E. Understanding and responding to health literacy as a social determinant of health. Annu. Rev. Public Health 42, 159-173 (2021).
  8. Yee, L. M. et al. Association of health literacy among nulliparous individuals and maternal and neonatal outcomes. JAMA Netw. Open 4, e2122576 (2021).
  9. Adams, L. C. et al. Leveraging GPT-4 for Post hoc transformation of free-text radiology reports into structured reporting: a multilingual feasibility study. Radiology 230725. https://doi.org/10.1148/radiol. 230725 (2023).
  10. Lee, P., Bubeck, S. & Petro, J. Benefits, limits, and risks of GPT-4 as an AI chatbot for medicine. N. Engl. J. Med. 388, 1233-1239 (2023).
  11. Spatz, E. S. et al. An instrument for assessing the quality of informed consent documents for elective procedures: development and testing. BMJ Open 10, e033297 (2020).
  12. Eltorai, A. E. et al. Readability of invasive procedure consent forms. Clin. Transl. Sci. 8, 830-833 (2015).
  13. Gordon, E. J. et al. Are informed consent forms for organ transplantation and donation too difficult to read? Clin. Transplant. 26, 275-283 (2012).
  14. Hannabass, K. & Lee, J. Readability analysis of otolaryngology consent documents on the iMed consent platform. Mil. Med. 188, 780-785 (2023).
  15. Smith, B. & Magnani, J. W. New technologies, new disparities: the intersection of electronic health and digital health literacy. Int J Cardiol 292, 280-282 (2019).
  16. Yusefi, A. R. et al. Health literacy and health promoting behaviors among inpatient women during COVID-19 pandemic. BMC Womens Health 22, 77 (2022).
  17. Agency for Healthcare Research and Quality. Use caution with readability formulas for quality reports, https://www.ahrq.gov/ talkingquality/resources/writing/tip6.html (2015).
  18. Glaser, J. et al. Interventions to improve patient comprehension in informed consent for medical and surgical procedures: an updated systematic review. Med. Decis. Making 40, 119-143 (2020).
  19. Rivera Perla, K. M. et al. Predicting access to postoperative treatment after glioblastoma resection: an analysis of neighborhood-level disadvantage using the Area Deprivation Index (ADI). J. Neurooncol. 158, 349-357 (2022).
  20. Ammanuel, S. G., Edwards, C. S., Alhadi, R. & Hervey-Jumper, S. L. Readability of online neuro-oncology-related patient education materials from tertiary-care academic centers. World Neurosurg. 134, e1108-e1114 (2020).
  21. Hansberry, D. R. et al. Analysis of the readability of patient education materials from surgical subspecialties. Laryngoscope 124, 405-412 (2014).
  22. Goss, R. M. Investigations of doctors by General Medical Council. The procedure for consent still leaves much to be desired. BMJ 321, 111 (2000).
  23. Ozhan, M. O. et al. Do the patients read the informed consent? Balkan Med. J. 31, 132-136 (2014).
  24. Ntonti, P. et al. A systematic review of reading tests. Int. J. Ophthalmol. 16, 121-127 (2023).
  25. Sarica, S. & Luo, J. Stopwords in technical language processing. PLoS One 16, e0254937 (2021).
  26. Michalke, M. koRpus: text analysis with emphasis on POS tagging, readability, and lexical diversity, https://cran.r-project.org/web/ packages/koRpus/citation.html (2021).
  27. Spatz, E. S. et al. Quality of informed consent documents among U.S. hospitals: a cross-sectional study. BMJ Open 10, e033299 (2020).

مساهمات المؤلفين

كان R.A. و I.D.C. و O.Y.T. و W.F.A. و J.Z. و C.E.D. مسؤولين عن تصور الدراسة. كان جميع المؤلفين مسؤولين عن المنهجية وجمع البيانات والتحليل الرسمي. كان R.A. و I.D.C. و O.Y.T. و F.N.M. و B.J. و H.A. مسؤولين عن كتابة المسودة الأصلية. كان جميع المؤلفين مسؤولين عن المراجعة والتحرير. كان W.F.A. و J.Z. و C.E.D. مسؤولين عن إشراف الدراسة.

المصالح المتنافسة

يعلن المؤلفون عدم وجود مصالح متنافسة.

معلومات إضافية

معلومات إضافية النسخة الإلكترونية تحتوي على مواد إضافية متاحة فيhttps://doi.org/10.1038/s41746-024-01039-2.
يجب توجيه المراسلات والطلبات للحصول على المواد إلى روhaid علي.
معلومات إعادة الطباعة والتصاريح متاحة علىhttp://www.nature.com/reprints
ملاحظة الناشر: تظل شركة سبرينجر ناتشر محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.
الوصول المفتوح هذه المقالة مرخصة بموجب رخصة المشاع الإبداعي النسب 4.0 الدولية، التي تسمح بالاستخدام والمشاركة والتكيف والتوزيع وإعادة الإنتاج بأي وسيلة أو صيغة، طالما أنك تعطي الائتمان المناسب للمؤلفين الأصليين والمصدر، وتوفر رابطًا لرخصة المشاع الإبداعي، وتوضح ما إذا تم إجراء تغييرات. الصور أو المواد الأخرى من طرف ثالث في هذه المقالة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة، ما لم يُشار إلى خلاف ذلك في سطر الائتمان للمادة. إذا لم تكن المادة مشمولة في رخصة المشاع الإبداعي الخاصة بالمقالة وكان استخدامك المقصود غير مسموح به بموجب اللوائح القانونية أو يتجاوز الاستخدام المسموح به، فستحتاج إلى الحصول على إذن مباشرة من صاحب حقوق الطبع والنشر. لعرض نسخة من هذه الرخصة، قم بزيارةhttp://creativecommons.org/licenses/by/4.0/.
© المؤلفون 2024، نشر مصحح 2024

  1. قسم جراحة الأعصاب، مستشفى رود آيلاند ومدرسة وارن ألبيرت الطبية بجامعة براون، بروفيدنس، رود آيلاند، الولايات المتحدة الأمريكية. معهد نورمان برينس لعلوم الأعصاب، بروفيدنس، رود آيلاند، الولايات المتحدة الأمريكية. قسم جراحة الأعصاب، مستشفى ماساتشوستس العام، بوسطن، ماساتشوستس، الولايات المتحدة الأمريكية. قسم الأمراض الجلدية، كلية وارن ألبيرت الطبية بجامعة براون، بروفيدنس، رود آيلاند، الولايات المتحدة الأمريكية. قسم جراحة الأعصاب، مستشفى بريغهام والنساء، بوسطن، ماساتشوستس، الولايات المتحدة الأمريكية. قسم الجراحة وقسم جراحة القلب والصدر، مستشفى رود آيلاند ومدرسة وارن ألبيرت الطبية بجامعة براون، بروفيدنس، رود آيلاند، الولايات المتحدة الأمريكية. راتكليف هارتن غالاماغا LLP، بروفيدنس، رود آيلاند، الولايات المتحدة الأمريكية. أقسام الهندسة الكهربائية، وعلوم البيانات الطبية الحيوية، وعلوم الحاسوب، جامعة ستانفورد، ستانفورد، كاليفورنيا، الولايات المتحدة الأمريكية. مركز تشان زوكربيرغ للبيولوجيا، سان فرانسيسكو، كاليفورنيا، الولايات المتحدة الأمريكية. ساهم هؤلاء المؤلفون بالتساوي: روهيد علي، إيان د. كونولي، أوليفر ي. تانغ، هائل ف. عبد الرزاق. البريد الإلكتروني: ali.rohaid@gmail.com

Journal: npj Digital Medicine, Volume: 7, Issue: 1
DOI: https://doi.org/10.1038/s41746-024-01039-2
PMID: https://pubmed.ncbi.nlm.nih.gov/38459205
Publication Date: 2024-03-08

Bridging the literacy gap for surgical consents: an Al-human expert collaborative approach

Rohaid Ali © , lan D. Connolly , Oliver Y. Tang , Fatima N. Mirza , Benjamin Johnston © , Hael F. Abdulrazeq , Rachel K. Lim , Paul F. Galamaga , Tiffany J. Libby , Neel R. Sodha , Michael W. Groff , Ziya L. Gokaslan , Albert E. Telfeian , John H. Shin , Wael F. Asaad © , James Zou & Curtis E. Doberstein

Abstract

Despite the importance of informed consent in healthcare, the readability and specificity of consent forms often impede patients’ comprehension. This study investigates the use of GPT-4 to simplify surgical consent forms and introduces an AI-human expert collaborative approach to validate content appropriateness. Consent forms from multiple institutions were assessed for readability and simplified using GPT-4, with pre- and post-simplification readability metrics compared using nonparametric tests. Independent reviews by medical authors and a malpractice defense attorney were conducted. Finally, GPT-4’s potential for generating de novo procedure-specific consent forms was assessed, with forms evaluated using a validated 8 -item rubric and expert subspecialty surgeon review. Analysis of 15 academic medical centers’ consent forms revealed significant reductions in average reading time, word rarity, and passive sentence frequency (all ) following GPT-4-faciliated simplification. Readability improved from an average college freshman to an 8th-grade level ( ), matching the average American’s reading level. Medical and legal sufficiency consistency was confirmed. GPT-4 generated procedure-specific consent forms for five varied surgical procedures at an average 6th-grade reading level. These forms received perfect scores on a standardized consent form rubric and withstood scrutiny upon expert subspeciality surgeon review. This study demonstrates the first AI-human expert collaboration to enhance surgical consent forms, significantly improving readability without sacrificing clinical detail. Our framework could be extended to other patient communication materials, emphasizing clear communication and mitigating disparities related to health literacy barriers.

Informed consent is a fundamental ethical principle and legal requirement in health care, ensuring that patients are provided with adequate information to make informed decisions about their treatment options. Consent forms serve as both an educational tool and legal documentation of the
discussion that protects both patient and physician. When well-designed, the surgical consent provides patients with clear, concise, and comprehensible information regarding the risks, benefits, and alternatives of the proposed surgical procedure. However, a significant challenge in achieving
truly informed consent lies in the readability of these forms . Previous research has shown that a substantial proportion of surgical consent forms are written at a reading level that exceeds the average patient’s comprehension . While most consent forms are written at a college freshman level or higher, the average reading level of American adults is equivalent to that of an 8th grade student . This discrepancy is especially relevant in light of extensive research demonstrating that health literacy is associated with patient outcomes due to its impact on factors such as careseeking, health promotion behaviors, adherence to physician recommendations, and self-advocacy in a clinical setting . Accordingly, to optimize comprehension and decision-making in the perioperative environment, clinicians must reduce potential barriers to patient health literacy.
In addition to the readability challenge, procedural consent forms are often written in a “one-size-fits-all” format that is generalizable to any potential procedure but fails to discuss procedure-specific characteristics, such as steps, risks, and benefits, with sufficient nuance. Surgeons may circumvent the problem of generic consent forms by providing verbal supplementation or by utilizing unique procedure-specific patient education literature or consents. However, the implementation of these measures faces several potential barriers, such as institutional requirements to maintain generic consents or constantly evolving evidence regarding the individualized risks and benefits of specific procedures, which necessitates continual expert review and scrutiny.
Navigating the twin challenges of administering consent forms that are too difficult to read or nonspecifically tailored to a specific procedure is difficult, as potential quality improvement solutions may require substantial investment in terms of time, resources, and human capital. Moreover, it is unclear if a modified consent that uses more straightforward language may compromise the thoroughness of the original form from a medicolegal standpoint. In light of such barriers, we propose a novel AI-human expert framework to address these problems. Newly-developed artificial intelligence systems, specifically in the form of large language models (LLMs), have shown promise in their ability to summarize, adjust, and re-formulate text in a manner that could be highly relevant to this task . This study a) quantitatively and qualitatively investigates the application of the GPT-4 (OpenAI; San Francisco, CA) general LLM to assess and transform surgical consent forms into a more accessible reading level in an efficient, standardized, and effective manner; b) develops a streamlined and extensible framework involving medical and legal review to ensure that content remains the same between original and simplified consents, and ) verifies the ability of GPT-4 to generate highly readable and procedure-specific consents de novo that meet expert-level scrutiny. This approach has the potential to significantly enhance the consent process by providing patients with clear, comprehensible, and specific information, ultimately promoting truly informed consent.

Results

Consent forms from 15 large academic medical centers were selected (Supplementary Information 1). By region, seven were in the Northeast, two in the Mid-Atlantic, and one in each of the Southeast, South, Southwest, West, Northwest, and Midwest. 6 were publicly owned institutions (or their academic affiliation was tied to a public medical school), whereas the other 9 were private. All were affiliated with a medical school and serve as a teaching hospital. The average number of beds at each institution was 791 with a standard deviation of 256 . All had Level 1 trauma center certification. 14 of the 15 institutions were primarily adult hospitals. Consent forms consisted of a median of 3976.0 characters (interquartile range [IQR] = 2113.0-4485.5 characters) and 651.0 words ( words), requiring on average and 15 s of reading time.
Following LLM-facilitated simplification of form text, three physician authors (RA, HA, and IDC) independently reviewed the consent forms before and after simplification to ensure that the content remained comparable, and all three agreed that the content remained comparable for all 15 consent forms. Additionally, one medical malpractice defense attorney (PG)
reviewed the consents before and after simplification and determined that all 15 consent pairs met the same legal sufficiency.
After consent processing by the LLM, there was a significant decrease in median number of characters (before vs. after characters, ) and words (before vs. after words, ), decreasing reading time from 3.26 to 2.42 minutes ( , Fig. 1A). Moreover, the median characters per word (before . after characters, ) and words per sentence (before vs. after words, ) decreased (Fig. 1). There was additionally a significant decrease in the percentage of sentences written in the passive voice (before vs. after ).
Prior to LLM processing, surgical consent forms had a median FleschKincaid Reading Level of 13.9 (IQR=12.8-14.2; Fig. 1B) and Flesch Reading Ease score of 35.3 (IQR=33.0-39.9; Fig. 1C), both denoting a college education level of readability difficulty. After simplification, there was a significant decrease in the Reading Level (before vs. after , ) and improvement in Reading Ease (before vs. after ) from the reading level of a college freshman to that of an 8th grade student. Moreover, the average rarity of the words used in the text decreased significantly after simplification (before vs. after , ; Fig. 1E).
Finally, for evaluation of procedure-specific consent forms, we prompted GPT-4 to generate consent forms for five diverse surgical procedures at the average American reading level and investigated if these generated consents aligned with the recommendations provided by Spatz et al. The procedurespecific consents included: (1) awake, subthalamic nucleus deep brain stimulating (STN-DBS) electrode placement with microelectrode recordings and test-stimulation for Parkinson’s disease (Supplementary Fig. 1A); (2) lumbar 4-5 (L4-5) percutaneous endoscopic lumbar discectomy (PELD) for L4 radiculopathy (Supplementary Fig. 1B); (3) laparoscopic appendectomy for acute appendicitis (Supplementary Fig. 3C); (4) coronary artery bypass grafting (CABG) for acute Non-ST-segment Elevation Myocardial Infarction (NSTEMI) with multi-vessel coronary artery disease (Supplementary Fig. 1D); and (5) Mohs micrographic surgery for basal cell carcinoma (Supplementary Fig. 1E). The average word count of these procedurespecific forms was 414 , with an estimated reading time of 2 min and 4 s . The Flesch-Kincaid Grade level was calculated to be 6.7, which corresponds to approximately the 6th grade in an American school. Three medical authors (RA, IDC, and HA) evaluated the generated consent forms using the rubric laid out by Spatz et al. and found that all five procedure-specific consents scored a perfect 20 out of . In other words, all consent forms met the minimum requirements, which included describing the procedure, explaining how the procedure will be performed, providing the clinical rationale, outlining patient-oriented benefits, presenting alternatives, and including a space to mark the date the consent form was signed. Despite the variety of procedures encapsulated by this task, procedure-specific expert review by subspecialty surgeons (WFA, AET, NRS, NRS, and TJL, respectively) yielded no wording changes or significant clinical inaccuracies requiring correction.

Discussion

In 1980, Grundner published a call to action in the New England Journal of Medicine for improving the readability of surgical consent forms, which are commonly written at the level of an undergraduate or graduate education, despite the American reading level being closer to an eighth-grade level . Several decades later, evidence of poor readability in procedural consent forms, even in generic forms without procedure-specific details, continues to be documented across several specialties, including general surgery, transplant surgery, and otolaryngology . Moreover, evidence has suggested that rapid shifts in clinical practice, ranging from the COVID-19 pandemic to introduction of new technologies, may exacerbate disparities in outcomes by health literacy due to disproportionate harms toward less literate patients . Given the far-reaching implications of the potential

integration of AI into medicine, it is imperative for clinicians to work to ensure that the utilization of these technologies ameliorates, rather than amplifies, existing disparities in patient care.
Our results demonstrate that the GPT-4 model can effectively simplify generic surgical consent forms as well as create de novo specialized consent forms tailored to the unique operation and condition being treated. In this
study, GPT-4 significantly enhanced the readability and reduced the reading time of generic consent forms currently in institutional use, by lowering the required reading level from that of an American college freshman (grade 13) to an 8th grade level, thereby making the forms more accessible to a broader patient population. Additionally, the simplified forms showed a significant reduction in the percentage of sentences written in the passive voice,
Fig. 1 | Differences in surgical consent form readability and linguistic parameters before and after simplification. Differences in surgical consent form readability before and after simplification mediated by GPT-4. Median and interquartile range for each variable are plotted. -values reported correspond to results from nonparametric Mann-Whitney tests. For (A-C), a distinct color was used to label each individual institution ( ). A Differences in reading time. B Differences in Flesch-Kincaid Reading Level. C Differences in Flesch Reading Ease score. D Differences in other linguistic variables before (red) and after (blue) simplification. Due to differences in scale between variables, all results were reported as
percentages ( ) of a predetermined constant: 5000 for total characters, 900 for total words, 40 for total sentences, 30 for total paragraphs, 6 for characters per word, 25 for words per sentence, 2.5 for sentences per paragraph, and 4000 for average word rarity. E Histogram visualizing changes in the distribution of word frequency ranking of consent form text before (blue) and after (red) simplification mediated by GPT-4. Word frequency in terms of rank within the English language is plotted on the x-axis, with higher rank denoting increased rarity and ranks 10,000 and above combined into a single category. Solid lines denote the distribution of word frequency ranking following fitting the data to a distribution.
indicating more clear, direct language. Because the Flesch-Kincaid Reading Level and Flesch Reading Ease score do not capture factors like word frequency or complexity, which are also important modulators of reader comprehension , we additionally performed an analysis of how LLMmediated simplification impacted average word rarity in consent form documents. By replacing medical jargon, such as describing “respiratory failure” as “losing ability to breathe,” average word rarity was significantly reduced. Moreover, GPT-4 was able to generate procedure-specific consent forms that met the minimum requirements outlined by Spatz et al., with an average 6th-grade American reading level, a perfect score of 20 out of 20 on a validated scoring system for consent form comprehensiveness, and details on procedure-specific risks and benefits that withstood expert scrutiny .
A wide range of interventions to improve patient understanding during informed consent for procedures have previously been assessed in the literature, including recording clinical encounters, incorporating additional audiovisual material, and using conversational techniques such as asking the patient to “teach back” a procedure . In this study, we introduce an efficient AI-human expert workflow that can be applied to both generic and procedure-specific consents. These workflows require minimal time, resources, and training while significantly improving the readability of consent documents without sacrificing detailed clinical information. Moreover, these workflows should not be seen as mutually exclusive to the aforementioned interventions, but instead as additional tools in the armamentarium that may complement existing efforts to improve physicianpatient communication.
Importantly, the innovation presented in the study is not limited to these AI-mediated functions, but also pertains to our development of a generalizable and efficient framework to ensure sufficient quality for these documents, such as guarding against factual inaccuracies or “hallucinations.” Readable and accurate generic and procedure-specific consent forms serve complementary functions, with the former used to present principles universal to all procedures, such as the involvement of residents, and the latter used to educate patients on supplementary granular details specific to their operation. For the currently in-use generic consent forms, to ensure the accuracy and legal compliance of LLM-simplified versions, we incorporated additional expert human review via a multidisciplinary effort between three healthcare professionals and a medical malpractice defense attorney; each performed an independent review of the simplified forms to verify that no critical information was lost or altered during the simplification process. For procedure-specific consent forms, several additional layers of scrutiny were applied, including an objective rubric for consent form comprehensiveness and clinical detail review by procedure-specific experts. This methodology of reinforcing AI-mediated improvements in readability and clinical detail with human expert review provides a reliable, extensible framework for those wishing to incorporate this workflow into clinical practice. For example, while we piloted this approach to develop 5 procedure-specific consent forms, it may facilitate the development and crowdsourced validation of documents for any potential procedure currently performed in clinical medicine. Moreover, one can apply this framework towards targeted simplification of other forms of patient communication and education, such as hospital promotional materials, public websites, research consent forms, and even real-time communication to patients within the electronic health record . This collaboration between AI, medical professionals, and legal experts offers a promising direction for future research and practical
applications within clinical medicine, paving the way for more inclusive and accessible healthcare communication that nonetheless maintains appropriate rigor.
It is important to recognize that the written consent form is just one part of the informed consent process, and a significant amount of information is conveyed verbally, for which this study does not account. Additionally, in practice, many patients do not read the full consent forms. Prior research quantifying the percentage of patients reading procedural consent forms has documented heterogenous rates ranging from 1 to . However, improving consent form readability may introduce benefits in the clinical setting like reducing provider time needed to explain challenging clinical concepts or increasing patient willingness to read consent documents. Taking steps at every stage of the informed consent process to communicate information at an appropriate level is crucial to limit health disparities due to health literacy barriers. Moreover, simplifying consent forms may be beneficial in the context of legal settings like a malpractice trial, where clarity for a general audience is critical.
In this study, our findings can be understood on three distinct levels. First, we present the first known example in the literature of an AI-human expert framework to enhance surgical consents and the first known AI-medical-legal framework for quality improvement in medicine. Second, this study highlights the crucial role humans play in this early age of AI. By meticulously proofreading consents for medical or legal sufficiency, human experts act as a pivotal social proof, enabling AI to be incorporated confidently into clinical practice. Third and finally, formal evaluation of AI products currently requires human effort to evaluate data, draft manuscripts, engage in the peer review process, and disseminate findings to the broader medical community. This collective endeavor constitutes another layer of social proof and is instrumental in determining how AI can be safely and effectively incorporated into clinical practice, ultimately ensuring that its benefits reach a wide range of patients, including the most vulnerable.

Methods

Data collection and analysis

Consent forms were obtained from the authors’ own institutions and, for other institutions, publicly available consent forms were identified on their respective websites. These consents were “generic” in the sense that they did not refer to any particular procedure or operation. Given no human subjects or protected health information were included in this study, institutional board review was not required. Based on common estimates, a reading speed of 200 words-per-minute was used to calculate total reading time for forms . To quantify the readability of the consent forms, we utilized FleschKincaid Reading Level, Flesch Reading Ease score, and word rarity measurements. Flesch-Kincaid Reading Level is a validated and widely-used metric that measures readability in terms of United States grade level of education, based on average words per sentence and average syllables per word . The Flesch Reading Ease score uses these same two variables to calculate a score ranging from 0 to 100 , with higher scores denoting improved readability. A score of corresponds to below a 9th grade reading level, whereas a score of denotes a college graduate reading level . These readability scores were calculated automatically via Microsoft Word (Microsoft; Redmond, WA). Mean word rarity was calculated for each form by averaging the rarity of each lemma or root word (ex. operate is the lemma for “operated” and “operating”) in the overall text, following the
Fig. 2 | Methodology for surgical consent form readability simplification. Schematic of methodology for surgical consent form readability simplification. A standardized prompt on GPT-4 was used to mediate simplification, with medical and legal review used to validate that meaning and quality were preserved.
exclusion of “stop words” encapsulating commonly used words, such as conjunctions and determiners . The koRpus package in R Version 4.1.2 (Foundation for Statistical Computing, Vienna, Austria) and TreeTagger software were used to divide text into semantic parts, tag part-of-speech, and merge lemmas with frequency data on the 61,000 most common lemmas calculated using the one billion word Corpus of Contemporary American English .

Al simplification

Subsequently, we applied the GPT-4 model on April 2, 2023 to simplify each consent form by providing the following prompt: “While still preserving the same content and meaning, please convert to the average American reading level:” followed by the consent text. We then re-evaluated the readability measures post-simplification (Fig. 2). Three medical authors (RA, IDC, and HA ) and one malpractice defense attorney author (PG) independently reviewed the consent forms before and after the conversion to ensure that the content remained comparable. Paired nonparametric Mann-Whitney tests were used to compare pre- and post-simplification readability metrics, with statistical significance assessed at .
In addition to the aforementioned methods for generic consents, we sought to explore the potential of GPT-4 for generating procedure-specific consent forms. We prompted GPT-4 on April 23, 2023 to create de novo surgical consent forms for five unique operations across the following surgical subspecialities: (1) cranial neurosurgery, (2) spine surgery, (3) general surgery, (4) cardiothoracic surgery, and (5) Mohs micrographic (i.e., dermatologic) surgery. The five chosen operations embody the diversity of surgical procedures in terms of locations (acute care, ambulatory, or clinicbased), acuity levels (emergent to elective), invasiveness, organ systems, and the variety of tools used in the surgical process (see Results for list of operations). Furthermore, we asked GPT-4 to produce text at the average American reading level. Subsequently, per the AI-human expert framework presented in this study, we utilized two independent arms of review to ensure the comprehensiveness and accuracy of de novo forms: procedurespecific expert review by subspecialty surgeons and a validated objective
rubric for quantifying consent form quality . For the latter, we utilized an eight-item score ranging from 0 to 20 developed by Spatz et al. for defining rigorous consent form requirements, incorporating input from Centers for Medicare and Medicaid Services, patients, and patient advocates. Items tracked by the score include clear language describing the procedure itself, benefits, quantitative and qualitative probability of risks, and alternatives. This score has been validated with high inter-rater agreement and used previously to assess inter-hospital variation in consent form quality .

Data availability

The raw data were not publicly deposited due to incorporating proprietary datasets, such as the Corpus of Contemporary American English. However, data are available on request for replicability.

Code availability

The code used for these analyses is available from the authors on request for replicability.
Received: 30 June 2023; Accepted: 14 February 2024;
Published online: 08 March 2024

References

  1. Paasche-Orlow, M. K., Taylor, H. A. & Brancati, F. L. Readability standards for informed-consent forms as compared with actual readability. N. Engl. J. Med. 348, 721-726 (2003).
  2. Sand, K., Eik-Nes, N. L. & Loge, J. H. Readability of informed consent documents (1987-2007) for clinical trials: a linguistic analysis. J. Empir. Res. Hum. Res. Ethics 7, 67-78 (2012).
  3. Bothun, L. S., Feeder, S. E. & Poland, G. A. Readability of participant informed consent forms and informational documents: from phase 3 COVID-19 vaccine clinical trials in the United States. Mayo Clin. Proc. 96, 2095-2101 (2021).
  4. Grundner, T. M. On the readability of surgical consent forms. N. Engl. J. Med. 302, 900-902 (1980).
  5. Amezcua, L., Rivera, V. M., Vazquez, T. C., Baezconde-Garbanati, L. & Langer-Gould, A. Health disparities, inequities, and social determinants of health in multiple sclerosis and related disorders in the US: a review. JAMA Neurol. 78, 1515-1524 (2021).
  6. Kessels, R. P. Patients’ memory for medical information. J. R. Soc. Med. 96, 219-222 (2003).
  7. Nutbeam, D. & Lloyd, J. E. Understanding and responding to health literacy as a social determinant of health. Annu. Rev. Public Health 42, 159-173 (2021).
  8. Yee, L. M. et al. Association of health literacy among nulliparous individuals and maternal and neonatal outcomes. JAMA Netw. Open 4, e2122576 (2021).
  9. Adams, L. C. et al. Leveraging GPT-4 for Post hoc transformation of free-text radiology reports into structured reporting: a multilingual feasibility study. Radiology 230725. https://doi.org/10.1148/radiol. 230725 (2023).
  10. Lee, P., Bubeck, S. & Petro, J. Benefits, limits, and risks of GPT-4 as an AI chatbot for medicine. N. Engl. J. Med. 388, 1233-1239 (2023).
  11. Spatz, E. S. et al. An instrument for assessing the quality of informed consent documents for elective procedures: development and testing. BMJ Open 10, e033297 (2020).
  12. Eltorai, A. E. et al. Readability of invasive procedure consent forms. Clin. Transl. Sci. 8, 830-833 (2015).
  13. Gordon, E. J. et al. Are informed consent forms for organ transplantation and donation too difficult to read? Clin. Transplant. 26, 275-283 (2012).
  14. Hannabass, K. & Lee, J. Readability analysis of otolaryngology consent documents on the iMed consent platform. Mil. Med. 188, 780-785 (2023).
  15. Smith, B. & Magnani, J. W. New technologies, new disparities: the intersection of electronic health and digital health literacy. Int J Cardiol 292, 280-282 (2019).
  16. Yusefi, A. R. et al. Health literacy and health promoting behaviors among inpatient women during COVID-19 pandemic. BMC Womens Health 22, 77 (2022).
  17. Agency for Healthcare Research and Quality. Use caution with readability formulas for quality reports, https://www.ahrq.gov/ talkingquality/resources/writing/tip6.html (2015).
  18. Glaser, J. et al. Interventions to improve patient comprehension in informed consent for medical and surgical procedures: an updated systematic review. Med. Decis. Making 40, 119-143 (2020).
  19. Rivera Perla, K. M. et al. Predicting access to postoperative treatment after glioblastoma resection: an analysis of neighborhood-level disadvantage using the Area Deprivation Index (ADI). J. Neurooncol. 158, 349-357 (2022).
  20. Ammanuel, S. G., Edwards, C. S., Alhadi, R. & Hervey-Jumper, S. L. Readability of online neuro-oncology-related patient education materials from tertiary-care academic centers. World Neurosurg. 134, e1108-e1114 (2020).
  21. Hansberry, D. R. et al. Analysis of the readability of patient education materials from surgical subspecialties. Laryngoscope 124, 405-412 (2014).
  22. Goss, R. M. Investigations of doctors by General Medical Council. The procedure for consent still leaves much to be desired. BMJ 321, 111 (2000).
  23. Ozhan, M. O. et al. Do the patients read the informed consent? Balkan Med. J. 31, 132-136 (2014).
  24. Ntonti, P. et al. A systematic review of reading tests. Int. J. Ophthalmol. 16, 121-127 (2023).
  25. Sarica, S. & Luo, J. Stopwords in technical language processing. PLoS One 16, e0254937 (2021).
  26. Michalke, M. koRpus: text analysis with emphasis on POS tagging, readability, and lexical diversity, https://cran.r-project.org/web/ packages/koRpus/citation.html (2021).
  27. Spatz, E. S. et al. Quality of informed consent documents among U.S. hospitals: a cross-sectional study. BMJ Open 10, e033299 (2020).

Author contributions

R.A., I.D.C., O.Y.T., W.F.A., J.Z. and C.E.D. were responsible for study conceptualization. All authors were responsible for methodology, data collection, and formal analysis. R.A., I.D.C., O.Y.T., F.N.M., B.J. and H.A. were responsible for writing the original draft. All authors were responsible for review and editing. W.F.A., J.Z. and C.E.D. were responsible for study supervision.

Competing interests

The authors declare no competing interests.

Additional information

Supplementary information The online version contains supplementary material available at https://doi.org/10.1038/s41746-024-01039-2.
Correspondence and requests for materials should be addressed to Rohaid Ali.
Reprints and permissions information is available at http://www.nature.com/reprints
Publisher’s note Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.
Open Access This article is licensed under a Creative Commons Attribution 4.0 International License, which permits use, sharing, adaptation, distribution and reproduction in any medium or format, as long as you give appropriate credit to the original author(s) and the source, provide a link to the Creative Commons licence, and indicate if changes were made. The images or other third party material in this article are included in the article’s Creative Commons licence, unless indicated otherwise in a credit line to the material. If material is not included in the article’s Creative Commons licence and your intended use is not permitted by statutory regulation or exceeds the permitted use, you will need to obtain permission directly from the copyright holder. To view a copy of this licence, visit http://creativecommons.org/licenses/by/4.0/.
© The Author(s) 2024, corrected publication 2024

  1. Department of Neurosurgery, Rhode Island Hospital and The Warren Alpert Medical School of Brown University, Providence, RI, USA. Norman Prince Neurosciences Institute, Providence, RI, USA. Department of Neurosurgery, Massachusetts General Hospital, Boston, MA, USA. Department of Dermatology, The Warren Alpert Medical School of Brown University, Providence, RI, USA. Department of Neurosurgery, Brigham and Women’s Hospital, Boston, MA, USA. Department of Surgery & Division of Cardiothoracic Surgery, Rhode Island Hospital and The Warren Alpert Medical School of Brown University, Providence, RI, USA. Ratcliffe Harten Galamaga LLP, Providence, RI, USA. Departments of Electrical Engineering, Biomedical Data Science, and Computer Science, Stanford University, Stanford, CA, USA. Chan Zuckerberg Biohub, San Francisco, CA, USA. These authors contributed equally: Rohaid Ali, lan D. Connolly, Oliver Y. Tang, Hael F. Abdulrazeq. e-mail: ali.rohaid@gmail.com