أتمتة اكتشاف السجلات المكررة للمراجعات النظامية: أداة إزالة التكرار Automation of duplicate record detection for systematic reviews: Deduplicator

المجلة: Systematic Reviews، المجلد: 13، العدد: 1
DOI: https://doi.org/10.1186/s13643-024-02619-9
PMID: https://pubmed.ncbi.nlm.nih.gov/39095913
تاريخ النشر: 2024-08-02

أتمتة اكتشاف السجلات المكررة للمراجعات النظامية: أداة إزالة التكرار

كونور فوردز ( هانا غرينوود مات كارتر وجاستن كلارك

الملخص

الخلفية لوصف الخوارزمية والتحقيق في فعالية أداة جديدة لأتمتة المراجعات المنهجية “المزيل المكرر” لإزالة السجلات المكررة من بحث مراجعة منهجية متعددة القواعد. الطرق قمنا ببناء واختبار فعالية أداة المزيل المكرر من خلال استخدام 10 نتائج سابقة لمراجعات كوكراين المنهجية لمقارنة خوارزمية المزيل المكرر ‘المتوازنة’ بطريقة EndNote شبه اليدوية. قام باحثان كل منهما بإجراء إزالة التكرار على 10 مكتبات من نتائج البحث. بالنسبة لخمس من تلك المكتبات، استخدم باحث واحد المزيل المكرر، بينما قام الآخر بإجراء إزالة التكرار شبه اليدوية باستخدام EndNote. ثم قاما بتبديل الطرق لبقية المكتبات الخمس. بالإضافة إلى هذا التحليل، تم إجراء مقارنة بين الخوارزميات الثلاثة المختلفة للمزيل المكرر (‘المتوازنة’، ‘المركزة’ و’المريحة’) على مجموعتين من بيانات نتائج البحث التي تم إزالة التكرار منها سابقًا.

النتائج قبل إزالة التكرار، كان متوسط حجم المكتبة للمراجعات النظامية العشر 1962 سجلًا. عند استخدام أداة إزالة التكرار، كان متوسط الوقت لإزالة التكرار 5 دقائق لكل 1000 سجل مقارنة بـ 15 دقيقة مع EndNote. كان متوسط معدل الخطأ مع أداة إزالة التكرار 1.8 خطأ لكل 1000 سجل مقارنة بـ 3.1 مع EndNote. أظهرت تقييمات خوارزميات أداة إزالة التكرار المختلفة أن الخوارزمية ‘المتوازنة’ كانت لديها أعلى متوسط درجة F1 بلغ 0.9647. كانت الخوارزمية ‘المركزة’ لديها أعلى دقة متوسطة بلغت 0.9798 وأعلى استرجاع بلغ 0.9757. كانت الخوارزمية ‘المريحة’ لديها أعلى دقة متوسطة بلغت 0.9896. الاستنتاجات هذا يوضح أن استخدام أداة إزالة التكرار لاكتشاف السجلات المكررة يقلل من الوقت المستغرق لإزالة التكرار، مع الحفاظ على الدقة أو تحسينها مقارنة باستخدام طريقة EndNote شبه اليدوية. ومع ذلك، يجب إجراء مزيد من الأبحاث لمقارنة المزيد من طرق إزالة التكرار لتحديد الأداء النسبي لأداة إزالة التكرار مقابل طرق إزالة التكرار الأخرى.

إزالة تكرار الكلمات الرئيسية، مراجعة منهجية، مقال مكرر، سجل مكرر، بحث، تلقائي

الخلفية

تعتبر المراجعات المنهجية أفضل وسيلة للإجابة على سؤال بحث باستخدام بيانات مُركّبة؛ ومع ذلك، قد تتطلب استثمارًا كبيرًا من الوقت والموارد [1،2]. في المتوسط، تستغرق 67 أسبوعًا وتكلف 141,000 دولار أمريكي [3]. ومع ذلك، هناك حالات من المراجعات المنهجية
المراجعات التي يتم تنفيذها في 11 يوم عمل باستخدام منهجية معدلة تستفيد من أدوات أتمتة المراجعة المنهجية تم تطوير هذه الأدوات لأتمتة المراجعات المنهجية بهدف تحسين سرعة المراجعات المنهجية دون المساس بدقتها وجودتها [6].
أحد المهام الرئيسية الأولية لإجراء مراجعة منهجية هو العثور على جميع الدراسات المحتملة ذات الصلة من خلال البحث في قواعد بيانات متعددة [7]. نظرًا لأن نفس المجلات يتم فهرستها في قواعد بيانات متعددة، يتم عادةً إرجاع أعداد كبيرة من السجلات المكررة. قبل أن يتمكن المراجعون من تقييم السجلات من حيث الصلة (أ
يجب إزالة السجلات المكررة في عملية تُسمى الفحص. تُعرف هذه العملية باسم إزالة التكرار.
هناك طرق متعددة لإزالة التكرار من السجلات المستخرجة من البحث عن المراجعات المنهجية. إحدى طرق إزالة التكرار التي يستخدمها الباحثون هي استخدام طريقة شبه يدوية، تجمع بين برامج مثل EndNote والتحقق البشري، على الرغم من أن هذه الطريقة لا تزال عرضة للأخطاء. على الرغم من أن إزالة التكرار هي مهمة روتينية في المراجعات المنهجية، إلا أنه لا يوجد توافق كبير حول أفضل طريقة لإزالة التكرار. على الرغم من وجود محاولات لتوحيد طرق إزالة التكرار شبه اليدوية، إلا أنها تعتمد على تطبيق الخطوات بشكل متسق ومحدودة على بعض برامج إدارة المراجع (مثل EndNote). كما شهدت أيضًا زيادة في عدد الأدوات الآلية بالكامل التي يمكنها إزالة التكرار دون أي تدخل بشري. إحدى قيود هذه الأدوات هي أنها غالبًا ما تكون مرتبطة ببرامج ملكية وغالبًا ما تكون مغلقة المصدر، مما يعني أن طريقة عمل هذه الخوارزميات غير معروفة إلى حد كبير.
لمعالجة هذه القضايا المتعلقة بإزالة التكرارات، قمنا بتصميم أداة أتمتة، وهي أداة إزالة التكرارات، المتاحة عبر مسرع المراجعة النظامية (SRA) [11]. أداة إزالة التكرارات هي أداة مجانية ومفتوحة الوصول، تحتوي على واجهة مستخدم تتيح للمستخدمين مراجعة جميع القرارات والتصديرات بتنسيقات ملفات متعددة، مما يسمح باستخدامها عبر منصات إدارة المراجع المختلفة. تحتوي هذه الورقة على هدفين: (1) وصف الخوارزميات التي تستخدمها أداة إزالة التكرارات لاكتشاف التكرارات و(2) الإبلاغ عن مقارنات الوقت والأخطاء (مثل الدراسات الفريدة التي تمت إزالتها والتكرارات التي تم تفويتها) بين أداة إزالة التكرارات وEndNote ل10 مجموعات من نتائج بحث المراجعة النظامية.

طرق

تطوير أداة إزالة التكرار

بدأ العمل على أداة إزالة التكرار في يونيو 2021، بهدف جعل عملية إزالة التكرار من نتائج البحث في المراجعات المنهجية سريعة وسهلة وشفافة. كان التصميم الأولي يركز على تكرار الطريقة شبه اليدوية التي استخدمها المؤلفون في معهد الرعاية الصحية المستندة إلى الأدلة (IEBH) (أي استخدام وظيفة “البحث عن التكرارات” في EndNote، مع تكرارات متعددة لمطابقات مختلفة عبر الحقول). تتوفر الطريقة الكاملة لإزالة التكرار من IEBH في المواد التكميلية (المكمل 1). تم تصميم خوارزمية إزالة التكرار الأولية على مجموعة من خمسة مكتبات EndNote التي تم إزالة التكرار منها والتي تم الحصول عليها من مراجعات نشرها باحثون في IEBH. بعد الاختبار الداخلي على النسخة ألفا من أداة إزالة التكرار، تم إصدار النسخة بيتا. في أغسطس 2021، تم طلب تعليقات من متخصصي المعلومات الخبراء من خلال إرسال بريد إلكتروني يحتوي على معلومات ورابط إلى أداة إزالة التكرار إلى قائمة البريد الإلكتروني للبحث الخبير التابعة لجمعية المكتبات الطبية الأمريكية (MLA). تم تقديم تعليقات من عدة مستخدمين وتم دمجها في
إزالة التكرار. تم إصدار النسخة الإنتاجية من إزالة التكرار رسميًا في نوفمبر 2021. منذ إصدارها، تم الوصول إلى إزالة التكرار آلاف المرات.

تطوير خوارزمية إزالة التكرار

تم تطوير الخوارزمية الأولية المستخدمة في النسخة ألفا من أداة إزالة التكرار باستخدام مجموعة بيانات تدريبية تتكون من خمسة مكتبات EndNote تم إزالة التكرار منها. تم بناء هذه المكتبات من مراجعات منهجية سابقة أجريت في IEBH. تم إزالة التكرار من هذه المكتبات بشكل مستقل يدويًا في EndNote بواسطة مؤلفين اثنين (JC و HG). ثم تم حل أي اختلافات بين المكتبتين المزال منهما التكرار من خلال المناقشة والتوافق بين المؤلفين. مجموعة بيانات التطوير متاحة عبر مستودع GitHub الخاص بـ IEBH/dedupe-sweep [12].
خلال التطوير، تم قياس خوارزميات إزالة التكرار باستخدام أربعة قيم:
1 إيجابي حقيقي هو عدد السجلات المكررة التي تم التعرف عليها بشكل صحيح
2 سلبية صحيحة هو عدد السجلات الفريدة التي تم التعرف عليها بشكل صحيح
3 إيجابية خاطئة هو عدد السجلات الفريدة التي تم تحديدها كنسخ مكررة
4 نتيجة سلبية خاطئة هو عدد السجلات المكررة التي تم تحديدها كسجل فريد
تُستخدم هذه القيم لحساب أربعة مقاييس:
1 الدقة: توفر العدد الإجمالي للأخطاء في عملية إزالة التكرار (المعادلة 1)
2 الدقة: توفر عدد الدراسات الفريدة التي تمت إزالتها بشكل غير صحيح في عملية إزالة التكرار (المعادلة 2)
3 الاسترجاع: يوفر عدد النسخ المكررة التي تم تفويتها في عملية إزالة التكرار (المعادلة 3)
درجة F1: تجمع بين مقاييس الاسترجاع والدقة وتمثل الأداء العام للنموذج (المعادلة 4)
المعادلات لحساب هذه المقاييس هي:
بدأ الخوارزم الأول (‘المتوازن’) كنسخة معدلة من طريقة إزالة التكرار IEBH (المُلحق 1). بعد ذلك، تم إجراء تعديلات صغيرة بشكل متكرر على الخوارزم. ثم تم تقييم هذه التغييرات على جميع المكتبات الخمس لتقييم ما إذا كانت الخوارزم المعدلة حديثًا تحقق دقة/وضوح/استرجاع/درجة F1 أعلى. في النهاية، تم التوصل إلى خوارزم حققت دقة ووضوح عاليين. تم تصنيف هذه الخوارزم على أنها ‘المتوازن’، وهي الخوارزم التي تم استخدامها في دراسة التقييم المقدمة في نتائج هذه الورقة. بعد الانتهاء من التقييم، تم إجراء تحسينات إضافية على الخوارزم لتحسينها إما لدقة عالية أو استرجاع. وقد أسفر ذلك عن خوارزميات محسنة (‘مريحة’ و ‘مركزة’). تم تصميم خوارزم ‘المريحة’ لتقليل عدد الإيجابيات الكاذبة مما يجعلها مناسبة لمكتبات كبيرة من السجلات (> 2000 سجل) حيث يكون التحقق البشري أقل ضرورة. تم تصميم خوارزم ‘المركزة’ لتقليل عدد السلبيات الكاذبة مما يجعلها مناسبة لمكتبات صغيرة من السجلات (< 2000 سجل). يمكن العثور على نتائج هذه التقييمات على مجموعة تطوير المكتبات (بدون تحقق بشري) في (الجدول 5).
بالإضافة إلى كل خوارزم، يتم تحديد مجموعة من المحولات في أعلى ملف التكوين. تلعب هذه دورًا رئيسيًا حيث تهدف إلى توحيد الاختلافات بين الحقول في كل قاعدة بيانات. على سبيل المثال، سيقوم محول إعادة كتابة المؤلف بتوحيد الطرق المختلفة لكتابة أسماء المؤلفين (مثل ‘جون سميث’ مقابل ‘سميث، ج’ مقابل ‘ج. سميث’). سيحاول محول الألفا رقمي حل الاختلافات في أحرف Unicode بين المقالات، وسيقوم محول رقم الصفحة بتوحيد الاختلافات بين أنظمة ترقيم الصفحات (مثل ‘356-357’ مقابل ‘356-7’). يمكن أن تختلف أحرف Unicode عبر اللغات، لذلك هناك حاجة إلى المحول لتوحيدها، مثل تغيير أسماء المؤلفين Rolečková أو Hammarström إلى Roleckova أو Hammarstrom. يمكن العثور على جدول كامل من المحولات وما تقوم به في المواد التكميلية (المُلحق 2). يتم تطبيق هذه المحولات قبل إزالة التكرار، وبالتالي ستُشار إلى عملية تطبيق جميع المحولات على أنها المعالجة المسبقة.

كيف تحدد خوارزم إزالة التكرار السجلات المكررة

تعمل خوارزم إزالة التكرار على عدة تكرارات. لكل تكرار، يتم تحديد عدة حقول، بالإضافة إلى حقل ‘ترتيب’ أساسي يُستخدم للترتيب الأولي. يتم أيضًا تحديد طريقة مقارنة لكل تكرار (مطابقة دقيقة أو تشابه Jaro-Winkler [13]). تحدد طريقة المقارنة المطابقة الدقيقة حقلًا على أنه مطابق فقط إذا تطابقت سلسلتان نصيتان تمامًا. من ناحية أخرى، تعيد طريقة مقارنة JaroWinkler
قيمة بين صفر وواحد بناءً على مدى قرب تطابق السلاسل. تعمل الخوارزم كما يلي:
1 تطبيق المحولات المعالجة المسبقة على السجلات لضمان تنسيقها بشكل متسق (المُلحق 2)
2 لكل ‘خطوة’ محددة في الخوارزم (المُلحق 3):
(أ) ترتيب قائمة السجلات بناءً على حقل ‘الترتيب’ المحدد (مثل “العنوان”)
(ب) تقسيم السجلات إلى مجموعات فرعية منفصلة بناءً على الإدخالات المطابقة لحقل ‘الترتيب’ المحدد (مثل إذا كان “العنوان”، سيتم تجميع جميع السجلات التي تحمل عنوان “أتمتة اكتشاف السجلات المكررة للمراجعات المنهجية” معًا)
(ج) حساب درجة التشابه لكل مجموعة من السجلات داخل المجموعة الفرعية
3 بمجرد تنفيذ جميع ‘الخطوات’ داخل الخوارزم، يتم أخذ متوسط درجات التشابه المحسوبة لكل مجموعة من السجلات
4 إذا كانت درجتا تشابه سجلين أكبر من عتبة (مثل 0.01)، يتم وضع علامة على السجلين على أنهما مكرران
باستخدام الخوارزم الأساسية، يمكن تعريف خوارزميات إزالة التكرار في ملفات التكوين، التي تحدد كل تكرار، بالإضافة إلى الحقول التي يجب مقارنتها، والحقل الذي يجب ترتيب السجلات بناءً عليه، وطريقة المقارنة التي يجب استخدامها. يتم توفير الكود الكامل لكل طريقة إزالة تكرار في المواد التكميلية (المُلحق 3).
كمثال، بالنسبة لخوارزم ‘المتوازن’، يتم تطبيق المعالجة المسبقة في البداية. سيشمل ذلك عمليات مثل تحويل جميع أحرف العنوان إلى أحرف صغيرة، وإزالة جميع المسافات وأي أحرف غير ألفا رقمية. وبالتالي، سيصبح العنوان “أتمتة اكتشاف السجلات المكررة للمراجعات المنهجية” “أتمتةاكتشافالسجلاتالمكررةللمراجعاتالمنهجية”.
بعد ذلك، تحدد ‘الخطوة’ الأولى من الخوارزم حقل ‘الترتيب’ كـ “العنوان”. هذا يعني أنه يتم ترتيب جميع السجلات ثم تقسيمها إلى مجموعات فرعية بناءً على العناوين المطابقة. يتم تحديد ‘الحقول’ لهذه الخطوة كـ “العنوان” و”الحجم”. نظرًا لأن ‘المقارنة’ محددة لتكون “دقيقة”، يجب أن يتطابق كل من العنوان والحجم للسجل تمامًا للحصول على درجة تشابه قدرها 1. إذا لم تتطابق أي من الحقول تمامًا (بما في ذلك كون أحد الحقول مفقودًا)، فستكون درجة التشابه 0.
ثم يتم حساب الدرجات بنفس الطريقة للأربع ‘خطوات’ الأخرى المحددة في خوارزم ‘المتوازن’. يتم بعد ذلك حساب متوسط الدرجات الخمس (التي تم حسابها في كل خطوة) للحصول على درجة تشابه نهائية لكل مجموعة من السجلات. إذا كانت درجة التشابه المتوسطة
أكبر من 0.01، فيُفترض أن السجلين مكرران.
تُستخدم درجة التشابه المتوسطة أيضًا لتصنيف مدى احتمال أن يكون سجلا مكرران. ستضع درجة أكبر من أو تساوي 0.9 السجلات المكررة في مجموعة “مكررات محتملة للغاية”. ستضع درجة أكبر من أو تساوي 0.7 السجلات المكررة في مجموعة “مكررات محتملة بشدة”. أي درجة أقل من 0.7 ولكن أكبر من 0.01 ستضع المكررات في مجموعة “مكررات محتملة”. تم اختيار هذه العتبات بشكل تعسفي بعد الاختبار ضد سيناريوهات تكرار مختلفة. وُجد أن هذه الدرجات مثالية لمجموعاتها النسبية، بحيث أن مجموعتي “مكررات محتملة للغاية” و”مكررات محتملة بشدة” من غير المحتمل أن تحتوي على أي سجلات فريدة (إيجابيات كاذبة).
معلومات إضافية والكود الخاص بالخوارزم متاحة عبر مستودع GitHub IEBH/dedupe-sweep [12].

تقييم خوارزم إزالة التكرار

تم تقييم خوارزم إزالة التكرار بواسطة اثنين من المراجعين (HG وJC) باستخدام نتائج بحث من مجموعة من 10 مراجعات كوكراين مختارة عشوائيًا. لتجنب أي تداخل من تأثير التعلم، استخدمنا تصميم متقاطع، حيث يقوم الشخص الأول بإزالة التكرار من نتائج البحث باستخدام EndNote، بينما يقوم الشخص الثاني بإزالة التكرار باستخدام خوارزم إزالة التكرار. ثم يتبادلون الطرق، بحيث يقوم الشخص الأول بإزالة التكرار من مجموعة نتائج البحث التالية باستخدام خوارزم إزالة التكرار، ويقوم الشخص الثاني بإزالة التكرار باستخدام EndNote. تم مقارنة الوقت المستغرق لإزالة التكرار من نتائج البحث وعدد الدراسات الفريدة التي تمت إزالتها والمكررات التي تم تفويتها.

تعريف السجل المكرر

حاليًا، هناك نقص في تعريف متفق عليه لما هو السجل المكرر. لدراستنا، قمنا بتعريف السجل المكرر على أنه نفس المقالة المنشورة في نفس المكان، بينما نفس المقالة المنشورة في مكان مختلف ليست مكررة. مثال على ذلك هو بيان PRISMA الذي تم نشره في عدة مجلات.
هذه هي المكررات:
  • عناصر التقرير المفضلة للمراجعات المنهجية والتحليلات التلوية: بيان PRISMA. موهر د، ليبراتي أ، تيتزلاف ج، ألتمان د. مجموعة PRISMA. J Clin Epidemiol. 2009 أكتوبر؛62(10):1006-12. doi: 10.1016/j.jclinepi. 2009 . 06.005
  • عناصر التقرير المفضلة للمراجعات المنهجية والتحليلات التلوية: بيان PRISMA. موهر، د.، ليبراتي، أ.، تيتزلاف، ج.، ألتمان، د. ج. (2009). مجلة علم الأوبئة السريرية، 62(10)، 1006-1012.https://doi.org/10.1016/j.jclinepi.2009.06.005
  • موهر د، ليبراتي أ، تيتزلاف ج، ألتمان د. عناصر التقرير المفضلة للمراجعات المنهجية والتحليلات التلوية: بيان PRISMA. J Clin Epidemiol. 2009؛62(10):1006-1012. doi:10.1016/j. jclinepi.2009.06.005
هذه ليست مكررات:
  • عناصر التقرير المفضلة للمراجعات المنهجية والتحليلات التلوية: بيان PRISMA. موهر د، ليبراتي أ، تيتزلاف ج، ألتمن د. ج؛ مجموعة PRISMA. المجلة الدولية للجراحة. 2010؛8(5):336-41. doi: 10.1016/j. ijsu.2010.02.007
  • عناصر التقرير المفضلة للمراجعات النظامية والتحليلات التلوية: بيان PRISMA. موهر د، ليبراتي أ، تيتزلاف ج، ألتمن د. ج؛ مجموعة PRISMA. ج Clin Epidemiol. أكتوبر 2009؛62(10):1006-12. doi: 10.1016/j.jclinepi.2009.06.005
  • عناصر التقرير المفضلة للمراجعات المنهجية والتحليلات التلوية: بيان PRISMA. موهر د، ليبراتي أ، تيتزلاف ج، ألتمن دي جي؛ مجموعة PRISMA. BMJ. 21 يوليو 2009؛339: b2535. doi: 10.1136/bmj.b2535

اختيار المراجعات المنهجية لإزالة التكرار

لضمان عينة غير متحيزة من نتائج البحث المستخدمة، قمنا باختيار 10 مراجعات كوكراين عشوائيًا نُشرت في السنوات الخمس الماضية (يناير 2017 – سبتمبر 2021). لاختيار المراجعات النظامية عشوائيًا، تم تشغيل سلسلة البحث التالية في PubMed: “Cochrane Database Syst Rev[Journal] AND 2017:2021[pdat]”. ثم تم توليد رقم عشوائي باستخدام مولد الأرقام العشوائية من جوجل. كان هذا الرقم بين واحد وإجمالي عدد نتائج البحث التي تم العثور عليها (على سبيل المثال، إذا تم العثور على 5000 نتيجة، كان الرقم العشوائي محددًا ليكون بين واحد و5000). ثم تم التحقق من نتيجة البحث التي تتوافق مع الرقم العشوائي المولد للتأكد من أنها تلبي معايير الإدراج. استمر هذا حتى تم تحديد 10 مراجعات كوكراين.

معايير الشمول في المراجعات المنهجية

لكي يتم اختيارها واستخدامها في الدراسة، كان يجب أن تلبي استراتيجية البحث في مراجعة كوكرين المعايير التالية:
  • يجب الإبلاغ عن جميع سلاسل البحث لجميع قواعد البيانات في المراجعة
  • كان يجب أن يكون عدد قواعد البيانات التي تم البحث فيها في المراجعة اثنتين أو أكثر
  • كان يجب أن يكون العدد الإجمالي لنتائج البحث التي تم العثور عليها من خلال مجموعة جميع عبارات البحث بين 500 و 10,000 سجل.
كان القرار بتحديد نتائج البحث بين 500 إلى 10,000 هدفه تقليل التباين بين العينات التي سيتم إزالة التكرارات منها وضمان تمثيلها لمراجعة منهجية نموذجية، والتي يبلغ حجمها الوسيط 1781 سجلًا [1].

الحصول على العينة التي سيتم إزالة التكرار منها

بعد اختيار 10 مراجعات منهجية مؤهلة، تم إجراء بحثها في جميع قواعد البيانات الببليوغرافية وتم تصدير النتائج وتجميعها في EndNote. لم يتم تطبيق أي قيود على التاريخ أو اللغة، وتم استبعاد البحث في السجلات المتخصصة وسجلات التجارب والأدبيات الرمادية.

إزالة التكرار من نتائج البحث

قام اثنان من المراجعين (HG و JC) بإزالة التكرارات بشكل مستقل من 10 مجموعات من نتائج البحث. HG هو مساعد بحث (وهو الآن مرشح دكتوراه) لديه سنتان من الخبرة في المراجعات النظامية ولكنه ليس لديه خبرة في إزالة تكرار نتائج البحث. JC هو متخصص معلومات لديه أكثر من 15 عامًا من الخبرة في المراجعات النظامية وإزالة التكرار. قامت HG بمراجعة مجموعات نتائج البحث ذات الأرقام الفردية باستخدام EndNote (1 و 3 و 5 و 7 و 9) ثم قامت بمراجعة المجموعات ذات الأرقام الزوجية باستخدام Deduplicator. و 10). قامت JC بمراجعة المجموعات ذات الأرقام الزوجية باستخدام EndNote (2، 4، 6، 8 و10) والمجموعات ذات الأرقام الفردية باستخدام Deduplicator (1، 3، 5، 7 و9) (الجدول 1). يتم تعريف إزالة التكرار في EndNote بأنها استخدام طريقة إزالة التكرار IEBH في EndNote (المكمل 1)، بينما Deduplicator هو الحل الذي تم مناقشته في هذه الورقة. في Deduplicator، تم استخدام خوارزمية Beta (المشار إليها باسم “الخوارزمية المتوازنة”).

تحقق من إزالة التكرار

لتحديد الأخطاء (أي تكرار تم وضع علامة عليه عن طريق الخطأ على أنه غير مكرر، والعكس صحيح)، تم مقارنة مكتبات المراقب. تم ذلك بعد الانتهاء من جميع مجموعات العينات العشر.
تم إزالة التكرار. تم التحقق يدويًا من أي تناقضات وتم التحقق منها بالتوافق بين مؤلفين (HG و CF). أدى ذلك إلى إنتاج مكتبة EndNote النهائية “المزالة بشكل صحيح” لكل مجموعة عينات. وهذا مكن من تحديد الأخطاء من مكتبة كل مراجع، حيث تم تصنيف المقالة الفريدة التي تمت إزالتها بشكل غير صحيح على أنها “إيجابية خاطئة”، بينما تم تصنيف التكرار الذي تم تفويته بشكل غير صحيح على أنه “سلبية خاطئة”.

النتائج

قمنا بتقييم أداة إزالة التكرار من خلال أربعة نتائج:
1 الوقت المطلوب لإزالة التكرار: سجل كل مراجع المدة التي استغرقتها عملية إزالة التكرار لكل مكتبة بالدقائق باستخدام مؤقت الهاتف. بدأ المراجع المؤقت من لحظة فتح الملف لأول مرة وأوقف المؤقت عندما كان راضيًا عن تحديد جميع التكرارات.
2 دراسات فريدة تمت إزالتها/إيجابيات زائفة: عدد السجلات في المكتبة التي صنفها المراجع على أنها مكررة بينما كانت سجلاً فريداً
3 تكرارات مفقودة/سلبيات كاذبة: عدد السجلات في المكتبة التي صنفها المراجع كسجل فريد عندما كانت سجلًا مكررًا
4 إجمالي الأخطاء: (إيجابيات خاطئة + سلبيات خاطئة)

مقارنة بين خوارزميات إزالة التكرار

بالإضافة إلى اختبار المكتبات الخمس للتطوير ضد كل خوارزمية من خوارزميات إزالة التكرار (‘متوازن’، ‘مركز’ و ‘مسترخي’)، قمنا أيضًا بإجراء تقييم إضافي مباشر بين ثلاث خوارزميات لإزالة التكرار باستخدام مجموعة بيانات من دراسة سابقة لإزالة التكرار بواسطة راثبون وآخرون [24]. تحتوي هذه المجموعة على أربع مجموعات من نتائج البحث من دراسات تتعلق بـ: فحص علم الخلايا، وعلم الدم، والجهاز التنفسي، والسكتة الدماغية. يتم تقديم التفصيل الكامل لمجموعة البيانات في الجدول 2. جميع
الجدول 1 توزيع طرق EndNote مقابل Deduplicator بين الباحثين
رقم المجموعة مراجعة منهجية (المؤلف السنة) عدد السجلات هانا غرينوود جاستن كلارك
1 لورنتزن 2020 [14] 813 إنهاء الملاحظة إزالة التكرار
2 أليبد 2020 [15] 1479 إزالة التكرار إنهاء الملاحظة
٣ داوسون 2021 [16] ٣٩١٢ إنهاء الملاحظة إزالة التكرار
٤ ويفن 2017 [17] ١٠٢٨ إزالة التكرار إنهاء الملاحظة
٥ كاماث 2020 [18] 1785 إنهاء الملاحظة إزالة التكرار
٦ غبارا 2017 [19] 1807 إزالة التكرار إنهاء الملاحظة
٧ بنيت 2018 [20] 2111 إنهاء الملاحظة إزالة التكرار
٨ هانون 2021 [21] 1061 إزالة التكرار إنهاء الملاحظة
9 روبرتس 2020 [22] 3181 إنهاء الملاحظة إزالة التكرار
10 ياسشينسكي 2018 [23] 2447 إزالة التكرار إنهاء الملاحظة
تم تشغيل ثلاثة خوارزميات كما هي، مما يعني أنه لم يكن هناك فحص يدوي من قبل إنسان كما كان في مقارنة EndNote.
كما هو الحال مع مكتبات التطوير، كانت الدقة والدقة والاسترجاع ودرجة F1 هي المقاييس الأربعة المستخدمة للمقارنة بين خوارزميات إزالة التكرار. تشير درجة الدقة العالية إلى أنه تم تحديد عدد قليل من الدراسات الفريدة على أنها مكررة. تشير درجة الاسترجاع العالية إلى أنه تم تصنيف عدد قليل جدًا من الدراسات المكررة بشكل غير صحيح على أنها دراسات فريدة. درجة F1 هي درجة مركبة تجمع بين الدقة والاسترجاع. يتم تقديم صيغة هذه المقاييس في المعادلات 2 و 3 و 4.

النتائج

الوقت المستغرق لإزالة التكرار

كان متوسط حجم مجموعات العينة 1962 سجلًا (النطاق: 813 إلى 3912). كان متوسط الوقت المطلوب لإزالة التكرار من مجموعات العينة باستخدام أداة إزالة التكرار 8 دقائق (النطاق: 4 إلى 20 دقيقة) مقارنة بمتوسط وقت قدره 27 دقيقة (النطاق 6 إلى باستخدام طريقة EndNote شبه اليدوية. وهذا يعادل تقليص متوسط للوقت بمقدار عند إزالة التكرار من نتائج البحث (الشكل 1).
الجدول 2 تحليل مجموعة البيانات المستخدمة لمقارنة خوارزميات إزالة التكرار [24]
دراسة عدد السجلات عدد النسخ المكررة عدد الدراسات الفريدة
فحص الخلايا 1856 ١٤٠٤ ٤٥٢
أمراض الدم 1415 246 1169
تنفسي 1988 ٧٩٩ 1189
جلطة 1292 ٥٠٧ 785

عدد الأخطاء

كان متوسط عدد الأخطاء عند استخدام أداة إزالة التكرار 3.3 (النطاق: 0 إلى 7)، بينما كان متوسط عدد الأخطاء عند استخدام EndNote 6.2 (النطاق: 0 إلى 16). كان متوسط معدل الأخطاء للمراجعين الذين يستخدمون أداة إزالة التكرار هو أقل مقارنة بـ EndNote (الجدول 3).
كان متوسط عدد الدراسات الفريدة التي تمت إزالتها 1.5 (النطاق: 0 إلى 3) مع برنامج Deduplicator و3.3 (النطاق: 0 إلى 12) مع EndNote. كان متوسط عدد النسخ المكررة التي تم تفويتها 1.8 (النطاق: 0 إلى 5) مع برنامج Deduplicator و2.9 (النطاق: 0 إلى 8) مع EndNote (الجدول 3)

معدلات الوقت والخطأ المعيارية

من أجل تقليل التحيز الناتج عن المكتبات الكبيرة في القياسات المتوسطة لوقت ومعدل الخطأ، نقوم هنا بتطبيع كل من المراجعات المنهجية ليتم قياسها لكل 1000 سجل تم إزالة التكرارات منه. كان متوسط الوقت لإزالة التكرار من 1000 سجل هو 5 دقائق باستخدام Deduplicator مقارنة بـ 15 دقيقة باستخدام EndNote (الجدول 4). متوسط الوقت لإزالة التكرار من 1000 سجل باستخدام Deduplicator هو أقل من EndNote. كان متوسط عدد الأخطاء لكل 1000 سجل 1.8 مع Deduplcicator مقارنة بـ 3.1 مع EndNote (الجدول 4). متوسط عدد الأخطاء لكل 1000 سجل هو أقل مع أداة إزالة التكرار مقارنة بـ EndNote.

تحليل بين الفلاتر

جميع القياسات في هذا القسم تم تطبيعها لتكون مقاسة لكل 1000 سجل تم إزالة التكرار منه، من أجل إلغاء الفرق في متوسط حجم المكتبة بين المراجعين. كان متوسط الوقت للمراجع ذو الخبرة (JC) هو 3 سجلات (المدى: من 2 إلى 5 دقائق) باستخدام أداة إزالة التكرار و السجلات (المدى: 6 إلى 13 دقيقة) باستخدام EndNote. متوسط الوقت للمراجع غير المتمرس
الشكل 1 الوقت المستغرق لإزالة التكرار من كل مراجعة منهجية باستخدام كل طريقة
الجدول 3 مقارنة عدد الأخطاء لكل مكتبة
مراجعة منهجية إجمالي السجلات إزالة التكرار إنهاء الملاحظة
تمت إزالة الدراسات الفريدة تكرارات مفقودة إجمالي الأخطاء تم إزالة الدراسات الفريدة تكرارات مفقودة إجمالي الأخطاء
لورنتزن 2020 813 0 0 0 1 1 ٢
أليبد 2020 1479 1 ٥ ٦ ٥ ٣ ٨
داوسون 2021 ٣٩١٢ 2 0 2 2 ٥ ٧
ويفن 2017 ١٠٢٨ 1 0 1 0 0 0
كاماث 2020 1785 0 2 2 1 1 2
غبارا 2017 1807 2 ٤ ٦ ٣ 2 ٥
بنيت 2018 2111 1 2 ٣ 2 2 ٤
هانون 2021 1061 ٣ 0 ٣ 2 ٣ ٥
روبرتس 2020 3181 ٣ 0 ٣ 12 ٤ 16
ياسشينسكي 2018 2447 2 ٥ ٧ ٥ ٨ ١٣
معنى 1962.4 1.5 1.8 3.3 3.3 2.9 6.2
الجدول 4 الوقت اللازم لإزالة التكرار ومعدل الأخطاء لكل 1000 سجل
مراجعة منهجية الوقت لكل 1000 سجل (دقائق) إجمالي الأخطاء لكل 1000 سجل
إزالة التكرار إنهاء الملاحظة إزالة التكرار إنهاء الملاحظة
لورنتزن 2020 ٥ 37 0.0 2.5
أليبد 2020 10 10 ٤.١ ٥.٤
داوسون 2021 2 19 0.5 1.8
ويفن 2017 9 ٧ 1.0 0.0
كاماث 2020 2 20 1.1 1.1
غبارا 2017 ٤ ١٣ 3.3 2.8
بنيت 2018 2 17 1.4 1.9
هانون 2021 ٥ ٦ 2.8 ٤.٧
روبرتس 2020 ٣ ٥ 0.9 5.0
ياسشينسكي 2018 ٨ 11 2.9 ٥.٣
معنى ٥ 15 1.8 3.1
(HG) كان سجلات (المدى: 4 إلى 9 دقائق) باستخدام أداة إزالة التكرار و سجلات (المدى: 5 إلى 37 دقيقة) باستخدام EndNote (الشكل 2).
المراجع المنهجي ذو الخبرة (JC) عند استخدامه لأداة إزالة التكرارات كان لديه معدل خطأ متوسط قدره 0.8 لكل 1000 سجل. عند استخدام EndNote، كان لدى JC معدل خطأ متوسط قدره 3.6 لكل 1000 سجل (الشكل 3). المراجع المنهجي غير المتمرس (HG) عند استخدامه لأداة إزالة التكرارات كان لديه معدل خطأ متوسط قدره 2.8 لكل 1000 سجل. عند استخدام EndNote، كان لدى HG معدل خطأ متوسط قدره 2.5 لكل 1000 سجل (الشكل 3).

مقارنة بين خوارزميات إزالة التكرار

أظهر الاختبار ضد المكتبات الخمس لتطوير السجلات أن الخوارزمية المركزة حققت أعلى متوسط استرجاع قدره 0.9999 وأعلى درجة F1 إجمالية قدرها 0.9966. بينما حققت الخوارزمية ‘المريحة’ أعلى متوسط دقة قدره 0.9996 (الجدول 5).
الشكل 2 متوسط الوقت المستغرق لكل مراجع لإزالة التكرار من 1000 سجل
الشكل 3 متوسط عدد الأخطاء الإجمالية لكل 1000 سجل لكل فاحص
توسيع هذا التحليل ليشمل مجموعة البيانات غير المرئية المأخوذة من الدراسة التي أجراها راثبون وآخرون [24] يظهر نتائج مشابهة. كان لدى الخوارزمية ‘المتوازنة’ أعلى متوسط ​​نقاط F1 بمقدار 0.9647، على الرغم من أن ‘المركزة’ ليست بعيدة عنها بمقدار 0.9645. تمتلك ‘المركزة’ أعلى متوسط ​​استرجاع بمقدار 0.9757 بينما تمتلك الخوارزمية ‘المريحة’ أعلى متوسط ​​دقة بمقدار 0.9896 (الجدول 6).

نقاش

بعد تطوير وتأكيد فعالية أداة إزالة التكرار، أجرينا دراسة لمقارنة أداة إزالة التكرار بطريقة EndNote اليدوية من حيث الوقت المستغرق لإزالة التكرار وعدد الأخطاء المرتكبة. وجدنا أن أداة إزالة التكرار قللت من متوسط الوقت اللازم لإزالة التكرار بحوالي ، من 15 دقيقة لكل 1000 سجل مع EndNote إلى 5 دقائق مع Deduplicator (الجدول 4). كما وجدنا أن الأخطاء كانت أقل، مع تقليل متوسط الأخطاء بحوالي ، من 3.1 أخطاء لكل 1000 سجل مع EndNote إلى 1.8 مع Deduplicator (الجدول 4). على الرغم من أن هذه كانت دراسة صغيرة فقط (مع مشاركين اثنين و10 مجموعات من نتائج البحث التي تم إزالة التكرار منها)، إلا أنها تقدم دليلًا أوليًا على أن استخدام Deduplicator يتفوق على الطريقة المستخدمة على نطاق واسع لإزالة التكرار باستخدام EndNote، من حيث الوقت ومعدل الأخطاء.
عند استخدام أداة إزالة التكرارات، كانت معدلات الخطأ لـ JC أقل بكثير مقارنة بـ HG حيث كانت 0.8 خطأ مقابل 2.8 خطأ لكل 1000 سجل على التوالي (الشكل 3). أحد التفسيرات لذلك هو الفرق في مستويات الخبرة بين المراجعين. أحد المراجعين (HG) جديد في المراجعات المنهجية ولديه خبرة قليلة في إزالة تكرارات نتائج البحث، بينما الآخر (JC) لديه سنوات من الخبرة وقد أزال تكرارات العديد من مجموعات نتائج البحث. قد يسهل ذلك على JC أن يكون أفضل في اكتشاف التكرارات بدقة مقارنة بـ HG. ومع ذلك، بالنسبة لطريقة إزالة التكرارات في EndNote، كان لدى HG معدل خطأ أقل مقارنة بـ JC حيث كانت 2.5 مقابل 3.6 أخطاء لكل 1000.
الجدول 5 الدقة، الدقة، الاسترجاع ودرجة F1 لكل من خوارزميات إزالة التكرار على مكتبات التطوير
خوارزمية دراسة دقة دقة استدعاء درجة F1
متوازن الضوء الأزرق 0.9989 1.0000 0.9979 0.9990
متوازن نحاس 0.9822 0.9892 0.9786 0.9839
متوازن السكري 0.9909 0.9890 0.9919 0.9904
متوازن تافينوكوين 0.9888 1.0000 0.9825 0.9912
متوازن التهاب المسالك البولية 1.0000 1.0000 1.0000 1.0000
مركّز الضوء الأزرق 1.0000 1.0000 1.0000 1.0000
مركّز نحاس 0.9941 0.9894 1.0000 0.9947
مركّز السكري 0.9913 0.9823 0.9997 0.9909
مركّز تافينوكوين 1.0000 1.0000 1.0000 1.0000
مركّز التهاب المسالك البولية 0.9981 0.9950 1.0000 0.9975
مسترخي الضوء الأزرق 0.9977 1.0000 0.9958 0.9979
مسترخي نحاس 0.9921 1.0000 0.9858 0.9928
مسترخي السكري 0.9934 0.9982 0.9878 0.9930
مسترخي تافينوكوين 0.9944 1.0000 0.9912 0.9956
مسترخي التهاب المسالك البولية 0.9799 1.0000 0.9475 0.9730
متوازن معنى 0.9921 0.9956 0.9902 0.9929
مركّز معنى 0.9967 0.9934 0.9999 0.9966
مسترخي معنى 0.9915 0.9996 0.9816 0.9905
السجلات على التوالي (الشكل 3). يمكن تفسير ذلك بالوقت الإضافي الذي استغرقه HG عند إزالة التكرارات باستخدام EndNote مقارنة بـ JC، حيث استغرق HG 20 دقيقة لكل 1000 سجل مقارنة بـ 9 دقائق لـ JC (الشكل 1). كانت نسبة الخطأ في Deduplicator وEndNote مشابهة لـ HG، ومع ذلك، سهل Deduplicator عملية الفحص بشكل أسرع بكثير لـ HG، مما قلل الوقت اللازم للفحص من 20 دقيقة لكل 1000 سجل إلى 7 دقائق لكل 1000 سجل (الشكل 1).
بعد التقييم، أصبح من الواضح أن الخوارزمية ‘المتوازنة’ يمكن تحسينها. أيضًا، مع زيادة استخدام أداة إزالة التكرار، ظهرت حالتان مختلفتان للاستخدام. كان هناك مستخدمون يرغبون في تكرار مكتبات من
سجلات بدون أي فحص يدوي وأولئك الذين أرادوا أن يكونوا قادرين على فحص كل قرار اتخذته أداة إزالة التكرار. أدى ذلك إلى تطوير خوارزميتين، ‘مسترخية’ و’مركزة’، اللتين استبدلتا الخوارزمية ‘المتوازنة’. عند مقارنة الخوارزميات، كانت خوارزمية ‘المركزة’ لديها أعلى درجة استرجاع، مما يدل على أنها الأفضل في العثور على جميع التكرارات؛ ومع ذلك، لديها أدنى درجة دقة مما يعني أن النتائج تحتاج إلى فحص. كانت خوارزمية ‘المسترخية’ لديها أعلى دقة، مما يعني أنه من غير المحتمل أن تزيل أي دراسات فريدة؛ ومع ذلك، لديها أدنى درجة استرجاع مما يعني أن بعض الدراسات المكررة ستبقى بعد إزالة التكرار (الجدولان 5 و6). لذلك، نوصي باستخدام خوارزمية ‘المسترخية’ للمكتبات الكبيرة من السجلات (> 2000 سجل)، حيث لا يرغب الناس في فحص النتائج، وخوارزمية ‘المركزة’ للمكتبات الصغيرة من السجلات (< 2000 سجل) حيث أن هذا عدد قابل للفحص يدويًا. قد تتغير هذه الأرقام اعتمادًا على قيود الوقت للدراسة الفردية.
بالإضافة إلى الأدوات التي تم التحقيق فيها هنا (EndNote وDeduplicator)، هناك العديد من الأدوات الأخرى التي تساعد في إزالة التكرار. بشكل عام، يتم تضمينها في منصات قواعد البيانات (مثل Ovid أو EBSCO) وإدارة المراجع.
الجدول 6 الدقة، الدقة، الاسترجاع ودرجة F1 لكل من خوارزميات إزالة التكرار على مجموعة بيانات راثبون وآخرون [24]
خوارزمية دراسة دقة دقة استدعاء درجة F1
متوازن فحص الخلايا 0.9758 0.9836 0.9843 0.9840
متوازن أمراض الدم 0.9696 0.9177 0.9065 0.9121
متوازن تنفسي 0.9819 0.9823 0.9725 0.9774
متوازن سكتة دماغية 0.9884 0.9824 0.9882 0.9853
مركّز فحص الخلايا 0.9790 0.9789 0.9936 0.9862
مركّز أمراض الدم 0.9654 0.8774 0.9309 0.9034
مركّز تنفسي 0.9864 0.9801 0.9862 0.9832
مركّز سكتة دماغية 0.9884 0.9786 0.9921 0.9853
مسترخي فحص الخلايا 0.9763 0.9885 0.9801 0.9843
مسترخي أمراض الدم 0.9710 0.9812 0.8496 0.9107
مسترخي تنفسي 0.9779 0.9948 0.9499 0.9718
مسترخي سكتة دماغية 0.9853 0.9939 0.9684 0.9810
متوازن معنى 0.9789 0.9665 0.9629 0.9647
مركّز معنى 0.9798 0.9538 0.9757 0.9645
مسترخي معنى 0.9776 0.9896 0.9370 0.9619
البرمجيات (مثل EndNote أو Mendeley أو Zotero) أو برمجيات المراجعة النظامية (مثل Rayyan أو Covidence). الميزة الرئيسية لـ Deduplicator مقارنة بالأدوات الأخرى المذكورة هنا هي أنها مفتوحة المصدر بالكامل، مجانية للاستخدام وليست مرتبطة بأي إدارة مراجع موجودة.
برامج أو منصات قواعد البيانات. ومع ذلك، على عكس بعض الأدوات مثل كوفيدنس، يتطلب ديدوبليكاتور تصدير المكتبة من مدير المراجع ثم استيراد النتيجة مرة أخرى إلى مدير المراجع أو أداة الفحص للاستمرار في الفحص. بينما يتم العمل على هذا، قد يجد بعض المستخدمين أنه غير مرغوب فيه نقل سجلاتهم بين أدوات مختلفة.
أجريت دراسة بواسطة غيمارايش وآخرين [25] لتقييم خمسة أدوات مختلفة لإزالة التكرار: EndNote X9، Mendeley، Zotero، Rayyan وDeduplicator (المذكورة في الدراسة باسم SRA). وجدت نتائج هذه الدراسة أن الخصوصية، أو نسبة غير المكررات التي تم التعرف عليها بشكل صحيح على أنها كذلك، كانت الأفضل في Mendeley وDeduplicator، حيث حقق كلاهما درجة 1.00. كما وجدت أن الحساسية، أو القدرة على التعرف بشكل صحيح على المكررات، كانت الأعلى في Rayyan وMendeley وDeduplicator. وجدت الدراسة أن Rayyan كان لديه 35.1 خطأ لكل 1000 سجل، وZotero كان لديه 23.8، وEndNote كان لديه 17.7، وMendeley كان لديه 3.3 وDeduplicator كان لديه 2.5 خطأ لكل 1000 سجل. تقترح هذه الدراسة أن Deduplicator لديه أدنى معدل خطأ ويتماشى مع النتائج التي تم الحصول عليها من دراستنا التي سجلت 1.8 خطأ لكل 1000 سجل (الجدول 4).
دراسة أخرى نشرت بواسطة مكيوون وآخرون [10] قيمت بعض أدوات إزالة التكرار المستخدمة بشكل شائع. وجدت الدراسة أن عدد الأخطاء كان الأقل عند استخدام منصة قاعدة بيانات أود، حيث كان هناك 90 خطأ (28.8 لكل 1000 سجل). هذا غير مناسب لمعظم المراجعين لأنه يتطلب تشغيل جميع عمليات البحث في قواعد بيانات أود (على سبيل المثال، إذا كنت تستخدم بوب ميد أو سينا هل، فإن هذه الطريقة غير قابلة للاستخدام). كانت برامج المراجعة المنهجية هي الأفضل بعد ذلك، حيث كان لدى رايان 101 خطأ (32.3 لكل 1000 سجل) وكوفيدنس 122 خطأ (39.0 لكل 1000 سجل). أخيرًا، كانت برامج إدارة المراجع هي الأسوأ، حيث كان لدى مندلي 212 خطأ (67.7 لكل 1000 سجل)، وزوتيرو 619 (197.8 لكل 1000 سجل) وإند نوت 739 (236.1 لكل 1000 سجل). ومع ذلك، لا يمكن مقارنة نتائج طريقة إند نوت من هذه الدراسة مباشرةً مع نتائجنا، حيث استخدمت دراستهم خوارزمية إند نوت الافتراضية دون فحص يدوي.
ومن الجدير بالذكر أيضًا أداة إزالة التكرار الحديثة الأخرى، “Deduklick”. في بحث أجراه بوريسوف وآخرون [26]، حققت Deduklick معدل استرجاع متوسط مثير للإعجاب من مع الدقة. بينما لا يسمح تصميم دراستنا بإجراء حسابات مباشرة للدقة أو الاسترجاع، سيكون من المفيد للبحوث المقارنة المستقبلية التحقيق في أداء Deduklick مقابل طرق إزالة التكرار الأخرى.

القيود

أحد قيود الدراسة هو التباين في الخبرة بين المؤلفين الاثنين. على سبيل المثال، في
في المراجعة المنهجية “Wiffen، 2017″، كان برنامج Deduplicator أبطأ قليلاً في إزالة التكرارات [HG] مقارنةً بطريقة EndNote شبه اليدوية [JC]. من المحتمل أن تكون الخبرة الإضافية لـ JC قد سهلت إزالة التكرارات شبه اليدوية بسرعة ودقة من مكتبة Wiffen الصغيرة أسرع مما استطاع HG تحقيقه باستخدام Deduplicator. يتم التخفيف جزئيًا من هذا الاختلاف في سرعة/دقة إزالة التكرارات بين المؤلفين من خلال التقسيم المتساوي للطرق المستخدمة من قبل كل مؤلف، لكن هذا لا يلغي هذا التحيز تمامًا. على الرغم من هذه الفجوة، فإن استخدام Deduplicator زاد من السرعة التي يمكن بها لكل من المراجعين إزالة التكرارات من مجموعات نتائج البحث (الشكل 2). يمكن أيضًا أن يُقال إن Deduplicator من المحتمل أن يُستخدم من قبل الباحثين ذوي مجموعة واسعة من الخبرات، وبالتالي فإن وجود نوعين من مستويات خبرة المراجعين في هذه الدراسة يجعلها أكثر تمثيلاً للظروف الواقعية.
القيود الثانية هي إمكانية أن يكون كلا المؤلفين قد ارتكب نفس الخطأ، على سبيل المثال، كلاهما فاتته نفس السجل المكرر. هذا الخطأ لن يظهر في النتائج، حيث تم تحديد الأخطاء من خلال مقارنة نتائج كلا المراجعين. ولكن، نظرًا لأن عملية إزالة التكرار تمت بشكل منفصل من قبل شخصين بمساعدة خوارزمية حاسوبية، يمكننا أن نكون واثقين إلى حد كبير من أن هذا الرقم منخفض. أيضًا، بما أن هذه مقارنة لتحديد أي طريقة لإزالة التكرار كانت أفضل، إذا لم يكن لدى أي منهما الخطأ المسجل ضده، فلن يؤثر ذلك على المقارنة في الأخطاء التي ارتكبت بين الطريقتين.
ثالثًا، تم تقييم الخوارزمية ‘المتوازنة’ فقط في المقارنة المباشرة مع EndNote. منذ إكمال الدراسة، تم استبدال الخوارزمية ‘المتوازنة’ بخوارزميتين جديدتين: ‘المريحة’ و ‘المركزة’. على الرغم من أنه لم يتم مقارنتهما مباشرة مع EndNote، إلا أنهما تم مقارنتهما مع الخوارزمية ‘المتوازنة’. تم تقديم نتائج هذه التحليل في الجدول 6.
رابعًا، نظرًا لأن هذه تجربة فعالية تستخدم مجموعات بيانات مختارة، لا يزال يتعين تقييم الوقت الذي يتم توفيره في العالم الحقيقي ومعدل الأخطاء لجهاز إزالة التكرار.

البحث المستقبلي

ستحتاج الأعمال المستقبلية في هذا المجال إلى التركيز على منطقتين رئيسيتين، مقارنة أحدث إصدار من أداة إزالة التكرار مع أدوات إزالة التكرار الأخرى على مجموعات البيانات الشائعة والأداء في البيئات الواقعية. نظرًا للاختلاف في البيانات، لم نتمكن من مقارنة نتائجنا مباشرة بتلك المبلغ عنها في دراسات أخرى، مثل الدراسة التي أجراها مكيوون [10]. لذلك، يتم حاليًا التخطيط لجمع مجموعة جديدة من نتائج البحث، مع جميع التكرارات المكتشفة، لاستخدامها في دراسة مقارنة لجميع أدوات إزالة التكرار المعروفة والمتاحة. بمجرد الانتهاء من هذه الدراسة الثانية، التجريبية، سيبدأ التخطيط لتحديد فعالية أداة إزالة التكرار في بيئة واقعية.

الخاتمة

تظهر هذه الدراسة أن استخدام أداة إزالة التكرار للكشف عن السجلات المكررة يقلل من الوقت المستغرق والأخطاء المرتكبة مقارنة باستخدام طريقة EndNote شبه اليدوية. كما أن أداة إزالة التكرار توفر نقطة دخول أسهل للباحثين الجدد لبدء عملية إزالة التكرار، وتظهر مقارنة إيجابية مع معدلات الأخطاء للأدوات والأساليب الأخرى.

الاختصارات

معهد IEBH للرعاية الصحية المستندة إلى الأدلة
مسرع المراجعة المنهجية SRA

معلومات إضافية

تحتوي النسخة الإلكترونية على مواد إضافية متاحة علىhttps://doi. org/10.1186/s13643-024-02619-9.
الملف الإضافي 1. ملف PDF يحتوي على دليل كامل لعملية إزالة التكرار في IEBH باستخدام EndNote.
الملف الإضافي 2. ملف PDF يحتوي على جدول لمختلف محولات Deduplicator ووصف موجز لكل منها.
الملف الإضافي 3. ملف PDF يمثل كود JSON المستخدم لخوارزمية مقارنة إزالة التكرار.

شكر وتقدير

قدم الدكتور هنري نغوين (جامعة غريفيث) الدعم العام والنصائح خلال كتابة المخطوطة.

مساهمات المؤلفين

ساهم CF في كتابة كود خوارزمية إزالة التكرار وكان المساهم الرئيسي في كتابة المخطوطة وتفسير البيانات. JC مسؤول عن تصور تصميم الدراسة بالإضافة إلى المسودة الأصلية لملخص المخطوطة. قام JC وHG بإزالة التكرار من المكتبات التجريبية بالإضافة إلى تقديم مراجعات جوهرية للمخطوطة. MC مسؤول عن تصور خوارزمية إزالة التكرار الأصلية، وساهم في كود إزالة التكرار وقدم مراجعات جوهرية للمخطوطة. قرأ جميع المؤلفين ووافقوا على المخطوطة النهائية.

تمويل

لم تتلقَ هذه الدراسة أي منحة محددة من وكالات التمويل في القطاعات العامة أو التجارية أو غير الربحية.

توفر البيانات والمواد

الكود الكامل لـ Deduplicator بما في ذلك مجموعات بيانات مكتبة التطوير متاح عبر مستودع GitHub IEBH/dedupe-sweep [12]. البيانات التي تدعم نتائج هذه الدراسة متاحة من المؤلف المراسل، CF، عند الطلب المعقول.

الإعلانات

غير قابل للتطبيق.
غير قابل للتطبيق.

المصالح المتنافسة

المؤلفون في هذه الدراسة مسؤولون عن تطوير أداة إزالة التكرار وبالتالي قد يظهرون تحيزًا تجاه النتائج الإيجابية. ومع ذلك، نشجع على الاختبار المستقل للطريقة وقد جعلنا الشيفرة ومجموعات بيانات الاختبار مفتوحة المصدر ومتاحة للجمهور لتكون أكثر شفافية ولتحسين إمكانية التكرار.
تاريخ الاستلام: 22 يونيو 2023 تاريخ القبول: 18 يوليو 2024
نُشر على الإنترنت: 02 أغسطس 2024

References

  1. Borah R, Brown AW, Capers PL, Kaiser KA. Analysis of the time and workers needed to conduct systematic reviews of medical interventions using data from the PROSPERO registry. BMJ Open. 2017;7(2):e012545. https:// doi.org/10.1136/bmjopen-2016-012545.
  2. Murad MH, Asi N, Alsawas M, Alahdab F. New evidence pyramid. BMJ Evid-Based Med. 2016;21(4):125-7. https://doi.org/10.1136/ ebmed-2016-110401.
  3. Michelson M, Reuter K. The significant cost of systematic reviews and meta-analyses: a call for greater involvement of machine learning to assess the promise of clinical trials. Contemp Clin Trials Commun. 2019;16:100443. https://doi.org/10.1016/j.conctc.2019.100443.
  4. Scott AM, Glasziou P, Clark J. We extended the 2-week systematic review (2weekSR) methodology to larger, more complex systematic reviews: a case series. J Clin Epidemiol. 2023;157:112-9. https://doi.org/10.1016/j. jclinepi.2023.03.007.
  5. Tufanaru C, Surian D, Scott AM, Glasziou P, Coiera E. The 2-week systematic review (2weekSR) method was successfully blind-replicated by another team: a case study. J Clin Epidemiol. 2024;165. https://doi.org/10. 1016/j.jclinepi.2023.10.013.
  6. Beller E, Clark J, Tsafnat G, Adams C, Diehl H, Lund H, et al. Making progress with the automation of systematic reviews: principles of the International Collaboration for the Automation of Systematic Reviews (ICASR). Syst Rev. 2018;7(1):77. https://doi.org/10.1186/s13643-018-0740-7.
  7. Tsafnat G, Glasziou P, Choong MK, Dunn A, Galgani F, Coiera E. Systematic review automation technologies Syst Rev. 2014;3:74. https://doi.org/10. 1186/2046-4053-3-74.
  8. Qi X, Yang M, Ren W, Jia J, Wang J, Han G, et al. Find duplicates among the PubMed, EMBASE, and Cochrane Library Databases in systematic review. PLoS ONE. 2013;8(8):e71838. https://doi.org/10.1371/journal.pone. 00718 38.
  9. Bramer WM, Giustini D, de Jonge GB, Holland L, Bekhuis T. De-duplication of database search results for systematic reviews in EndNote. J Med Libr Assoc. 2016;104(3):240-3. https://doi.org/10.3163/1536-5050.104.3.014.
  10. McKeown S, Mir ZM. Considerations for conducting systematic reviews: evaluating the performance of different methods for deduplicating references. Syst Rev. 2021;10(1):38. https://doi.org/10.1186/ s13643-021-01583-y.
  11. IEBH. The Systematic Review Accelerator. 2018. https://sr-accelerator.com. Accessed 11 Nov 2022.
  12. IEBH. Deduplicator GitHub Repository. 2020. https://github.com/IEBH/ dedupe-sweep. Accessed 11 Nov 2022.
  13. Winkler W. String comparator metrics and enhanced decision rules in the Fellegi-Sunter model of record linkage. Proceedings of the Section on Survey Research Methods. American Statistical Association. Alexandri: American Statistical Association; 1990. Avaliable at: https://eric.ed.gov/? id=ED325505.
  14. Lorentzen , Davis , Penninga . Interventions for frostbite injuries. Cochrane Database Syst Rev. 2020;12(12):CD012980. https://doi.org/10. 1002/14651858.CD012980.pub2.
  15. Alabed , Sabouni A, Al Dakhoul S, Bdaiwi Y. Beta-blockers for congestive heart failure in children. Cochrane Database Syst Rev. 2020;7(7):CD007037. https://doi.org/10.1002/14651858.CD007037.pub4.
  16. Dawson JA, Summan R, Badawi N, Foster JP. Push versus gravity for intermittent bolus gavage tube feeding of preterm and low birth weight infants. Cochrane Database Syst Rev. 2021;8(8):CD005249. https://doi.org/ 10.1002/14651858.CD005249.pub3.
  17. Wiffen PJ, Cooper TE, Anderson AK, Gray AL, Grégoire MC, Ljungman G, et al. Opioids for cancer-related pain in children and adolescents. Cochrane Database Syst Rev. 2017;7(7):CD012564. https://doi.org/10. 1002/14651858.CD012564.pub2.
  18. Kamath MS, Mascarenhas M, Kirubakaran R, Bhattacharya S. Number of embryos for transfer following in vitro fertilisation or intra-cytoplasmic sperm injection. Cochrane Database Syst Rev. 2020;8(8):CD003416. https://doi.org/10.1002/14651858.CD003416.pub5.
  19. Ghobara T, Gelbaya TA, Ayeleke RO. Cycle regimens for frozen-thawed embryo transfer. Cochrane Database Syst Rev. 2017;7(7):CD003414. https://doi.org/10.1002/14651858.CD003414.pub3.
  20. Bennett MH, Feldmeier J, Smee R, Milross C. Hyperbaric oxygenation for tumour sensitisation to radiotherapy. Cochrane Database Syst Rev. 2018;4(4):CD005007. https://doi.org/10.1002/14651858.CD005007.pub4.
  21. Hannon CW, McCourt C, Lima HC, Chen S, Bennett C. Interventions for cutaneous disease in systemic lupus erythematosus. Cochrane Database Syst Rev. 2021;3(3):CD007478. https://doi.org/10.1002/14651858.CD007 478.pub2.
  22. Roberts KE, Rickett K, Feng S, Vagenas D, Woodward NE. Exercise therapies for preventing or treating aromatase inhibitor-induced musculoskeletal symptoms in early breast cancer. Cochrane Database Syst Rev. 2020;1(1):CD012988. https://doi.org/10.1002/14651858.CD012988.pub2.
  23. Jaschinski T, Mosch CG, Eikermann M, Neugebauer EA, Sauerland S. Laparoscopic versus open surgery for suspected appendicitis. Cochrane Database Syst Rev. 2018;11(11):CD001546. https://doi.org/10.1002/14651 858.CD001546.pub4.
  24. Rathbone J, Carter M, Hoffmann T, Glasziou P. Better duplicate detection for systematic reviewers: evaluation of Systematic Review AssistantDeduplication Module. Syst Rev. 2015;4(1). https://doi.org/10.1186/ 2046-4053-4-6.
  25. Guimarães NS, Ferreira AJF, Ribeiro Silva RdC, de Paula AA, Lisboa CS, Magno L, et al. Deduplicating records in systematic reviews: there are free, accurate automated ways to do so. J Clin Epidemiol. 2022;152:110115. https://doi.org/10.1016/j.jclinepi.2022.10.009.
  26. Borissov N, Haas Q, Minder B, Kopp-Heim D, von Gernler M, Janka H, et al. Reducing systematic review burden using Deduklick: a novel, automated, reliable, and explainable deduplication algorithm to foster medical research. Syst Rev. 2022;11. https://doi.org/10.1186/s13643-022-02045-9.

ملاحظة الناشر

تظل Springer Nature محايدة فيما يتعلق بالمطالبات القضائية في الخرائط المنشورة والانتماءات المؤسسية.

  1. *المراسلة:
    كونور فوربس
    cforbes@bond.edu.au
    معهد الرعاية الصحية المستندة إلى الأدلة، جامعة بوند، جولد كوست، أستراليا

Journal: Systematic Reviews, Volume: 13, Issue: 1
DOI: https://doi.org/10.1186/s13643-024-02619-9
PMID: https://pubmed.ncbi.nlm.nih.gov/39095913
Publication Date: 2024-08-02

Automation of duplicate record detection for systematic reviews: Deduplicator

Connor Forbes ( , Hannah Greenwood , Matt Carter and Justin Clark

Abstract

Background To describe the algorithm and investigate the efficacy of a novel systematic review automation tool “the Deduplicator” to remove duplicate records from a multi-database systematic review search. Methods We constructed and tested the efficacy of the Deduplicator tool by using 10 previous Cochrane systematic review search results to compare the Deduplicator’s ‘balanced’ algorithm to a semi-manual EndNote method. Two researchers each performed deduplication on the 10 libraries of search results. For five of those libraries, one researcher used the Deduplicator, while the other performed semi-manual deduplication with EndNote. They then switched methods for the remaining five libraries. In addition to this analysis, comparison between the three different Deduplicator algorithms (‘balanced’, ‘focused’ and ‘relaxed’) was performed on two datasets of previously deduplicated search results.

Results Before deduplication, the mean library size for the 10 systematic reviews was 1962 records. When using the Deduplicator, the mean time to deduplicate was 5 min per 1000 records compared to 15 min with EndNote. The mean error rate with Deduplicator was 1.8 errors per 1000 records in comparison to 3.1 with EndNote. Evaluation of the different Deduplicator algorithms found that the ‘balanced’ algorithm had the highest mean F1 score of 0.9647. The ‘focused’ algorithm had the highest mean accuracy of 0.9798 and the highest recall of 0.9757 . The ‘relaxed’ algorithm had the highest mean precision of 0.9896 . Conclusions This demonstrates that using the Deduplicator for duplicate record detection reduces the time taken to deduplicate, while maintaining or improving accuracy compared to using a semi-manual EndNote method. However, further research should be performed comparing more deduplication methods to establish relative performance of the Deduplicator against other deduplication methods.

Keywords Deduplication, Systematic review, Duplicate article, Duplicate record, Searching, Automatic

Background

Systematic reviews are considered the best way to answer a research question using synthesised data; however, they can require a substantial investment of time and resources [1,2]. On average, they take 67 weeks and cost USD $141,000 [3]. However, there are cases of systematic
reviews being performed in 11 workdays by using a modified methodology that utilises systematic review automation tools . These systematic review automation tools have been developed with the goal of improving the speed of systematic reviews without compromising their rigour and quality [6].
One of the initial key tasks to conduct a systematic review is to find all potentially relevant studies by searching across multiple databases [7]. Due to the same journals being indexed in multiple databases, large numbers of duplicate records are frequently returned. Before the records can be assessed for relevance by reviewers (a
process called screening), the duplicate records must be removed. This process is referred to as deduplication.
There are multiple methods to deduplicate records retrieved from searching for systematic reviews. One method of deduplication utilised by researchers is to use a semi-manual method, combining software such as EndNote with human checking, although this method is still prone to errors [8]. Despite deduplication being a routine task in systematic reviews, there is little consensus about the best method of deduplication [8]. Although there have been attempts to standardise semi-manual deduplication methods, they rely on the steps being applied consistently and are limited to certain reference management software (e.g. EndNote) [9]. There has also been a growth in the number of fully automated tools that can deduplicate without any human involvement [10]. One limitation of these tools is that they are often tied to proprietary software and are often closed-source, meaning that the internal workings of these algorithms are largely unknown.
To address these issues around deduplication, we have designed an automation tool, the Deduplicator, available via the Systematic Review Accelerator (SRA) [11]. The Deduplicator is a free, open access, tool with a user interface that allows users to review all decisions and exports in multiple file formats allowing it to be used across different reference management software platforms. This paper has 2 objectives: (1) describe the algorithms the Deduplicator uses to detect duplicates and (2) report time and error (e.g. unique studies removed and missed duplicates) comparisons between the Deduplicator and EndNote for 10 sets of systematic review search results.

Methods

Development of the Deduplicator

Work on the Deduplicator began in June 2021, with the goal of making the deduplication of systematic review search results fast, easy and transparent. The initial design focused on replicating the semi-manual method used by the authors at the Institute for Evidence-Based Healthcare (IEBH) (i.e. using the “Find Duplicates” function in EndNote, with multiple iterations of different matches across fields). The full IEBH deduplication method is available in the supplementary materials (Supplement 1). The initial deduplication algorithm was designed on a set of five deduplicated EndNote libraries obtained from reviews published by researchers at IEBH. After internal testing on the Alpha version of the Deduplicator, the Beta version was released. In August 2021, feedback from expert information specialists was sought by emailing information and a link to the Deduplicator to the US Medical Library Association’s (MLA) expertsearching email list. Feedback from multiple users was provided and incorporated into the
Deduplicator. The production version of the Deduplicator was then officially released in November 2021. Since its release the Deduplicator has been accessed thousands of times.

Development of the deduplication algorithm

The initial algorithm used in the Alpha version of the Deduplicator was developed using a training dataset of five deduplicated EndNote libraries. These EndNote libraries were constructed from previous systematic reviews performed at the IEBH. These libraries were independently deduplicated manually in EndNote by two authors (JC and HG). Any differences between the two deduplicated libraries were then resolved by discussion and consensus between the authors. The development dataset is available via the IEBH/dedupe-sweep GitHub repository [12].
During development the deduplication algorithms were measured using four values:
1 True positive is the number of correctly identified duplicate records
2 True negative is the number of correctly identified unique records
3 False positive is the number of unique records identified as a duplicate
4 False negative is the number of duplicate records identified as a unique record
These values used to calculate four metrics:
1 Accuracy: provides the total number of mistakes in the deduplication process (Eq. 1)
2 Precision: provides the number of unique studies incorrectly removed in the deduplication process (Eq. 2)
3 Recall: provides the number of duplicates missed in the deduplication process (Eq. 3)
4 F1 score: combines recall and precision metrics and represents the overall performance of the model (Eq. 4)
The equations for calculating these metrics are:
The first algorithm (‘balanced’) started as a modified version of the IEBH deduplication method (Supplement 1 ). Following this, small modifications were iteratively made to the algorithm. These changes were then evaluated on all five libraries to evaluate if the newly modified algorithm achieves a higher accuracy/precision/recall/ F1 score. Eventually, an algorithm was converged which achieved a high accuracy and precision. This algorithm was labelled the ‘balanced’ algorithm, and it is the algorithm that was used in the evaluation study presented in the results of this paper. After the completion of the evaluation, further improvements were made to the algorithm to optimise for either high precision or recall. This produced two improved algorithms (‘relaxed’ and ‘focused’). The ‘relaxed’ algorithm is designed to minimise the number of false positives making it suitable for large libraries of records (> 2000 records) as human checking is less necessary. The ‘focused’ algorithm is designed to minimise the number of false negatives making it suitable for small libraries of records (< 2000 records). The results of these evaluations on the development set of libraries (without human checking) can be found in (Table 5).
Along with each algorithm, a set of mutators are specified at the top of the configuration file. These play a key role as they aim to unify differences between fields in each database. For instance, an author rewrite mutator will unify the different ways of writing author names (e.g. ‘John Smith’ vs ‘Smith, J’ vs ‘J. Smith’). An alphanumeric mutator will attempt to resolve differences in Unicode characters between articles and a page number mutator will unify differences between the page numbering systems (e.g. ‘356-357’ vs ‘356-7’). Unicode characters can differ across languages therefore the mutator is needed to standardise them, e.g. changing the author names Rolečková or Hammarström to Roleckova or Hammarstrom. A full table of mutators and what they do can be found in the supplementary materials (Supplement 2). These mutators are applied before deduplication and hence the process of applying all mutators will be referred to as pre-processing.

How the Deduplicator algorithm identifies duplicate records

The Deduplicator works over multiple iterations. For each iteration, multiple fields are specified, along with a primary ‘sort’ field which is used for the initial sort. A comparison method is also specified for each iteration (exact match or Jaro-Winkler similarity [13]). The exact match comparison method only marks a field as matching if the two strings of text match exactly. The JaroWinkler comparison method on the other hand returns
a value between zero and one based on how closely the strings match. The algorithm works as below:
1 Apply pre-processing mutators to records to ensure they are consistently formatted (Supplement 2)
2 For each ‘step’ specified in the algorithm (Supplement 3):
(a) Sort the list of records based on the specified ‘sort’ field (e.g. “title”)
(b) Split the records into separate sub-groups based on matching entries for the specified ‘sort’ field (e.g. If “title”, all records with a title of “Automation of Duplicate Record Detection for Systematic Reviews” will be grouped together)
(c) Calculate the similarity score for every combination of records inside the sub-group
3 Once all ‘steps’ inside the algorithm have been performed, take an average of the similarity scores calculated for each combination of records
4 If two records have an average similarity score greater than a threshold (e.g. 0.01), the two records are marked as duplicates
Using the base algorithm, deduplication algorithms can be defined in configuration files, which specify each iteration, along with what fields should be compared, what field the records should be sorted by and what comparison method to use. The full code for each deduplication method is provided in the supplementary materials (Supplement 3).
As an example, for the ‘balanced’ algorithm, initially the pre-processing is applied. This would include processes such as converting all title characters to lower case, removing all spaces and any non-alpha-numeric characters. Hence the title “Automation of Duplicate Record Detection for Systematic Reviews” would become “automationofduplicaterecorddetectionforsystematicreviews”.
Next, the first ‘step’ of the algorithm specifies the ‘sort’ field as “title”. This means that all records are sorted and then split into subgroups based on matching titles. The ‘fields’ for this step are specified as “title” and “volume”. Because the ‘comparison’ is specified to be “exact”, both the title and volume of the record need to exactly match to give a similarity score of 1 . If any of the fields do not exactly match (including one of the fields being missing), then the similarity score will be 0 .
The scores are then calculated in the same way for the four other ‘steps’ specified in the ‘balanced’ algorithm. The five scores (which were calculated at each step) are then averaged to give a final similarity score for each combination of records. If the averaged similarity score is
greater than 0.01 , then the two records are presumed to be duplicates.
The mean similarity score is also used to classify how likely it is that two records are duplicates. A score greater than or equal to 0.9 will put duplicate records in the “Extremely Likely Duplicates” group. A score greater than or equal to 0.7 will put duplicate records in the “Highly Likely Duplicates” group. Any score less than 0.7 but greater than 0.01 will put the duplicates in the “Likely Duplicates” group. These score thresholds are arbitrarily chosen after testing against various duplication scenarios. These scores were found to be ideal for their relative groups, such that the “Extremely Likely Duplicates” and “Highly Likely Duplicates” groups are very unlikely to contain any unique records (false positives).
Further information and the code for the algorithm is available via the IEBH/dedupe-sweep GitHub repository [12].

Evaluation of the Deduplicator

The Deduplicator was evaluated by two screeners (HG and JC) using search results from a set of 10 randomly selected Cochrane reviews. To avoid any confounding from a learning effect, we used a cross-over, paired design where person one would deduplicate the search results using EndNote, while person two would deduplicate using the Deduplicator. They would then switch methods, so person one would deduplicate the next set of search results using the Deduplicator and person two would deduplicate using EndNote. The time taken to deduplicate the search results and the numbers of removed unique studies and missed duplicates were compared.

Definition of a duplicate record

There is currently a lack of an agreed upon definition of what is a duplicate record. For our study we have defined a duplicate as the same article published in the same place, while the same article published in a different place is not a duplicate. An example of this is the PRISMA statement which was published in multiple journals.
These are duplicates:
  • Preferred reporting items for systematic reviews and meta-analyses: the PRISMA statement. Moher D, Liberati A, Tetzlaff J, Altman DG; PRISMA Group. J Clin Epidemiol. 2009 Oct;62(10):1006-12. doi: 10.1016/j.jclinepi. 2009 . 06.005
  • Preferred Reporting Items for Systematic Reviews and Meta-Analyses: The PRISMA Statement. Moher, D., Liberati, A., Tetzlaff, J., Altman, D. G. (2009). Journal of Clinical Epidemiology, 62(10), 1006-1012. https://doi.org/10.1016/j.jclinepi.2009.06.005
  • Moher D, Liberati A, Tetzlaff J, Altman DG. Preferred reporting items for systematic reviews and meta-analyses: the PRISMA statement. J Clin Epidemiol. 2009;62(10):1006-1012. doi:10.1016/j. jclinepi.2009.06.005
These are not duplicates:
  • Preferred reporting items for systematic reviews and meta-analyses: the PRISMA statement. Moher D, Liberati A, Tetzlaff J, Altman DG; PRISMA Group.Int J Surg. 2010;8(5):336-41. doi: 10.1016/j. ijsu.2010.02.007
  • Preferred reporting items for systematic reviews and meta-analyses: the PRISMA statement. Moher D, Liberati A, Tetzlaff J, Altman DG; PRISMA Group.J Clin Epidemiol. 2009 Oct;62(10):1006-12. doi: 10.1016/j.jclinepi. 2009 . 06.005
  • Preferred reporting items for systematic reviews and meta-analyses: the PRISMA statement. Moher D, Liberati A, Tetzlaff J, Altman DG; PRISMA Group. BMJ. 2009 Jul 21;339:b2535. doi: 10.1136/bmj.b2535

Selection of systematic reviews to be deduplicated

To ensure an unbiased sample of search results to be used, we randomly selected 10 Cochrane reviews published in the last 5 years (January 2017-September 2021). To randomly select the systematic reviews, the following search string was run in PubMed; “Cochrane Database Syst Rev[Journal] AND 2017:2021[pdat]”. Then, a random number was generated using the Google random number generator. This number was between one and the total number of search results found (e.g. if 5000 results were found, the random number was set to be between one and 5000). The search result that then corresponded to the random number generated was checked to ensure it meets the inclusion criteria. This continued until 10 Cochrane reviews were identified.

Inclusion criteria of the systematic reviews

To be selected and used in the study, the search strategy in the Cochrane review had to meet the following criteria:
  • All search strings for all databases needed to be reported in the review
  • The number of databases searched in the review had to be two or more
  • The total number of search results found by the combination of all search strings had to be between 500 and 10,000 records
The decision to limit search results to 500 to 10,000 was to reduce variability between samples to be deduplicated and to ensure they were representative of a typical systematic review which have a median size of 1781 records [1].

Obtaining the sample to be deduplicated

After 10 eligible systematic reviews were selected, their searches for all bibliographic databases were run and the results exported and collated in EndNote. No date or language limits were applied, and searches of specialised registers, trial registries and grey literature were excluded.

Deduplication of search results

Two screeners (HG and JC) independently deduplicated 10 sets of search results. HG is a research assistant (now PhD candidate) with 2 years’ experience with systematic reviews but with no experience deduplicating search results. JC is an information specialist with over 15 years’ experience with systematic reviews and deduplicating. HG screened the odd numbered sets of search results using EndNote (1, 3, 5, 7 and 9) then screened the even numbered sets with the Deduplicator ( and 10). JC screened the even numbered sets with EndNote (2, 4, 6, 8 and 10) and the odd numbered sets with the Deduplicator (1, 3, 5, 7 and 9) (Table 1). EndNote deduplication is defined as using the IEBH EndNote deduplication method (Supplement 1), while Deduplicator is the solution discussed in this paper. In the Deduplicator, the Beta algorithm (referred to as the ‘balanced’ algorithm) was used.

Validation of deduplication

To identify errors (i.e. a duplicate mistakenly marked as non-duplicate, and vice versa), the screener’s libraries were compared. This was done once all 10 sample sets
had been deduplicated. Any discrepancies were manually checked and verified by consensus between two authors (HG and CF). This produced a final “correctly deduplicated” EndNote library for each sample set. This enabled the identification of errors from each screeners’ library, with an incorrectly removed unique article labelled a “false positive”, while a duplicate which was incorrectly missed was labelled as a “false negative”.

Outcomes

We evaluated the Deduplicator by four outcomes:
1 Time required to deduplicate: each screener recorded how long it took to perform deduplication on each library in minutes using a phone timer. The screener started the timer from when the file was first open and stopped the timer when they were satisfied that all duplicates were identified
2 Unique studies removed/False positives: the number of records in the library the screener classified as a duplicate when they were a unique record
3 Duplicates missed/False negatives: the number of records in the library the screener classified as a unique record when it was a duplicate record
4 Total errors: (false positives + false negatives)

Comparison between Deduplicator algorithms

In addition to testing the five development libraries against each Deduplicator algorithm (‘balanced’, ‘focused’ and ‘relaxed’), we also performed an additional head-tohead evaluation between the three Deduplicator algorithms taking a dataset from a previous deduplication study by Rathbone et al. [24]. This dataset contains four sets of search results from studies related to: cytologyscreening, haematology, respiratory and stroke. The full breakdown of the dataset is provided in Table 2. All
Table 1 Assignment of EndNote vs Deduplicator methods between researchers
Set no. Systematic review (author year) Number of records Hannah Greenwood Justin Clark
1 Lorentzen 2020 [14] 813 EndNote Deduplicator
2 Alebed 2020 [15] 1479 Deduplicator EndNote
3 Dawson 2021 [16] 3912 EndNote Deduplicator
4 Wiffen 2017 [17] 1028 Deduplicator EndNote
5 Kamath 2020 [18] 1785 EndNote Deduplicator
6 Ghobara 2017 [19] 1807 Deduplicator EndNote
7 Bennett 2018 [20] 2111 EndNote Deduplicator
8 Hannon 2021 [21] 1061 Deduplicator EndNote
9 Roberts 2020 [22] 3181 EndNote Deduplicator
10 Jaschinski 2018 [23] 2447 Deduplicator EndNote
three algorithms were run as is, meaning that there was no manual checking by a human as there was in the EndNote comparison.
Like with the development libraries, accuracy, precision, recall and F1 score were the four measures used for comparison between the Deduplicator algorithms. A high precision score indicates that few unique studies were identified as duplicates. A high recall score indicates that very few duplicate studies were incorrectly classified as unique studies. F1 score is a combination score of both precision and recall. The formula for these measures are presented in Eqs. 2, 3 and 4.

Results

Time taken to deduplicate

The mean size of the sample sets was 1962 records (range: 813 to 3912 ). The mean time required to deduplicate the sample sets with the Deduplicator was 8 min (range: 4 to 20 min ) compared to a mean time of 27 min (range 6 to using the semi-manual EndNote method. This equates to a mean time reduction of when deduplicating search results (Fig. 1).
Table 2 Breakdown of dataset used for comparison of Deduplicator algorithms [24]
Study Number of records Number of duplicates Number of unique studies
Cytology screening 1856 1404 452
Haematology 1415 246 1169
Respiratory 1988 799 1189
Stroke 1292 507 785

Number of errors

The mean number of errors when using the Deduplicator was 3.3 (range: 0 to 7 ), while the mean number of errors when using EndNote was 6.2 (range: 0 to 16 ). The mean error rate for screeners using Deduplicator was less compared to EndNote (Table 3).
The mean number of unique studies removed was 1.5 (range: 0 to 3 ) with the Deduplicator and 3.3 (range: 0 to 12) with EndNote. The mean number of duplicates missed was 1.8 (range: 0 to 5 ) with the Deduplicator and 2.9 (range: 0 to 8 ) with EndNote (Table 3)

Normalised time and error rates

In order to reduce the bias of large libraries on the mean measurements for time and error rate, here we normalise each of the systematic reviews to be measured per 1000 records deduplicated. The mean time to deduplicate 1000 records was 5 min with Deduplicator compared to 15 min with EndNote (Table 4). The mean time to deduplicate 1000 records using Deduplicator is less than EndNote. The mean number of errors per 1000 records was 1.8 with Deduplcicator compared to 3.1 with EndNote (Table 4). The mean number of errors per 1000 records is less with Deduplicator compared to EndNote.

Analysis between screeners

All measurements in this section are normalised to be measured per 1000 records deduplicated, to negate the difference in mean library size between screeners. The mean time for the experienced screener (JC) was 3 records (range: 2 to 5 min ) using the Deduplicator and records (range: 6 to 13 min ) using EndNote. The mean time for the inexperienced screener
Fig. 1 Time taken to deduplicate every systematic review with each method
Table 3 Comparison of number of errors for each library
Systematic review Total records Deduplicator EndNote
Unique studies removed Duplicates missed Total errors Unique studies removed Duplicates missed Total errors
Lorentzen 2020 813 0 0 0 1 1 2
Alebed 2020 1479 1 5 6 5 3 8
Dawson 2021 3912 2 0 2 2 5 7
Wiffen 2017 1028 1 0 1 0 0 0
Kamath 2020 1785 0 2 2 1 1 2
Ghobara 2017 1807 2 4 6 3 2 5
Bennett 2018 2111 1 2 3 2 2 4
Hannon 2021 1061 3 0 3 2 3 5
Roberts 2020 3181 3 0 3 12 4 16
Jaschinski 2018 2447 2 5 7 5 8 13
Mean 1962.4 1.5 1.8 3.3 3.3 2.9 6.2
Table 4 Time to deduplicate and error rate per 1000 records
Systematic review Time per 1000 records (minutes) Total errors per 1000 records
Deduplicator EndNote Deduplicator EndNote
Lorentzen 2020 5 37 0.0 2.5
Alebed 2020 10 10 4.1 5.4
Dawson 2021 2 19 0.5 1.8
Wiffen 2017 9 7 1.0 0.0
Kamath 2020 2 20 1.1 1.1
Ghobara 2017 4 13 3.3 2.8
Bennett 2018 2 17 1.4 1.9
Hannon 2021 5 6 2.8 4.7
Roberts 2020 3 5 0.9 5.0
Jaschinski 2018 8 11 2.9 5.3
Mean 5 15 1.8 3.1
(HG) was records (range: 4 to 9 min ) using the Deduplicator and records (range: 5 to 37 min) using EndNote (Fig. 2).
The experienced systematic reviewer (JC) when using the Deduplicator had a mean error rate of 0.8 per 1000 records. Using EndNote, JC had a mean error rate of 3.6 per 1000 records (Fig. 3). The inexperienced systematic reviewer (HG) when using the Deduplicator had a mean error rate of 2.8 per 1000 records. When using EndNote, HG had a mean error rate of 2.5 per 1000 records (Fig. 3).

Comparison between Deduplicator algorithms

Testing against the 5 development libraries of records showed the focused algorithm achieved the highest mean recall of 0.9999 and the highest overall F1 score of 0.9966 . The ‘relaxed’ algorithm achieved the highest mean precision of 0.9996 (Table 5).
Fig. 2 Mean time taken for each screener to deduplicate 1000 records
Fig. 3 Mean number of total errors per 1000 records for each screener
Expanding this analysis to the unseen dataset taken from the study performed by Rathbone et al. [24] shows similar results. The ‘balanced’ algorithm had the highest mean F1 score of 0.9647, although ‘focused’ is not far behind at 0.9645 . ‘Focused’ has the highest mean recall of 0.9757 while the ‘relaxed’ algorithm has the highest mean precision of 0.9896 (Table 6).

Discussion

After the development and validation of the Deduplicator, we conducted a study to compare Deduplicator to a manual EndNote method on outcomes of time taken to deduplicate and number of errors made. We found the Deduplicator reduced the mean time needed to deduplicate by approximately , from 15 min per 1000 records with EndNote to 5 min with Deduplicator (Table 4). We also found that fewer mistakes were made, with a mean error reduction of approximately , from 3.1 errors per 1000 records with EndNote to 1.8 with Deduplicator (Table 4). Although this was only a small study (with two participants and 10 sets of search results deduplicated), it provides preliminary evidence that using the Deduplicator is superior to the widely-used method of deduplicating using EndNote, on outcomes of time and error rate.
When using the Deduplicator, the error rates for JC were substantially lower compared to HG with 0.8 errors vs 2.8 errors per 1000 records respectively (Fig. 3). One explanation for this is the difference in experience levels between the screeners. One of the screeners ( HG ) is new to systematic reviews and had minimal experience deduplicating search results, while the other (JC) has years’ of experience and has deduplicated many sets of search results. This may facilitate JC to be better at accurately spotting duplicates compared to HG. However, for the EndNote deduplication method, HG had a lower error rate compared to JC with 2.5 vs 3.6 errors per 1000
Table 5 Accuracy, precision, recall and F1 score for each of the Deduplicator algorithms on the development libraries
Algorithm Study Accuracy Precision Recall F1 score
Balanced Blue light 0.9989 1.0000 0.9979 0.9990
Balanced Copper 0.9822 0.9892 0.9786 0.9839
Balanced Diabetes 0.9909 0.9890 0.9919 0.9904
Balanced Tafenoquine 0.9888 1.0000 0.9825 0.9912
Balanced UTI 1.0000 1.0000 1.0000 1.0000
Focused Blue light 1.0000 1.0000 1.0000 1.0000
Focused Copper 0.9941 0.9894 1.0000 0.9947
Focused Diabetes 0.9913 0.9823 0.9997 0.9909
Focused Tafenoquine 1.0000 1.0000 1.0000 1.0000
Focused UTI 0.9981 0.9950 1.0000 0.9975
Relaxed Blue light 0.9977 1.0000 0.9958 0.9979
Relaxed Copper 0.9921 1.0000 0.9858 0.9928
Relaxed Diabetes 0.9934 0.9982 0.9878 0.9930
Relaxed Tafenoquine 0.9944 1.0000 0.9912 0.9956
Relaxed UTI 0.9799 1.0000 0.9475 0.9730
Balanced Mean 0.9921 0.9956 0.9902 0.9929
Focused Mean 0.9967 0.9934 0.9999 0.9966
Relaxed Mean 0.9915 0.9996 0.9816 0.9905
records respectively (Fig. 3). This may be explained by the extra time that HG took when deduplicating using EndNote compared to JC, where HG took 20 min per 1000 records compared to 9 for JC (Fig. 1). The error rate for Deduplicator and EndNote were similar for HG, however Deduplicator facilitated much faster screening for HG, reducing the time to screen from 20 min per 1000 records to 7 min per 1000 records (Fig. 1).
After the evaluation it became clear that the ‘balanced’ algorithm could be improved upon. Also, as usage of the Deduplicator increased, two different use cases emerged. There were users who wanted to duplicate libraries of
records without any manual check and those who wanted to be able to check each decision made by the Deduplicator. This led to the development of two algorithms, ‘relaxed’ and ‘focused’ which replaced the ‘balanced’ algorithm. When comparing algorithms, the ‘focused’ algorithm had the highest recall score, indicating it was the best at finding all duplicates; however, it has the lowest precision score which means that the results need to be checked. The ‘relaxed’ algorithm had the highest precision, meaning it is unlikely to remove any unique studies; however, it has the lowest recall meaning that some duplicate studies will remain after deduplication (Tables 5 and 6). Therefore, we recommend the ‘relaxed’ algorithm for large libraries of records (> 2000 records), where people do not wish to check the results and the ‘focused’ algorithm for small libraries of records (< 2000 records) as this is a feasible number to check manually. These numbers may change depending on the time constraints of the individual study.
In addition to the tools investigated here (EndNote and Deduplicator), there are multiple other tools to help with deduplication. Generally, they are built into database platforms (e.g. Ovid or EBSCO), reference management
Table 6 Accuracy, precision, recall and F1 score for each of the Deduplicator algorithms on the Rathbone et al. dataset [24]
Algorithm Study Accuracy Precision Recall F1 score
Balanced Cytologyscreening 0.9758 0.9836 0.9843 0.9840
Balanced Haematology 0.9696 0.9177 0.9065 0.9121
Balanced Respiratory 0.9819 0.9823 0.9725 0.9774
Balanced Stroke 0.9884 0.9824 0.9882 0.9853
Focused Cytologyscreening 0.9790 0.9789 0.9936 0.9862
Focused Haematology 0.9654 0.8774 0.9309 0.9034
Focused Respiratory 0.9864 0.9801 0.9862 0.9832
Focused Stroke 0.9884 0.9786 0.9921 0.9853
Relaxed Cytologyscreening 0.9763 0.9885 0.9801 0.9843
Relaxed Haematology 0.9710 0.9812 0.8496 0.9107
Relaxed Respiratory 0.9779 0.9948 0.9499 0.9718
Relaxed Stroke 0.9853 0.9939 0.9684 0.9810
Balanced Mean 0.9789 0.9665 0.9629 0.9647
Focused Mean 0.9798 0.9538 0.9757 0.9645
Relaxed Mean 0.9776 0.9896 0.9370 0.9619
software (e.g. EndNote, Mendeley or Zotero) or systematic review software (e.g. Rayyan or Covidence). The primary advantage of Deduplicator compared to other tools listed here is that it is fully open-source, free to use and not connected to any existing reference management
software or database platforms. However, unlike some tools such as Covidence, Deduplicator requires exporting the library from a reference manager and then importing the result back into the reference manager or screening tool to continue with screening. While this is something that is being worked on, some users may find it undesirable to move their records between different tools.
A study conducted by Guimarães et al. [25] evaluated five different tools for deduplication: EndNote X9, Mendeley, Zotero, Rayyan and the Deduplicator (listed in the study as SRA). The results of this study found that specificity, or the proportion of non-duplicates correctly identified as such, was best in Mendeley and the Deduplicator, with both achieving a 1.00 score. It also found that sensitivity, or the ability to correctly identify duplicates, was highest for Rayyan, Mendeley and the Deduplicator. The study found that Rayyan had 35.1 errors per 1000 records, Zotero had 23.8, EndNote had 17.7, Mendeley had 3.3 and the Deduplicator had 2.5 errors per 1000 records. This study suggests that Deduplicator has the lowest error rate and is consistent with the results obtained from our study of 1.8 errors per 1000 records (Table 4).
Another study published by McKeown et al. [10] evaluated some other commonly used deduplication tools. The study found that the number of errors was lowest when using the Ovid database platform, with 90 errors ( 28.8 per 1000 records). This is not suitable for most reviewers as it requires all searches to be run in Ovid databases (e.g. if you use PubMed or CINAHL this method is not usable). The systematic review software performed next best with Rayyan having 101 errors ( 32.3 per 1000 records) and Covidence with 122 errors ( 39.0 per 1000 records). Finally, the reference management software performed worst with Mendeley having 212 errors (67.7 per 1000 records), Zotero having 619 (197.8 per 1000 records) and EndNote having 739 (236.1 per 1000 records). However, the results for the EndNote method from this study can’t be directly compared to our results as their study used the default EndNote algorithm with no manual human check.
It is also worth mentioning another recent deduplication tool, “Deduklick”. In research conducted by Borissov et al. [26] Deduklick achieved an impressive mean recall of with precision. While our study design does not allow for direct precision or recall calculations, it would be worthwhile for future comparative research to investigate performance of Deduklick vs other deduplication methods.

Limitations

One of the limitations of the study is the discrepancy in experience between the two authors. For example, in
the “Wiffen, 2017” systematic review, the Deduplicator was slightly slower to deduplicate [HG] compared to the semi-manual EndNote method [JC]. JC’s extra experience probably facilitated quick, accurate semi-manual deduplication of the small Wiffen library faster than HG could achieve using the Deduplicator. This difference in deduplication speed/accuracy between authors is partially mitigated by the equal split of methods used by each author, but this does not eliminate this bias entirely. Despite this disparity, using the Deduplicator increased the speed with which both screeners could deduplicate sets of search results (Fig. 2). It could also be argued that Deduplicator will likely be used by researchers with a broad range of experience, and therefore having two types of screener experience level in this study makes it more representative of real world conditions.
A second limitation is the possibility that both authors made the same mistake, e.g. both missed the same duplicate record. This error would not show up in the results, as the errors were determined by comparing both screeners’ results. But, since deduplication was done separately by two people with the aid of a computer algorithm, we can be fairly confident this number is low. Also, as this is a comparison to determine which deduplication method was better, if neither had the error marked against them, this would not affect the comparison in errors made between the two methods.
Third, only the Beta, or ‘balanced’ algorithm was assessed in the direct comparison to EndNote. Since the completion of the study, the ‘balanced’ algorithm has been replaced by two new algorithms: the ‘relaxed’ and ‘focused’ algorithms. While these were not compared directly against EndNote, they were compared against the ‘balanced’ algorithm. The results for this analysis is presented in Table 6.
Fourth, as this is an efficacy trial using selected datasets, the real-world time-saving and error rate of the Deduplicator still needs to be evaluated.

Future research

Future work in this area will need to focus on two main areas, comparing the newest version of the Deduplicator to other deduplication tools on common datasets and performance in real world settings. Due to the difference in data, we could not directly compare our results to those reported in other studies, such as the study by Mckeown [10]. Therefore, plans are currently underway to collate a new set of search results, with all duplicates detected, to be used in a comparative study of all known and available deduplication tools. Once this second, experimental, study is complete, planning will begin to determine the effectiveness of the Deduplicator in a realworld setting.

Conclusion

This study demonstrates that using the Deduplicator for duplicate record detection reduces the time taken and errors made when compared to using a semi-manual EndNote method. The Deduplicator also allows an easier point of entry for new researchers to begin deduplicating, and it compares favourably with the error rates of other tools and methods.

Abbreviations

IEBH Institute for Evidence-Based Healthcare
SRA Systematic Review Accelerator

Supplementary Information

The online version contains supplementary material available at https://doi. org/10.1186/s13643-024-02619-9.
Additional file 1. A PDF with a complete guide to the IEBH deduplication process using EndNote.
Additional file 2. A PDF file with a table for the various Deduplicator mutators and a brief description of each.
Additional file 3. A PDF file representing the JSON code that is used for the deduplication comparison algorithm.

Acknowledgements

Dr. Henry Nguyen (Griffith University) provided general support and advice during writing of the manuscript.

Authors’ contributions

CF contributed code for the Deduplicator algorithm and was the primary contributor in writing the manuscript and interpreting the data. JC is responsible for the conception of the study design as well as the original draft of the manuscript abstract. JC and HG performed deduplication of the experimental libraries as well as providing substantial revisions to the manuscript. MC is responsible for the conception of the original Deduplicator algorithm, contributed to the code for Deduplicator and provided substantial revisions to the manuscript. All authors read and approved the final manuscript.

Funding

This research did not receive any specific grant from funding agencies in the public, commercial or not-for-profit sectors.

Availability of data and materials

The full code for Deduplicator including the development library datasets are available via the IEBH/dedupe-sweep GitHub repository [12]. The data that support the findings of this study are available from the corresponding author, CF, upon reasonable request.

Declarations

Not applicable.
Not applicable.

Competing interests

The authors of this study are responsible for the development of the Deduplicator and hence may present bias towards favourable findings. However, we encourage independent testing of the method and have made the code and testing datasets open-source and publicly available to be as transparent as possible and improve replicability.
Received: 22 June 2023 Accepted: 18 July 2024
Published online: 02 August 2024

References

  1. Borah R, Brown AW, Capers PL, Kaiser KA. Analysis of the time and workers needed to conduct systematic reviews of medical interventions using data from the PROSPERO registry. BMJ Open. 2017;7(2):e012545. https:// doi.org/10.1136/bmjopen-2016-012545.
  2. Murad MH, Asi N, Alsawas M, Alahdab F. New evidence pyramid. BMJ Evid-Based Med. 2016;21(4):125-7. https://doi.org/10.1136/ ebmed-2016-110401.
  3. Michelson M, Reuter K. The significant cost of systematic reviews and meta-analyses: a call for greater involvement of machine learning to assess the promise of clinical trials. Contemp Clin Trials Commun. 2019;16:100443. https://doi.org/10.1016/j.conctc.2019.100443.
  4. Scott AM, Glasziou P, Clark J. We extended the 2-week systematic review (2weekSR) methodology to larger, more complex systematic reviews: a case series. J Clin Epidemiol. 2023;157:112-9. https://doi.org/10.1016/j. jclinepi.2023.03.007.
  5. Tufanaru C, Surian D, Scott AM, Glasziou P, Coiera E. The 2-week systematic review (2weekSR) method was successfully blind-replicated by another team: a case study. J Clin Epidemiol. 2024;165. https://doi.org/10. 1016/j.jclinepi.2023.10.013.
  6. Beller E, Clark J, Tsafnat G, Adams C, Diehl H, Lund H, et al. Making progress with the automation of systematic reviews: principles of the International Collaboration for the Automation of Systematic Reviews (ICASR). Syst Rev. 2018;7(1):77. https://doi.org/10.1186/s13643-018-0740-7.
  7. Tsafnat G, Glasziou P, Choong MK, Dunn A, Galgani F, Coiera E. Systematic review automation technologies Syst Rev. 2014;3:74. https://doi.org/10. 1186/2046-4053-3-74.
  8. Qi X, Yang M, Ren W, Jia J, Wang J, Han G, et al. Find duplicates among the PubMed, EMBASE, and Cochrane Library Databases in systematic review. PLoS ONE. 2013;8(8):e71838. https://doi.org/10.1371/journal.pone. 00718 38.
  9. Bramer WM, Giustini D, de Jonge GB, Holland L, Bekhuis T. De-duplication of database search results for systematic reviews in EndNote. J Med Libr Assoc. 2016;104(3):240-3. https://doi.org/10.3163/1536-5050.104.3.014.
  10. McKeown S, Mir ZM. Considerations for conducting systematic reviews: evaluating the performance of different methods for deduplicating references. Syst Rev. 2021;10(1):38. https://doi.org/10.1186/ s13643-021-01583-y.
  11. IEBH. The Systematic Review Accelerator. 2018. https://sr-accelerator.com. Accessed 11 Nov 2022.
  12. IEBH. Deduplicator GitHub Repository. 2020. https://github.com/IEBH/ dedupe-sweep. Accessed 11 Nov 2022.
  13. Winkler W. String comparator metrics and enhanced decision rules in the Fellegi-Sunter model of record linkage. Proceedings of the Section on Survey Research Methods. American Statistical Association. Alexandri: American Statistical Association; 1990. Avaliable at: https://eric.ed.gov/? id=ED325505.
  14. Lorentzen , Davis , Penninga . Interventions for frostbite injuries. Cochrane Database Syst Rev. 2020;12(12):CD012980. https://doi.org/10. 1002/14651858.CD012980.pub2.
  15. Alabed , Sabouni A, Al Dakhoul S, Bdaiwi Y. Beta-blockers for congestive heart failure in children. Cochrane Database Syst Rev. 2020;7(7):CD007037. https://doi.org/10.1002/14651858.CD007037.pub4.
  16. Dawson JA, Summan R, Badawi N, Foster JP. Push versus gravity for intermittent bolus gavage tube feeding of preterm and low birth weight infants. Cochrane Database Syst Rev. 2021;8(8):CD005249. https://doi.org/ 10.1002/14651858.CD005249.pub3.
  17. Wiffen PJ, Cooper TE, Anderson AK, Gray AL, Grégoire MC, Ljungman G, et al. Opioids for cancer-related pain in children and adolescents. Cochrane Database Syst Rev. 2017;7(7):CD012564. https://doi.org/10. 1002/14651858.CD012564.pub2.
  18. Kamath MS, Mascarenhas M, Kirubakaran R, Bhattacharya S. Number of embryos for transfer following in vitro fertilisation or intra-cytoplasmic sperm injection. Cochrane Database Syst Rev. 2020;8(8):CD003416. https://doi.org/10.1002/14651858.CD003416.pub5.
  19. Ghobara T, Gelbaya TA, Ayeleke RO. Cycle regimens for frozen-thawed embryo transfer. Cochrane Database Syst Rev. 2017;7(7):CD003414. https://doi.org/10.1002/14651858.CD003414.pub3.
  20. Bennett MH, Feldmeier J, Smee R, Milross C. Hyperbaric oxygenation for tumour sensitisation to radiotherapy. Cochrane Database Syst Rev. 2018;4(4):CD005007. https://doi.org/10.1002/14651858.CD005007.pub4.
  21. Hannon CW, McCourt C, Lima HC, Chen S, Bennett C. Interventions for cutaneous disease in systemic lupus erythematosus. Cochrane Database Syst Rev. 2021;3(3):CD007478. https://doi.org/10.1002/14651858.CD007 478.pub2.
  22. Roberts KE, Rickett K, Feng S, Vagenas D, Woodward NE. Exercise therapies for preventing or treating aromatase inhibitor-induced musculoskeletal symptoms in early breast cancer. Cochrane Database Syst Rev. 2020;1(1):CD012988. https://doi.org/10.1002/14651858.CD012988.pub2.
  23. Jaschinski T, Mosch CG, Eikermann M, Neugebauer EA, Sauerland S. Laparoscopic versus open surgery for suspected appendicitis. Cochrane Database Syst Rev. 2018;11(11):CD001546. https://doi.org/10.1002/14651 858.CD001546.pub4.
  24. Rathbone J, Carter M, Hoffmann T, Glasziou P. Better duplicate detection for systematic reviewers: evaluation of Systematic Review AssistantDeduplication Module. Syst Rev. 2015;4(1). https://doi.org/10.1186/ 2046-4053-4-6.
  25. Guimarães NS, Ferreira AJF, Ribeiro Silva RdC, de Paula AA, Lisboa CS, Magno L, et al. Deduplicating records in systematic reviews: there are free, accurate automated ways to do so. J Clin Epidemiol. 2022;152:110115. https://doi.org/10.1016/j.jclinepi.2022.10.009.
  26. Borissov N, Haas Q, Minder B, Kopp-Heim D, von Gernler M, Janka H, et al. Reducing systematic review burden using Deduklick: a novel, automated, reliable, and explainable deduplication algorithm to foster medical research. Syst Rev. 2022;11. https://doi.org/10.1186/s13643-022-02045-9.

Publisher’s Note

Springer Nature remains neutral with regard to jurisdictional claims in published maps and institutional affiliations.

  1. *Correspondence:
    Connor Forbes
    cforbes@bond.edu.au
    Institute for Evidence-Based Healthcare, Bond University, Gold Coast, Australia