تقييم ومعايير المجتمع لاكتشاف الميكرو بروتينات غير المعلّمة بواسطة البروتيوميات المعتمدة على مطيافية الكتلة
Community benchmarking and evaluation of human unannotated microprotein detection by mass spectrometry based proteomics

المجلة: Nature Communications، المجلد: 17، العدد: 1
DOI: https://doi.org/10.1038/s41467-025-68002-x
PMID: https://pubmed.ncbi.nlm.nih.gov/41559053
تاريخ النشر: 2026-01-21
المؤلف: Aaron Wacholder وآخرون
الموضوع الرئيسي: تقنيات البروتيوميات المتقدمة وتطبيقاتها

نظرة عامة

يتناول هذا القسم من ورقة البحث تحديد إطارات القراءة المفتوحة القصيرة (sORFs) والميكروبروتينات المشفرة لها من خلال تقنيات البروتيوميات المعتمدة على مطيافية الكتلة (MS). يبرز المؤلفون التباين الكبير في عدد البروتينات البشرية غير الموصوفة المبلغ عنها عبر دراسات مختلفة، مع اختلافات تمتد عبر ثلاثة أوامر من الحجم. من بين ما يقرب من 10,000 ببتيد مشفر بواسطة sORF، كان 96% منها فريدة لدراسات فردية، و12% فقط تتوافق مع بروتينات أو بروتينات موصوفة.

علاوة على ذلك، قام المؤلفون بإجراء تنسيق يدوي لمجموعة بيانات مرجعية تتكون من 406 طيف تم تقييمها من 204 بروتينات مشفرة بواسطة sORF، مما يكشف عن اختلافات كبيرة في جودة مطابقة الطيف للببتيد (PSM). ومن الجدير بالذكر أن دراسات الإيمونوبيبتيدوميكس أسفرت عن PSMs عالية الجودة، حيث تم دعم حوالي 65% من اكتشافات البروتينات المشفرة بواسطة sORF عالية الجودة بواسطة PSMs عالية الجودة، مقارنة بـ 7.8% فقط في مجموعات بيانات غير الإيمونوبيبتيدوميكس. تؤكد النتائج على ضرورة وجود بروتوكولات موحدة وسير عمل تحليلية لتعزيز اكتشاف الميكروبروتينات عبر MS، مما يسهم في فهم أفضل للميكروبروتينات البشرية.

مقدمة

تناقش مقدمة ورقة البحث آثار تحليل الريبوسوم (Ribo-Seq) في الكشف عن الترجمة الواسعة لإطارات القراءة المفتوحة القصيرة (sORFs) في الجينومات حقيقية النواة، مما يشير إلى أن البروتينوم الفعلي قد يكون أكبر بكثير مما هو موصوف حاليًا في قواعد البيانات مثل UniProtKB. بينما تم ربط بعض الميكروبروتينات المشفرة بواسطة sORF بوظائف بيولوجية متنوعة، لا يزال الغالبية غير موصوفة بسبب قضايا مثل انخفاض الحفظ، والوفرة، والانحلال السريع. وهذا يستلزم تحديد هذه الميكروبروتينات لفهم أدوارها البيولوجية المحتملة.

لتحديد الميكروبروتينات غير الموصوفة بشكل منهجي، يقترح المؤلفون الاستفادة من تقنيات البروتيوميات المعتمدة على مطيافية الكتلة (MS) ومجموعات بيانات البيبتيدوميكس. من خلال بناء قاعدة بيانات تسلسلية تجمع بين تسلسلات البروتين المنسقة مع المنتجات المتوقعة لإطارات القراءة المفتوحة المترجمة، يمكن للباحثين تحليل مجموعات بيانات البروتيوميات التقليدية والإيمونوبيبتيدوميكس. تسلط الورقة الضوء على التحديات التي تطرحها الخصائص الفريدة للميكروبروتينات، مثل حجمها الصغير ووفرتها المنخفضة، مما يعقد جهود الكشف والتحقق. قام المؤلفون بإجراء تقييم منهجي للثقة للبروتينات الميكروية غير الموصوفة التي تم الإبلاغ عنها سابقًا، مما يكشف عن تباين كبير في الكشف عبر الدراسات ويؤكد الحاجة إلى استراتيجيات محسنة لتعزيز موثوقية تحديد الميكروبروتينات في أبحاث البروتيوميات.

طرق

في هذه الدراسة، استخدم المؤلفون نهجًا مقارنًا لتقييم فعالية طرق التعلم الآلي لتوقع الطيف مقابل التقييمات اليدوية لتسلسلات الببتيد. باستخدام خط أنابيب مكتبة الطيف المفتوحة المصدر، Oktoberfest، قاموا بإنشاء طيف متوقع متعدد لكل ببتيد عند طاقات تصادم مختلفة (CE = 25، 30، 35، و40) وطبقوا أربعة نماذج شدة متميزة: شدة HCD من Prosit 2020، شدة CID من Prosit 2020، شدة TMT من Prosit 2020، وAlphaPept ms2 generic. تم تحديد التحليل على تعديلات محددة، وهي أكسدة الميثيونين، وكارباميدوميثيليشن السيستين، وTMT6plex، مع استبعاد تعديلات أخرى. تم تحويل الأطياف المتوقعة إلى تنسيق MGF، وحساب زوايا الطيف (SA) باستخدام سكريبتات بايثون داخلية لمقارنة الأطياف التجريبية والمتوقعة، وتصنيف التشابه على أنه عالي (SA ≤ 20°)، معتدل (20° < SA ≤ 45°)، ضعيف (45° < SA ≤ 70°)، أو رهيب (SA > 70°).

بالإضافة إلى ذلك، توقعت الدراسة ارتباط HLA للببتيدات المناعية المرتبطة باكتشافات البروتين غير الموصوفة، مشيرة إلى دراسات سابقة من Ouspenskaia وآخرون (2021)، ومارتينيز وآخرون (2020)، وتشونغ وآخرون (2020). تم تحديد أليلات HLA ذات الصلة بنوع الخلايا التجريبية من البيانات التكميلية، وتم استخدام NetMHC 4.0 لتقييم ارتباط الببتيد بأليلات HLA-A وHLA-B وHLA-C. تم تصنيف الببتيد على أنه مرتبط بـ HLA إذا استوفى معايير الارتباط الضعيف (% الرتبة < 2%) أو الارتباط القوي (% الرتبة < 0.5%) كما حددها NetMHC 4.0.

النتائج

يقدم قسم “النتائج” في ورقة البحث النتائج الرئيسية المستمدة من التجارب أو التحليلات التي تم إجراؤها. يبرز الاتجاهات البيانية الهامة، والنتائج الإحصائية، وأي ارتباطات أو أنماط ملحوظة ذات صلة بفرضية البحث. عادةً ما تكون النتائج مصحوبة بوسائل بصرية مثل الرسوم البيانية أو الجداول لتعزيز الوضوح والفهم.

في هذا القسم، قد يناقش المؤلفون أيضًا آثار نتائجهم، مقارنةً بها مع الأدبيات الموجودة لوضع مساهماتهم في السياق. يتم تناول أي شذوذ أو نتائج غير متوقعة، مما يوفر رؤى حول المجالات المحتملة لمزيد من التحقيق. بشكل عام، تعتبر النتائج أساسًا للنقاشات والاستنتاجات اللاحقة التي تم التوصل إليها في الورقة.

المناقشة

في هذا القسم من المناقشة، يقوم المؤلفون بتحليل اكتشاف البروتينات غير الموصوفة في دراسات البروتيوميات البشرية المنشورة بين عامي 2019 و2022. لقد حددوا تباينًا كبيرًا في عدد البروتينات غير الموصوفة التي تم التحقق منها المبلغ عنها عبر 12 دراسة، مع أعداد تتراوح من 6 إلى 4,903. يُعزى هذا التباين إلى الاختلافات في حجم وتركيب قواعد بيانات إطارات القراءة المفتوحة الصغيرة (sORF)، والبيانات البروتيومية التي تم تحليلها، والأساليب المستخدمة، بدلاً من الإشارة إلى معدل مرتفع من الاكتشافات الخاطئة. يؤكد المؤلفون على الحاجة إلى قابلية التكرار القوية وتقييم دقيق للأدلة الداعمة للبروتينات غير الموصوفة المبلغ عنها، مشيرين إلى أن 12% فقط من الببتيدات المنسوبة إلى البروتينات غير الموصوفة كانت لها تطابقات محتملة مع البروتينات الموصوفة، مع تباين كبير عبر الدراسات.

أظهر تقييم مطابقة طيف الببتيد (PSMs) أنه بينما تم العثور على 70% من PSMs عالية الجودة في دراسات الإيمونوبيبتيدوميكس، تم اعتبار حوالي 85% من PSMs غير HLA ذات جودة منخفضة جدًا لدعم اكتشافات البروتينات غير الموصوفة. يقترح المؤلفون أن الاختلافات في جودة الكشف قد تنبع من طبيعة الببتيدات التي تم تحليلها، حيث تركز الإيمونوبيبتيدوميكس على الببتيدات المرتبطة بـ HLA، والتي قد تكون أكثر قابلية للكشف بسبب تقليل تعقيد العينة. يدعون إلى تحسين الأساليب والإرشادات لتقييم البروتينات غير الموصوفة في مطيافية الكتلة، بما في ذلك استخدام أدوات مثل ProteoMapper لضمان أن الببتيدات تدعم بشكل فريد اكتشافات البروتينات غير الموصوفة وإنشاء معدلات اكتشاف خاطئة خاصة بالفئة لتعزيز الثقة في النتائج المبلغ عنها. بشكل عام، يبرز المؤلفون الإمكانية لاكتشاف الميكروبروتينات ذات الأهمية البيولوجية مع الاعتراف بالقيود المفروضة على تقنيات البروتيوميات الحالية في التحقق من sORFs المحددة من خلال Ribo-Seq.

Journal: Nature Communications, Volume: 17, Issue: 1
DOI: https://doi.org/10.1038/s41467-025-68002-x
PMID: https://pubmed.ncbi.nlm.nih.gov/41559053
Publication Date: 2026-01-21
Author(s): Aaron Wacholder et al.
Primary Topic: Advanced Proteomics Techniques and Applications

Overview

This section of the research paper discusses the identification of short open reading frames (sORFs) and their encoded microproteins through mass spectrometry (MS)-based proteomics. The authors highlight significant variability in the reported number of unannotated human proteins across different studies, with discrepancies spanning three orders of magnitude. Among nearly 10,000 reported sORF-encoded peptides, a striking 96% were unique to individual studies, and only 12% corresponded to annotated proteins or proteoforms.

Furthermore, the authors conducted a manual curation of a benchmark dataset comprising 406 evaluated spectra from 204 sORF-encoded proteins, revealing substantial differences in peptide-spectrum match (PSM) quality. Notably, immunopeptidomics studies yielded higher quality PSMs, with an estimated 65% of predicted sORF-encoded protein detections supported by high-quality PSMs, compared to just 7.8% in non-immunopeptidomics datasets. The findings underscore the necessity for standardized protocols and analytical workflows to enhance the detection of microproteins via MS, ultimately contributing to a better understanding of the human microproteome.

Introduction

The introduction of the research paper discusses the implications of ribosome profiling (Ribo-Seq) in revealing the extensive translation of short open reading frames (sORFs) in eukaryotic genomes, indicating that the actual proteome may be significantly larger than what is currently annotated in databases like UniProtKB. While some sORF-encoded microproteins have been linked to various biological functions, the majority remain uncharacterized due to issues such as low conservation, abundance, and rapid degradation. This necessitates the identification of these microproteins to understand their potential biological roles.

To systematically identify unannotated microproteins, the authors propose leveraging mass spectrometry (MS)-based proteomics and peptidomics datasets. By constructing a sequence database that combines curated protein sequences with predicted products of translated sORFs, researchers can analyze conventional and immunopeptidomics datasets. The paper highlights the challenges posed by the unique characteristics of microproteins, such as their small size and low abundance, which complicate detection and validation efforts. The authors conducted a systematic confidence assessment of previously reported unannotated microproteins, revealing significant variability in detection across studies and emphasizing the need for improved strategies to enhance the reliability of microprotein identification in proteomic research.

Methods

In this study, the authors employed a comparative approach to evaluate the efficacy of spectral prediction machine learning methods against manual evaluations of peptide sequences. Using the open-source spectral library prediction pipeline, Oktoberfest, they generated multiple predicted spectra for each peptide at varying collision energies (CE = 25, 30, 35, and 40) and applied four distinct intensity models: Prosit 2020 intensity HCD, Prosit 2020 intensity CID, Prosit 2020 intensity TMT, and AlphaPept ms2 generic. The analysis was limited to specific modifications, namely methionine oxidation, cysteine carbamidomethylation, and TMT6plex, excluding other modifications. The predicted spectra were converted to MGF format, and internal Python scripts calculated spectral angles (SA) to compare experimental and predicted spectra, categorizing similarity as high (SA ≤ 20°), moderate (20° < SA ≤ 45°), poor (45° < SA ≤ 70°), or terrible (SA > 70°).

Additionally, the study predicted HLA binding for immunopeptides associated with unannotated protein detections, referencing prior studies by Ouspenskaia et al. (2021), Martinez et al. (2020), and Chong et al. (2020). The HLA alleles relevant to the experimental cell type were identified from supplemental data, and NetMHC 4.0 was utilized to assess peptide binding to HLA-A, HLA-B, and HLA-C alleles. A peptide was classified as HLA-binding if it met the criteria for weak binding (% rank < 2%) or strong binding (% rank < 0.5%) as defined by NetMHC 4.0.

Results

The “Results” section of the research paper presents key findings derived from the conducted experiments or analyses. It highlights significant data trends, statistical outcomes, and any observed correlations or patterns relevant to the research hypothesis. The results are typically accompanied by visual aids such as graphs or tables to enhance clarity and comprehension.

In this section, the authors may also discuss the implications of their findings, comparing them with existing literature to contextualize their contributions to the field. Any anomalies or unexpected results are addressed, providing insights into potential areas for further investigation. Overall, the results serve as a foundation for the subsequent discussion and conclusions drawn in the paper.

Discussion

In this discussion section, the authors analyze the detection of unannotated proteins in human proteomics studies published between 2019 and 2022. They identified significant variability in the number of validated unannotated proteins reported across 12 studies, with counts ranging from 6 to 4,903. This inconsistency is attributed to differences in the size and composition of small open reading frame (sORF) databases, the proteomic data analyzed, and the methodologies employed, rather than indicating a high rate of false detections. The authors emphasize the need for robust replicability and a careful assessment of the evidence supporting reported unannotated proteins, noting that only 12% of peptides attributed to unannotated proteins had potential matches to annotated proteins, with considerable variability across studies.

The evaluation of peptide spectrum matches (PSMs) revealed that while 70% of high-quality PSMs were found in immunopeptidomics studies, around 85% of non-HLA PSMs were deemed too low in quality to support unannotated protein detections. The authors suggest that the differences in detection quality may stem from the nature of the peptides analyzed, as immunopeptidomics focuses on HLA-bound peptides, which may be more readily detectable due to reduced sample complexity. They advocate for improved methodologies and guidelines for evaluating unannotated proteins in mass spectrometry, including the use of tools like ProteoMapper to ensure that peptides uniquely support unannotated protein detections and the establishment of class-specific false discovery rates to enhance confidence in reported findings. Overall, the authors highlight the potential for discovering biologically significant microproteins while acknowledging the limitations of current proteomic techniques in validating sORFs identified through Ribo-Seq.