जानकारी

एसएनपी के विभिन्न प्रकार क्या हैं?

एसएनपी के विभिन्न प्रकार क्या हैं?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

जब मैं इसे ऑनलाइन खोजता हूं तो मुझे प्रतिस्थापन, विलोपन, सम्मिलन आदि जैसे उत्तर मिलते हैं। लेकिन मेरा मतलब इस अर्थ में है कि मैं एसएनपी शब्द के सामने अलग-अलग शब्द पढ़ रहा हूं जैसे: लीड एसएनपी, टैग एसएनपी, प्रहरी एसएनपी, अप्रत्यक्ष एसएनपी , प्रत्यक्ष एसएनपी, माध्यमिक एसएनपी, आरोपित एसएनपी आदि।

मेरी समझ से लीड/टैग/सेंटीनेल सभी समान हैं (एसएनपी एक स्थान में सबसे कम पी मान के साथ, उस खंड में भिन्नता का प्रतिनिधित्व करता है)। एक अप्रत्यक्ष एसएनपी भी एक सीसा/टैग/प्रहरी एसएनपी और अप्रत्यक्ष है क्योंकि ये जीनोटाइप नहीं किए गए हैं, लेकिन एलडी में जीनोटाइप किए गए एसएनपी + के साथ हैं, जिसमें उनका पी मूल्य सबसे कम है। इसके अलावा एक माध्यमिक एसएनपी एक स्वतंत्र रूप से सहसंबंधी एसएनपी है, और विशेष रूप से एसएनपी टैग से स्वतंत्र है? क्या इस प्रकार की श्रेणियों को परिभाषित करने वाला कोई संसाधन है? क्षमा करें अगर यह गलत सूचना है, तो मैं विभिन्न अध्ययनों से जीडब्ल्यूएएस के बारे में जानने की कोशिश कर रहा हूं, और इसे स्पष्ट करने के लिए किसी भी मदद की सराहना करता हूं।


  1. प्रतिबंध टुकड़ा लंबाई बहुरूपता (RFLP)
  2. प्रवर्धित टुकड़ा लंबाई बहुरूपता (AFLP)
  3. यादृच्छिक प्रवर्धित बहुरूपी डीएनए (आरएपीडी)
  4. क्लीव्ड एम्प्लीफाइड पॉलीमॉर्फिक सीक्वेंस (CAPS)
  5. सरल अनुक्रम दोहराव (एसएसआर) लंबाई बहुरूपता
  6. सिंगल स्ट्रैंड कॉनफॉर्मल पॉलीमॉर्फिज्म (एसएससीपी)
  7. हेटेरोडुप्लेक्स विश्लेषण (एचए)
  8. एकल न्यूक्लियोटाइड बहुरूपता (एसएनपी)
  9. व्यक्त अनुक्रम टैग (ईएसटी)
  10. अनुक्रम टैग की गई साइटें (एसटीएस)

प्रतिबंध टुकड़ा लंबाई बहुरूपता (RFLPs):

RFLPs विशिष्ट एंडोन्यूक्लिज़ द्वारा उत्पन्न डीएनए अंशों की लंबाई में एक प्रजाति के भीतर पाई जाने वाली विविधताओं को संदर्भित करता है। आरएफएलपी पहले प्रकार के डीएनए मार्कर हैं जिन्हें डीएनए स्तर पर व्यक्तियों को अलग करने के लिए विकसित किया गया है। पॉलीमरेज़ चेन रिएक्शन (पीसीआर) की खोज से पहले आरएफएलपी तकनीक विकसित की गई थी।

इस तकनीक के फायदे, नुकसान और उपयोग नीचे प्रस्तुत किए गए हैं:

RFLP तकनीक के कई फायदे हैं। यह डीएनए अनुक्रमण की एक सस्ती और सरल तकनीक है। इसके लिए विशेष उपकरण की आवश्यकता नहीं होती है। अधिकांश RFLP मार्कर सह-प्रमुख और अत्यधिक स्थान विशिष्ट हैं। तुलनात्मक और समानार्थी मानचित्रण के लिए ये शक्तिशाली उपकरण हैं।

यह CAPS और INDEL जैसे अन्य मार्करों को विकसित करने में उपयोगी है। विभिन्न जांचों का उपयोग करके इस तकनीक द्वारा एक साथ कई नमूनों की जांच की जा सकती है। सिंगल कॉपी या लो कॉपी नंबर जीन के लिए RFLP जीनोटाइप को आसानी से स्कोर और व्याख्या किया जा सकता है।

RFLP जांच और मार्करों के सेट विकसित करना श्रम गहन है। इस तकनीक के लिए बड़ी मात्रा में उच्च गुणवत्ता वाले डीएनए की आवश्यकता होती है। मल्टीप्लेक्स अनुपात कम है, आमतौर पर प्रति जेल एक। जीनोटाइपिंग थ्रूपुट कम है। इसमें रेडियोधर्मी रसायनों का उपयोग शामिल है। बहु-जीन परिवारों के लिए RFLP फिंगर प्रिंट अक्सर जटिल होते हैं और स्कोर करना मुश्किल होता है। RFLP जांच को प्रयोगशालाओं के बीच साझा नहीं किया जा सकता है।

उनका उपयोग पितृत्व मामलों के निर्धारण में किया जा सकता है। आपराधिक मामलों में, उनका उपयोग डीएनए नमूने के स्रोत का निर्धारण करने में किया जा सकता है। उनका उपयोग किसी व्यक्ति की रोग स्थिति को निर्धारित करने के लिए किया जा सकता है। वे जीन मैपिंग, जर्मप्लाज्म लक्षण वर्णन और मार्कर सहायक चयन में उपयोगी हैं। वे अव्यक्त अवस्था में होने पर भी पौधों में रोगज़नक़ों का पता लगाने में उपयोगी होते हैं।

प्रवर्धित टुकड़ा लंबाई बहुरूपता (AFLP):

AFLPs SNPs या INDEL के कारण प्रतिबंध खंड की लंबाई में अंतर हैं जो प्रतिबंध एंडोन्यूक्लिज़ मान्यता साइटों को बनाते या समाप्त करते हैं। AFLP परख पीसीआर का उपयोग करके प्रतिबंध अंशों के एक पूल को चुनिंदा रूप से बढ़ाकर किया जाता है। RFLP तकनीक को मूल रूप से चयनात्मक प्रतिबंध खंड प्रवर्धन के रूप में जाना जाता था।

यह बहुत अधिक मल्टीप्लेक्स अनुपात और जीनोटाइपिंग थ्रूपुट प्रदान करता है। ये प्रयोगशालाओं में अत्यधिक प्रतिलिपि प्रस्तुत करने योग्य हैं। हालांकि, किसी मार्कर विकास कार्य की आवश्यकता नहीं है, इष्टतम प्राइमर विशिष्टताओं और संयोजनों की पहचान करने के लिए AFLP प्राइमर स्क्रीनिंग अक्सर आवश्यक होती है।

AFLP परख करने के लिए किसी विशेष उपकरण की आवश्यकता नहीं है, हालांकि, सह-प्रमुख स्कोरिंग के लिए विशेष उपकरण की आवश्यकता होती है।

स्टार्ट-अप की लागत मामूली कम है। AFLP परख बहुत छोटे डीएनए नमूनों (आमतौर पर प्रति व्यक्ति 0.2 से 2.5 स्नातकोत्तर) का उपयोग करके किया जा सकता है। प्रौद्योगिकी को न्यूनतम प्रारंभिक विकास के साथ वस्तुतः किसी भी जीव पर लागू किया जा सकता है।

किसी भी द्वि-युग्मक मार्कर के लिए अधिकतम बहुरूपी सूचना सामग्री 0.5 है। पूर्ण प्रतिबंध एंजाइम पाचन सुनिश्चित करने के लिए उच्च गुणवत्ता वाले डीएनए की आवश्यकता होती है। प्रजातियों के आधार पर डीएनए की गुणवत्ता कमजोरी हो भी सकती है और नहीं भी। डीएनए को अलग करने के लिए तीव्र तरीके AFLP विश्लेषण के लिए पर्याप्त रूप से स्वच्छ टेम्पलेट डीएनए का उत्पादन नहीं कर सकते हैं।

विषमयुग्मजी और ++ समयुग्मजी प्राप्त करने के लिए स्वामित्व प्रौद्योगिकी की आवश्यकता होती है। अन्यथा, AFLPs को प्रमुखता से स्कोर किया जाना चाहिए। आवेदन के आधार पर प्रभुत्व कमजोरी हो भी सकती है और नहीं भी।

एक प्रतिबंध खंड की समरूपता को जीनोटाइप या मानचित्रण आबादी में स्पष्ट रूप से पता नहीं लगाया जा सकता है। अलग-अलग टुकड़ों से स्थान विशिष्ट मार्कर विकसित करना मुश्किल हो सकता है और ऐसा लगता है कि व्यापक रूप से नहीं किया गया है।

गैर-रेडियोधर्मी assays के लिए स्विच तेजी से नहीं किया गया है। Chemiluminescent AFLP फिंगरप्रिंटिंग विधियों को विकसित किया गया है और यह अच्छी तरह से काम करता प्रतीत होता है।

फ्लोरोसेंट AFLP परख विधियों द्वारा निर्मित उंगलियों के निशान की व्याख्या करना और स्कोर करना अक्सर मुश्किल होता है और इस प्रकार व्यापक रूप से उपयोग नहीं किया जाता है। AFLP मार्कर अक्सर बड़े जीनोम वाली प्रजातियों में सेंट्रोमेरिक क्षेत्रों में सघन रूप से क्लस्टर करते हैं, उदाहरण के लिए, जौ (होर्डियम वल्गारे एल।) और सूरजमुखी (हेलियनथस एनुस एल।)।

डीएनए मार्कर के उच्च घनत्व वाले आनुवंशिक मानचित्रों के निर्माण में इस तकनीक का व्यापक रूप से उपयोग किया गया है। पादप प्रजनन और आनुवंशिकी में, AFLP मार्करों का उपयोग किस्मों की पहचान, जर्मप्लाज्म लक्षण वर्णन, जीन टैगिंग और मार्कर सहायक चयन में किया जाता है।

यादृच्छिक प्रवर्धित बहुरूपी डीएनए (आरएपीडी):

आरएपीडी एक प्रजाति के भीतर पाए जाने वाले बहुरूपता को संदर्भित करता है जो प्रतिबंध एंडोन्यूक्लिज़ एंजाइम द्वारा उत्पन्न यादृच्छिक रूप से प्रवर्धित डीएनए में होता है। आरएपीडी पीसीआर आधारित डीएनए मार्कर हैं। आरएपीडी मार्कर एसेज़ को मनमाने अनुक्रम के एकल डीएनए प्राइमर का उपयोग करके किया जाता है।

आरएपीडी प्राइमर सार्वभौमिक होने के कारण आसानी से उपलब्ध हैं। वे मध्यम उच्च जीनोटाइपिंग थ्रूपुट प्रदान करते हैं। यह तकनीक सरल पीसीआर परख है (कोई धब्बा नहीं और कोई रेडियोधर्मिता नहीं)। इसके लिए विशेष उपकरण की आवश्यकता नहीं होती है। केवल पीसीआर की जरूरत है। स्टार्ट-अप की लागत कम है।

आरएपीडी मार्कर परख बहुत छोटे डीएनए नमूनों (प्रति नमूना 5 से 25 एनजी) का उपयोग करके किया जा सकता है। आरएपीडी प्राइमर सार्वभौमिक हैं और व्यावसायिक रूप से खरीदे जा सकते हैं। आरएपीडी मार्करों को प्रयोगशालाओं के बीच आसानी से साझा किया जा सकता है। आरएपीडी मार्करों से स्थान-विशिष्ट, सह-प्रमुख पीसीआर-आधारित मार्कर विकसित किए जा सकते हैं। यह RFLPs की तुलना में अधिक बहुरूपता प्रदान करता है।

बहुरूपता का पता लगाना सीमित है। किसी भी द्वि-युग्मक मार्कर के लिए अधिकतम बहुरूपी सूचना सामग्री 0.5 है। यह तकनीक केवल प्रमुख मार्करों का पता लगाती है। प्रयोगशालाओं में आरएपीडी assays की प्रतिलिपि प्रस्तुत करने योग्यता अक्सर कम होती है। मानचित्रण के बिना जीनोटाइप में टुकड़ों की समरूपता का पता नहीं लगाया जा सकता है। यह मार्कर सहायता प्राप्त प्रजनन कार्यक्रम में लागू नहीं है।

इस तकनीक का उपयोग विभिन्न तरीकों से किया जा सकता है जैसे कि किस्मों की पहचान, डीएनए फिंगरप्रिंटिंग, जीन टैगिंग और लिंकेज मैप्स का निर्माण। इसका उपयोग प्रजातियों और उप-प्रजातियों के बीच फ़ाइलोजेनेटिक संबंध का अध्ययन करने और प्रजनन आबादी में परिवर्तनशीलता के आकलन के लिए भी किया जा सकता है।

क्लीव्ड एम्प्लीफाइड पॉलीमॉर्फिक सीक्वेंस (CAPS):

CAPS बहुरूपता SNPs या INDELs के कारण प्रतिबंध खंड की लंबाई में अंतर है जो स्थानीय-विशिष्ट ओलिगोन्यूक्लियोटाइड प्राइमरों द्वारा निर्मित पीसीआर एम्पलीकॉन्स में प्रतिबंध एंडोन्यूक्लिज़ मान्यता साइटों को बनाते या समाप्त करते हैं।

CAPS assays एक या अधिक प्रतिबंध एंजाइमों के साथ स्थान-विशिष्ट PCR एम्पलीकॉन्स को पचाकर और पचे हुए डीएनए को agarose या polyacrylamide जैल पर अलग करके किया जाता है।

सीएपीएस विश्लेषण बहुमुखी है और डीएनए बहुरूपता को खोजने की संभावना को बढ़ाने के लिए सिंगल स्ट्रैंड कंफॉर्मल पॉलीमॉर्फिम (एसएससीपी), अनुक्रम-विशेषता प्रवर्धित क्षेत्र (एससीएआर), या यादृच्छिक प्रवर्धित पॉलीमॉर्फिक डीएनए (आरएपीडी) विश्लेषण के साथ जोड़ा जा सकता है।

माइकल्स और अमासिनो (1998) ने एसएनपी पर आधारित डीसीएपीएस नामक सीएपीएस पद्धति का एक प्रकार प्रस्तावित किया।

जीनोटाइपिंग थ्रूपुट मध्यम रूप से उच्च है। यह एक साधारण पीसीआर परख है। मार्कर पहले से मैप किए गए RFLP मार्करों के डीएनए अनुक्रमों से विकसित किए जाते हैं। अधिकांश CAPS मार्कर सह-प्रमुख और स्थान विशिष्ट होते हैं। मैन्युअल CAPS मार्कर परख करने के लिए किसी विशेष उपकरण की आवश्यकता नहीं होती है।

CAPS मार्कर assays को अर्ध-स्वचालित विधियों का उपयोग करके किया जा सकता है, उदाहरण के लिए, डीएनए सीक्वेंसर पर फ्लोरोसेंट परख (उदा., ABI377)। मैनुअल परख विधियों के लिए स्टार्ट-अप लागत कम है। CAPS assays बहुत छोटे डीएनए नमूनों (आमतौर पर प्रति व्यक्ति 50 से 100 एनजी) का उपयोग करके किया जा सकता है। अधिकांश CAPS जीनोटाइप आसानी से बनाए और व्याख्या किए जाते हैं। CAPS मार्कर आसानी से प्रयोगशालाओं के बीच साझा किए जाते हैं।

आमतौर पर, बहुरूपताओं को खोजने के लिए प्रतिबंध एंजाइमों की एक बैटरी का परीक्षण किया जाना चाहिए। हालांकि सीएपीएस मार्कर अभी भी बड़ी उपयोगिता रखते हैं और इसे अधिक नहीं देखा जाना चाहिए, अन्य विधियां बहुरूपताओं के लिए स्थान-विशिष्ट डीएनए अंशों की जांच के लिए उपकरण के रूप में उभरी हैं, उदाहरण के लिए, एसएनपी परख। कुछ जीनों, विशेष रूप से बहु-जीन परिवारों से संबंधित लोगों के लिए आसानी से बनाए गए और व्याख्या किए गए assays का विकास मुश्किल हो सकता है।

यह पहले से मैप किए गए RFLP मार्करों के डीएनए अनुक्रमों से पीसीआर-आधारित मार्कर विकसित करने का सीधा तरीका है। यह एक सरल विधि है जो RFLP मानचित्र के निवेश पर निर्मित होती है और डीएनए ब्लॉटिंग की आवश्यकता को समाप्त करती है।

सरल अनुक्रम दोहराव (एसएसआर):

सरल अनुक्रम दोहराव (एसएसआर) या माइक्रोसेटेलाइट्स मिलकर दोहराए गए मोनो-, डी-, ट्राई-, टेट्रा-, पेंटा- और हेक्सान्यूक्लियोटाइड रूपांकनों हैं। SSR लंबाई के बहुरूपता दोहराव की संख्या में अंतर के कारण होते हैं। एसएसआर लोकी को व्यक्तिगत रूप से पीसीआर द्वारा एसएसआर अनुक्रम को फ्लैंक करने वाले अद्वितीय डीएनए अनुक्रमों के लिए विशिष्ट ऑलिगोन्यूक्लियोटाइड प्राइमरों के जोड़े का उपयोग करके प्रवर्धित किया जाता है।

जेफ्रीस (1985) ने दिखाया कि कुछ प्रतिबंध खंड लंबाई बहुरूपता VNTRs के कारण होते हैं। नाम “मिनी उपग्रह” बड़े उपग्रह डीएनए दोहराव के लिए वीएनटीआर की समानता के कारण गढ़ा गया था।

SSR मार्कर अत्यधिक बहुरूपी होते हैं। जीनोटाइपिंग थ्रूपुट उच्च है। यह एक साधारण पीसीआर परख है। कई SSR मार्कर बहु-युग्मक और अत्यधिक बहुरूपी हैं। एसएसआर मार्करों को स्वतंत्र पीसीआर उत्पादों को पूल करके या वास्तविक मल्टीप्लेक्स-पीसीआर द्वारा कार्यात्मक रूप से मल्टीप्लेक्स किया जा सकता है। अर्ध-स्वचालित SSR जीनोटाइपिंग विधियों को विकसित किया गया है। अधिकांश एसएसआर सह-प्रमुख और स्थान विशिष्ट होते हैं।

SSRs परख करने के लिए किसी विशेष उपकरण की आवश्यकता नहीं होती है, हालांकि, कुछ परख विधियों के लिए विशेष उपकरण की आवश्यकता होती है, जैसे, डीएनए अनुक्रमों पर किए गए अर्ध-स्वचालित फ्लोरोसेंट परख। मैनुअल परख विधियों (एक बार मार्कर विकसित हो जाने के बाद) के लिए स्टार्ट-अप लागत कम है। बहुत छोटे डीएनए नमूनों का उपयोग करके SSR परख की जा सकती है (

प्रति व्यक्ति 100 एनजी)। SSR मार्कर आसानी से प्रयोगशालाओं के बीच साझा किए जाते हैं।

SSRs का विकास श्रम प्रधान है। SSR मार्कर विकास लागत बहुत अधिक है। SSR मार्कर कर विशिष्ट हैं। स्वचालित SSR परख विधियों के लिए स्टार्ट-अप लागत अधिक है। पीसीआर मल्टीप्लेक्स विकसित करना कठिन और महंगा है। कुछ मार्कर मल्टीप्लेक्स नहीं हो सकते हैं।

यूकेरियोट्स में जीन के मानचित्रण के लिए एसएसआर मार्करों का उपयोग किया जाता है।

सिंगल स्ट्रैंड कॉनफॉर्मल पॉलीमॉर्फिज्म (एसएससीपी):

एसएससीपी एकल-फंसे डीएनए हार्बरिंग म्यूटेशन के अंतर तह द्वारा निर्मित डीएनए बहुरूपता को संदर्भित करता है। मुड़े हुए डीएनए अणु की संरचना अंतर-आणविक अंतःक्रियाओं द्वारा निर्मित होती है और इस प्रकार यह डीएनए अनुक्रम का एक कार्य है।

गैर-डिनाट्यूरिंग डीएनए अनुक्रमण जैल पर हीट-डिनेचर डीएनए का उपयोग करके एसएससीपी मार्कर एसेज़ का प्रदर्शन किया जाता है। INDELs, SNPs, या SSRs के कारण होने वाले सिंगल-स्ट्रैंड कॉनफॉर्मल पॉलीमॉर्फिम्स की खोज को बढ़ाने के लिए विशेष जैल (जैसे, म्यूटेशन डिटेक्शन एन्हांसमेंट जैल) विकसित किए गए हैं।

यह एक साधारण पीसीआर परख है। कई एसएससीपी मार्कर बहु-युग्मक और अत्यधिक बहुरूपी हैं। अधिकांश एसएससीपी सह-प्रमुख और स्थान विशिष्ट हैं। कोई विशेष उपकरण की आवश्यकता नहीं है। स्टार्ट-अप की लागत कम है। एसएससीपी मार्कर परख बहुत छोटे डीएनए नमूनों (आमतौर पर प्रति व्यक्ति 10 से 50 एनजी) का उपयोग करके किया जा सकता है।

एसएससीपी मार्कर आसानी से प्रयोगशालाओं के बीच साझा किए जाते हैं। एसएससीपी जैल चांदी के दाग (कोई रेडियोधर्मिता नहीं) हो सकते हैं। पीसीआर उत्पादों की जटिलता का आकलन किया जा सकता है और अलग-अलग टुकड़ों को अलग और अनुक्रमित किया जा सकता है।

एसएससीपी मार्करों का विकास श्रम गहन है। एसएससीपी मार्कर विकास लागत अधिक हो सकती है। एसएससीपी मार्कर विश्लेषण को स्वचालित नहीं किया जा सकता है।

डीएनए बहुरूपताओं के लिए रोग जीन की जांच के लिए मानव आनुवंशिकी में एसएससीपी का व्यापक रूप से उपयोग किया गया है। हालांकि एसएससीपी विश्लेषण प्रत्येक डीएनए अनुक्रम बहुरूपता को उजागर नहीं करता है, कार्यप्रणाली सीधे आगे है और बहुरूपताओं की एक महत्वपूर्ण संख्या की खोज की जा सकती है। पीसीआर उत्पादों की जटिलता का आकलन करने के लिए एसएससीपी विश्लेषण एक शक्तिशाली उपकरण हो सकता है।

हेटेरोडुप्लेक्स विश्लेषण (एचए):

यह गैर-डिनाट्यूरिंग जेल वैद्युतकणसंचलन या आंशिक रूप से उच्च प्रदर्शन तरल क्रोमैटोग्राफी का उपयोग करके हेटेरोडुप्लेक्स डीएनए से होमो-डुप्लेक्स को अलग करके उत्पादित डीएनए बहुरूपता को संदर्भित करता है।

जीनोटाइप के बीच एकल-आधार बेमेल हेटेरो-डुप्लेक्स उत्पन्न करते हैं, इस प्रकार हेटेरो-डुप्लेक्स की उपस्थिति डीएनए पॉलीमॉर्फिज्म की उपस्थिति का संकेत देती है। विशिष्ट एलील को अनुक्रमित करने से पहले हेटेरोडुप्लेक्स विश्लेषण कई जीनोटाइप पर तेजी से और कुशलता से किया जा सकता है, जिससे एसएनपी खोज और एसएनपी मार्कर विकास में अनुक्रमण लागत बहुत कम हो जाती है।

यह एसएनपी खोज के लिए एक शक्तिशाली तरीका है। एचपीएलसी का उपयोग करके स्वचालित एचए का प्रदर्शन किया जा सकता है। अधिकांश हेटेरोडुप्लेक्स मार्कर सह-प्रमुख और स्थान विशिष्ट हैं। हा बहुत छोटे डीएनए नमूनों (आमतौर पर प्रति व्यक्ति 10 से 50 एनजी) का उपयोग करके किया जा सकता है। HA मार्कर आसानी से प्रयोगशालाओं के बीच साझा किए जाते हैं।

विशेष उपकरण की आवश्यकता है। एचपीएलसी के माध्यम से विभिन्न लक्ष्यों के हेटेरोडुप्लेक्स विश्लेषण के लिए एक प्रोटोकॉल पर्याप्त नहीं हो सकता है।

डीएनए बहुरूपता के लिए रोग जीन की जांच करने के लिए हेटेरोडुप्लेक्स विश्लेषण का उपयोग ज्यादातर मानव आनुवंशिकी में किया गया है। पादप प्रजनन में, इसका उपयोग रोगजनकों का पता लगाने के लिए किया जाता है जो अव्यक्त अवस्था में होते हैं और इस प्रकार रोग मुक्त पौधों के चयन में उपयोगी होते हैं। यह एकल न्यूक्लियोटाइड बहुरूपता की खोज में भी उपयोगी है।

एकल न्यूक्लियोटाइड बहुरूपता (एसएनपी):

एक एकल न्यूक्लियोटाइड स्थिति में पाई जाने वाली विविधताओं को एकल न्यूक्लियोटाइड बहुरूपता या एसएनपी के रूप में जाना जाता है। इस तरह की भिन्नता प्रतिस्थापन, विलोपन या सम्मिलन के कारण होती है। इस प्रकार के बहुरूपताओं में दो युग्मविकल्पी होते हैं और इन्हें द्वियुग्मक लोकी भी कहा जाता है। यह डीएनए बहुरूपता का सबसे आम वर्ग है। यह प्राकृतिक रेखाओं और प्रेरित उत्परिवर्तजन दोनों में पाया जाता है। एसएनपी मार्करों की मुख्य विशेषताएं नीचे दी गई हैं।

1. एसएनपी मार्कर अत्यधिक बहुरूपी और अधिकतर द्विभाषी होते हैं।

2. जीनोटाइपिंग थ्रूपुट बहुत अधिक है।

3. एसएनपी मार्कर स्थान विशिष्ट हैं।

4. इस तरह की भिन्नता प्रतिस्थापन, विलोपन या सम्मिलन के कारण होती है।

5. एसएनपी मार्कर उत्कृष्ट दीर्घकालिक निवेश हैं।

6. एसएनपी मार्करों का उपयोग कार्यात्मक बहुरूपता को इंगित करने के लिए किया जा सकता है।

7. इस तकनीक के लिए कम मात्रा में डीएनए की आवश्यकता होती है।

एसएनपी मार्कर जीन मैपिंग में उपयोगी होते हैं। एसएनपी आणविक स्तर पर उत्परिवर्तन का पता लगाने में मदद करते हैं। एसएनपी मार्कर एक उत्परिवर्ती स्थान के स्थितीय क्लोनिंग में उपयोगी होते हैं। एसएनपी मार्कर रोग पैदा करने वाले जीन का पता लगाने में उपयोगी होते हैं।

अधिकांश एसएनपी द्विभाषी होते हैं और एसएसआर की तुलना में कम जानकारीपूर्ण होते हैं। सभी लोकी के लिए बहुसंकेतन संभव नहीं है। कुछ एसएनपी परख तकनीकें महंगी हैं। एसएनपी मार्करों का विकास श्रमोन्मुखी है। SSR मार्करों की तुलना में आनुवंशिक मानचित्र तैयार करने में अधिक (तीन गुना) SNPs की आवश्यकता होती है।

एसएनपी आनुवंशिक मानचित्र तैयार करने में उपयोगी होते हैं। इनका उपयोग मानव आनुवंशिक मानचित्र तैयार करने में किया गया है। पादप प्रजनन में, एसएनपी का उपयोग कम हद तक किया गया है।

व्यक्त अनुक्रम टैग (ईएसटी):

व्यक्त अनुक्रम टैग (ईएसटी) डीएनए के छोटे टुकड़े होते हैं और गुणसूत्र पर उनके स्थान और अनुक्रम ज्ञात होते हैं। एक एकल न्यूक्लियोटाइड स्थिति में पाए जाने वाले बदलाव ज्ञात हैं। एक्सप्रेस्ड सीक्वेंस टैग्स (ईएसटी) शब्द का इस्तेमाल पहली बार 1991 में वेंटर और उनके सहयोगियों द्वारा किया गया था। ईएसटी मार्करों की मुख्य विशेषताएं नीचे दी गई हैं।

1. ईएसटी छोटे डीएनए अनुक्रम (200-500 न्यूक्लियोटाइड लंबे) हैं।

2. वे एक प्रकार की सीक्वेंस टैगेड साइट्स (एसटीएस) हैं।

3. ईएसटी में केवल एक्सॉन होते हैं।

यह एक जीन का पता लगाने की एक तेज़ और सस्ती तकनीक है। ईएसटी आनुवंशिक रोगों से संबंधित नए जीन की खोज में उपयोगी होते हैं। उनका उपयोग ऊतक विशिष्ट जीन अभिव्यक्ति के लिए किया जा सकता है।

ईएसटी में प्रमुख विशिष्टता का अभाव है। यह एक समय लेने वाली और श्रम उन्मुख तकनीक है। सटीकता अन्य तकनीकों की तुलना में कम है। बड़े (> 6kb) ट्रांसक्रिप्ट प्राप्त करना मुश्किल है। सभी लोकी के लिए बहुसंकेतन संभव नहीं है।

ईएसटी आमतौर पर ज्ञात फ़ंक्शन के जीन को मैप करने के लिए उपयोग किया जाता है। उनका उपयोग फ़ाइलोजेनेटिक अध्ययन और डीएनए सरणियों को उत्पन्न करने के लिए भी किया जाता है।

अनुक्रम टैग की गई साइटें (एसटीएस):

जीनोमिक्स में, अनुक्रम टैग की गई साइट (एसटीएस) एक छोटा डीएनए अनुक्रम है जिसकी जीनोम में एक ही प्रतिलिपि होती है और जिसका स्थान और आधार अनुक्रम ज्ञात होता है। एसटीएस मार्करों की मुख्य विशेषताएं नीचे दी गई हैं।

1. एसटीएस छोटे डीएनए अनुक्रम (200-500 न्यूक्लियोटाइड लंबे) हैं।

2. एसटीएस जीनोम में केवल एक बार होते हैं।

3. अन्य सभी जीनोमिक अनुक्रमों की उपस्थिति में पीसीआर द्वारा एसटीएस का पता लगाया जाता है।

4. एसटीएस सीडीएनए से प्राप्त होते हैं।

एसटीएस जीन के भौतिक मानचित्रण में उपयोगी होते हैं। यह तकनीक प्रयोगशालाओं में डेटा साझा करने की अनुमति देती है। यह डीएनए संकरण तकनीकों की तुलना में एक तीव्र और सबसे विशिष्ट तकनीक है। इसमें उच्च स्तर की सटीकता है। इसे स्वचालित किया जा सकता है।

एसटीएस का विकास एक कठिन कार्य है। यह समय लेने वाली और श्रम उन्मुख तकनीक है। इसके लिए उच्च तकनीकी कौशल की आवश्यकता होती है।

एसटीएस सबसे शक्तिशाली भौतिक मानचित्रण तकनीक है। इसका उपयोग गुणसूत्र पर किसी भी स्थान की पहचान करने के लिए किया जा सकता है। जीनोम के किसी भी क्षेत्र में जीन का पता लगाने के लिए एसटीएस का उपयोग मानक मार्कर के रूप में किया जाता है। इसका उपयोग बड़े जीनोम के विस्तृत नक्शे बनाने के लिए किया जाता है।


अनबॉक्सिंग म्यूटेशन: म्यूटेशन प्रकारों को विकासवादी परिणामों से जोड़ना

एम्मा एल बर्डन, पारिस्थितिकी, पर्यावरण और पादप विज्ञान विभाग, जीवन प्रयोगशाला के लिए विज्ञान, स्टॉकहोम विश्वविद्यालय, स्टॉकहोम एसई-10691, स्वीडन।

Inês Fragata, cE3c - पारिस्थितिकी, विकास और पर्यावरण परिवर्तन केंद्र, Faculdade de Ciências, Universidade de Lisboa, Lisboa, पुर्तगाल।

जेनेटिक्स की प्रयोगशाला, विस्कॉन्सिन-मैडिसन विश्वविद्यालय, मैडिसन, WI, यूएसए

पारिस्थितिकी, पर्यावरण और पादप विज्ञान विभाग, जीवन प्रयोगशाला के लिए विज्ञान, स्टॉकहोम विश्वविद्यालय, स्टॉकहोम, स्वीडन

जैविक विज्ञान के स्कूल - जीव और पर्यावरण, ईस्ट एंग्लिया विश्वविद्यालय, नॉर्विच, यूके

जीव विज्ञान विभाग - व्यवस्थित जीव विज्ञान, जीवन प्रयोगशाला के लिए विज्ञान, उप्साला विश्वविद्यालय, उप्साला, स्वीडन

IST ऑस्ट्रिया, क्लोस्टर्न्युबर्ग, ऑस्ट्रिया

बायोसाइंसेज और एक्वाकल्चर के संकाय, नॉर्ड विश्वविद्यालय, बोडो, नॉर्वे

cE3c - पारिस्थितिकी, विकास और पर्यावरण परिवर्तन केंद्र, Faculdade de Ciências, Universidade de Lisboa, Lisboa, पुर्तगाल

एम्मा एल बर्डन, पारिस्थितिकी, पर्यावरण और पादप विज्ञान विभाग, जीवन प्रयोगशाला के लिए विज्ञान, स्टॉकहोम विश्वविद्यालय, स्टॉकहोम एसई-10691, स्वीडन।

Inês Fragata, cE3c - पारिस्थितिकी, विकास और पर्यावरण परिवर्तन केंद्र, Faculdade de Ciências, Universidade de Lisboa, Lisboa, पुर्तगाल।

पारिस्थितिकी, पर्यावरण और पादप विज्ञान विभाग, जीवन प्रयोगशाला के लिए विज्ञान, स्टॉकहोम विश्वविद्यालय, स्टॉकहोम, स्वीडन

एम्मा एल बर्डन, पारिस्थितिकी, पर्यावरण और पादप विज्ञान विभाग, जीवन प्रयोगशाला के लिए विज्ञान, स्टॉकहोम विश्वविद्यालय, स्टॉकहोम एसई-10691, स्वीडन।

Inês Fragata, cE3c - पारिस्थितिकी, विकास और पर्यावरण परिवर्तन केंद्र, Faculdade de Ciências, Universidade de Lisboa, Lisboa, पुर्तगाल।

जेनेटिक्स की प्रयोगशाला, विस्कॉन्सिन-मैडिसन विश्वविद्यालय, मैडिसन, WI, यूएसए

पारिस्थितिकी, पर्यावरण और पादप विज्ञान विभाग, जीवन प्रयोगशाला के लिए विज्ञान, स्टॉकहोम विश्वविद्यालय, स्टॉकहोम, स्वीडन

जैविक विज्ञान के स्कूल - जीव और पर्यावरण, ईस्ट एंग्लिया विश्वविद्यालय, नॉर्विच, यूके

जीव विज्ञान विभाग - व्यवस्थित जीव विज्ञान, जीवन प्रयोगशाला के लिए विज्ञान, उप्साला विश्वविद्यालय, उप्साला, स्वीडन

IST ऑस्ट्रिया, क्लोस्टर्न्युबर्ग, ऑस्ट्रिया

बायोसाइंसेज और एक्वाकल्चर के संकाय, नॉर्ड विश्वविद्यालय, बोडो, नॉर्वे

cE3c - पारिस्थितिकी, विकास और पर्यावरण परिवर्तन केंद्र, Faculdade de Ciências, Universidade de Lisboa, Lisboa, पुर्तगाल

एम्मा एल बर्डन, पारिस्थितिकी, पर्यावरण और पादप विज्ञान विभाग, जीवन प्रयोगशाला के लिए विज्ञान, स्टॉकहोम विश्वविद्यालय, स्टॉकहोम एसई-10691, स्वीडन।

Inês Fragata, cE3c - पारिस्थितिकी, विकास और पर्यावरण परिवर्तन केंद्र, Faculdade de Ciências, Universidade de Lisboa, Lisboa, पुर्तगाल।

सार

विभिन्न विकासवादी परिणामों (जैसे, अनुकूलन) के आनुवंशिक आधार को समझने में एक महत्वपूर्ण कदम विभिन्न उत्परिवर्तन प्रकारों (जैसे, एसएनपी, अनुवाद और व्युत्क्रम) द्वारा निभाई गई भूमिकाओं को निर्धारित करना है। ऐसा करने के लिए हमें एक साथ विकासवादी ढांचे में विभिन्न उत्परिवर्तन प्रकारों पर विचार करना चाहिए। यहां, हम एक शोध ढांचे का प्रस्ताव करते हैं जो किसी दिए गए परिदृश्य में उनके सापेक्ष विकासवादी महत्व को निर्धारित करने के लिए उत्परिवर्तन की सबसे महत्वपूर्ण विशेषताओं, उनके जनसंख्या आनुवंशिक प्रभावों का सीधे उपयोग करता है। हम विभिन्न उत्परिवर्तन प्रकारों के ज्ञात जनसंख्या आनुवंशिक प्रभावों की समीक्षा करते हैं और दिखाते हैं कि ये विभिन्न विकासवादी परिणामों से कैसे जुड़े हो सकते हैं। हम इस ढांचे को लागू करने के उदाहरण प्रदान करते हैं और उन क्षेत्रों को इंगित करते हैं जहां अधिक डेटा, सिद्धांत और संश्लेषण की आवश्यकता होती है। विभिन्न उत्परिवर्तन प्रकारों की एक साथ जांच करने के लिए प्रयोगात्मक और सैद्धांतिक दृष्टिकोण को जोड़ना उनके विकासवादी महत्व को समझने की दिशा में एक महत्वपूर्ण कदम है।


सामग्री और तरीके

WGS बेंचमार्किंग डेटासेट अधिग्रहण के स्रोत

NA12878 (HG001) WGS डेटा

NIST संदर्भ सामग्री NA12878 (HG001) को प्रेसिजनएफडीए ट्रुथ चैलेंज के लिए NIST, गेथर्सबर्ग, एमडी में अनुक्रमित किया गया था। WGS लाइब्रेरी की तैयारी Illumina TruSeq (LT) DNA PCR-फ्री सैंपल प्रेप किट (FC-121-3001), और पेयर-एंड रीड्स, इन्सर्ट साइज का उपयोग करके की गई थी:

हाईसेक 2500 प्लेटफॉर्म पर रैपिड रन मोड (प्रति जीनोम 2 फ्लो सेल) के साथ 550 बीपी उत्पन्न किए गए थे। रॉ पेयर्ड-एंड फास्टक फाइलें (HG001-NA12878-50x_1.fastq.gz और HG001-NA12878-50x_2.fastq.gz) https://precision.fda.gov/challenges/truth से प्राप्त की गईं। इसके अलावा, सुपरनैट एट अल में अनुक्रमित NA12878 कच्चे WGS डेटा का एक और सेट. SRA टूलकिट का उपयोग करते हुए NCBI SRA रिपॉजिटरी (परिग्रहण संख्या: SRR6794144) 24 से डाउनलोड किया गया था।

"सिंथेटिक-डिप्लोइड" WGS डेटा

"सिंथेटिक-डिप्लोइड" WGS डेटा की पेयर-एंड रॉ फास्टक फाइलें यूरोपीय न्यूक्लियोटाइड आर्काइव (परिग्रहण संख्या: SAMEA3911976) से प्राप्त की गई थीं। संदर्भ सामग्री, 1:1 अनुपात पर CHM1 (SAMN02743421) और CHM13 (SAMN03255769) सेल लाइनों के मिश्रण से, पीसीआर-मुक्त लाइब्रेरी प्रोटोकॉल (कापा बायोसिस्टम्स रिएजेंट) 27 का उपयोग करके HiSeq X10 प्लेटफॉर्म पर अनुक्रमित किया गया था। दो स्वतंत्र रूप से दोहराए गए रन, ERR1341793 (कच्चे पढ़ता है ERR1341793_1.fastq.gz और ERR1341793_2.fastq.gz https://www.ebi.ac.uk/ena/browser/view/ERR1341793 से डाउनलोड किया गया) और ERR1341796 (कच्चा पढ़ता है ERR1341796_1.fastq बेंचमार्किंग अभ्यास के लिए https://www.ebi.ac.uk/ena/browser/view/ERR1341796) से डाउनलोड किए गए .gz और ERR1341796_2.fastq.gz का उपयोग किया गया।

नकली WGS डेटा

वास्तविक WGS डेटा के अलावा, Neat-GenReads v2.0 35 टूल का उपयोग करके रीड्स को सिलिको में संश्लेषित किया गया था। संक्षेप में, सिम्युलेटेड पेयर-एंड के दो स्वतंत्र सेट फास्टक प्रारूप में पढ़ते हैं, साथ में वीसीएफ प्रारूप में सच्चे सकारात्मक संस्करण डेटासेट, एक यादृच्छिक उत्परिवर्तन प्रोफ़ाइल (औसत उत्परिवर्तन दर: 0.002) और एक उपयोगकर्ता परिभाषित उत्परिवर्तन प्रोफ़ाइल (सुनहरे सत्य का उपयोग करके) से उत्पन्न हुए थे। कॉलसेट क्रमशः CHM1 और CHM13 अगुणित सेल लाइनों से इकट्ठे हुए)। सिमुलेशन मानव संदर्भ जीनोम बिल्ड GRCH37 डिकॉय के आधार पर किया गया था, जिसकी लंबाई 150 बीपी, 40X की औसत कवरेज, और 350 ± 70 बीपी के एक औसत सम्मिलित आकार के साथ थी।

वैरिएंट कॉलिंग पाइपलाइनों का कार्यान्वयन

पाइपलाइनों का उपयोग करके जर्मलाइन वैरिएंट कॉलिंग की गई: (1) GATK v4.1.0.0 36, (2) DRAGEN v3.3.11 और (3) DeepVariant v0.7.2 (चित्र 1 में फ़्लोचार्ट देखें) 23।

विभिन्न प्रकार की कॉलिंग पाइपलाइन (GATK, DRAGEN और DeepVariant) संयोजनों के बेंचमार्किंग विश्लेषण का फ़्लोचार्ट।

GATK पाइपलाइन वर्कफ़्लो को सर्वोत्तम प्रथाओं (https://software.broadinstitute.org/gatk/best-practices) का पालन करते हुए लागू किया गया था।). कच्चे पेयर-एंड रीड्स को BWA-mem v0.7.15 37 द्वारा GRCH37.37d5 संदर्भ जीनोम में मैप किया गया था। संरेखित रीड्स को बीएएम फाइलों में परिवर्तित किया गया और पिकार्ड मॉड्यूल का उपयोग करके डुप्लिकेट को चिह्नित करने के बाद जीनोम स्थिति के आधार पर सॉर्ट किया गया। अपरिष्कृत BAM फ़ाइलों को डिफ़ॉल्ट मापदंडों का उपयोग करके बेस क्वालिटी स्कोर रिकैलिब्रेशन (BQSR) द्वारा परिष्कृत किया गया था। वैरिएंट कॉलिंग (एसएनपी और इंडल्स) को हाप्लोटाइप कॉलर मॉड्यूल के साथ किया गया था। दक्षता में तेजी लाने के लिए, पूरे जीनोम को 14 अंशों में विभाजित किया गया और समानांतर में चलाया गया, इसके बाद सभी रनों को अंतिम वीसीएफ फ़ाइल में विलय कर दिया गया। इसके अतिरिक्त, हमने पैरामीटर सेटिंग्स के लिए GATK अनुशंसाओं का पालन करते हुए मूल VCF फ़ाइलों को फ़िल्टर करने के लिए वेरिएंट क्वालिटी स्कोर रिकैलिब्रेशन (VQSR) का उपयोग किया: HapMap 3.3, ओमनी 2.5, dbSNP 138, SNPs प्रशिक्षण सेट के लिए 1000 जीनोम चरण I, और मिल्स- और 1000 जीनोम चरण I इंडल्स के लिए डेटा।

DRAGEN पाइपलाइन (https://www.illumina.com/products/by-type/informatics-products/dragen-bio-it-platform.html) ने मैपिंग और संरेखण सहित GATK सर्वोत्तम प्रथाओं के लिए वर्णित समान प्रक्रिया का पालन किया, सॉर्टिंग, डुप्लीकेट मार्किंग, हैप्लोटाइप कॉलिंग और वीक्यूएसआर फ़िल्टरिंग।

डीपवेरिएंट पाइपलाइन को ऑनलाइन निर्देशों (https://github.com/google/deepvariant) के अनुसार एक सिंगुलैरिटी फ्रेमवर्क के माध्यम से चलाया गया था। सामान्य तौर पर, इसमें तीन चरण शामिल होते हैं: (1) make_example मॉड्यूल-उपभोग पढ़ता है और गहन शिक्षण मॉडल के साथ मूल्यांकन के लिए TensorFlow उदाहरण बनाने के लिए संदर्भ जीनोम। (2) call_variants मॉड्यूल - make_example मॉड्यूल द्वारा बनाई गई TFRecord फ़ाइलों का उपभोग करता है और इनपुट TFRecord में प्रत्येक उदाहरण पर मॉडल का मूल्यांकन करता है। (3) postprocess_variants मॉड्यूल — call_variants मॉड्यूल से आउटपुट TFRecord फ़ाइलों को पढ़ता है, बहु-एलीलिक रिकॉर्ड को जोड़ता है और एक VCF फ़ाइल लिखता है। डीपवेरिएंट ने केवल वैरिएंट कॉलिंग के लिए ट्रांसफ़ॉर्म किए गए संरेखित सीक्वेंसिंग रीड्स का उपयोग किया, और इसलिए GATK या DRAGEN पाइपलाइनों से संसाधित BAM फ़ाइल को इनपुट के रूप में फीड किया गया था।

अंत में प्रत्येक WGS डेटासेट के लिए छह VCF फाइलें उत्पन्न की गईं, जो कि उनके वर्कफ़्लो के संदर्भ में पाइपलाइनों के विभिन्न पैरामीटर सेटिंग्स और प्रसंस्करण संयोजनों का प्रतिनिधित्व करती हैं, जैसा कि चित्र 1 (अर्थात। DV_gatk4—बैम फ़ाइल के लिए GATK और वैरिएंट कॉलिंग के लिए डीप वैरिएंट DV_dragen3—बैम फ़ाइल के लिए DRAGEN और वैरिएंट कॉलिंग के लिए डीप वेरियंट GATK4_raw— GATK BAM फाइल और वैरिएंट कॉलिंग दोनों के लिए GATK4_vqsr-कॉलसेट से GATK4_raw VQSR के साथ फ़िल्टर किया गया Dragon3_raw—DRAGEN BAM फाइल और वैरिएंट कॉलिंग दोनों के लिए और ड्रेगन3_vqsr—कॉलसेट से Dragon3_raw VQSR के साथ फ़िल्टर किया गया)। इसके अलावा, एक मर्ज किए गए VCF फ़ाइल को द्वारा कहे जाने वाले वेरिएंट को मिलाकर तैयार किया गया था DV_gatk4, DV_dragen3, GATK4_raw तथा Dragon3_raw bcftools v1.10.2 38 का उपयोग करते हुए, और केवल कम से कम दो पाइपलाइनों के समर्थन के साथ बुलाए गए वेरिएंट को रखा गया था।

कंप्यूटिंग पर्यावरण और संसाधन

उच्च-प्रदर्शन कंप्यूटिंग (एचपीसी) क्लस्टर और ओस्लो विश्वविद्यालय में संवेदनशील डेटा प्लेटफॉर्म (टीएसडी) के भीतर स्थानीय वर्चुअल मशीन (वीएम) दोनों पर भिन्न कॉलिंग प्रक्रियाएं चलाई गईं। एचपीसी क्लस्टर में प्रत्येक नोड की सेटिंग्स में 512 जीबी भौतिक मेमोरी के कुल आकार के साथ 64 एएमडी सीपीयू कोर, एक सेंटोस 7 ऑपरेटिंग सिस्टम और एक बीईजीएफएस नेटवर्क फाइल सिस्टम शामिल हैं। FPGA हार्डवेयर इन्फ्रास्ट्रक्चर को DRAGEN पाइपलाइन एप्लिकेशन के लिए विशिष्ट एक नोड पर स्थापित किया गया था। स्थानीय VM में कुल 1.5 TiB भौतिक मेमोरी के साथ 40 CPU कोर, ext4 फ़ाइल सिस्टम स्वरूप के साथ 2 TiB स्थानीय डिस्क और CentOS 7 थे।

वीसीएफ फाइलों की बेंचमार्क सहमति

NA12878 (HG001) डेटासेट के लिए स्वर्ण मानक सत्य कॉलसेट और उच्च आत्मविश्वास जीनोमिक अंतराल (NIST v3.3.2) https://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/ से प्राप्त किए गए थे। NISTv3.3.2/GRCh37/HG001_GRCh37_GIAB_highconf_CG-IllFB-IllGATKHC-Ion-10X-SOLID_CHROM1-X_v.3.3.2_highconf_PGandRTGphasetransfer.vcf.gz और https://ftp-trace/ncbi.nlm.nih.gov/release NA12878_HG001/NISTv3.3.2/GRCh37/HG001_GRCh37_GIAB_highconf_CG-IllFB-IllGATKHC-Ion-10X-SOLID_CHROM1-X_v.3.3.2_highconf_nosomaticdel.bed. प्रदर्शन मेट्रिक्स की गणना करने के लिए, हमने हैप्लोटाइप स्तर https://github.com/Illumina/hap.py पर द्विगुणित जीनोटाइप की तुलना के लिए hap.py (संस्करण 0.3.8, vcfeval तुलना इंजन) का उपयोग किया। CHM1 और CHM13 के मिश्रण से WGS डेटा की वैरिएंट कॉलिंग की तुलना "सिंथेटिक-डिप्लोइड" बेंचमार्क ट्रुथ कॉलसेट और उच्च-विश्वास वाले क्षेत्रों (यानी full.37d5.vcf.gz और full.37d5.bed.gz से की गई थी, जो कि हैं CHM-eval किट टूल में शामिल है और vcfeval तुलना इंजन 27 का उपयोग करके https://github.com/lh3/CHM-eval, संस्करण 20180222 पर उपलब्ध है। सिम्युलेटेड WGS डेटा में पहचाने गए बेंचमार्किंग वेरिएंट के लिए, हमने उच्च-विश्वास वाले क्षेत्रों (यानी HG001_GRCh37_GIAB_highconf_CG-IllFB-IllGATKHC-Ion-10X-SOLID_CHROM1-X_v.3.3.2_highconf_nosomaticdel.bed) के साथ और बिना उनके सत्य सकारात्मक कॉलसेट के खिलाफ एक आम सहमति मूल्यांकन किया। , क्रमश। ट्रू पॉजिटिव (टीपी), फॉल्स पॉजिटिव (एफपी) और फॉल्स नेगेटिव (एफएन) की परिभाषाएं वैरिएंट मैचिंग स्ट्रिंग्स "जीनोटाइप मैच" के प्रकारों पर आधारित थीं (सबसे सख्त-सत्य और क्वेरी को वास्तविक सकारात्मक माना जाता है जब उनके अनपेक्षित जीनोटाइप और एलील को द्विगुणित जीनोम के लिए हैप्लोटाइप अनुक्रमों की एक मिलान जोड़ी बनाने के लिए चरणबद्ध किया जा सकता है) और "स्थानीय मिलान" (कम सख्त-सत्य और क्वेरी वेरिएंट को वास्तविक सकारात्मक के रूप में गिना जाता है यदि उनके संदर्भ अवधि अंतराल पूर्व-परिभाषित स्थानीय मिलान दूरी से करीब हैं। ) 39. प्रेसिजन, रिकॉल और एफ 1-स्कोर की गणना क्रमशः टीपी / (टीपी + एफपी), टीपी / (टीपी + एफएन) और 2 * टीपी / (2 * टीपी + एफएन + एफपी) के रूप में की गई थी।

स्तरीकरण विश्लेषण के लिए जीनोम सुविधाओं की परिभाषा

स्तरीकरण विश्लेषण 33 में विभिन्न प्रकार के जीनोम संदर्भों और जैविक विशेषताओं को लागू किया गया था। (1) कम जटिलता वाले क्षेत्र: '*_merged_slop5.bed.gz' ग्लोबल एलायंस फॉर जीनोमिक्स एंड हेल्थ (GA4GH) बेंचमार्किंग टीम (https://github.com/ga4gh/benchmarking-tools/tree/d88448a68a79ed322837bc8eb4d5a096a710993d/resources/ द्वारा परिभाषित) स्तरीकरण-बिस्तर-फाइलें/कम जटिलता)। (2) GC सामग्री अंतराल: GA4GH बेंचमार्किंग टीम द्वारा परिभाषित '*_slop50.bed.gz' (https://github.com/ga4gh/benchmarking-tools/tree/d88448a68a79ed322837bc8eb4d5a096a710993d/resources/stratification-bed-files/GCcontent)। (3) कोडिंग/संरक्षित क्षेत्र: GA4GH बेंचमार्किंग टीम द्वारा परिभाषित 'refseq_uion_cds.sort.bed.gz' (https://github.com/ga4gh/benchmarking-tools/tree/d88448a68a79ed322837bc8eb4d5a096a710993d/resources/FunctionalReg ) का उपयोग नकली डेटा विश्लेषण 'func.37m.bed.gz' के लिए किया गया था जैसा कि CHM-eval किट टूल (//github.com/lh3/CHM-eval) में परिभाषित किया गया था, जिसका उपयोग 'सिंथेटिक-डिप्लोइड' डेटा विश्लेषण के लिए किया गया था। . (4) बी एलील फ़्रीक्वेंसी: इसकी गणना वीसीएफ फ़ाइल में एडी फ़ील्ड का उपयोग करके की गई थी, जो संदर्भ और वैकल्पिक एलील के लिए रीड कवरेज की संख्या को रिकॉर्ड करती है। इसके अलावा, हमने वास्तविक (NA12878_PrecisionFDA और NA12878_ SRR6794144) और टूल seqtk v1.3 40 का उपयोग करके नकली डेटा का डाउन-सैंपल किया, और बेंचमार्किंग तुलना के लिए 10 × और 20 × अनुक्रमण गहराई में रीड फाइलें उत्पन्न कीं।


सामग्री और तरीके

फेनोटाइप-एसएनपी संघों को NHGRI GWAS कैटलॉग (15) में GWAS डेटा से निकाला गया था। इसमें प्रकाशित GWAS की मैन्युअल रूप से क्यूरेट की गई प्रविष्टियाँ हैं, जिसमें SNPs बीमारियों, फेनोटाइप और लक्षणों से जुड़े थे। जब तक अन्यथा न कहा गया हो, हमने 9 सितंबर 2015 को www.ebi.ac.uk/gwas के संस्करण का उपयोग किया था। जीन प्रतीकों को जेननाम (16) से लिया गया था, जबकि एसएनपी और जीन के जीनोमिक स्थान यूसीएससी जीनोम ब्राउज़र ( 17) से लिए गए थे। . जैविक रास्ते और उनसे जुड़े जीन KEGG पाथवे डेटाबेस (रिलीज़ 53) (18), और ConensusPathDB (CPDB) (19) से लिए गए थे। CPDB से हमने केवल KEGG पाथवे लिए। जीनोमिक इंडल्स डीजीवी (20), जीनोमिक संरचना वेरिएंट (एसवी) के एक डेटाबेस से लिए गए थे। इनका उपयोग इस विश्लेषण के लिए किया गया था कि क्या अधिक इंडल्स फेनोटाइप से जुड़े एसएनपी-जीन क्षेत्रों में आते हैं। SG क्षेत्रों के आसपास के इंडल्स के विश्लेषण के लिए (नीचे देखें) हमने 11/2011 को www.genome.gov/gwastudies से डाउनलोड किए गए GWAS कैटलॉग संस्करण का उपयोग उसी फेनोटाइप के मर्ज किए गए GWAS प्रविष्टियों के साथ (14) में किया था।

रास्ते के लिए फेनोटाइप्स का जुड़ाव

हम एक एसएनपी को 'फेनोटाइप-जुड़े एसएनपी' के रूप में परिभाषित करते हैं यदि यह एनएचजीआरआई जीडब्ल्यूएएस कैटलॉग (देखें (15)) में एक फेनोटाइप के साथ जुड़ा हुआ है। यह निर्धारित करने के लिए कि क्या एक मार्ग एक फेनोटाइप के साथ महत्वपूर्ण रूप से जुड़ा हुआ है, हम यह आकलन करते हैं कि क्या उस फेनोटाइप के जीन उस मार्ग के भीतर संयोग से अपेक्षा से अधिक आते हैं। अगला पैराग्राफ पृष्ठभूमि मॉडल का वर्णन करता है जिस पर हम उन जीनों की संख्या निर्धारित करते हैं जो संयोग से एक मार्ग में क्लस्टर होने की उम्मीद करते हैं।

फेनोटाइप-पाथवे एसोसिएशन के महत्व का आकलन

एक निश्चित दूरी के कटऑफ में एक फेनोटाइप और एक मार्ग के बीच संबंध के महत्व का आकलन एक्स (जैसे 10 केबीपीएस, 200 केबीपीएस), जिसे एतद्द्वारा 'कटऑफ' के रूप में संदर्भित किया जाता है, पृष्ठभूमि मॉडल के संबंध में थोड़ी भिन्नता के साथ (14) के रूप में किया जाता है। संक्षेप में, प्रत्येक फेनोटाइप के लिए, के साथ एस जीडब्ल्यूएएस के अनुसार इससे जुड़े एसएनपी, फेनोटाइप से जुड़े जीनों की संख्या, निरूपित जी, रिकॉर्ड किया गया था। की दूरी के कटऑफ के लिए एक्स, जी से कम जीनों की संख्या है एक्स इनमें से किसी से भी बी.पी.एस एस एसएनपी। हमने यह भी दर्ज किया कि इनमें से कितने जी जीन एक ही मार्ग में गिरते हैं। GWAS के SNPs में सभी SNPs (चित्र 1) की तुलना में उनके आसपास के क्षेत्र में अधिक जीन होते हैं, इस बात का हिसाब लगाने के लिए कि संयोग से अपेक्षित संख्या का बार-बार चयन करके मूल्यांकन किया गया था। एस जीडब्ल्यूएएस से यादृच्छिक एसएनपी, उन्हें उन जीनों में मैप करना जो से कम हैं एक्स बीपीएस दूर और रिकॉर्ड करना कि इनमें से कितने जीन एक ही मार्ग में आते हैं (ध्यान दें कि (14) जीनों को यादृच्छिक रूप से चुना गया था, न कि एसएनपी)। प्रत्येक फेनोटाइप-पाथवे जोड़ी के लिए, इसे 1000 बार दोहराया गया था। एक फेनोटाइप को के साथ पथ के साथ महत्वपूर्ण रूप से जुड़ा हुआ कहा जाता है पी-मान <0.001, अगर <0.001 इन यादृच्छिक पुनर्नमूनाओं के परिणामस्वरूप एक समान या अधिक संख्या में जीन होते हैं जो मार्ग में क्लस्टर होते हैं।

एसएनपी का वितरण निकटतम जीन से उनकी निकटता के अनुसार। बार्स एसएनपी के प्रतिशत को दर्शाते हैं जिनके पास एक निश्चित दूरी के भीतर एक जीन होता है। ब्लू बार सभी ज्ञात एसएनपी का प्रतिनिधित्व करते हैं, लाल बार केवल एसएनपी का प्रतिनिधित्व करते हैं जो जीडब्ल्यूएएस द्वारा फेनोटाइप्स से जुड़े होने के लिए पाए गए थे। NS एक्स-अक्ष एसएनपी से दूरी का प्रतिनिधित्व करता है वाई-अक्ष एसएनपी के प्रतिशत का प्रतिनिधित्व करता है जिनके पास उस दूरी के भीतर एक जीन है।

एसएनपी का वितरण निकटतम जीन से उनकी निकटता के अनुसार। बार्स एसएनपी के प्रतिशत को दर्शाते हैं जिनके पास एक निश्चित दूरी के भीतर एक जीन होता है। ब्लू बार सभी ज्ञात एसएनपी का प्रतिनिधित्व करते हैं, लाल बार केवल एसएनपी का प्रतिनिधित्व करते हैं जो जीडब्ल्यूएएस द्वारा फेनोटाइप्स से जुड़े होने के लिए पाए गए थे। NS एक्स-अक्ष एसएनपी से दूरी का प्रतिनिधित्व करता है वाई-अक्ष एसएनपी के प्रतिशत का प्रतिनिधित्व करता है जिनके पास उस दूरी के भीतर एक जीन है।

यादृच्छिक मॉडल को परीक्षण करना चाहिए कि क्या जीन जो फेनोटाइप से जुड़े एसएनपी क्लस्टर के करीब हैं, संयोग से अपेक्षा से अधिक रास्ते में हैं। हालांकि, यह ध्यान में रखना चाहिए कि गुणसूत्र पर पड़ोसी जीन एसएनपी की परवाह किए बिना एक ही मार्ग में क्लस्टर कर सकते हैं। हम एक 'सेगमेंट' को एक या एक से अधिक एसएनपी और उनके आसपास के डीएनए को एक निश्चित दूरी के कटऑफ तक शामिल करते हुए सन्निहित आधार जोड़े के खिंचाव के रूप में परिभाषित करते हैं। उदाहरण के लिए, निम्नलिखित क्रोमोसोमल स्थानों में तीन संबद्ध एसएनपी के साथ एक फेनोटाइप के लिए: 9,000, 35,000 और 40,000, गुणसूत्र 3 पर, 10 केबीपीएस की दूरी के कटऑफ का उपयोग करते हुए, हमें इनमें से प्रत्येक एसएनपी के चारों ओर प्रत्येक दिशा में एक खंड 10 केबीपीएस का विस्तार करना चाहिए। व्यवहार में, हम दो खंडों के साथ समाप्त होंगे, पहला 0–19,000 पर, और दूसरा 25,000–50,000 पर। ध्यान दें कि क्रोमोसोम के अंत में पहले एसएनपी की निकटता को देखते हुए इसके आसपास के खंड का प्रभावी आकार 1.9 केबीपीएस है न कि 2 केबीपीएस। अन्य दो एसएनपी की एक-दूसरे से निकटता को देखते हुए उनके खंड आंशिक रूप से 2 केबीपीएस के दो अलग-अलग खंडों के बजाय 2.5 केबीपीएस के एक संयुक्त खंड को प्राप्त करने के लिए आंशिक रूप से ओवरलैप करते हैं। इस प्रकार, ये तीन एसएनपी दो गुणसूत्र खंडों को उजागर करते हैं, एक 1.9 केबीपीएस और एक 2.5 केबीपीएस। एक यादृच्छिक मॉडल उत्पन्न करने के लिए अब हम एसएनपी के आसपास के दो खंडों के समान आकार के दो खंडों का चयन करते हैं। पक्षपात से बचने के लिए, हम अपने चयन को उन खंडों तक सीमित रखते हैं जो रिपोर्ट किए गए एसएनपी को घेरते हैं। विशेष रूप से, हमने पहले बेतरतीब ढंग से दो खंडों को चुना जो एक एसएनपी द्वारा केंद्रित होते हैं, एक जो 1.9 केबीपीएस लंबा होता है और एक जो 2.5 केबीपीएस लंबा होता है। इसके बाद, एसएनपी की मूल संख्या को ध्यान में रखने के लिए, दूसरे खंड, जिसमें मूल रूप से दो एसएनपी शामिल थे, को दो मनमाने 'एसएनपी' से विभाजित किया गया था, जो खंड के साथ समान रूप से वितरित किए गए थे, जैसे कि कटऑफ लागू करते समय उनका संयुक्त खंड 2.5 केबीपीएस होगा। जैसा कि (14) में वर्णित है, ढांचा कई परीक्षणों के लिए जिम्मेदार है। संक्षेप में, आइए एन संबद्ध एसएनपी के साथ कई फ़ेनोटाइप हो सकते हैं जो कि ऊपर दिए गए रेज़म्पलिंग प्रक्रिया का उपयोग करते हुए महत्वपूर्ण रूप से रास्ते से जुड़े हुए पाए गए थे। चूंकि पीप्रत्येक फेनोटाइप के लिए -मूल्य का अलग से मूल्यांकन किया गया था, जिसका आकलन करने की आवश्यकता है पी-सभी फेनोटाइप के लिए समग्र परिणाम का मूल्य। यह अंत करने के लिए, से प्रत्येक फेनोटाइप के लिए एन, एक छद्म फेनोटाइप बेतरतीब ढंग से उठाकर खंडों द्वारा बनाया गया था, जैसा कि ऊपर वर्णित है, मूल फेनोटाइप खंडों की संख्या और लंबाई के अनुरूप है (ध्यान दें कि (14) छद्म फेनोटाइप यादृच्छिक रूप से जीन चुनकर बनाए गए थे, खंड नहीं)। फिर, इनमें से प्रत्येक के लिए उपरोक्त पुन: नमूनाकरण प्रक्रिया दोहराई जाती है एन सेट, यह निर्धारित करने के लिए कि क्या यह छद्म फेनोटाइप ऊपर वर्णित महत्व मूल्यांकन को पारित करने के लिए निकला है। प्रत्येक छद्म फेनोटाइप के लिए 'महत्वपूर्ण' फेनोटाइप-पाथवे संघों की संख्या दर्ज की गई है। इसे 100 बार दोहराया जाता है, a . प्राप्त करने के लिए पी-सभी फेनोटाइप के लिए एक निश्चित संख्या में महत्वपूर्ण फेनोटाइप-पाथवे एसोसिएशन प्राप्त करने के लिए। चित्र 2 में लाल पट्टियाँ/रेखा इन पुन: नमूनाकरण प्रक्रियाओं के माध्यिका का प्रतिनिधित्व करती हैं।लाल पट्टियों/रेखा पर त्रुटि पट्टियाँ मानक विचलन दर्शाती हैं।

विभिन्न अंतरालों पर जीन के लिए एसएनपी की मैपिंग पर आधारित संघ। () यदि हम एक निश्चित दूरी के भीतर सभी जीनों के लिए एक एसएनपी मैप करते हैं, तो फेनोटाइप्स से महत्वपूर्ण रूप से जुड़े मार्गों की संख्या गैर संचयी डिस्टेंस कटऑफ (उदाहरण के लिए, 0-100 केबीपीएस के बीच के जीन को 100-200 केबीपीएस अंतराल के लिए नहीं माना जाता है, आदि)। लाल पट्टियाँ संयोग से अपेक्षित संघों की संख्या का प्रतिनिधित्व करती हैं (100 यादृच्छिक पुनरावर्तन पुनरावृत्तियों का माध्य, विधियाँ देखें)। (बी) जब प्रत्येक दूरी के लिए कटऑफ जीन पर विचार किया जाता है तो फेनोटाइप्स से महत्वपूर्ण रूप से जुड़े मार्गों की संख्या संचयी (एसएनपी और दूरी कटऑफ के बीच सभी जीनों पर विचार किया जाता है)। लाल रेखा ऊपर के रूप में संयोग से अपेक्षित संख्या का प्रतिनिधित्व करती है।

विभिन्न अंतरालों पर जीन के लिए एसएनपी की मैपिंग पर आधारित संघ। () यदि हम एक निश्चित दूरी के भीतर सभी जीनों के लिए एक एसएनपी मैप करते हैं, तो फेनोटाइप्स से महत्वपूर्ण रूप से जुड़े मार्गों की संख्या गैर संचयी डिस्टेंस कटऑफ (उदाहरण के लिए, 0-100 केबीपीएस के बीच के जीन को 100-200 केबीपीएस अंतराल के लिए नहीं माना जाता है, आदि)। लाल पट्टियाँ संयोग से अपेक्षित संघों की संख्या का प्रतिनिधित्व करती हैं (100 यादृच्छिक पुनरावर्तन पुनरावृत्तियों का माध्य, विधियाँ देखें)। (बी) जब प्रत्येक दूरी के लिए कटऑफ जीन पर विचार किया जाता है तो फेनोटाइप्स से महत्वपूर्ण रूप से जुड़े मार्गों की संख्या संचयी (एसएनपी और दूरी कटऑफ के बीच सभी जीनों पर विचार किया जाता है)। लाल रेखा ऊपर के रूप में संयोग से अपेक्षित संख्या का प्रतिनिधित्व करती है।

एसएनपी और सम्मिलन/विलोपन के बीच संबंधों का आकलन

एसएनपी-जीन क्षेत्रों को परिभाषित करना

हम एक एसएनपी-जीन (एसजी) क्षेत्र को एक जीन और एक एसएनपी के बीच गुणसूत्र क्षेत्र के रूप में परिभाषित करते हैं जिसे इसे सौंपा गया है। हम इस परिभाषा का उपयोग यह पता लगाने के लिए करते हैं कि क्या गैर-संबद्ध एसजी क्षेत्रों की तुलना में फेनोटाइप-जुड़े एसजी क्षेत्रों के अंदर अधिक इंडल्स होते हैं।

एसजी क्षेत्रों में इंडेल का मानचित्रण

यह आकलन करने के लिए कि क्या एसएनपी और इंडल्स के बीच कोई संबंध है, हमने परीक्षण किया कि क्या डीजीवी डेटाबेस से निकाले गए इंडल्स उन क्षेत्रों में रहते हैं जो फेनोटाइप से जुड़े एसएनपी और लिंक्ड जीन (यानी जीन जो एक महत्वपूर्ण फेनोटाइप-पाथवे एसोसिएशन में योगदान करते हैं) के बीच हैं। हमने दो प्रकार के जीनोमिक क्षेत्रों को परिभाषित किया है जो एक एसएनपी और एक जीन (एसजी क्षेत्रों) के बीच स्थित हैं। एक जुड़ा हुआ एसजी क्षेत्र एक फेनोटाइप-जुड़े एसएनपी और एक जीन के बीच स्थित है जो उस फेनोटाइप से जुड़े मार्ग के भीतर आता है। एक गैर-जुड़े एसजी क्षेत्र में, जीन एक मार्ग के भीतर नहीं आता है जो कि फेनोटाइप के साथ महत्वपूर्ण रूप से जुड़ा हुआ है। अंत में, गैर-एसजी क्षेत्र वे सभी क्षेत्र हैं जो एसएनपी और जीन के बीच नहीं हैं। हमने इन तीन प्रकार के जीनोमिक क्षेत्रों में पाए जाने वाले इंडल्स की मात्रा की तुलना की।

ध्यान दें कि हमने प्रति समूह विलोपन की मात्रा की गणना करने के लिए लिंक किए गए SG समूह के साथ-साथ दो अन्य समूहों के साथ सभी विलोपन के स्थानों को क्रॉस-रेफर किया है। चूंकि समूह आकार में भिन्न होते हैं, अर्थात प्रत्येक समूह के लिए क्षेत्रों की संख्या और उनकी लंबाई अलग-अलग होती है, इसलिए हमने प्रति न्यूक्लियोटाइड में इंडल्स की संख्या को सामान्य किया। उदाहरण के लिए, जब एसजी क्षेत्रों पर विचार किया जाता है जो 0.5-1 एमबीपीएस हैं, तो हमने सभी जुड़े एसएनपी-जीन जोड़े को लिया जो 0.5 एमबीपीएस से अधिक लेकिन 1 एमबीपीएस से कम अलग हैं। फिर हमने न्यूक्लियोटाइड्स में इन सभी क्षेत्रों की लंबाई का योग किया। फिर, हमने DGV से सभी ज्ञात इंडल्स को लिया जो इनमें से किसी भी क्षेत्र में आते हैं और उनकी संचयी लंबाई का योग करते हैं। अंत में हमने क्षेत्रों की कुल लंबाई को इंडेल की कुल लंबाई से विभाजित किया। परिणामी संख्या औसत विभिन्न इंडल्स है जिसमें क्षेत्र में प्रत्येक न्यूक्लियोटाइड दिखाई देता है। यह सभी क्षेत्र आकारों और सभी क्षेत्र प्रकारों के लिए दोहराया गया था। ध्यान दें, कि वर्तमान में, मानव जीनोम में प्रत्येक स्थिति औसतन, लगभग 2 ज्ञात इंडल्स में दिखाई देती है।

लिंक किए गए SG क्षेत्रों के समूह में विलोपन की मात्रा के महत्व की गणना करने के लिए, हमने अपने प्रत्येक नियंत्रण समूह पर यादृच्छिक परीक्षण नियोजित किया। यही है, हमने एक निश्चित आकार के सभी क्षेत्रों को मिला दिया, भले ही वे जुड़े हुए एसजी क्षेत्रों से आए हों या नियंत्रण से। प्रत्येक यादृच्छिक रन के लिए, समूह से 100 क्षेत्रों के दो सेटों को बेतरतीब ढंग से चुना गया था और प्रत्येक समूह के लिए प्रति न्यूक्लियोटाइड में इंडल्स की मात्रा की गणना की गई थी, और दो समूहों के बीच अंतर की गणना की गई थी। यह प्रत्येक नियंत्रण समूह के लिए 1000 बार किया गया था।


आनुवंशिक मार्कर

हमारे संपादक समीक्षा करेंगे कि आपने क्या प्रस्तुत किया है और यह निर्धारित करेंगे कि लेख को संशोधित करना है या नहीं।

आनुवंशिक मार्कर, न्यूक्लिक एसिड या अन्य आनुवंशिक लक्षणों के अनुक्रम में कोई भी परिवर्तन जिसका आसानी से पता लगाया जा सकता है और व्यक्तियों, आबादी या प्रजातियों की पहचान करने या विरासत में मिली बीमारी में शामिल जीन की पहचान करने के लिए उपयोग किया जा सकता है। आनुवंशिक मार्करों में मुख्य रूप से बहुरूपता होते हैं, जो असंतत आनुवंशिक विविधताएं हैं जो आबादी के व्यक्तियों को अलग-अलग रूपों में विभाजित करती हैं (उदाहरण के लिए, एबी बनाम एबीओ रक्त प्रकार या गोरा बाल बनाम लाल बाल)। आनुवंशिक मार्कर आनुवंशिक मानचित्रण में एक महत्वपूर्ण भूमिका निभाते हैं, विशेष रूप से विभिन्न एलील की स्थिति की पहचान करने में जो एक ही गुणसूत्र पर एक दूसरे के करीब स्थित होते हैं और एक साथ विरासत में मिलते हैं। ऐसे लिंकेज समूहों का उपयोग अज्ञात जीन की पहचान करने के लिए किया जा सकता है जो रोग जोखिम को प्रभावित करते हैं। तकनीकी प्रगति, विशेष रूप से डीएनए अनुक्रमण में, मानव जीनोम में परिवर्तनशील साइटों की सूची में काफी वृद्धि हुई है।

एकल न्यूक्लियोटाइड बहुरूपता (एसएनपी), सरल अनुक्रम लंबाई बहुरूपता (एसएसएलपी), और प्रतिबंध टुकड़ा लंबाई बहुरूपता (आरएफएलपी) सहित कई प्रकार के बहुरूपता आनुवंशिक मार्कर के रूप में कार्य करते हैं। एसएसएलपी में रिपीट सीक्वेंस, मिनीसैटेलाइट्स के रूप में जानी जाने वाली विविधताएं (टेंडेम रिपीट की वैरिएबल संख्या, या वीएनटीआर) और माइक्रोसेटेलाइट्स (सिंपल टेंडेम रिपीट, एसटीआर) शामिल हैं। सम्मिलन/विलोपन (इंडेल्स) आनुवंशिक मार्कर का एक और उदाहरण है।

मानव जीनोम में, सबसे आम प्रकार के मार्कर एसएनपी, एसटीआर और इंडल्स हैं। एसएनपी डीएनए सेगमेंट में केवल एक बुनियादी बिल्डिंग ब्लॉक्स- एडेनिन (ए), गुआनिन (जी), थाइमिन (टी), या साइटोसिन (सी) को प्रभावित करता है। उदाहरण के लिए, अधिकांश व्यक्तियों में अनुक्रम ACCTGA के साथ एक जीनोमिक स्थान पर, कुछ व्यक्तियों में इसके बजाय ACGTGA हो सकता है। इस उदाहरण में तीसरी स्थिति को एसएनपी माना जाएगा, क्योंकि चर स्थिति में सी या जी एलील होने की संभावना है। चूंकि प्रत्येक व्यक्ति को प्रत्येक माता-पिता से डीएनए की एक प्रति विरासत में मिलती है, इसलिए प्रत्येक व्यक्ति के पास डीएनए की दो पूरक प्रतियां होती हैं। नतीजतन, उपरोक्त उदाहरण में, तीन जीनोटाइप संभव हैं: समयुग्मक सीसी (चर स्थिति पर सी एलील की दो प्रतियां), विषमयुग्मजी सीटी (एक सी और एक टी एलील), और समयुग्मक टीटी (दो टी एलील)। आनुवंशिक महामारी विज्ञान सेटिंग में रुचि के परिणाम के साथ संघों का आकलन करने के लिए तीन जीनोटाइप समूहों को "एक्सपोज़र" श्रेणियों के रूप में उपयोग किया जा सकता है। क्या इस तरह के एक संघ की पहचान की जानी चाहिए, शोधकर्ता उस क्षेत्र में विशेष डीएनए अनुक्रम की पहचान करने के लिए चिह्नित जीनोमिक क्षेत्र की जांच कर सकते हैं जिसका ब्याज के परिणाम पर प्रत्यक्ष जैविक प्रभाव पड़ता है।


सामाजिक रूप से एकांगी पक्षी में पेरेंटेज असाइन करने के लिए एसएनपी और माइक्रोसेटेलाइट मार्करों का तुलनात्मक मूल्यांकन

एकल-न्यूक्लियोटाइड बहुरूपता (एसएनपी) को कई विकासवादी अध्ययनों में माइक्रोसेटेलाइट मार्करों पर पसंद किया जाता है, लेकिन केवल हाल ही में पेरेंटेज के अध्ययन के लिए लागू किया गया है। माता-पिता को सौंपने के लिए एसएनपी और माइक्रोसेटेलाइट्स के मूल्यांकन में ज्यादातर विशेष मामलों पर ध्यान केंद्रित किया गया है, जिसमें अपेक्षाकृत बड़ी संख्या में विषमयुग्मजी लोकी की आवश्यकता होती है, जैसे कि कम आनुवंशिक विविधता वाली प्रजातियां या जटिल सामाजिक संरचनाएं। हमने सबसे आम एवियन मेटिंग सिस्टम-सोशल मोनोगैमी के साथ एक सॉन्गबर्ड के आरएनए-सीक्वेंसिंग का उपयोग करके इकट्ठे किए गए ट्रांसक्रिपटोम से 120 एसएनपी मार्कर विकसित किए। हमने 97 उपन्यास एसएनपी की प्रभावशीलता की तुलना की और छह पहले से वर्णित माइक्रोसेटेलाइट्स को काले गले वाले नीले रंग के योद्धा में पितृत्व प्रदान करने के लिए, सेटोफगा केरुलेससेंस. हम दिखाते हैं कि 97 एसएनपी का पूरा पैनल (मतलब एचहे = 0.19) पितृत्व को निर्दिष्ट करने के लिए उतना ही शक्तिशाली था जितना कि बहुविकल्पीय माइक्रोसेटेलाइट्स (माध्य) के पैनल के रूप में एचहे = 0.86)। दो मार्कर प्रकारों का उपयोग करने वाले पितृत्व असाइनमेंट 92% संतानों के लिए थे। व्यक्तिगत नमूनों को 50% कॉल दर और SNPs को 75% कॉल दर से फ़िल्टर करने से SNPs का उपयोग करके 95% विश्वास के साथ निर्दिष्ट संतानों की संख्या को अधिकतम किया गया। हमने यह भी पाया कि 40 सबसे विषमयुग्मजी एसएनपी (मतलब एचहे = 0.37) में 97 एसएनपी के पूर्ण पैनल के समान पितृत्व प्रदान करने की शक्ति थी। इन निष्कर्षों से पता चलता है कि सामाजिक रूप से एकांगी प्रजातियों में पेरेंटेज विश्लेषण के लिए अपेक्षाकृत कम संख्या में परिवर्तनशील एसएनपी प्रभावी हो सकते हैं। हमारा सुझाव है कि एसएनपी मार्करों का विकास उन अध्ययनों के लिए फायदेमंद है जिनके लिए उच्च-थ्रूपुट जीनोटाइपिंग की आवश्यकता होती है या पारिस्थितिक और विकासवादी प्रश्नों की एक श्रृंखला को संबोधित करने की योजना है।

टेबल S1 97 एसएनपी के लिए फॉरवर्ड, रिवर्स और एक्सटेंड प्राइमर सीक्वेंस की सूची।

टेबल S2 पेरेंटेज विश्लेषण के लिए उपयोग किए जाने वाले छह माइक्रोसेटेलाइट मार्करों के लक्षण।

टेबल S3 पेरेंटेज विश्लेषण के लिए इनपुट पैरामीटर।

टेबल S4 सभी माइक्रोसेटेलाइट और एसएनपी पैनल के लिए देखे गए और अपेक्षित गर्भाशय ग्रीवा पितृत्व असाइनमेंट की संख्या।

कृपया ध्यान दें: प्रकाशक लेखकों द्वारा प्रदान की गई किसी भी सहायक जानकारी की सामग्री या कार्यक्षमता के लिए ज़िम्मेदार नहीं है। किसी भी प्रश्न (अनुपलब्ध सामग्री के अलावा) को लेख के लिए संबंधित लेखक को निर्देशित किया जाना चाहिए।


विचार - विमर्श

हमने प्रदर्शित किया है कि ब्रिटिश कोलंबिया के मामले में स्थानिक डेटा के साथ, और मोल्दोवा के मामले में प्रतिरोध डेटा के साथ, विभिन्न संदर्भों में हमारे दृष्टिकोण को लगातार कैसे लागू किया जा सकता है। यह निश्चित एसएनपी-दहलीज दृष्टिकोण के साथ क्या संभव है, इस पर एक अग्रिम है, जहां इस संदर्भ-विशिष्ट जानकारी को ध्यान में रखने के लिए थ्रेसहोल्ड को समायोजित करने का कोई सामान्य तरीका नहीं है।

ट्रांसमिशन के समय, प्रतिरोध के लिए चयन, प्रतिस्थापन प्रक्रिया, स्थान, और कारक जिन्हें हमने स्पष्ट रूप से मॉडलिंग नहीं किया है (सामाजिक संपर्क, मेजबान जोखिम कारक, रोगज़नक़ कारक सहित) अन्य कारकों के आधार पर विभिन्न प्रकार के प्रसारण से एसएनपी की एक निश्चित संख्या उत्पन्न हो सकती है। ) हमने देखा है कि नमूने के मामले जो आनुवंशिक दूरी में अपेक्षाकृत करीब हैं, फिर भी समय में बड़ी दूरी से अलग किए जा सकते हैं। इस परिदृश्य में, एक साधारण एसएनपी कट-ऑफ नमूनों को प्रकोप क्लस्टरिंग उद्देश्यों के लिए एक साथ बहुत करीब रख सकता है। इसके विपरीत, बाहरी मामलों के संबंध में हमारी नई पद्धति मजबूत है, जिन्हें अधिकांश मामलों की तुलना में बहुत अलग समय पर नमूना लिया गया है। ये मामले समयबद्ध फ़ाइलोजेनेटिक पेड़ों के अनुमान को चुनौतीपूर्ण बना सकते हैं क्योंकि कम आनुवंशिक भिन्नता बड़ी समय दूरी के साथ सामंजस्य स्थापित करना कठिन है। इसके अलावा, सच्चे संचरण समूहों को फ़ाइलोजेनेटिक पेड़ों में क्लैड होने की आवश्यकता नहीं है, क्योंकि एक क्लस्टर दूसरे से उतर सकता है लेकिन लंबे समय तक या एक बड़ी आनुवंशिक दूरी (नमूना प्रभावों के कारण) से अलग हो सकता है। तद्नुसार, हमारी पद्धति द्वारा प्राप्त क्लस्टर आवश्यक रूप से फ़ाइलोजेनेटिक क्लैड के अनुरूप नहीं होते हैं। हम संक्षेप में पूरक डेटा में समयबद्ध फ़ाइग्लोजेनेटिक पेड़ों के लिए हमारी पद्धति के आवेदन पर चर्चा करते हैं, पूरक सामग्री ऑनलाइन, एक उदाहरण क्लस्टर के साथ जो एक क्लैड नहीं है।

हमारी संभाव्य संचरण पद्धति के कुछ फायदे हैं। यह अपेक्षाकृत सरल है, समय वितरण का अनुमान लगाने के लिए केवल तेजी से चलने वाले एल्गोरिदम के कार्यान्वयन की आवश्यकता होती है, बड़ी सिमुलेशन पद्धतियों (जैसे एमसीएमसी) को चलाने के लिए भारी मशीनरी की आवश्यकता नहीं होती है। मॉडल के लिए आवश्यक जानकारी की मात्रा सीमित है और इसमें एसएनपी दूरी, समय डेटा और प्रतिस्थापन और संचरण प्रक्रियाओं के बारे में ज्ञान जितना कम है। फिर भी इसमें चयन के तहत एसएनपी को संभालने में सक्षम होने के लिए लचीलापन है, एक अलग प्रतिस्थापन प्रक्रिया के साथ एसएनपी और प्रतिस्थापन और संचरण प्रक्रियाओं में परिवर्तनशीलता है, और इसमें अधिक महामारी विज्ञान डेटा शामिल करने के लिए विस्तार की गुंजाइश है। यहां तक ​​​​कि डेटा सेट में जहां काम करने के लिए बहुत अधिक समय की जानकारी नहीं है, हमने देखा है कि क्लस्टरिंग को ठीक करने के लिए प्रतिरोध-सम्बन्धी साइटों पर जानकारी के एकीकरण का उपयोग हमारे ढांचे के भीतर किया जा सकता है। समूहों को परिभाषित करने के लिए दो अलग-अलग प्रक्रियाओं- ट्रांसमिशन, और मापने योग्य अनुवांशिक भिन्नता के संचय का उपयोग करने से लाभ होता है कि इन प्रक्रियाओं को डेटा से अनुमान लगाया जा सकता है। यह निश्चित कट-ऑफ के आधार पर केंद्रित चर्चा और मापने योग्य प्रक्रियाओं के आकलन के आधार पर ट्रांसमिशन क्लस्टर बनाने में सक्षम बनाता है, और यह भिन्नता का पता लगाने वाली नई पाइपलाइनों के लिए तैयार अनुकूलन की अनुमति देता है।

कुछ सीमाएँ हैं। प्रतिस्थापन और संचरण प्रक्रियाओं का पूर्व ज्ञान आवश्यक है, और उपयुक्त मूल्यों को चुनने में कुछ अनिश्चितता है। हालांकि, विशेष रूप से इन चरों में परिवर्तन के संबंध में मॉडल आम तौर पर मजबूत होता है, संचरण दर में बदलाव से क्लस्टरिंग पर कोई भौतिक प्रभाव नहीं पड़ता है क्योंकि कट-ऑफ के पुनर्मूल्यांकन से क्षतिपूर्ति होगी। हालांकि, समय-भिन्न संचरण फ़ंक्शन β ( t ) के चुनाव से परिणामों पर प्रभाव पड़ने की संभावना है। विशेष रूप से हम बहुत तेजी से संचरण की कम संभावना की उम्मीद करेंगे - जैसे कि एक नए मेजबान में रोगज़नक़ों की संख्या का निर्माण हो रहा है - एक निरंतर संचरण दर के उपयोग की तुलना में एक महत्वपूर्ण प्रभाव होने के लिए, एक तेज दर जल्दी कम हो जाएगी। बाद में बहुत कम दर। यह भी ध्यान दें कि पैरामीटर टी हमारे मॉडल में दोनों नमूना तिथियों में संक्रमण के बाद से कुल समय का प्रतिनिधित्व करता है: इसलिए हम कैलेंडर समय में संचरण दरों की भिन्नता को मॉडलिंग नहीं कर रहे हैं।

कुछ बीमारियों में, जैसे कि टीबी, विलंबता अवधि में काफी भिन्नता होती है, जिसके दौरान उत्परिवर्तन दर सक्रिय बीमारी के दौरान की तुलना में कम हो सकती है। इस परिवर्तनशीलता को समीकरण (14) में व्यक्त नकारात्मक द्विपद मॉडल में शामिल किया जा सकता है। हम मेजबान विविधता के भीतर स्पष्ट रूप से मॉडल नहीं करते हैं, हालांकि यह प्रत्यक्ष प्रसारण घटनाओं की पहचान करने के लिए प्रासंगिक है (डिडेलॉट एट अल। 2014, 2017 वर्बी एट अल। 2014 हॉल एट अल। 2015, 2016)। एक ही मेजबान में जोड़ी के दो-केस ट्री खर्च समय की दोनों शाखाओं के कारण समय में मामूली अशुद्धि के बावजूद प्रत्यक्ष संचरण के मामलों को हमारी पद्धति में उच्च संभावना के साथ एक साथ जोड़ा जाएगा। मामलों के जोड़े जिनके लिए क्लस्टरिंग निर्णय अस्पष्ट है, उनके बीच कई मध्यवर्ती मामले होने की संभावना है, एक बड़े पेड़ की ऊंचाई के साथ, और इसलिए नमूना मामले में इन-होस्ट विविधता का योगदान छोटा होगा। नमूनारहित मामलों में मेजबान में विविधता हमारे अनुमानों को तब तक प्रभावित नहीं करेगी जब तक कि यह आणविक घड़ी दर में बदलाव में योगदान न दे।

WGS डेटा को ट्रांसमिशन से बाहर निकालने में मददगार माना गया है, लेकिन ट्रांसमिशन इवेंट्स को हल करने के लिए अपने आप में अपर्याप्त है (Casali et al. 2016 Campbell et al। 2018)। यदि WGS डेटा का प्राथमिक उपयोग केवल संचरण का खंडन करने के लिए है, तो कोई यह पूछ सकता है कि क्लस्टरिंग क्यों मायने रखती है। हम तर्क देंगे कि जिन प्रसारणों का WGS द्वारा खंडन नहीं किया जाता है, उन्हें संभवतः हाल ही में, या प्रत्यक्ष, या क्लस्टर्ड प्रसारण संभव माना जाता है। भले ही WGS डेटा का प्राथमिक उपयोग प्रत्यक्ष प्रसारण का खंडन करने के लिए हो, फिर भी उस खंडन की ताकत और वास्तविक हालिया प्रसारण घटनाओं का गलती से खंडन करने की संभावना के बीच एक व्यापार-बंद है। एसएनपी कट-ऑफ का उपयोग करते हुए यह अधिक संभावना है, जहां चयन (एंटीबायोटिक प्रतिरोध के लिए कहें) ने अपेक्षा से अधिक एसएनपी अंतर पैदा किया है। इसके अलावा, व्यवहार में WGS डेटा का उपयोग न केवल प्रत्यक्ष प्रसारण का खंडन करने के लिए किया जाता है, बल्कि ऐसे क्लस्टर बनाने के लिए किया जाता है जो आगे के विश्लेषणों को सूचित करते हैं, हालिया संचरण की सीमा पर रिपोर्ट, प्रकोप विश्लेषण और पुनर्निर्माण और यहां तक ​​कि सार्वजनिक स्वास्थ्य नीति देखें (गुथरी एट अल। 2018) एक उदाहरण के लिए।

हमने घड़ी की प्रक्रिया के लिए गैर-पॉइसन मॉडल के साथ विलंबता में कम प्रतिस्थापन दर की संभावना को समायोजित किया है, मैं, समीकरण (5) में (हालांकि हमने इसे लागू नहीं किया है) और कुछ हद तक एक गैर-स्थिर संचरण दर के विकल्प के साथ। हालांकि, हमने कम एसएनपी संचय और कम संभावना संचरण के बीच सीधे संबंध की संभावना का मॉडल नहीं बनाया है। यदि यह संबंध मौजूद है - उदाहरण के लिए यदि गुप्त मामले दोनों संचारित नहीं होते हैं और एसएनपी जमा नहीं करते हैं (कोलंगेली एट अल। 2014) - तो कम एसएनपी अंतर लंबे समय बीतने के बावजूद कम मध्यवर्ती मेजबानों के अनुरूप हो सकते हैं। यह एक एसएनपी-ओनली पद्धति की एक अंतर्निहित धारणा है, हालांकि यह सही हो सकता है, यह एक मजबूत धारणा है, और इस बात के प्रमाण हैं कि सक्रिय बीमारी की तुलना में विलंबता में उत्परिवर्तन दर कम नहीं होती है (फोर्ड एट अल। 2011 लिलेबेक एट अल। 2016) .

हमने vimes पैकेज (Jombart और Cori 2017) सहित अन्य टूल के विपरीत, अपने क्लस्टर बनाने में सैंपलिंग की संभावना का उपयोग नहीं किया है। उदाहरण के लिए, यदि यह ज्ञात है कि निगरानी मजबूत है, तो 5 मध्यवर्ती मामलों की तुलना में 10 मध्यवर्ती मामलों के अनसैंपल होने की संभावना कम होगी, और इसे क्लस्टरिंग पद्धति में बनाया जा सकता है। इसे ध्यान में न रखने का हमारा औचित्य एक क्लस्टरिंग दृष्टिकोण प्रदान करना है जो वर्तमान में व्यापक रूप से उपयोग में आने वाले एसएनपी कट-ऑफ के समानांतर है, जबकि समय, आणविक विकास और खाते में संचरण पर अतिरिक्त जानकारी लेते हुए। अक्सर ऐसा होता है कि वास्तविक नमूनाकरण दर ज्ञात नहीं होती है और समय के साथ बदल सकती है, और-विशेष रूप से उच्च-संसाधन सेटिंग्स में टीबी के लिए-मामलों को याद किया जा सकता है क्योंकि उन्हें पहचानना मुश्किल होता है (शायद टीबी के उच्च जोखिम में होने के कारण बेघर या अन्य कारक, जैसा कि कैसाली एट अल [2016])। कई सेटिंग्स में नमूने की संभावना अनिश्चित हो सकती है। हमने नमूना संभाव्यता के स्पष्ट संदर्भ के बिना स्वयं समूहों को परिभाषित करने का दृष्टिकोण लिया है, इस दृष्टिकोण के साथ कि क्लस्टर अन्य विश्लेषणों के लिए केंद्रीय इनपुट हैं जो नमूनाकरण को ध्यान में रखेंगे (जैसा कि उदाहरण के लिए ट्रांसफिलो [डिडेलोट एट अल। 2017 में किया गया है) ]). हालाँकि, हमारे दृष्टिकोण में, समय के साथ मामलों के बीच अस्थायी और आनुवंशिक दूरी में परिवर्तन में नमूने की संभावना में परिवर्तन की संभावना स्पष्ट होगी।

हमने एक समुदाय में समय के साथ संचरण प्रक्रिया में बदलाव का मॉडल भी नहीं बनाया है (उदाहरण के लिए अतिसंवेदनशील व्यक्तियों की कमी, बेहतर संक्रमण नियंत्रण आदि के कारण)। नमूनाकरण को शामिल करने के साथ, यह सबसे अच्छा क्लस्टरिंग के हिस्से के बजाय प्रारंभिक क्लस्टरिंग के बाद अधिक सूक्ष्म विश्लेषण में किया जा सकता है, लेकिन सिद्धांत रूप में, कैलेंडर समय में ट्रांसमिशन फ़ंक्शन में परिवर्तन को समीकरण के पीछे गणित में शामिल किया जा सकता है (8 ) हालांकि, यह इस तथ्य के कारण व्याख्या चुनौतियों को बढ़ाएगा कि हमारी संचरण प्रक्रिया मेजबानों के बीच चलने वाले रोगजनक की दर को दर्शाती है जहां यह ज्ञात है कि श्रृंखला के "अंत" पर एक संक्रमित मेजबान है (चूंकि प्रत्येक जोड़ी में दो नमूने होते हैं मेजबान, जिनके रोगज़नक़ को अनुक्रमित किया गया था और जो निश्चित रूप से संक्रमित थे)। हम उन संपर्कों की संख्या का मॉडल नहीं बनाते हैं जिन पर संचरण हो सकता था।

एक विशेष एसएनपी कट-ऑफ का चुनाव भी कच्चे पठन डेटा के एकत्रीकरण और प्रसंस्करण में शामिल अपरिहार्य अनिश्चितताओं का कोई हिसाब नहीं लेता है, और इस अनिश्चितता के मॉडलिंग की अनुमति नहीं देता है।विभिन्न जैव सूचना विज्ञान पाइपलाइन- और उन पाइपलाइनों के भीतर उपयोग किए जाने वाले विभिन्न पैरामीटर- मामलों के बीच रिपोर्ट किए गए एसएनपी अंतर की संख्या पर पर्याप्त प्रभाव डाल सकते हैं। एसएनपी मतभेदों को दिए गए के रूप में लिया जाना सामान्य है और, हालांकि कभी-कभी विवरण प्रदान किए जाते हैं-उदाहरण के लिए काट्ज़ एट अल देखें। (2013) - यह पहचानना महत्वपूर्ण है कि विभिन्न पाइपलाइनों और मापदंडों का उपयोग करके रिपोर्ट किए गए एसएनपी के बीच काफी भिन्नता हो सकती है। उदाहरण के लिए, उपयोग किए जाने वाले गुणवत्ता स्कोर और रीड डेप्थ कट-ऑफ का स्तर आमतौर पर उच्च प्रभाव डालता है, जैसा कि हाइपरवेरिएबल साइटों और दोहराने वाले क्षेत्रों को नियंत्रित करने (या बहिष्कृत) करने का सटीक तरीका होगा। जैसे-जैसे तकनीक में सुधार होता है, हम दोहराए जाने वाले क्षेत्रों, या भिन्नता के प्रकारों (जैसे सम्मिलन/विलोपन) में भिन्नता को पकड़ना शुरू कर सकते हैं, जो वर्तमान में नकाबपोश हैं, और उस नई पाइपलाइन में 12 एसएनपी आज की व्याख्या नहीं कर सकते हैं। मॉडल आसानी से अधिक जीनोमिक जानकारी शामिल कर सकता है, जिसके परिणामस्वरूप दूरी फ़ंक्शन का अधिक परिष्कृत संस्करण हो सकता है। विशेष रूप से, बड़े पैमाने पर जीनोमिक विशेषताएं आसानी से यह स्थापित करने में मदद कर सकती हैं कि मामले अलग-अलग हैं और इसलिए दूर से संबंधित वंशावली हैं। जैसे-जैसे वेरिएशन-कॉलिंग पाइपलाइनें विकसित होती हैं, हमारी पद्धति का उपयोग प्रत्येक पाइपलाइन को ट्रांसमिशन की संख्या या अनुमानित विचलन समय से जोड़ने के लिए किया जा सकता है, यह जैव सूचना विज्ञान पाइपलाइनों और डेटा स्रोतों की तुलना करने और आइसोलेट्स के बीच की दूरी को परिभाषित करने में उनके उपयोग को कम करने के लिए एक दृष्टिकोण तैयार करेगा।

टीबी की अलग-अलग फाइलोग्राफिक वंशावली है, जिसमें वंश 2 (पूर्वी एशियाई और बीजिंग वंश) के साथ वंश 4 (यूरो-अमेरिकन) (फोर्ड एट अल। 2013) की तुलना में उच्च उत्परिवर्तन दर होने के साथ अलग-अलग उत्परिवर्तन दर होने की सूचना दी गई है। इस तरह के मतभेदों के बावजूद हमारा दृष्टिकोण क्लस्टरिंग को एकीकृत कर सकता है, क्योंकि अलग-अलग एसएनपी संचय दरों के तहत एक ही संचरण और संभाव्यता सेटिंग्स का उपयोग किया जा सकता है। यह उन क्षेत्रों में क्लस्टरिंग के लिए एक सुसंगत दृष्टिकोण प्रदान करेगा जहां कई वंश एक साथ घूमते हैं, और विभिन्न सेटिंग्स में टीबी क्लस्टरिंग पैटर्न की तुलना करने की अनुमति देते हैं। विभिन्न रोगज़नक़ वंश या उप-जनसंख्या में अलग-अलग प्राकृतिक इतिहास को अपनाने के लिए भी यही सच होगा: की पसंद β ट्रांसमिशन अंतर को प्रतिबिंबित कर सकता है जबकि अन्य सेटिंग्स समान रहती हैं।

समूहों को मामलों को कैसे सौंपा जाता है, इसे बदलने का दीर्घकालिक उद्देश्य डब्ल्यूजीएस और महामारी विज्ञान डेटा का उपयोग करने के तरीके में सुधार करना है और एक संक्रामक बीमारी के संचरण के अनुरूप क्लस्टर को सर्वोत्तम रूप से कैप्चर करना है। हमने पाया है कि संभाव्य कट-ऑफ के साथ ट्रांसमिशन इवेंट्स की संख्या पर आधारित क्लस्टर संभव है, समय और अन्य डेटा को एकीकृत कर सकते हैं, और एसएनपी कट-ऑफ के आधार पर क्लस्टरिंग के अनुकूल तुलना कर सकते हैं।


वैज्ञानिकों ने आनुवंशिक कोड का एक अक्षर खोजा जो अफ्रीकी साल्मोनेला को इतना खतरनाक बनाता है

लिवरपूल विश्वविद्यालय के वैज्ञानिकों ने साल्मोनेला में एक एकल आनुवंशिक परिवर्तन की पहचान की है जो वर्तमान में उप-सहारा अफ्रीका में हर साल लगभग 400,000 लोगों को मारने वाले रक्त प्रवाह संक्रमण के विनाशकारी महामारी में महत्वपूर्ण भूमिका निभा रहा है।

आक्रामक गैर-टाइफाइड साल्मोनेलोसिस (आईएनटीएस) तब होता है जब साल्मोनेला बैक्टीरिया, जो आम तौर पर गैस्ट्रोइंटेस्टाइनल बीमारी का कारण बनता है, रक्त प्रवाह में प्रवेश करता है और मानव शरीर में फैलता है। अफ्रीकी आईएनटीएस महामारी साल्मोनेला टाइफिम्यूरियम (एसटी313) के एक प्रकार के कारण होती है जो एंटीबायोटिक दवाओं के लिए प्रतिरोधी है और आम तौर पर मलेरिया या एचआईवी से कमजोर प्रतिरक्षा प्रणाली वाले व्यक्तियों को प्रभावित करती है।

में प्रकाशित एक नए अध्ययन में पीएनएएस, लिवरपूल विश्वविद्यालय में प्रोफेसर जे हिंटन के नेतृत्व में शोधकर्ताओं की एक टीम ने एक विशिष्ट आनुवंशिक परिवर्तन, या एकल-न्यूक्लियोटाइड बहुरूपता (एसएनपी) की पहचान की है, जो अफ्रीकी साल्मोनेला को मानव रक्तप्रवाह में जीवित रहने में मदद करता है।

प्रोफेसर हिंटन ने समझाया: "डीएनए के इस एकल अक्षर को इंगित करना हमारी समझ में एक रोमांचक सफलता है कि अफ्रीकी साल्मोनेला इतनी विनाशकारी बीमारी का कारण क्यों बनता है, और यह समझाने में मदद करता है कि इस खतरनाक प्रकार का साल्मोनेला कैसे विकसित हुआ।"

एसएनपी डीएनए अनुक्रम में सिर्फ एक अक्षर के परिवर्तन का प्रतिनिधित्व करते हैं और विभिन्न प्रकार के साल्मोनेला के बीच हजारों एसएनपी अंतर हैं। अब तक, एक व्यक्तिगत एसएनपी को बैक्टीरिया की बीमारी पैदा करने की क्षमता से जोड़ना कठिन रहा है।

ट्रांसक्रिपटॉमिक्स नामक एक प्रकार के आरएनए विश्लेषण का उपयोग करते हुए, वैज्ञानिकों ने एसएनपी की पहचान की जो महत्वपूर्ण साल्मोनेला जीन की अभिव्यक्ति के स्तर को प्रभावित करते हैं। 1000 अलग-अलग एसएनपी का अध्ययन करने के बाद, उन्होंने एक एकल न्यूक्लियोटाइड अंतर पाया जो अफ्रीकी एसटी 313 तनाव के लिए अद्वितीय है और पीजीटीई नामक एक विषाणु कारक की उच्च अभिव्यक्ति का कारण बनता है जो रक्त प्रवाह में साल्मोनेला को मारने से रोकता है।

इसके बाद वैज्ञानिकों ने अफ्रीकी स्ट्रेन में पाए जाने वाले एसएनपी को साल्मोनेला के प्रकार में पाए जाने वाले संस्करण में बदलने के लिए एक उन्नत आनुवंशिक तकनीक का उपयोग किया, जो विश्व स्तर पर खाद्य विषाक्तता और गैस्ट्रोएंटेराइटिस का कारण बनता है। अंत में, उन्होंने यह दिखाने के लिए एक पशु संक्रमण मॉडल का उपयोग किया कि परिवर्तित एसएनपी वाले जीवाणु रोग पैदा करने की अपनी क्षमता खो चुके हैं।

प्रोफेसर हिंटन ने कहा: "हमने जीवाणु संक्रमण को समझने के लिए एक नया खोजी दृष्टिकोण विकसित किया है, जो छह साल के काम की परिणति है। जीनोमिक्स और ट्रांसक्रिप्टोमिक्स का यह संयोजन अन्य महत्वपूर्ण रोगजनकों के लिए नई अंतर्दृष्टि ला सकता है, और हमें भविष्य की महामारियों के लिए तैयार कर सकता है। "

मलावी में काम कर रहे लिवरपूल चिकित्सक-वैज्ञानिक विश्वविद्यालय के प्रोफेसर मेलिता गॉर्डन, जो परियोजना में शामिल थे, ने कहा: "इस तरह की गंभीर बीमारी का कारण बनने के लिए आईएनटीएस साल्मोनेला उपभेदों की क्षमता बहुत छोटे बच्चों के लिए विनाशकारी और अक्सर घातक परिणाम देती है, और इसके लिए वयस्क जो अपने घरों और समुदायों में मुख्य कमाने वाले हो सकते हैं। हम देखते हैं कि आईएनटीएस रोग मलावी में कम-से-कम स्थानीय स्वास्थ्य सुविधाओं और अस्पतालों पर भारी बोझ डाल रहा है, खासकर क्योंकि निदान मुश्किल है, और उपचार के विकल्प सीमित हैं। अब यह जरूरी है कि इस खतरनाक संक्रमण से निपटने के लिए एक टीका विकसित किया गया है।"

अध्ययन को वेलकम ट्रस्ट से धन सहायता प्राप्त हुई और लिवरपूल स्कूल ऑफ ट्रॉपिकल मेडिसिन और बर्मिंघम विश्वविद्यालय के सहयोग से किया गया।

अस्वीकरण: एएएएस और यूरेकअलर्ट! यूरेकअलर्ट पर पोस्ट की गई समाचार विज्ञप्ति की सटीकता के लिए जिम्मेदार नहीं हैं! यूरेकअलर्ट सिस्टम के माध्यम से संस्थानों को योगदान देकर या किसी भी जानकारी के उपयोग के लिए।


तरीकों

MethylToSNP सिंहावलोकन

MethylToSNP इलुमिना मेथिलिकरण सरणी डेटा को प्रभावित करने वाले SNPs के स्थान की भविष्यवाणी करता है। कार्यक्रम एक इनपुट के रूप में कई नमूनों (कम से कम 50 नमूनों की सिफारिश) के लिए मिथाइलेशन सरणी डेटा लेता है और डेटा सेट में सभी संभावित एसएनपी के स्थानों वाली एक सूची तैयार करता है। त्रि-स्तरीय पैटर्न की पहचान के बाद, बायोकॉन्टर में उपलब्ध प्रोब और एसएनपी (मुख्य रूप से dbSNP डेटाबेस [18] पर आधारित) के एनोटेशन के साथ पोस्टप्रोसेसिंग किया जा सकता है। उदाहरण के लिए, साइटों को जांच के भीतर या सीधे CpG साइट पर उनके स्थान के अनुसार फ़िल्टर किया जा सकता है या जांच को ज्ञात या संभावित उपन्यास SNPs के रूप में स्तरीकृत किया जा सकता है। MethylToSNP को R प्रोग्रामिंग भाषा [24] में R Bioconductor पारिस्थितिकी तंत्र के हिस्से के रूप में बनाया गया था। ठेठ वर्कफ़्लो को चित्र 2a में चित्रित किया गया है, जहाँ इनपुट डेटा एक रिमोट (जैसे, GEO) या स्थानीय स्रोत से कच्चे सरणी सिग्नल के प्रारूप में या पहले से ही प्रीप्रोसेस्ड मिथाइलेशन मानों से उत्पन्न हो सकता है। MethylToSNP उपयोगकर्ता इनपुट को बीटा-वैल्यू के प्रारूप में या, अधिमानतः, बायोकंडक्टर पैकेज द्वारा उत्पन्न प्रारूप में स्वीकार करेगा। मिनीफ़ी. उत्तरार्द्ध को प्राथमिकता दी जाती है क्योंकि मिनीफ़ी डेटा प्रारूप में जीनोमिक मैपिंग और सरणी जांच के एसएनपी एनोटेशन शामिल हैं।

अंतराल के साथ त्रि-स्तरीय पैटर्न

एक ऐसी स्थिति का पता लगाने के लिए जहां लक्ष्य CpG या उसकी पड़ोसी स्थिति [5] पर SNP द्वारा मिथाइलेशन मान प्रभावित होते हैं, मिथाइलेशन डेटा को समान चौड़ाई के दो अंतरालों से अलग करना पड़ता है, जहां ये अंतराल कुल के बहुमत में योगदान करते हैं डेटा रेंज (चित्र 3)। एल्गोरिथ्म तीन समूहों में मिथाइलेशन डेटा को क्लस्टर करता है, एक दूसरे से दूर स्थित समूहों का पक्ष लेता है, और वैकल्पिक रूप से आउटलेर्स की अवहेलना करता है, और फिर क्लस्टर के बीच अंतराल का मूल्यांकन करता है।

चूंकि बीटा-मानों का क्लस्टरिंग एक आयामी समस्या है, और क्लस्टर की संख्या कम है, इसे गतिशील प्रोग्रामिंग के साथ बेहतर ढंग से हल किया जा सकता है -यादृच्छिक रूप से आरंभिक के बजाय कार्यान्वयन का मतलब है -माध्यम एल्गोरिथ्म जो एक इष्टतम में अभिसरण करने की गारंटी नहीं है। हम R पैकेज Ckmeans.1d.dp [25] में एक कार्यान्वयन पर निर्भर थे।

बड़े समूहों में स्वाभाविक रूप से केवल कुछ डेटा बिंदुओं वाले समूहों की तुलना में अधिक वजन होगा। यदि अनुपचारित किया जाता है, तो यह समस्या अत्यधिक आबादी वाले डेटा रेंज (जैसे, बीटा-मान 0.7–0.9) में कई समूहों का पता लगा सकती है। हालांकि, वास्तव में, हम बीटा-मानों की पूरी अवधि में बड़े और छोटे समूहों का पता लगाने में रुचि रखते हैं। इसलिए, हमने नमूनों की संख्या के व्युत्क्रमानुपाती भार का उपयोग किया, अर्थात प्रतिलोम मात्रात्मक घनत्व। क्वांटाइल ( q ) और नमूनों की संख्या ( N_ के लिए ) क्लस्टरिंग वज़न की गणना निम्नानुसार की गई:

अतिरिक्त फ़ाइल 1: चित्र S3 cg21226234 जांच में YRI बीटा-मानों पर व्युत्क्रम मात्रात्मक भार के प्रभाव को दिखाता है।

समूहों के बीच के अंतर को प्रत्येक क्लस्टर में सीमावर्ती नमूनों के बीच मिथाइलेशन स्तरों में अंतर के रूप में परिभाषित किया जा सकता है, उदाहरण के लिए क्लस्टर (ए ) और (बी ) के बीच का अंतर, जहां ए और बी सीमावर्ती नमूनों के मिथाइलेशन मान हैं, जैसे कि ( forall a in A > forall b in B ):

अंतराल की पहचान के बाद, दो समायोज्य कटऑफ का उपयोग करके प्रत्येक मिथाइलेशन साइट पर डेटा-मुक्त अंतराल के आकार का आकलन करने के लिए एक बाद की विधि का उपयोग किया जाता है: ( < ext>]_<पाठ>\_<पाठ> ) मान और ( < ext>\_<पाठ> ) मान। ( <पाठ>\_<पाठ>\_<पाठ> ) दृष्टिकोण अंतराल के आकार का योग करके कुल अंतराल आकार का मूल्यांकन करता है और परीक्षण करता है कि यह अधिकांश का प्रतिनिधित्व करता है या नहीं β-मूल्य सीमा। इसके विपरीत, ( < ext>\_<पाठ> ) दृष्टिकोण दो सबसे बड़े अंतर क्षेत्रों के बीच के आकार की तुलना करता है और परीक्षण करता है कि क्या उनके सापेक्ष आकार लगभग बराबर हैं। इस सीमा को पार करने के लिए, छोटे अंतराल का आकार बड़े अंतर का कम से कम एक निश्चित प्रतिशत होना चाहिए। उदाहरण के लिए, यदि ( < ext>\_<पाठ> ) 0.75 पर सेट है, और बड़ा अंतर 0.3 . तक फैला है β-मान, छोटा अंतर कम से कम 0.225 . होना चाहिए β-मूल्य। एल्गोरिदम के लिए संभावित एसएनपी स्थानों की पहचान करने के लिए, दोनों के लिए थ्रेसहोल्ड ( < ext>\_<पाठ>\_<पाठ> ) और ( < ext>\_<पाठ> ) मिलना चाहिए। यह विधि मिथाइलेशन मूल्यों में परिवर्तनशीलता की अनुमति देती है, जबकि अभी भी अधिकांश सफेद जगह को कवर करती है, जो कि के संपीड़न के कारण होती है β-मान क्रमशः 1.0 और 0 की ऊपरी या निचली सीमाओं से दूर है। इसके अतिरिक्त, हम मिथाइलेशन मानों को स्तरों में अलग करने के लिए एक निश्चित कटऑफ के उपयोग से बचकर लाभान्वित होते हैं, जैसे कि तिहाई या चतुर्थांश। जैसा कि चित्र 3बी में दिखाया गया है, निश्चित कटऑफ को परिभाषित करना आम तौर पर असंभव है जो सभी जांचों के लिए काम करेगा।

तीन समूहों के बीच दो अंतरालों को ध्यान में रखते हुए ( < ext>, <पाठ>, <पाठ> ) —“उच्च”, “मध्य” और “निम्न”: ( d_<<< ext> - <पाठ>>> ) और ( d_<<< ext> - <पाठ>>> ) , दहलीज पैरामीटर ( < ext>\_<पाठ> ) और ( < ext>\_<पाठ>\_<पाठ> ) एल्गोरिदम के लिए परिभाषित किया गया है:

जहां हर तीनों समूहों में बीटा-मानों की कुल श्रेणी है।

डिफ़ॉल्ट MethylToSNP मापदंडों को कैलिब्रेट करना

सबसे पहले, एसएनपी से जुड़े मिथाइलेशन पैटर्न की पहचान करने के लिए मिथाइलटॉसएनपी की क्षमता का परीक्षण करने के लिए दो नकली डेटा सेट बनाए गए थे, जब प्रत्येक स्तर पर नमूनों के विभिन्न अनुपात (यानी, डेटा बिंदु) मौजूद थे। दक्षिणी अफ्रीकी डेटा सेट के आकार की नकल करने के लिए डेटासेट में प्रत्येक में 95 नमूने शामिल थे, और लगभग 10,000 जांच लोकी। दोनों डेटा सेटों में, आधे जांच गैर-एसएनपी के अनुरूप थे जो वास्तविक दक्षिणी अफ्रीकी डेटा से तैयार किए गए थे। जांच की दूसरी छमाही एसएनपी का प्रतिनिधित्व करती है और सेट के आधार पर एक अलग तरीके से उत्पन्न होती है: "सेट-फ़्रीक्वेंसी" डेटासेट में स्तरों में मिथाइलेशन मानों का असमान वितरण उत्पन्न होता है, जो कम मामूली एलील आवृत्ति (एमएएफ) परिदृश्य के अनुरूप होता है, जबकि "यूनिफ़ॉर्म-फ़्रीक्वेंसी" डेटासेट में मेथिलिकरण मूल्यों को समान रूप से स्तरों में वितरित किया गया था, उच्च एमएएफ परिदृश्य का अनुकरण करते हुए, सामान्य एसएनपी के लिए विशेषता। डेटा को पुन: उत्पन्न करने के लिए सेट आवृत्तियों और कोड के साथ अतिरिक्त फ़ाइल 1 में प्रक्रिया का अधिक विस्तार से वर्णन किया गया है। हमने इन सिम्युलेटेड डेटासेट का उपयोग MethylToSNP मापदंडों के डिफ़ॉल्ट मानों को जांचने के लिए किया: ( < ext>\_<पाठ>\_<पाठ> ) और ( < ext>\_<पाठ> )। डिफ़ॉल्ट चुनने के लिए ( ( < ext>\_<पाठ>\_<पाठ> = 0.50 ), ( < ext>\_<पाठ> = 0.75 ) ), मापदंडों को 0.05 वेतन वृद्धि में बदल दिया गया था (अतिरिक्त फ़ाइल 1 देखें: चित्र S1)। इन पैरामीटर थ्रेशोल्ड के साथ, बेंचमार्क ने "सेट-फ़्रीक्वेंसी" डेटासेट पर 97% सही सकारात्मक दर लौटाई। समान रूप से सिम्युलेटेड डेटा सेट ने 100% सही सकारात्मक दर लौटा दी। सभी मामलों में कोई झूठी सकारात्मकता नहीं थी।

हालांकि, नकली एसएनपी जांच में मेथिलिकरण मूल्यों के स्तरों के बीच एक स्पष्ट अलगाव था, इस प्रकार शोर या अन्य भ्रमित कारकों की उपस्थिति के मामले में प्रदर्शन का आकलन करना मुश्किल हो गया।

इसलिए, हमने इल्लुमिना ईपीआईसी सरणियों पर सरणी डिजाइनरों द्वारा रखे गए 59 नियंत्रण एसएनपी जांच का उपयोग करके झूठी नकारात्मक दरों का आकलन करने के लिए एक दूसरा बेंचमार्क बनाया। इसके अलावा इलुमिना ईपीआईसी पर दृष्टिकोण के उपयोग को प्रदर्शित करने के लिए हमने GEO GSE137682 डेटासेट से 152 बाल चिकित्सा नमूनों का परीक्षण किया, जहां डिफ़ॉल्ट मापदंडों के साथ MethylToSNP ने 27% झूठी नकारात्मक दर (अतिरिक्त फ़ाइल 1: चित्र S2) के लिए 59 में से 41 पदों की पहचान की। हालांकि, हम ध्यान दें कि 18 नियंत्रण एसएनपी ए और जीटी जी संक्रमण थे या सरणी पर सीजी स्थिति से 2 बीपी से अधिक दूर स्थित थे, जिसे हम अपने पहले पास दृष्टिकोण के साथ खोजने का इरादा नहीं रखेंगे। शेष सी एंड जीटी टी और टी एंड जीटी सी (क्रमशः 14 और 15) और जी एंड जीटी ए (12 कुल) की सही पहचान की गई थी।

बेंचमार्क आंकड़े (अतिरिक्त फ़ाइल 1: चित्र S2A, B) ने दिखाया कि ( < ext>_<पाठ> ) अधिक हिट प्राप्त करने के लिए मान 0.75 से 0.50 तक कम किया जा सकता है। हालांकि, अंतराल पैटर्न का पता लगाने में प्रमुख बाधा शोर की उपस्थिति या अन्यथा स्तरों के बीच मिथाइलेशन मूल्यों के साथ भ्रमित माप है। इस तरह के माप के लिए विधि को असंवेदनशील बनाने के लिए हमने एक बाहरी पहचान विकल्प लागू किया ( < ext>_<पाठ> ) जो अनुमत भीतर-क्लस्टर विचरण (मानक विचलन में) का माप है। उदाहरण के लिए, बीटा-मान ( eta ) के साथ एक नमूना क्लस्टर में एक बाहरी है ( < ext> ) क्लस्टर केंद्र के साथ ( mu_< ext> ) और विचरण ( sigma_< ext>^ <2>) यदि निम्न सीमा संतुष्ट नहीं है:

उस स्थिति में जब बाहरी फ़िल्टरिंग विकल्प सक्षम होता है, कोई भी बीटा-मान जो क्लस्टर से संबंधित होता है, लेकिन थ्रेशोल्ड से मेल नहीं खाता है, उसे क्लस्टर के बीच अंतराल की गणना से बाहर रखा जाएगा। बाहरी फ़िल्टरिंग सक्षम के साथ एक अतिरिक्त बेंचमार्क रन (अतिरिक्त फ़ाइल 1: चित्र S2D, E) ने दिखाया कि यह विकल्प जटिल मामलों में भी, शून्य झूठी नकारात्मक के साथ पुनर्प्राप्ति को पूरी तरह से बचा लिया।

हम उपयोगकर्ताओं को डिफ़ॉल्ट पैरामीटर मानों को बदलने के लिए मार्गदर्शन के रूप में हमारे बेंचमार्क का उपयोग करने के लिए प्रोत्साहित करते हैं। वैकल्पिक रूप से, उपयोगकर्ता अपने स्वयं के पूर्वनिर्धारित नियंत्रण जांच, उदाहरण के लिए ज्ञात एसएनपी, या सिम्युलेटेड डेटासेट का उपयोग करके थ्रेसहोल्ड को पुनर्गणना कर सकते हैं।

विश्लेषण के लिए आवश्यक डेटासेट का आकार

एल्गोरिथ्म तीन समूहों की पहचान पर निर्भर करता है, इसलिए विश्लेषण के लिए आवश्यक नमूनों की पूर्ण न्यूनतम संख्या तीन है। हालांकि, एसएनपी पैटर्न केवल बड़े डेटासेट के साथ ही पता लगाया जा सकता है, खासकर दुर्लभ एलील्स के लिए। जबकि कम एमएएफ एसएनपी ऊपरी पहचान सीमा निर्धारित करेगा, हम निचली सीमा को जांचना चाहते थे, यानी एमएएफ के करीब 0.50 के साथ सामान्य एसएनपी पर आधारित विश्लेषण के लिए नमूनों की न्यूनतम अनुशंसित संख्या। हमने GEO GSE137682 डेटासेट से बेंचमार्क (अतिरिक्त फ़ाइल 1: चित्र S2C) के रूप में 152 बाल चिकित्सा नमूनों के लिए SNP नियंत्रण जांच की झूठी नकारात्मक पहचान दर का उपयोग किया। प्लॉट दिखाता है कि 152 में से 5 से 150 डेटा बिंदुओं के प्रतिस्थापन के बिना, 30 प्रतिकृति के साथ, 5 के चरण के साथ, कितने वास्तविक एसएनपी जांच को पुनः प्राप्त किया जाता है। संतृप्ति लगभग 50 नमूनों (यानी, डेटा बिंदुओं) पर पहुंच जाती है। आउटलेर्स को हटाने से समग्र पुनर्प्राप्ति में सुधार होता है, हालांकि, यह तीन-स्तरीय मिथाइलेशन पैटर्न (अतिरिक्त फ़ाइल 1: चित्र S2F) को खोजने के लिए आवश्यक नमूनों की संख्या पर न्यूनतम सीमा को प्रभावित नहीं करता है। इसलिए, इस बेंचमार्क के आधार पर, हम अनुशंसा करते हैं कि MethylToSNP के साथ विश्लेषण किए गए डेटासेट का आकार 50 नमूनों से छोटा नहीं होना चाहिए। कार्यक्रम 3 या अधिक नमूनों के साथ चलेगा, लेकिन एसएनपी की विश्वसनीय पहचान के लिए आपूर्ति किए गए डेटा अपर्याप्त होने पर एक चेतावनी संदेश प्रिंट करेगा।

एसएनपी-विश्वसनीयता स्कोर और थ्रेसहोल्ड

MethylToSNP मात्रात्मक रूप से मूल्यांकन करता है कि मनाया गया मिथाइलेशन पैटर्न एक विश्वसनीयता स्कोर प्रदान करके अपेक्षित meC & gt T SNP जैसा दिखता है। सामान्य तौर पर, MethylToSNP की पहचान करने वाली अधिकांश साइटें meC & gt T SNPs, या जांच को प्रभावित करने वाली पड़ोसी साइटें हैं। इन मामलों में, सी प्रमुख एलील है और लगातार मिथाइलेटेड होता है। जब एक टी एलील द्वारा प्रतिस्थापित किया जाता है, तो अंतर मिथाइलेशन का एक गलत संकेत प्रकट होता है। इसके विपरीत, एक अनमेथिलेटेड सी प्रमुख एलील टी एलील के समान मिथाइलेशन मान देगा। विश्वसनीयता स्कोर ( R ) तीन में दी गई जांच के लिए डेटा बिंदुओं की उपस्थिति के आधार पर एक भारित माप का प्रतिनिधित्व करता है β-वैल्यू टियर, जिसे "हाई" (> 0.75), "लो" (< 0.25) और "मिडिल" (0.25 और 0.75) के रूप में परिभाषित किया गया है, प्रत्येक टियर में नमूनों की संख्या को ( N_< ext के रूप में दर्शाया गया है)> , एन_<पाठ> , एन_<पाठ> ) क्रमशः:

यदि मिथाइलेशन मान तीन स्तरों से कम में गिर रहे हैं तो 0 का विश्वसनीयता स्कोर असाइन किया गया है।

हम अपने डेटासेट को परिष्कृत करने के लिए इस कड़े स्कोरिंग दृष्टिकोण को लागू करते हैं, जो कि सबसे बड़ी बीटा-वैल्यू रेंज में फैले हुए हैं, अर्थात, लक्ष्य CpG या दूसरे स्थान पर, क्योंकि इन स्थानों में सबसे अधिक प्रभाव डालने की क्षमता है पी तुलना समूहों के बीच अंतर मेथिलिकरण के लिए गणना किए गए मान।

मिथाइलेशन व्याख्या को प्रभावित करने वाले एसएनपी पदों को कॉल करने के लिए आवश्यक विश्वसनीयता सीमा का आकलन करने के लिए, हमने दो उत्पन्न डेटासेट के साथ नकली बेंचमार्क के लिए स्कोर की गणना की (अतिरिक्त फ़ाइल 1 देखें)। प्रत्येक स्तर पर डेटा बिंदुओं के पूर्व निर्धारित अनुपात वाले डेटासेट के लिए (जिसमें कम एमएएफ वाले एसएनपी शामिल हैं) औसत विश्वसनीयता स्कोर 0.568 था, जबकि एसएनपी के लिए स्तरों में मिथाइलेशन के समान वितरण के साथ (उच्च एमएएफ के अनुरूप) औसत विश्वसनीयता 0.501 थी (तालिका 7) )हमने विश्वसनीयता स्कोर के लिए 0.50 की सीमा निर्धारित की है, सभी उदाहरणों में से लगभग 75% अधिक यथार्थवादी सेट-फ़्रीक्वेंसी डेटासेट में थ्रेशोल्ड से गुजरते हैं। जब डेटा बिंदु मुख्य रूप से शीर्ष दो स्तरों के बीच वितरित किए जाते हैं, तो यह दृष्टिकोण 0.75 का सैद्धांतिक विश्वसनीयता स्कोर बनाता है, जबकि 0.50 अपेक्षित मान है जब सभी नमूने समान रूप से तीनों स्तरों पर वितरित किए जाते हैं। इसलिए, एक उच्च विश्वसनीयता स्कोर लक्ष्य साइट की अधिक संभावना का प्रतिनिधित्व करता है, जो एक कम-आवृत्ति वाले टी बहुरूपता के साथ संगत है और शीर्ष दो स्तरों के भीतर गिरने वाले नमूनों की उच्च सांद्रता के अनुरूप है।

YRI HapMap डेटासेट

हमने अगली बार YRI HapMap नमूनों के डेटा पर MethylToSNP का परीक्षण किया, जिनमें से कुछ में मिथाइलेशन और जीनोटाइप डेटा दोनों उपलब्ध हैं। 77 नमूनों के लिए जीन एक्सप्रेशन ओम्निबस (GEO) प्रोजेक्ट GSE26133 [16] से मिथाइलेशन डेटा डाउनलोड किया गया था और उपलब्ध नमूनों के लिए संबंधित जीनोटाइप डेटा 1000 जीनोम ब्राउज़र (//www.ncbi.nlm.nih.gov/variation/) में पाए गए थे। टूल्स/1000जीनोम्स) [26]। ब्राउज़र डेटा के साथ एक चेतावनी यह है कि नमूनों के लिए रुचि के कुछ मिथाइलेशन साइटों पर जीनोटाइप डेटा नहीं थे जो बहुरूपी दिखाई देते थे। लक्षित अनुक्रमण के लिए, कोरिएल डिपॉजिटरी से डीएनए नमूनों का आदेश दिया गया और सेंगर को अनुक्रमित किया गया। इल्लुमिना 450K मिथाइलेशन चिप विश्लेषण से देखे गए मिथाइलेशन स्तरों को सत्यापित करने के लिए समान नमूनों को लक्षित बाइसल्फाइट अनुक्रमण के अधीन भी किया गया था।

CEU HapMap डेटासेट

अच्छी तरह से अध्ययन किए गए नमूनों का एक अन्य समूह, ऐसे व्यक्तियों से जिनके पास संभवतः एक बहुत अलग एपिजेनेटिक प्रोफ़ाइल और आनुवंशिक और जीवन इतिहास है, जिन्होंने YRI (यानी, इबादान, नाइजीरिया में योरूबा) डेटासेट में योगदान दिया है, CEU HapMap डेटासेट में डेटा शामिल है। उत्तरी और पश्चिमी यूरोपीय वंश के साथ 90 यूटा निवासी। सीईयू नमूना सेट (जीईओ प्रोजेक्ट जीएसई27146 [17] से) से इल्लुमिना 27के मेथिलिकरण डेटा को मिथाइलटॉसएनपी विश्लेषण के अधीन किया गया था।

दक्षिणी अफ्रीकी डेटा विश्लेषण

प्राथमिक नमूनों पर MethylToSNP का परीक्षण करने के लिए, हमने नामीबिया के खोसेन या बंटू के रूप में लोगों की जातीय-भाषाई रूप से आत्म-पहचान करने वाले पूरे रक्त से प्राप्त एक इन-हाउस मिथाइलेशन डेटासेट का उपयोग किया, जैसा कि [27] में है। इन आबादी के लिए कुछ जीनोमिक डेटा मौजूद हैं, दस से कम जीनोम को पूरी तरह से आज तक अनुक्रमित किया गया है [21]। ये आबादी जीनोमिक विविधता की सबसे बड़ी मात्रा को परेशान करती है, विशेष रूप से खोसेन वंश [21] के लोगों द्वारा प्रतिनिधित्व किया गया सबसे पुराना मानव वंश, और जनसंख्या-विशिष्ट एसएनपी डीबीएसएनपी में दर्ज किया गया है। फिर भी, इस समूह में कई अज्ञात एसएनपी मिथाइलेशन अध्ययनों की व्याख्या को प्रभावित कर सकते हैं- और मिथाइलटॉएसएनपी उनका पता लगा सकते हैं। साथ ही, इस अध्ययन में इस्तेमाल किए गए नमूनों में पहले से पहचाने गए बहुरूपता मौजूद नहीं हो सकते हैं। नमूना सेट में 95 नमूने थे, 40 खोसेन थे, 51 गैर-खोसन या बंटू-भाषी दक्षिणी अफ्रीकी थे, और छह भौगोलिक रूप से यूरोपीय मूल के नामीबियाई थे, जिनमें से दो यूरोपीय नियंत्रण तुलना के लिए डुप्लिकेट में चलते थे। सभी नमूने इलुमिना 450K मिथाइलेशन चिप (तैयारी में पांडुलिपि) पर चलाए गए थे। KhoeSan और नियंत्रण डेटा का उपयोग उन साइटों को खोजने के लिए किया गया था जो इन दो समूहों के बीच अलग-अलग मिथाइलेटेड थे। इस डेटा सेट को विश्लेषण के लिए तीन उपसमुच्चय में विभाजित किया गया है: (i) चिप से सभी गुणवत्ता नियंत्रित मिथाइलेशन डेटा (473,767 साइट), (ii) सभी साइटें जो मान-व्हिटनी पर आधारित खोसेन समूह और नियंत्रण समूह के बीच अंतर से मिथाइलेटेड हैं। यू परीक्षण (पी 0.05) Bonferroni परीक्षण सुधार के साथ (क्यू 0.05 12,631 साइटें), (iii) अंतर मिथाइलेशन साइटों के शीर्ष 5%, निरपेक्ष अंतर के सबसे बड़े परिमाण द्वारा क्रमबद्ध, जो मान-व्हिटनी के साथ सांख्यिकीय रूप से भी महत्वपूर्ण हैं। यू परीक्षण (पी 0.05) और बोनफेरोनी परीक्षण सुधार (क्यू 0.05), जहां ज्ञात एसएनपी पदों को हटा दिया जाता है (400 साइटें)।

विशेष रुचि के क्षेत्र: CTCF साइट और एन्हांसर तत्व

हमने डिफरेंशियल मिथाइलेशन में फंसे एन्हांसर और सीटीसीएफ साइटों पर गहराई से नज़र डाली, जहाँ संभावित उपन्यास एसएनपी सामग्री मिथाइलेशन विश्लेषण को भ्रमित कर सकती है। उदाहरण के लिए, CTCF साइट में डिफरेंशियल मिथाइलेशन की खोज CTCF बाइंडिंग [28] को बाधित कर सकती है, जैसा कि इम्प्रिंट कंट्रोल क्षेत्रों में प्रदर्शित किया गया है, जैसे कि IGF2 तथा एच19, जहां एलील-विशिष्ट मेथिलिकरण [29] बंधन को रोकता है। एक एसएनपी सीटीसीएफ बंधन को भी रोक सकता है और अंतर मिथाइलेशन के रूप में पेश कर सकता है, सही जैविक व्याख्या को बाधित कर सकता है। दक्षिणी अफ्रीकी डेटासेट का उपयोग करते हुए, हमने जांच की कि कितने अंतर मिथाइलेशन साइट इन विकल्पों को संबोधित करते हैं। CTCF साइट स्थानों को कैलिफोर्निया विश्वविद्यालय, सांता क्रूज़ जीनोम ब्राउज़र [22, 30] से डाउनलोड किया गया था। इसी तरह, विभेदक मेथिलिकरण की साइटें जो ज्ञात बढ़ाने वाले क्षेत्रों को ओवरलैप करती हैं, यह निर्धारित करने के लिए हमारे डेटा के साथ प्रतिच्छेद करती हैं कि क्या एसएनपी या अंतर मेथिलिकरण की उपस्थिति से एन्हांसर फ़ंक्शन प्रभावित हो सकता है। एन्हांसर साइट स्थानों को Illumina 450K सरणी एनोटेशन फ़ाइल के साथ डाउनलोड किया गया था और मूल रूप से ENCODE परियोजनाओं से Illumina द्वारा संकलित किया गया था। CTCF साइट विश्लेषण में एनोटेशन की निरंतरता बनाए रखने के लिए, हमने YRI और CEU HapMap नमूनों के लिए 450K सरणी डेटासेट (GEO GSE39672) भी डाउनलोड किया।