जानकारी

एन्सेम्बल कम्पारा जीन ट्री डीएनए संरेखण को संबंधित अमीनो एसिड संरेखण में परिवर्तित करना

एन्सेम्बल कम्पारा जीन ट्री डीएनए संरेखण को संबंधित अमीनो एसिड संरेखण में परिवर्तित करना


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

मेरे पास न्यूक्लियोटाइड प्रारूप में एनसेम्बल तुलना जीन ट्री संरेखण (Compara.gene_trees.57.fasta.gz ftp://ftp.ensembl.org/pub/release-57/emf/ensembl-compara/homologies/ से डाउनलोड किया गया) है। दस्तावेज़ीकरण के अनुसार, यह कहता है कि फ़ाइल में "फास्टा प्रारूप में प्रत्येक जीनट्री के लिए पेप्टाइड संरेखण होता है"।

मैं सोच रहा था कि फ़ाइल से संबंधित अमीनो एसिड संरेखण प्राप्त करने के लिए एक उपयोगी उपकरण क्या हो सकता है।

धन्यवाद,

इकराम


एक सामान्य नियम के रूप में, जैव सूचना विज्ञान की दुनिया के भीतर और बाहर, सार्वजनिक FTP साइटों में README फाइलें होती हैं, जो यह बताती हैं कि FTP सर्वर द्वारा पेश की जाने वाली प्रत्येक फ़ाइल में क्या है। फ़ाइल README.protein_trees बताती है:

Compara.gene_trees.{release}.emf.gz

ईएमएफ संरेखण प्रारूप में प्रत्येक आनुवंशिकी के लिए पेप्टाइड संरेखण होता है

Compara.gene_trees.{release}.fasta.gz

फास्टा प्रारूप में प्रत्येक जीनट्री के लिए पेप्टाइड संरेखण होता है

इसका मतलब है कि Compara.gene_trees.57.emf.gz और Compara.gene_trees.57.fasta.gz दोनों में प्रोटीन संरेखण होते हैं। मैंने फाइलों पर एक त्वरित नज़र डाली और ऐसा लग रहा हैCompara.gene_trees.57.fasta.gzवास्तव में न्यूक्लियोटाइड अनुक्रम होते हैं लेकिनCompara.gene_trees.57.emf.gzवास्तव में एक प्रोटीन संरेखण होता है:

$ zgrep -m 1 AAAAASAAAT Compara.gene_trees.57.emf.gz.crdownload SAAA-AHS-AGTAAAAA--AA--AAAAASAAAT-ASATAI-SASSA-ASAAT-V----AAASVAA-HAFAS---ASAASAAAAAAA-TIVAAAAX- सासियससा-या-आसा-आसास-आसास-आस

तो, आपके प्रश्न का उत्तर देने के लिए, आपको जो फ़ाइल चाहिए वह है.emf.gzएक।


जीन ऑर्थोलॉजी और कार्यात्मक विश्लेषण में शुरुआत करना

कॉपीराइट: © 2010 फेंग एट अल। यह क्रिएटिव कॉमन्स एट्रिब्यूशन लाइसेंस की शर्तों के तहत वितरित एक ओपन-एक्सेस लेख है, जो किसी भी माध्यम में अप्रतिबंधित उपयोग, वितरण और प्रजनन की अनुमति देता है, बशर्ते मूल लेखक और स्रोत को श्रेय दिया जाए।

वित्त पोषण: हम एनआईएच और एएल विलियम्स प्रोफेसरशिप फंड से समर्थन स्वीकार करते हैं। अध्ययन डिजाइन, डेटा संग्रह और विश्लेषण, प्रकाशित करने का निर्णय, या पांडुलिपि तैयार करने में फंडर्स की कोई भूमिका नहीं थी।

प्रतिस्पर्धी रुचियां: लेखकों ने घोषणा की है कि कोई प्रतिस्पर्धात्मक रुचि मौजूद नहीं है।


शिष्टाचार

एक फ़ाइलोजेनेटिक पेड़ कर (या अनुक्रम) और उनके काल्पनिक सामान्य पूर्वजों (नी और कुमार 2000 फेल्सनस्टीन 2004 हॉल 2011) के बीच संबंधों का अनुमान है। आज अधिकांश फ़ाइलोजेनेटिक पेड़ आणविक डेटा से निर्मित होते हैं: डीएनए या प्रोटीन अनुक्रम। मूल रूप से, अधिकांश आणविक फाईलोजेनेटिक पेड़ों का उद्देश्य उन अनुक्रमों द्वारा प्रतिनिधित्व प्रजातियों के बीच संबंधों का अनुमान लगाना था, लेकिन आज उद्देश्यों का विस्तार हो गया है ताकि मेजबान प्रजातियों के संबंध में स्वयं अनुक्रमों के बीच संबंधों को समझने के लिए जीन के कार्यों का जिक्र किया जा सके। प्रयोगात्मक रूप से अध्ययन नहीं किया गया है (हॉल एट अल। 2009), और कई अन्य लोगों के बीच माइक्रोबियल प्रकोप (हॉल और बार्लो 2006) का नेतृत्व करने वाले तंत्र को स्पष्ट करना। एक फ़ाइलोजेनेटिक पेड़ के निर्माण के लिए चार अलग-अलग चरणों की आवश्यकता होती है: (चरण 1) समरूप डीएनए या प्रोटीन अनुक्रमों के एक सेट को पहचानें और प्राप्त करें, (चरण 2) उन अनुक्रमों को संरेखित करें, (चरण 3) संरेखित अनुक्रमों से एक पेड़ का अनुमान लगाएं, और (चरण 4) उस पेड़ को इस तरह से प्रस्तुत करें कि प्रासंगिक जानकारी दूसरों को स्पष्ट रूप से बताए।

आम तौर पर आप जेनबैंक जैसे राष्ट्रीय डेटाबेस से समरूप अनुक्रमों को पहचानने और डाउनलोड करने के लिए अपने पसंदीदा वेब ब्राउज़र का उपयोग करेंगे, फिर अनुक्रमों को संरेखित करने के लिए कई संरेखण कार्यक्रमों में से एक, इसके बाद पेड़ का अनुमान लगाने के लिए कई संभावित फ़ाइलोजेनेटिक कार्यक्रमों में से एक, और अंत में, अन्वेषण और प्रकाशन के लिए पेड़ खींचने का कार्यक्रम। प्रत्येक प्रोग्राम का अपना इंटरफ़ेस और अपना आवश्यक फ़ाइल स्वरूप होगा, जो आपको एक प्रोग्राम से दूसरे प्रोग्राम में जानकारी स्थानांतरित करने के लिए फ़ाइलों को इंटरकनेक्ट करने के लिए मजबूर करता है। इसमें कोई आश्चर्य की बात नहीं है कि कभी-कभी फ़ाइलोजेनेटिक विश्लेषण को डराने वाला माना जाता है!

MEGA5 (तमुरा एट अल। 2011) एक एकीकृत प्रोग्राम है जो एक ही वातावरण में सभी चार चरणों को पूरा करता है, एक एकल उपयोगकर्ता इंटरफ़ेस के साथ फ़ाइल स्वरूपों को इंटरकनेक्ट करने की आवश्यकता को समाप्त करता है। उसी समय, MEGA5 वांछित होने पर विशेष चरणों के लिए अन्य कार्यक्रमों का उपयोग करने की अनुमति देने के लिए पर्याप्त रूप से लचीला है। इस प्रकार, MEGA5 उन लोगों के लिए विशेष रूप से उपयुक्त है जो फाईलोजेनेटिक पेड़ों के आकलन से कम परिचित हैं।

चरण 1: अनुक्रम प्राप्त करना

विडंबना यह है कि पहला कदम बौद्धिक रूप से सबसे अधिक मांग वाला है, लेकिन इसे अक्सर कम से कम ध्यान दिया जाता है। यदि अच्छी तरह से नहीं किया जाता है, तो पेड़ अमान्य या व्याख्या करना असंभव होगा या दोनों। यदि बुद्धिमानी से किया जाए, तो शेष चरण आसान, अनिवार्य रूप से यांत्रिक, संचालन हैं जो एक मजबूत सार्थक पेड़ के रूप में परिणत होंगे।

अक्सर, अन्वेषक एक विशेष जीन या प्रोटीन में रुचि रखता है जो जांच का विषय रहा है और उस जीन या प्रोटीन के अपने समरूपों के संबंध को निर्धारित करना चाहता है। शब्द "होमोलोग्स" यहाँ महत्वपूर्ण है। फ़ाइलोजेनेटिक विश्लेषण की सबसे बुनियादी धारणा यह है कि एक पेड़ पर सभी अनुक्रम समरूप होते हैं, यानी एक सामान्य पूर्वज के वंशज होते हैं। संरेखण कार्यक्रम अनुक्रमों को संरेखित करेंगे, समजात या नहीं। सभी वृक्ष-निर्माण कार्यक्रम उस संरेखण से एक वृक्ष बनाएंगे। हालांकि, अगर अनुक्रम वास्तव में एक सामान्य पूर्वज से नहीं उतरे हैं, तो पेड़ अर्थहीन होगा और काफी भ्रामक हो सकता है। रुचि के अनुक्रम के अनुरूप अनुक्रमों की पहचान करने का सबसे विश्वसनीय तरीका एक क्वेरी के रूप में रुचि के अनुक्रम का उपयोग करते हुए एक बुनियादी स्थानीय संरेखण खोज उपकरण (BLAST) खोज (Altschul et al. 1997) करना है।

चरण १.१

जब आप MEGA5 शुरू करते हैं, तो यह मुख्य MEGA5 विंडो खोलता है। से संरेखित मेनू चुनें ब्लास्ट सर्च करें. MEGA5 नेशनल सेंटर फॉर बायोटेक्नोलॉजी इन्फॉर्मेशन (NCBI) से न्यूक्लियोटाइड BLAST पेज दिखाने के लिए अपनी ब्राउज़र विंडो खोलता है। उस पृष्ठ के शीर्ष के पास पाँच टैब का एक सेट है (ब्लास्टन, ब्लास्टप, ब्लास्टएक्स, टीब्लास्टन, और टीब्लास्टएक्स)। डिफ़ॉल्ट रूप से ब्लास्टन (मानक न्यूक्लियोटाइड ब्लास्ट) टैब चयनित है। यदि आपका क्रम प्रोटीन का है तो क्लिक करें ब्लास्टपी मानक प्रोटीन ब्लास्ट पृष्ठ दिखाने के लिए टैब।

ध्यान दें कि NCBI अक्सर BLAST पृष्ठ का स्वरूप बदलता है, इसलिए यह यहाँ वर्णित विवरण से कुछ विवरणों में भिन्न हो सकता है।

एक बड़ा टेक्स्ट बॉक्स है (परिग्रहण संख्या दर्ज करें … ) जहां आप रुचि का क्रम दर्ज करते हैं। आप क्वेरी अनुक्रम को सीधे उस बॉक्स में पेस्ट कर सकते हैं। हालाँकि, यदि आपका क्वेरी अनुक्रम पहले से ही डेटाबेस में से एक में है, तो आप इसकी परिग्रहण संख्या या जीआई नंबर पेस्ट कर सकते हैं। यदि आपका डीएनए अनुक्रम जीनोम अनुक्रम का हिस्सा है, तो आप जीनोम की परिग्रहण संख्या दर्ज कर सकते हैं, फिर दाईं ओर के बक्सों में (क्वेरी उपश्रेणी) आपके अनुक्रम का निर्माण करने वाले आधारों की श्रेणी दर्ज करें। (आप वास्तव में अपनी क्वेरी के रूप में कई मेगाबेस अनुक्रम का उपयोग नहीं करना चाहते हैं!)

पृष्ठ का मध्य भाग आपको उन डेटाबेस को चुनने की अनुमति देता है जिन्हें खोजा जाएगा और यदि आप चाहें तो उस खोज को बाधित कर सकते हैं। डिफ़ॉल्ट है न्यूक्लियोटाइड संग्रह (एनआर/एनटी), लेकिन त्रिभुज के साथ ड्रॉप-डाउन टेक्स्ट बॉक्स आपको बड़ी संख्या में विकल्पों में से चुनने की अनुमति देता है, उदाहरण के लिए, मानव जीनोमिक या एनसीबीआई जीनोम।

वैकल्पिक जीवों टेक्स्ट बॉक्स आपको अपनी खोज को किसी विशेष जीव तक सीमित करने या किसी विशेष जीव को बाहर करने की अनुमति देता है। उदाहरण के लिए, यदि आपका क्रम मनुष्यों से है, तो हो सकता है कि आप मनुष्यों को खोज से बाहर करना चाहें, ताकि जब आप वास्तव में अन्य प्रजातियों में समरूपों में रुचि रखते हैं, तो आप बहुत से मानव रूपों को न चुनें। अधिक जीवों को शामिल करने के लिए विकल्प बॉक्स के आगे छोटे + चिह्न पर क्लिक करें।

बहिष्कृत विकल्प आपको, उदाहरण के लिए, पर्यावरण के नमूनों को बाहर करने की अनुमति देता है।

चरण १.२: किस ब्लास्ट एल्गोरिथम का उपयोग करना है?

पृष्ठ का निचला भाग आपको BLAST के विशेष प्रकार को चुनने की अनुमति देता है जो आपके उद्देश्यों के लिए सबसे उपयुक्त है। न्यूक्लियोटाइड के लिए, विकल्प अत्यधिक समान अनुक्रमों के लिए मेगाब्लास्ट हैं, अधिक भिन्न अनुक्रमों के लिए असंबद्ध मेगाब्लास्ट, या कुछ समान अनुक्रमों के लिए विस्फोट। डिफ़ॉल्ट ब्लास्टन है, लेकिन यदि आप केवल निकट से संबंधित होमोलॉग की पहचान करने में रुचि रखते हैं तो मेगाब्लास्ट पर टिक करें। यह पहली पसंद है जो वास्तव में कुछ विचार की मांग करती है। आपके पेड़ पर होने वाले अनुक्रम इस बिंदु पर आपके द्वारा किए गए चुनाव से बहुत अधिक निर्धारित होते हैं।

पृष्ठ के बिल्कुल नीचे खोज शुरू करने के लिए ब्लास्ट बटन पर क्लिक करें "नई विंडो में परिणाम दिखाएं" बॉक्स पर टिक न करें। एक परिणाम विंडो दिखाई देगी, संभवतः एक ग्राफिक चित्रण डोमेन के साथ, जिसे पहचाना गया है, आमतौर पर "यह पृष्ठ स्वचालित रूप से 5 सेकंड में अपडेट हो जाएगा" के समान एक बयान के साथ। अंत में, अंतिम परिणाम विंडो दिखाई देगी। शीर्ष पैनल क्वेरी अनुक्रमों के गुणों और खोजे गए डेटाबेस के विवरण को सारांशित करता है। नीचे एक ग्राफिक है जो शीर्ष 100 "हिट" (खोज द्वारा पहचाने गए अनुक्रम) के संरेखण को दिखाता है। महत्वपूर्ण संरेखण स्कोर बनाने वाले अनुक्रमों की सूची देखने के लिए नीचे स्क्रॉल करें। प्रत्येक अनुक्रम के लिए, एक परिग्रहण संख्या (एक क्लिक करने योग्य लिंक), एक विवरण, एक अधिकतम स्कोर (एक क्लिक करने योग्य लिंक भी), एक कुल स्कोर, एक क्वेरी कवरेज, और मूल्य और एक अधिकतम पहचान। आप उस जानकारी का उपयोग यह तय करने के लिए करते हैं कि आपके संरेखण में कौन सा अनुक्रम जोड़ना है और इस प्रकार आपके पेड़ पर शामिल करना है।

विवरण यह तय करने में मदद करता है कि क्या आप उस विशेष क्रम में रुचि रखते हैं। एक ही प्रजाति के कई क्रम हो सकते हैं, क्या आप उन सभी को चाहते हैं या शायद किसी प्रजाति का केवल एक प्रतिनिधि - या एक जीनस का भी? यदि आप संभवतः उस क्रम में रुचि रखते हैं तो क्वेरी कवरेज देखें। क्या आप एक ऐसे होमोलॉग में रुचि रखते हैं जो केवल 69% क्वेरी के साथ संरेखित हो? यदि नहीं, तो उस क्रम को अनदेखा करें और आगे बढ़ें। क्या आप ऐसे अनुक्रम में रुचि रखते हैं जो आपकी क्वेरी के समान 100% है? यदि आप केवल अधिक दूर से संबंधित समरूपों में रुचि रखते हैं, तो आप नहीं हो सकते हैं। यदि आप सबसे अधिक समावेशी वृक्ष चाहते हैं, तो आप हो सकते हैं। आप तय करना होगा कि कोई एल्गोरिदम नहीं है जो आपको बता सके कि क्या शामिल करना है।

यदि आप तय करते हैं कि आप हिट अनुक्रम में रुचि रखते हैं, तो "क्लिक करें"अधिकतम स्कोरसंरेखण की श्रृंखला में आपको नीचे ले जाने के लिए लिंक। आप जो देखते हैं वह इस बात पर निर्भर करता है कि आपकी क्वेरी डीएनए अनुक्रम थी या प्रोटीन अनुक्रम।

चरण 1.3: डीएनए अनुक्रम

हिट के लिए क्वेरी का संरेखण इसकी जीआई और परिग्रहण संख्याओं के माध्यम से अनुक्रम फ़ाइल के लिंक के साथ शुरू होता है। यदि वह लिंक जीनोम अनुक्रम के लिए है, या यहां तक ​​कि एक बड़ी फ़ाइल के लिए है जिसमें कई जीनों के अनुक्रम शामिल हैं, तो आप अपने संरेखण में संपूर्ण अनुक्रम शामिल नहीं करना चाहेंगे। मुद्दे से निपटने के दो तरीके हैं। 1) संरेखण को स्वयं देखें और विषय में न्यूक्लियोटाइड्स की श्रेणी पर ध्यान दें। यह देखना सुनिश्चित करें कि क्या क्वेरी विषय अनुक्रम के साथ ही संरेखित होती है (स्ट्रैंड = प्लस/प्लस) या इसके पूरक के साथ (स्ट्रैंड = प्लस/माइनस) अनुक्रम फ़ाइल लाने के लिए लिंक पर क्लिक करें। ऊपर दाईं ओर धूसर त्रिकोण पर क्लिक करें दिखाया गया क्षेत्र बदलें बॉक्स में, फिर श्रेणी के पहले और अंतिम न्यूक्लियोटाइड दर्ज करें, फिर क्लिक करें अद्यतन दृश्य बटन। ग्रे में दृश्य अनुकूलित करें क्षेत्र, नीचे, टिक करें अनुक्रम दिखाएं बॉक्स, और यदि स्ट्रैंड = प्लस/माइनस भी टिक करें उल्टा पूरक दिखाएं बॉक्स में, फिर अपडेट व्यू बटन पर क्लिक करें। अंत में, क्लिक करें संरेखण में जोड़ें खिड़की के शीर्ष के पास बटन (एक लाल क्रॉस)। (२) यदि आपकी क्वेरी एक कोडिंग अनुक्रम है या कोई अन्य उल्लेखनीय विशेषता है, तो आप विषय अनुक्रम के इस भाग में सुविधाएँ देख सकते हैं: सुविधा के लिंक के साथ अनुक्रम विवरण के ठीक नीचे। पहले से ही रुचि के क्षेत्र को दर्शाने वाली अनुक्रम फ़ाइल लाने के लिए उस सुविधा लिंक पर क्लिक करें। यह सुनिश्चित करने के लिए जांचें कि क्या दिखाया गया अनुक्रम क्वेरी का उल्टा पूरक है, और यदि यह टिक है उल्टा पूरक दिखाएं बॉक्स में दृश्य अनुकूलित करें क्षेत्र, दृश्य अपडेट करें, फिर क्लिक करें संरेखण में जोड़ें खिड़की के शीर्ष के पास बटन (एक लाल क्रॉस)।

चरण 1.31. जब आप पर क्लिक करते हैं संरेखण में जोड़ें बटन, MEGA5's संरेखण एक्सप्लोरर विंडो खुलती है और अनुक्रम उस विंडो में जुड़ जाता है। संरेखण एक्सप्लोरर में अनुक्रम जोड़ने के बाद, समरूप अनुक्रमों की सूची पर लौटने के लिए ब्लास्ट विंडो में पीछे के तीर का उपयोग करें और ब्याज का एक और क्रम जोड़ें।

चरण 1.4: प्रोटीन अनुक्रम

न्यूक्लियोटाइड खोजों से मुख्य अंतर यह है कि आप कई प्रोटीन अनुक्रम फ़ाइलों के लिए परिग्रहण संख्या लिंक देख सकते हैं। इन सभी में समान अमीनो एसिड अनुक्रम होता है, हालांकि उनके अंतर्निहित कोडिंग अनुक्रम भिन्न हो सकते हैं। प्रोटीन अनुक्रम फ़ाइल लाने के लिए किसी एक लिंक पर क्लिक करें, फिर क्लिक करें संरेखण में जोड़ें बटन।

आप पा सकते हैं कि आपकी खोज से लौटाए गए सभी हिट बहुत निकट से संबंधित जीवों से हैं, अर्थात, यदि आपकी क्वेरी एक थी स्केरिचिया कॉलिक प्रोटीन, सभी हिट से हो सकते हैं ई. कोलाई, साल्मोनेला, और निकट से संबंधित प्रजातियां। यदि हिट सभी एक उच्च अधिकतम पहचान दिखाते हैं और आपको पूरा यकीन है कि अनुक्रम अधिक दूर से संबंधित अनुक्रमों में होता है, तो आप संभवतः डिफ़ॉल्ट अधिकतम 100 लक्ष्य अनुक्रमों के खिलाफ आ गए हैं। खोज को दोहराएं, लेकिन इससे पहले कि आप खोज शुरू करने के लिए ब्लास्ट बटन पर क्लिक करें, नोटिस करें कि उस बटन के ठीक नीचे एक गुप्त रेखा है "+ एल्गोरिथम पैरामीटर्स।" BLAST सेटअप पृष्ठ के दूसरे भाग को प्रकट करने के लिए धन चिह्न पर क्लिक करें। ठीक अधिकतम लक्ष्य अनुक्रम एक बड़े मूल्य के लिए और खोज को दोहराएं। आप कुछ निकट से संबंधित प्रजातियों को भी इसमें शामिल नहीं करना चाहेंगे खोज सेट चुनें ऊपर खंड। एक टैक्सन दर्ज करें, उदाहरण के लिए, . कोलाई, बॉक्स में और टिक करें निकालना डिब्बा। यदि आप एक से अधिक प्रजातियों को बाहर करना चाहते हैं तो के दाईं ओर धन चिह्न पर क्लिक करें निकालना एक और फ़ील्ड जोड़ने के लिए। आप अधिकतम 20 प्रजातियों को बाहर कर सकते हैं।

जब आप हिट की सूची पर लौटने का प्रयास करते हैं तो आपको एक पृष्ठ मिल सकता है जो कहता है "कितना शर्मनाक! त्रुटि: -400 कैश मिस।" के आगे वृत्ताकार तीर पर क्लिक करें संरेखण में जोड़ें बटन। आपको मुख्य BLAST पेज पर भेज दिया जाएगा लेकिन निराश न हों। उस पृष्ठ के ऊपर दाईं ओर a . है आपके हाल के परिणाम अनुभाग। सूची में शीर्ष लिंक आपकी सबसे हाल की खोज है। अपने परिणामों पर वापस जाने के लिए बस उस लिंक पर क्लिक करें।

जब आप उन सभी अनुक्रमों को जोड़ लें जो आप चाहते हैं, तो बस MEGA5 ब्राउज़र विंडो बंद करें।

संरेखण संपादक विंडो में संरेखण को चुनकर सहेजें सत्र को बचाए से आंकड़े मेन्यू। मैं अपने आप को याद दिलाने के लिए Myfile_unaligned जैसे नाम का उपयोग करना पसंद करता हूं कि अनुक्रमों को संरेखित नहीं किया गया है। फ़ाइल में एक्सटेंशन .mas होगा।

चरण 1.5: अनुक्रमों की पहचान और अधिग्रहण के लिए MEGA5 के विकल्प

चरण 1.51. आप एनसीबीआई ब्लास्ट को किसी भी वेब ब्राउज़र के माध्यम से एक्सेस कर सकते हैं जो एनसीबीआई http://blast.ncbi.nlm.nih.gov/Blast.cgi पर समर्थित है। में बेसिक ब्लास्ट अनुभाग क्लिक करें न्यूक्लियोटाइड विस्फोट या प्रोटीन विस्फोट पहले बताए गए पेज के समान पेज पर जाने के लिए लिंक। MEGA5 के ब्राउज़र का उपयोग करते समय सब कुछ वैसा ही है, सिवाय इसके कि आप संरेखण संपादक में अनुक्रम जोड़ने के लिए एक सुविधाजनक बटन पर क्लिक नहीं कर सकते।

चरण 1.52. टेक्स्ट एडिटर में एक नई फाइल खोलें। आप चुनकर MEGA5 के अंतर्निहित टेक्स्ट एडिटर का उपयोग कर सकते हैं एक टेक्स्ट फ़ाइल संपादित करें फ़ाइल मेनू से। उस संपादक के पास आणविक अनुक्रमों को संपादित करने के लिए कई कार्य हैं, जिसमें रिवर्स पूरक और फास्टा सहित कई सामान्य स्वरूपों में परिवर्तित करना शामिल है। वैकल्पिक रूप से, Windows के लिए Notepad या Mac के लिए TextWrangler (http://www.barebones.com/products/textwrangler/) का उपयोग करें। एक्सटेंशन.फास्टा के साथ अर्थपूर्ण नाम के साथ फाइल को सेव करें, उदाहरण के लिए, myfile.fasta। करना नहीं Microsoft Word, Word Pad, TextEdit (Mac), या किसी अन्य वर्ड प्रोसेसर का उपयोग करें!

चरण १.५३. जब आपने उस अनुक्रम की पहचान कर ली है जिसे आप जोड़ना चाहते हैं और उस अनुक्रम फ़ाइल के लिए आपको पृष्ठ पर ले जाने के लिए लिंक पर क्लिक किया है, तो दिखाए गए क्षेत्र को समायोजित करें और यदि आवश्यक हो तो दृश्य को अनुकूलित करें। ध्यान दें प्रदर्शन सेटिंग्स पृष्ठ के ऊपर बाईं ओर लिंक करें। डिफ़ॉल्ट सेटिंग जेनबैंक (पूर्ण) है। उसमें बदलें फास्टा (पाठ), सब कुछ चुनें, इसे कॉपी करें और फिर टेक्स्ट एडिटर फ़ाइल में पेस्ट करें। जैसे ही आप फ़ाइल में अनुक्रम जोड़ते हैं, अनुक्रमों के बीच रिक्त रेखाएँ छोड़ना सुविधाजनक है, लेकिन आवश्यक नहीं है।

अनुक्रमों की पहचान करना और उन्हें प्राप्त करना . के अध्याय 3 में अधिक विस्तार से चर्चा की गई है Phylogenetic पेड़ आसान बना दिया, चौथा संस्करण (पीटीएमई4) (हॉल 2011)।

अगला खंड बताता है कि उन अनुक्रमों को MEGA5 के संरेखण संपादक में कैसे आयात किया जाए।

चरण 2: अनुक्रमों को संरेखित करना

यदि संरेखण एक्सप्लोरर विंडो पहले से खुली नहीं है, तो MEGA5 की मुख्य विंडो में चुनें एक फ़ाइल/सत्र खोलें से फ़ाइल मेनू। चरण 1 में सहेजी गई MEGA5 संरेखण फ़ाइल (.mas) या अनुक्रम फ़ाइल (.fasta) चुनें। परिणामी संवाद में चुनें संरेखित.

संरेखण एक्सप्लोरर बाईं ओर प्रत्येक अनुक्रम के लिए एक नाम दिखाता है, उसके बाद अनुक्रम, रंगीन अवशेषों के साथ। आमतौर पर नाम बहुत लंबा होता है। वह नाम वह है जो अंततः पेड़ पर दिखाई देगा, और लंबे नाम आमतौर पर अवांछनीय होते हैं। यह उन नामों को संपादित करने का समय है, वास्तव में यह नामों को संपादित करने का एकमात्र व्यावहारिक समय है, इसलिए अवसर न चूकें। बस प्रत्येक नाम पर डबल क्लिक करें और इसे किसी अधिक उपयुक्त चीज़ में बदलें।

यदि आपका अनुक्रम डीएनए है तो आपको दो टैब दिखाई देंगे: डीएनए अनुक्रम तथा अनुवादित प्रोटीन अनुक्रम. डीएनए अनुक्रम टैब डिफ़ॉल्ट रूप से चुना जाता है। संबंधित प्रोटीन अनुक्रम देखने के लिए अनुवादित प्रोटीन अनुक्रम टैब पर क्लिक करें।

चरण 2.1

अब अनुक्रमों को संरेखित करने का समय है। दो संरेखण विधियाँ प्रदान की जाती हैं: ClustalW (थॉम्पसन एट अल। 1994) और MUSCLE (एडगर 2004a, 2004b)। या तो इस्तेमाल किया जा सकता है, लेकिन सामान्य तौर पर MUSCLE बेहतर होता है। टूल बार में, विंडो के शीर्ष के पास, क्लस्टल संरेखण का प्रतीक है वू बटन, और MUSCLE एक हाथ से बंद मुट्ठी के साथ "मांसपेशियों को दिखाने" के लिए। उनमें से किसी एक बटन पर क्लिक करें या चुनें क्लस्टल या मांसपेशी से संरेखण मेन्यू। यदि आपका अनुक्रम डीएनए है तो आपको दो विकल्प दिखाई देंगे: डीएनए संरेखित करें तथा कोडों को संरेखित करें. यदि आपका अनुक्रम डीएनए कोडिंग अनुक्रम है तो यह है बहुत ज़रूरी चुनने के लिए कोडों को संरेखित करें. यह सुनिश्चित करेगा कि अनुक्रमों को कोडन द्वारा संरेखित किया गया है, डीएनए अनुक्रमों के प्रत्यक्ष संरेखण की तुलना में बहुत अधिक यथार्थवादी दृष्टिकोण है क्योंकि यह उन पदों में अंतराल को पेश करने से बचता है जिसके परिणामस्वरूप वास्तविक अनुक्रमों में फ्रेम बदलाव होगा।

चरण 2.2

संरेखण विधि चुनने से उस विधि के लिए एक सेटिंग विंडो खुलती है। MUSCLE के लिए, मेरा सुझाव है कि आप डिफ़ॉल्ट सेटिंग्स को स्वीकार करें। ClustalW के लिए, डीएनए के लिए डिफ़ॉल्ट सेटिंग्स ठीक हैं, लेकिन प्रोटीन के लिए, मैं मल्टीपल एलाइनमेंट गैप ओपनिंग पेनल्टी को 3 और मल्टीपल एलाइनमेंट गैप एक्सटेंशन पेनल्टी को 1.8 में बदलने की सलाह देता हूं।

चरण २.३

दबाएं ठीक है संरेखण प्रक्रिया शुरू करने के लिए बटन। शामिल अनुक्रमों की संख्या और आपके द्वारा चुनी गई विधि के आधार पर, संरेखण में कुछ सेकंड से लेकर कुछ घंटों तक का समय लग सकता है। संरेखण पूर्ण होने पर सहेजें अधिवेशन। मैं एक अलग नाम के तहत संरेखित अनुक्रमों को सहेजना पसंद करता हूं, इस प्रकार यदि मेरी मूल फ़ाइल Myfile_unaligned.mas थी, तो मैं संरेखित अनुक्रम को केवल Myfile.mas के रूप में सहेजूंगा।

चरण 2.4

MEGA5 फ़ाइलोजेनेटिक ट्री का अनुमान लगाने के लिए सीधे .mas फ़ाइल का उपयोग नहीं कर सकता है, इसलिए आपको भी चुनना होगा निर्यात संरेखण से आंकड़े मेनू और फ़ाइल को MEGA5 प्रारूप में निर्यात करें जहां इसे .meg एक्सटेंशन मिलेगा। आपको डेटा के लिए एक शीर्षक इनपुट करने के लिए कहा जाएगा। आप चाहें तो शीर्षक को खाली छोड़ सकते हैं, लेकिन किसी प्रकार का शीर्षक जोड़ना उपयोगी होता है जो आपके लिए सार्थक हो। यदि यह डीएनए अनुक्रमों का एक संरेखण है, तो आपसे यह भी पूछा जाएगा कि क्या वे अनुक्रमों को कोडिंग कर रहे हैं।

संरेखण पर PTME4 (हॉल 2011) के अध्याय 4 में अधिक विस्तार से चर्चा की गई है।

चरण २.५: MEGA5 के साथ संरेखित करने का एक विकल्प

एक बार संरेखण पूरा हो जाने के बाद, आप देखेंगे कि अनुक्रमों में अंतराल पेश किए गए हैं। वे अंतराल ऐतिहासिक सम्मिलन या विलोपन का प्रतिनिधित्व करते हैं, और उनका उद्देश्य समरूप साइटों को एक ही कॉलम में संरेखण में लाना है। यह सराहना की जानी चाहिए कि जिस तरह एक फ़ाइलोजेनेटिक पेड़ अनुक्रमों के बीच संबंधों का "अनुमान" है, एक संरेखण ऐतिहासिक सम्मिलन और विलोपन की स्थिति का सिर्फ एक अनुमान है। संरेखण की गुणवत्ता एक फ़ाइलोजेनेटिक पेड़ की गुणवत्ता को प्रभावित कर सकती है, लेकिन MEGA5 संरेखण की गुणवत्ता का न्याय करने का कोई तरीका नहीं देता है। वेब आधारित कार्यक्रम दिशा निर्देश (http://guidance.tau.ac.il/) संरेखण के पांच अलग-अलग तरीके प्रदान करता है, लेकिन इससे भी महत्वपूर्ण बात यह है कि यह संरेखण की गुणवत्ता का मूल्यांकन करता है और उन क्षेत्रों और अनुक्रमों की पहचान करता है जो संरेखण की गुणवत्ता को कम करने में योगदान करते हैं। की चर्चा दिशा निर्देश (पेन एट अल। २०१०) इस लेख के दायरे से बाहर है, लेकिन इस विषय को पीटीएमई४ (हॉल २०११) के अध्याय १२ में विस्तार से शामिल किया गया है।

दिशा निर्देश यह आवश्यक है कि असंरेखित अनुक्रमों को फास्टा प्रारूप में एक फ़ाइल में प्रदान किया जाए। फास्टा प्रारूप के विस्तृत विवरण के लिए हॉल (2011) देखें। यदि आपने अपने पसंदीदा वेब ब्राउज़र के माध्यम से अनुक्रमों को डाउनलोड किया है और उन्हें एक .fasta फ़ाइल के रूप में सहेजा है, तो उस फ़ाइल को इनपुट के रूप में उपयोग किया जा सकता है दिशा निर्देश. यदि आपने संरेखण एक्सप्लोरर में अनुक्रमों को डाउनलोड करने के लिए MEGA5 का उपयोग किया है, तो आप चुनकर FASTA प्रारूप में असंरेखित अनुक्रमों को निर्यात कर सकते हैं निर्यात संरेखण से आंकड़े मेनू, फिर चुनना फास्टा प्रारूप। यदि आप असंरेखित अनुक्रम रखना भूल गए हैं तो आप सभी अनुक्रमों (नियंत्रण-ए) का चयन कर सकते हैं, फिर चुनें अंतराल हटाएं से संपादित करें FASTA प्रारूप में अनुक्रम निर्यात करने से पहले मेनू।

चरण 3: पेड़ का अनुमान लगाएं

फ़ाइलोजेनेटिक पेड़ों का आकलन करने के लिए व्यापक रूप से उपयोग की जाने वाली कई विधियाँ हैं (पड़ोसी में शामिल होना, UPGMA अधिकतम पारसीमोनी, बायेसियन इंफ़ेक्शन, और अधिकतम संभावना [एमएल]), लेकिन यह लेख केवल एक: एमएल से निपटेगा।

चरण 3.1

MEGA5 की मुख्य विंडो में चुनें एक फ़ाइल/सत्र खोलें से फ़ाइल मेनू खोलें और .meg फ़ाइल खोलें जिसे आपने चरण 2 में सहेजा था।

चरण ३.२

अनुक्रमों के विकासवादी इतिहास के दौरान एक ही साइट पर कई परिवर्तनों को ठीक करने के लिए एमएल कई प्रकार के प्रतिस्थापन मॉडल का उपयोग करता है। मॉडलों की संख्या और उनके वेरिएंट बिल्कुल चौंकाने वाले हो सकते हैं, लेकिन MEGA5 एक ऐसी सुविधा प्रदान करता है जो आपके लिए सबसे अच्छा मॉडल चुनती है। से मॉडल मेनू चुनें सर्वश्रेष्ठ डीएनए/प्रोटीन मॉडल (एमएल) खोजें… . एक प्राथमिकता संवाद दिखाई देगा, लेकिन आप डिफ़ॉल्ट सेटिंग को स्वीकार करने के लिए पर्याप्त सुरक्षित हैं। दबाएं गणना करना रन शुरू करने के लिए बटन। सभी उपलब्ध मॉडलों पर विचार करने के लिए मॉडल को काफी समय लग सकता है, लेकिन एक प्रगति बार दिखाता है कि चीजें कैसे साथ आ रही हैं।

पूर्ण होने पर एक विंडो दिखाई देती है जो वरीयता के क्रम में मॉडलों को सूचीबद्ध करती है। पसंदीदा मॉडल पर ध्यान दें, फिर उस मॉडल का उपयोग करके पेड़ का अनुमान लगाएं। नीचे दिए गए उदाहरणों के लिए, WAG + G + I मॉडल सबसे अच्छा था।

चरण 3.3

से फिलोजेनी मेनू चुनें अधिकतम संभावना वृक्ष का निर्माण/परीक्षण... . चित्र 1 के समान एक वरीयता संवाद दिखाई देगा।


परिणाम

रोडोप्सिन आणविक विकास

जब साधारण M0 मॉडल के माध्यम से रोडोप्सिन की विकास दर का अनुमान लगाया जाता है, जिसमें पूरे अनुक्रम के लिए एक एकल dN/dS अनुपात का अनुमान लगाया जाता है (सामग्री और तरीके देखें), अनुक्रम विकसित हुआ है, जैसा कि अपेक्षित था, मुख्य रूप से मजबूत शुद्धिकरण चयन (dN) के तहत /dS = 0.045, लघुगणक-संभावना (lnL) = −12788)। इस प्रकार, सामान्य तौर पर, इस जीन में उपन्यास गैर-पर्यायवाची न्यूक्लियोटाइड प्रतिस्थापन प्राकृतिक चयन द्वारा हटा दिए जाते हैं। हालाँकि, सकारात्मक चयन व्यक्तिगत, अनुकूली साइटों पर होने की उम्मीद है, जिसका पता लगाने के लिए M0 मॉडल का उपयोग नहीं किया जा सकता है। इस प्रकार हमने साइट-प्रतिस्थापन मॉडल का उपयोग करके सकारात्मक चयन के दो परीक्षण किए, जो अनुक्रम में प्रत्येक साइट को एक स्वतंत्र दर से विकसित होने की अनुमति देते हैं। दो नेस्टेड मॉडल की तुलना करके सकारात्मक चयन का अनुमान लगाया जाता है जिसमें वैकल्पिक मॉडल में 1 से अधिक dN/dS वाली साइटें शामिल होती हैं, और महत्व को 2 वितरण से प्राप्त p-मान के साथ संभावना-अनुपात परीक्षण के माध्यम से निर्धारित किया जाता है। ये परीक्षण, यदि महत्वपूर्ण हैं, तो बड़े पैमाने पर उन साइटों का प्रमाण प्रदान करेंगे, जिनका पूरे फ़ाइलोजेनेटिक विचलन में सकारात्मक चयन हुआ है। व्यापक सकारात्मक चयन के दोनों परीक्षण महत्वपूर्ण साक्ष्य (मॉडल M1a बनाम M2a: M1a लॉग-संभावना (lnL) = −12672, M2a lnL = −12672, स्वतंत्रता की डिग्री (df) = 2, p = 1 मॉडल M7 बनाम M8: M7 lnL = −12364, M8 lnL = −12364, df = 2, p = 1)। स्पष्ट रूप से, व्यापक सकारात्मक चयन के परिणामों का उपयोग नहीं किया जाना चाहिए और विस्तृत विश्लेषण को प्रोटीन/डीएनए अनुक्रम के भीतर बहुत विशिष्ट स्थिति में केंद्रित करना है।

हमने अगली परिकल्पना का परीक्षण किया कि रोडोप्सिन ने विशेष रूप से शाखा-साइट मॉडल (छवि 1) का उपयोग करके एक परीक्षण के माध्यम से थेरियन विचलन के दौरान एपिसोडिक सकारात्मक चयन किया। यह परीक्षण साइटों को फ़ाइलोजेनी की एक विशिष्ट शाखा पर सकारात्मक चयन करने की अनुमति देता है और महत्व पिछले परीक्षणों के समान ही निर्धारित किया जाता है। रोडोप्सिन को शाखा पर सकारात्मक चयन के महत्वपूर्ण सबूत मिले थे जो थेरियन स्तनधारियों (null lnL = −12734, वैकल्पिक lnL = −12731, d.f. = 1, p = 0.014) के लिए अग्रणी थे। सकारात्मक चयन के लक्ष्य होने की उच्चतम पश्च संभावना के रूप में पहचानी गई तीन साइटें थीं (गोजातीय निर्देशांक और पश्च संभावनाएं दी गई): M13F (Prob = 0.995), R225Q (Prob = 0.982) और S346A (Prob = 0.888)। इन तीन पदों (मजबूत सांख्यिकीय महत्व के साथ पहले दो) ने स्पष्ट रूप से कुछ प्रासंगिक कार्य प्राप्त किए जिसके परिणामस्वरूप बेसल शाखा में सकारात्मक रूप से चुने गए थेरियन स्तनधारियों की ओर अग्रसर हुआ।

रोडोप्सिन प्रतिस्थापन के इलेक्ट्रोफोरेटिक और स्पेक्ट्रोस्कोपिक लक्षण वर्णन

सांख्यिकीय विश्लेषण द्वारा निर्धारित इन तीन विशिष्ट साइटों (गोजातीय ऑप्सिन पृष्ठभूमि में 13, 225, और 346) को सकारात्मक रूप से चुने जाने की उनकी उच्च पश्च संभावना के कारण प्रयोगात्मक लक्षण वर्णन के लिए चुना गया था। जबकि साइट ३४६ ०.९५ की विहित संभाव्यता कट-ऑफ को पूरा नहीं करती है, शारीरिक रूप से प्रासंगिक माने जाने वाले क्षेत्र में इसके स्थान ने हमें इसे प्रायोगिक विश्लेषण में शामिल करने के लिए प्रेरित किया। पैतृक उत्परिवर्तन F13M, Q225R और A346S का निर्माण गोजातीय ऑप्सिन जीन में साइट निर्देशित उत्परिवर्तजन द्वारा किया गया था। ये अमीनो एसिड क्रमशः इंट्राडिस्कल एन-टर्मिनल डोमेन (F13), ट्रांसमेम्ब्रेन हेलिक्स V (Q225) के साइटोप्लाज्मिक अंत और फोटोरिसेप्टर प्रोटीन ऑप्सिन (A346) की सी-टर्मिनल पूंछ पर स्थित हैं (चित्र 2)।

वर्तमान अध्ययन में उत्परिवर्तित साइटें, 13, 225 और 346 लाल रंग में परिचालित हैं।

हमने म्यूटेंट के ग्लाइकोसिलेशन और ओलिगोमेराइजेशन राज्य को निर्धारित करने के लिए इलेक्ट्रोफोरेटिक विश्लेषण का उपयोग किया जो उनकी कार्यक्षमता के महत्वपूर्ण संरचनात्मक निर्धारक हैं। यह अंत करने के लिए, पुनः संयोजक उत्परिवर्तित प्रोटीन, F13M, Q225R और A346S, COS-1 कोशिकाओं में व्यक्त किए गए, प्रतिरक्षित और बाद में SDS-PAGE द्वारा विश्लेषण किया गया। Q225R और A346S म्यूटेंट का इलेक्ट्रोफोरेटिक पैटर्न WT (छवि 3, बाएं पैनल) के समान था, जो COS-1 कोशिकाओं में व्यक्त रोडोप्सिन की विशेषता अनुगामी स्मीयर को दिखा रहा था और विषम ग्लाइकोसिलेशन 13 के लिए जिम्मेदार था। हालांकि, F13M उत्परिवर्ती ने स्पष्ट रूप से परिवर्तित पैटर्न दिखाया, असतत बैंड की एक श्रृंखला और ऑप्सिन मुख्य बैंड (लगभग 40 केडीए पर) के नीचे निचले बैंड की उपस्थिति के साथ, जिसे गैर-ग्लाइकोसिलेटेड 14 या काटे गए ऑप्सिन प्रजातियों के लिए जिम्मेदार ठहराया जा सकता है।

बायां पैनल . ROS (रॉड बाहरी खंडों से रोडोप्सिन), WT रोडोप्सिन और Q225R, A346S और F13M म्यूटेंट को संबंधित गलियों में दर्शाया गया है। F13M को छोड़कर सभी म्यूटेंट WT के समान वैद्युतकणसंचलन व्यवहार दिखाते हैं जो परिवर्तित ग्लाइकोसिलेशन के अनुरूप एक परिवर्तित पैटर्न दिखाता है। दायां पैनल। Rho-1D4 मोनोक्लोनल एंटीबॉडी के साथ प्रतिरक्षित प्रोटीन नमूनों के पश्चिमी धब्बा का पता चला। WT रोडोप्सिन, N2C/D282C बैकग्राउंड में F13M और F13M रोडोप्सिन। ध्यान दें कि F13M उत्परिवर्ती लेन में 28 kDa बैंड स्पष्ट रूप से पता लगाने योग्य है।

रोडोप्सिन के मुख्य अनुकूली प्रासंगिक गुणों में से एक उनकी प्रकाश अवशोषण क्षमता है। इस प्रकार, शुद्ध प्रोटीन के वर्णक्रमीय व्यवहार का विश्लेषण यूवी-विज़ स्पेक्ट्रोस्कोपी द्वारा किया गया था और इसके प्रकाश अवशोषण गुणों को उनकी अंधेरे-अनुकूलित अवस्था (अंजीर 4 और 5C) में निर्धारित किया गया था। जंगली-प्रकार (WT) रोडोप्सिन ने 500 एनएम पर विशेषता दृश्यमान बैंड दिखाया और म्यूटेंट Q225R और A346S ने समान तरंग दैर्ध्य (चित्र 4) पर दृश्यमान बैंड दिखाए। इन दो म्यूटेंट ने WT रोडोप्सिन की तुलना में रेटिना के साथ क्रोमोफोर पुनर्जनन के समान स्तर दिखाए, जैसा कि उनके ए द्वारा आंका गया था280 एनएम/ए500 एनएम अनुपात (तालिका 1 देखें)। फोटोब्लीचिंग और अम्लीकरण स्पेक्ट्रा को रोशनी के तुरंत बाद (λ & gt 495 एनएम के प्रकाश के साथ) और अम्लीकरण के बाद क्रमशः निर्धारित किया गया था। रोशनी होने पर, दोनों म्यूटेंट ने ३८० एनएम पर एक विशिष्ट अवशोषक बैंड दिखाया, जो सक्रिय मेटा II रचना के अनुरूप है। नमूनों के बाद के अम्लीकरण ने अवशोषण को अधिकतम 380 एनएम से 440 एनएम तक स्थानांतरित कर दिया जो शिफ बेस नाइट्रोजन के पुनर्संयोजन से मेल खाती है। इस प्रकार, हम फोटोब्लीचिंग और अम्लीकरण assays (छवि 4, सम्मिलित) में Q225R और A346S म्यूटेंट के लिए एक WT जैसा व्यवहार पाते हैं, यह सुझाव देते हुए कि इन अमीनो एसिड परिवर्तनों ने सक्रिय रिसेप्टर की ओर जाने वाले फोटोइंटरमीडिएट्स के मार्ग को नहीं बदला।

अंधेरे में WT, Q225R और A346S का यूवी-विज़ स्पेक्ट्रा। इनसेट संबंधित अंधेरा दिखाते हैं (λमैक्स = ४९८ एनएम), photobleached (λ .)मैक्स = ३८० एनएम), और अम्लीकृत स्पेक्ट्रा (λ .)मैक्स = 440 एनएम)। ध्यान दें कि म्यूटेंट डब्ल्यूटी रोडोप्सिन के अनुरूप फोटोब्लीचिंग और अम्लीकरण व्यवहार दिखाते हैं।

WT रोडोप्सिन के साथ ट्रांसफ़ेक्ट कोशिकाएं (ए) और F13M उत्परिवर्ती (बी) प्रतिदीप्ति माइक्रोस्कोपी द्वारा विश्लेषण किया गया। नीला रंग कोशिकाओं के केंद्रक से मेल खाता है, और ऑप्सिन को हरे रंग में लेबल किया जाता है। (सी) अंधेरे (शीर्ष पैनल) में F13M का यूवी-विज़ अवशोषण स्पेक्ट्रा दृश्य क्षेत्र में कोई क्रोमोफोर पुनर्जनन नहीं दिखा रहा है। जब उत्परिवर्तन N2C/D282C डबल उत्परिवर्ती की पृष्ठभूमि में प्राप्त होता है, तो क्रोमोफोर पुनर्जनन को WT स्तरों (निचले पैनल) में बचाया जा सकता है। इनसेट, बचाया उत्परिवर्ती का फोटोब्लीचिंग और अम्लीकरण स्पेक्ट्रा।

रिसेप्टर के एन-टर्मिनल डोमेन पर F13M उत्परिवर्तन के मामले में एक विशिष्ट व्यवहार देखा गया था, जो दृश्य क्षेत्र (छवि 5C, ऊपरी पैनल) में अवशोषण की कमी के कारण पता लगाने योग्य क्रोमोफोर पुनर्जनन नहीं दिखाता था। क्रोमोफोर पुनर्जनन क्षमता की यह कमी प्रोटीन मिसफॉलिंग को दर्शा सकती है। यह ज्ञात है कि मिसफोल्डेड ऑप्सिन एंडोप्लाज्मिक रेटिकुलम में बने रहते हैं या प्लाज्मा झिल्ली में इंट्रासेल्युलर परिवहन में विफलता के कारण इंट्रासेल्युलर समावेशन बना सकते हैं। इस प्रकार, हमने COS-1 कोशिकाओं में व्यक्त F13M उत्परिवर्ती के उप-कोशिकीय स्थानीयकरण का विश्लेषण किया, और इस उत्परिवर्ती के संरचनात्मक मिसफॉलिंग की पुष्टि करने के लिए इसकी तुलना WT रोडोप्सिन से की। डब्ल्यूटी ऑप्सिन को प्लाज्मा झिल्ली (छवि 5 ए) में तस्करी के साथ दो मामलों में एक स्पष्ट रूप से अलग पैटर्न देखा गया था, जबकि एफ 13 एम प्लाज्मा झिल्ली को प्रभावी ढंग से स्थानीयकृत नहीं किया गया था, और एक पैटर्न में उच्च आवृत्ति के साथ इंट्रासेल्युलर समावेशन का गठन किया था। प्रोटीन मिसफॉल्डिंग के साथ (चित्र 5बी)।

F13M उत्परिवर्ती के लिए क्रोमोफोर पुनर्जनन का बचाव

यह पता लगाना दिलचस्प था कि क्या F13M के लिए मिसफोल्डेड फेनोटाइप को प्रायोगिक रणनीति के माध्यम से बचाया जा सकता है। इसलिए, F13M उत्परिवर्ती के साथ औषधीय चैपरोन बचाव किया गया। इसके लिए, COS-1 कोशिकाओं को इस उत्परिवर्ती जीन के साथ ट्रांसफ़ेक्ट किया गया जहां 9- की उपस्थिति में इनक्यूबेट किया गया।सीआईएस-रेटिनल। पिछले अध्ययनों से पता चला है कि दोषपूर्ण एन-टर्मिनल म्यूटेंट की आपूर्ति 11-सीआईएस-रेटिनल या 9-सीआईएस-रेटिनल, प्रोटीन जैवसंश्लेषण के दौरान, डब्ल्यूटी-जैसे रोडोप्सिन क्रोमोफोर पुनर्जनन स्तर 16,17 को पुनर्प्राप्त कर सकता है। F13M के मामले में हम इस रणनीति (पूरक चित्रा S1) का उपयोग करके इस उत्परिवर्ती के लिए कोई पता लगाने योग्य क्रोमोफोर पुनर्जनन प्राप्त नहीं कर सके।

हमने अनुमान लगाया कि F13M उत्परिवर्ती की रेटिना को बांधने में असमर्थता इस तथ्य के कारण थी कि रिसेप्टर के एन-टर्मिनल डोमेन पर यह उत्परिवर्तन, प्रोटीन संरचना को अस्थिर कर सकता है, इस प्रकार रिसेप्टर तह को प्रभावित कर सकता है और एक ही समय में ग्लाइकोसिलेशन को बदल सकता है। समीपस्थ N15 अवशेष 18। संरचना को स्थिर करने के लिए, हमने N2C/D282C डबल म्यूटेंट की पृष्ठभूमि में F13M उत्परिवर्तन की शुरुआत की, जो Cys2 और Cys282 के बीच एक डाइसल्फ़ाइड बॉन्ड बनाता है जिससे ऑप्सिन स्थिरता 19 बढ़ जाती है। इस रणनीति का उपयोग करके हम F13M उत्परिवर्ती के लिए पूर्ण क्रोमोफोर पुनर्जनन को WT रोडोप्सिन (छवि 5C, निचला पैनल) के समान सीमा तक पुनर्प्राप्त कर सकते हैं। इसके अलावा, F13M के पश्चिमी धब्बा विश्लेषण ने लगभग 28 केडीए पर एक स्पष्ट विशिष्ट निचला बैंड दिखाया जो कि Cys2 / Cys282 पृष्ठभूमि (छवि 3 दायां पैनल) में उत्परिवर्ती प्राप्त होने पर पता नहीं चला था। इस बाद के मामले में डब्ल्यूटी के समान एक पैटर्न देखा जा सकता है, जो क्रोमोफोर पुनर्जनन के लिए देखे गए बचाव के अनुरूप है।

यह पता लगाने के लिए कि F13M उत्परिवर्ती में रेटिनल अन्य Lys अवशेषों 20 के लिए बाध्यकारी हो सकता है (ट्रांसमेम्ब्रेन हेलिक्स 7 पर प्राकृतिक K296 के अलावा) हमने चौगुनी उत्परिवर्ती F13M / N2C / D282C / K296G का निर्माण किया जहां रेटिना लगाव की साइट थी K296G उत्परिवर्तन 21 द्वारा समाप्त कर दिया गया। हम इस उत्परिवर्ती के लिए कोई क्रोमोफोर गठन नहीं प्राप्त कर सके, यह दर्शाता है कि रेटिना को बचाया गया ट्रिपल म्यूटेंट (सप्लीमेंट्री फिगर S2) में देशी K296 के लिए बाध्य किया गया था।

WT और उत्परिवर्ती ऑप्सिन की संरचना संबंधी स्थिरता और कार्यक्षमता

दृश्य धारणा में रोडोप्सिन की कार्यक्षमता में अंतर्निहित महत्वपूर्ण पहलुओं में से एक अंधेरे-अनुकूलित और प्रबुद्ध फोटोएक्टिवेटेड राज्यों दोनों की संरचनात्मक स्थिरता है। विशिष्ट अमीनो एसिड प्रतिस्थापन प्रोटीन की स्थिरता पर गहरा प्रभाव डाल सकते हैं, इसलिए अंधेरे में उनकी थर्मल और रासायनिक स्थिरता और सक्रिय मेटा II राज्य की स्थिरता को निर्धारित करना रुचि का है। विशिष्ट कार्य, यानी जी-प्रोटीन सक्रियण पर उत्परिवर्तन का प्रभाव भी एक प्रासंगिक पैरामीटर है जो प्रोटीन के आणविक विकास में किसी दिए गए एमिनो एसिड स्थिति के महत्व पर प्रकाश डाल सकता है।

डार्क-स्टेट रासायनिक स्थिरता

हमने WT और म्यूटेंट की हाइड्रॉक्सिलामाइन प्रतिक्रियाशीलता को अंधेरे अवस्था में निर्धारित किया। हाइड्रॉक्सिलामाइन कॉम्पैक्ट डब्ल्यूटी रोडोप्सिन बाइंडिंग पॉकेट को अंधेरे अवस्था में एक्सेस नहीं कर सकता है, लेकिन अगर म्यूटेशन अधिक खुला हो जाता है, जैसा कि म्यूटेशन के मामले में होता है, तो यह 11- के साथ रेटिनल ऑक्सीम बनाते हुए बाइंडिंग पॉकेट में प्रवेश कर सकता है।सीआईएस-रेटिनल 22. इस प्रकार, इन परिस्थितियों में शिफ बेस लिंकेज की पहुंच के अप्रत्यक्ष उपाय के रूप में अंधेरे में रोडोप्सिन की रासायनिक स्थिरता को मापने के लिए हाइड्रोक्साइलामाइन का उपयोग किया जाता है। WT में अंधेरे में हाइड्रॉक्सिलमाइन की ओर एक उच्च स्थिरता है (तालिका 1) यह दर्शाता है कि इन स्थितियों के तहत रेटिना शिफ बेस सुलभ नहीं है। Q225R और A346S दोनों म्यूटेंट अंधेरे में हाइड्रॉक्सिलमाइन के प्रति थोड़ी बढ़ी हुई संवेदनशीलता दिखाते हैं (चित्र 6A) जो क्रोमोफोर बाइंडिंग पॉकेट में शिफ बेस लिंकेज के आसपास एक कम कॉम्पैक्ट संरचना को प्रतिबिंबित करेगा।

() 50 मिमी हाइड्रॉक्सिलमाइन की उपस्थिति में रासायनिक स्थिरता। दृश्य . पर अवशोषण में कमीमैक्स समय के साथ मापा गया। WT रोडोप्सिन ( ), Q225R ( ) और A346S ( ) (बी) सापेक्ष जीटी सक्रियण प्रारंभिक दर। त्रुटि पट्टियाँ एसई का प्रतिनिधित्व करती हैं। दोनों पैनलों में।

डार्क-स्टेट थर्मल स्थिरता

अंधेरे राज्य में स्थिरता का आकलन करने के लिए इस्तेमाल किया जाने वाला एक और परख, ४८ डिग्री सेल्सियस पर दृश्य बैंड के क्षय का पालन करना है । इस तापमान पर Q225R उत्परिवर्ती ने रोडोप्सिन WT के समान थर्मल ब्लीचिंग कैनेटीक्स दिखाया, जबकि A346S उत्परिवर्ती ने थोड़ा तेज विरंजन कैनेटीक्स (तालिका 1) दिखाया। दूसरी ओर, उत्परिवर्ती F13M/N2C/D282C में उच्च स्थिरता है, जैसा कि अतिरिक्त इंजीनियर डाइसल्फ़ाइड बांड (t) के स्थिरीकरण प्रभाव से अपेक्षित है।1/2 > १२० मिनट इस तापमान पर) जैसा कि पहले २३ वर्णित है।

मेटा II स्थिरता

मेटा II क्षय को वास्तविक समय में, रोडोप्सिन फोटोएक्टीवेशन पर ट्रैप प्रतिदीप्ति वृद्धि की निगरानी के द्वारा निर्धारित किया गया था। हमारे डेटा ने WT (तालिका 1) की तुलना में Q225R और A346S म्यूटेंट के लिए समान क्षय समय दिखाया।


डिज़ाइन और सुधार

मॉडल सरलीकरण

बाधित रीडिंग फ्रेम के जैविक मामले दुर्लभ हैं (उदाहरण के लिए प्रोग्राम किए गए फ्रेमशिफ्ट म्यूटेशन या स्यूडोजेन में) लेकिन सीक्वेंसिंग त्रुटियां जो स्पष्ट फ्रेमशिफ्ट की ओर ले जाती हैं, वे बहुत अधिक बार होती हैं। इस तरह के फ्रेमशिफ्ट इंडेल्स के माध्यम से होते हैं जो तीन के गुणक नहीं होते हैं जब एक या दो लगातार न्यूक्लियोटाइड या तो हटा दिए जाते हैं या डाले जाते हैं। इस प्रकार के फ्रेमशिफ्ट को अलग करने के लिए, हम क्रमशः विलोपन द्वारा प्रेरित और सम्मिलन द्वारा प्रेरित लोगों के रूप में निरूपित करते हैं। हमारे समाधान और अन्य जोड़ीदार कोडिंग अनुक्रम एल्गोरिदम (जैसे [23], [24], [26]) के बीच दो मुख्य अंतर हैं। सबसे पहले, हमारा उद्देश्य कार्य केवल अनुक्रम एए अनुवादों पर आधारित है और दूसरा यह घटनाओं की उपेक्षा करता है। ये दो सन्निकटन हमें अपने जोड़ीवार एल्गोरिथम को MSA तक विस्तारित करने की अनुमति देते हैं।

जैसा कि परिचय में उल्लेख किया गया है, हेन [23] और पेडरसन एट अल [25] ने संरेखण की समग्र लागत को दो संरेखण की लागतों के योग के रूप में परिभाषित करने का प्रस्ताव दिया। कोई यह तर्क दे सकता है कि NT स्तर को कम से कम आंशिक रूप से शास्त्रीय AA प्रतिस्थापन मैट्रिक्स जैसे PAM [४१] या ब्लॉसम [४२] के भीतर ध्यान में रखा जाता है। सारांश का उपयोग करना संरेखण प्रक्रिया में इन दो सूचना स्तरों के सापेक्ष महत्व का प्रश्न भी उठाता है, जैसा कि लेखकों ने उल्लेख किया है [२५], अन्य लागत संयोजनों का भी उपयोग किया जा सकता है। इसलिए, तीन-चरण की रणनीति का पालन करते हुए, हम केवल एए संरेखण लागत पर विचार करना पसंद करते हैं, जिसमें सरलता का लाभ होता है जिसके परिणामस्वरूप तेजी से समाधान होता है।

फ्रेमशिफ्ट के लिए जोड़ीदार संरेखण एल्गोरिथ्म लेखांकन [२४], [२५], [२७] स्पष्ट रूप से मॉडल घटनाओं (जो एक अनुक्रम में एक या दो अतिरिक्त न्यूक्लियोटाइड की उपस्थिति का प्रतिनिधित्व करते हैं)। आउटपुट संरेखण में ऐसी घटनाओं का प्रतिनिधित्व करने के लिए या तो अनुक्रम से संबंधित अतिरिक्त न्यूक्लियोटाइड को हटाने की आवश्यकता होती है या इसे आंशिक कोडन के रूप में प्रदर्शित करने की आवश्यकता होती है (जैसे "! ! C") दूसरे क्रम में "भूत" कोडन का सामना करना पड़ता है ("! ! !" ) जो न तो वास्तविक अंतर है और न ही कोडन। इनमें से कोई भी समाधान एमएसए के लिए जोड़ीदार संरेखण एल्गोरिथ्म का विस्तार करने के लिए उपयोग की जाने वाली शास्त्रीय रणनीति के अनुकूल नहीं है (यह रणनीति, संरेखण के संरेखण पर आधारित है, इस खंड के अंत में विस्तृत है)। अतिरिक्त न्यूक्लियोटाइड को हटाने से बाद में इस विकल्प पर सवाल उठाना बंद हो जाता है। इस बीच, घोस्ट कोडन ("! !!") का उपयोग करना समस्याग्रस्त है, विशेष रूप से दो संरेखण को संरेखित करते समय अंतराल खोलने/बंद करने की लागतों का सही मूल्यांकन करने के लिए। वास्तव में इन लागतों का अनुमान अंतराल और गैर-अंतराल वर्णों के स्थानीय विन्यास के आधार पर लगाया जाता है, लेकिन चूंकि भूत कोडन न तो एक है और न ही मानक समाधान (जैसे [४३], [४४]) अब काम नहीं करते हैं। घटनाओं को संभालने में यह कठिनाई निश्चित रूप से मुख्य कारण है जिसके लिए पिछले जोड़ीदार समाधानों को कभी भी एमएसए तक नहीं बढ़ाया गया है।ध्यान दें कि अनदेखी करना इतना नाटकीय नहीं है क्योंकि उन्हें हमेशा संबंधित अनुक्रम में एक घटना के रूप में समझाया जा सकता है जो दूसरों में एक कोडन विलोपन का सामना कर रहा है (उदाहरण के लिए "! ! C" का सामना करना पड़ रहा है "- - -")। यह एक व्यावहारिक सन्निकटन है जिसमें कम, यदि कोई हो, तब प्रभाव पड़ता है जब केवल दो अनुक्रम संरेखित होते हैं। एमएसए के मामले में, यह दृष्टिकोण घटनाओं (अन्य अनुक्रमों में विलोपन जोड़कर) को अधिक दंडित करता है, लेकिन व्यवहार में इसका कोई बड़ा प्रभाव नहीं पड़ता है। हम स्वीकार करते हैं कि घटनाओं का सटीक प्रबंधन बेहतर होगा। फिर भी, जैसा कि 1994 में प्रकाशित हेन सेमिनल काम के बाद से कोई भी नहीं मिला है, हमें लगता है कि यह समय उनके जोड़ीदार मॉडल को एक उपयोगी MSA टूल तक विस्तारित करने के लिए अनुमानित समाधानों पर विचार करने का है।

फ्रेमशिफ्ट और स्टॉप कोडन युक्त जोड़ीदार संरेखण के उद्देश्य कार्य को परिभाषित करना

दो अनुक्रमों का एक संरेखण, एक परिवर्तन प्रक्रिया के रूप में देखा जा सकता है जैसा कि अंजीर में दिखाया गया है। 5. एक बार लागत प्रत्येक प्राथमिक परिवर्तन (एक अक्षर को दूसरे में बदलना, अक्षरों को सम्मिलित करना / हटाना) के साथ जुड़ा हुआ है, की समग्र लागत एक संरेखण से जुड़ी परिवर्तन प्रक्रिया की गणना इसके प्रारंभिक परिवर्तनों की लागत को संक्षेप में करके की जा सकती है। एक इष्टतम संरेखण तब न्यूनतम कुल परिवर्तन लागत वाला एक होता है। जैविक रूप से सार्थक संरेखण प्राप्त करने के लिए, विभिन्न प्राथमिक लागतों को सावधानीपूर्वक चुना जाना चाहिए। एक एमिनो एसिड एक्स को दूसरे वाई में बदलने की लागत उनके भौतिक रासायनिक गुणों पर निर्भर करती है और इसे के रूप में दर्शाया जाता है। एए के सम्मिलन/हटाने की लागत को आम तौर पर परिभाषित किया जाता है कि जहां एक उच्च मूल्य दंडात्मक अंतराल खोलना है जबकि एक छोटा मूल्य दंडात्मक अंतराल विस्तार है। यह इस तथ्य को दर्शाता है कि इंडल्स दुर्लभ घटनाएं हैं (प्रतिस्थापन की तुलना में) और यह कि लंबे समय तक इंडल्स और भी दुर्लभ हैं। ध्यान दें कि इस प्रकार की अंतराल लागत सम्मिलित या हटाए गए प्रतीकों से स्वतंत्र है।

यह संरेखण ई को हटाकर, पहले एम के बाद आई डालने, अंतिम एम को एन में बदलने और दो अंतिम आई को हटाकर बदलने का एक तरीका बताता है।

जैसा कि ऊपर बताया गया है, हमारा उद्देश्य कार्य केवल एए संरेखण लागत पर विचार करता है। इस दृष्टिकोण से, एए स्तर से संबंधित परिवर्तन लागत को फ्रेमशिफ्टिंग इंडल्स ("!") और स्टॉप कोडन ("*") का प्रतिनिधित्व करने के लिए उपयोग किए जाने वाले दो अतिरिक्त प्रतीकों को परिभाषित करने के लिए पर्याप्त है। ध्यान दें कि एक अनुक्रम में एक फ्रेमशिफ्ट या स्टॉप कोडन को देखने की संभावना अपेक्षाकृत स्वतंत्र है जो उसी साइट पर अन्य अनुक्रमों में देखी गई है। इस प्रकार उनका हिसाब लगाने का तरीका उसी तरह है जैसे इंडल्स को शास्त्रीय रूप से हिसाब में लिया जाता है। ध्यान दें कि यह फ्रेमशिफ्ट प्रतीकों के लिए एक संयोग से अधिक है क्योंकि वे वास्तव में एक या दो न्यूक्लियोटाइड के असंभव इण्डेल का प्रतिनिधित्व करते हैं। की उपस्थिति "!" किसी भी प्रतीक के सामने इस प्रकार एक उच्च लागत के साथ दंडित किया जाता है जिसे के रूप में दर्शाया जाता है। इसी तरह, किसी भी प्रतीक के सामने "*" की उपस्थिति भी एक उच्च लागत के रूप में निरूपित होती है। एक परिणाम के रूप में, एक "*" की उपस्थिति "!" की कुल लागत है।

अंत में, अनुक्रम के अंत में दिखाई देने वाले स्टॉप कोडन को दंडित नहीं किया जाना चाहिए, जबकि अनुक्रमिक छोरों पर फ्रेमशिफ्टिंग इंडल्स को अन्य इंडल्स की तुलना में अधिक दंडित नहीं किया जाना चाहिए। एक एल्गोरिथम दृष्टिकोण से, यह हमारे कार्यक्रम में एक तरह से इंडेल लागतों के समान माना जाता है जिसे आमतौर पर अनुक्रम समाप्त होने पर प्रदर्शित होने वालों को दंडित करने से बचने के लिए नियंत्रित किया जाता है।

फ्रेमशिफ्ट और स्टॉप कोडन के साथ दो कोडिंग अनुक्रमों का इष्टतम संरेखण ढूँढना

हमारा समाधान, आणविक अनुक्रमों के सबसे मौजूदा जोड़ीदार संरेखण विधियों के रूप में, शास्त्रीय "नीडलमैन-वुन्श" एल्गोरिथम [४५]-[४७] पर एक सुधार है। इस प्रकार हम इसके आधार को याद करके शुरू करते हैं। अनुक्रम होने पर, हम इसकी लंबाई, और इसके और वर्णों के बीच शामिल होने के बाद को निरूपित करते हैं। ध्यान दें कि इस प्रकार का चरित्र है और, परंपरा के अनुसार, खाली अनुक्रम ("") है यदि या। पहला महत्वपूर्ण अवलोकन यह है कि दो अनुक्रमों के इष्टतम संरेखण को दो अनुक्रमों के इष्टतम संरेखण से आसानी से घटाया जा सकता है, जो कि अधिकतम एक वर्ण से छोटा होता है। अधिक सटीक रूप से, दो अनुक्रमों और इसकी लागत के बीच इष्टतम संरेखण होने के कारण, दो अनुक्रमों के बीच एक इष्टतम संरेखण की समग्र लागत को निम्न सूत्र (जब तक और जब तक) का उपयोग करके पुनरावर्ती रूप से गणना की जा सकती है: (1)

कम से कम एक अनुक्रम खाली होने पर पुनरावर्तन रुक जाता है। इस पुनरावर्ती समस्या का एक कुशल समाधान प्रत्येक उप-समस्या समाधान को संग्रहीत करना है। घातीय गणना समय की बचत करते हुए इसके लिए केवल मेमोरी स्पेस की आवश्यकता होती है। प्रत्येक उप-समस्या समाधान की लागत आकार के द्वि-आयामी सरणी में संग्रहीत की जाती है × जिसे हम इस तरह से निरूपित करते हैं। संरेखण के अनुरूप की पहली पंक्ति और स्तंभ सीधी लागत के साथ एक खाली अनुक्रम होता है, उदा। . एक बार पहली पंक्ति और पहला कॉलम शुरू हो जाने के बाद, अन्य कोशिकाओं को बाएं/दाएं, ऊपर/नीचे क्रम में माना जाता है। इसलिए के प्रत्येक मूल्य की गणना पुनरावर्ती सूत्र (1) का उपयोग करके निरंतर समय में की जा सकती है जो , और में संग्रहीत तीन उप-समस्या लागतों पर निर्भर करता है। अंतिम गणना मूल्य ( ) और के इष्टतम संरेखण की लागत है। एक बैकट्रैकिंग एल्गोरिथम का उपयोग करके भरे हुए सरणी से एक इष्टतम संरेखण प्राप्त किया जा सकता है। यह एल्गोरिथम (यानी) की अंतिम प्रविष्टि से शुरू होता है और यह निर्धारित करता है कि इसके तीन पड़ोसियों में से किसका उपयोग इष्टतम मूल्य प्राप्त करने के लिए किया गया है। यदि मान बाईं ओर से आता है, तो यह ऊपर से अंतिम वर्ण के सम्मिलन को इंगित करता है, यह इस वर्ण का विलोपन है और विकर्ण से, यह , के अंतिम दो वर्णों के बीच एक प्रतिस्थापन है। एल्गोरिथ्म तब संबंधित पड़ोसी के पास जाता है और उसी प्रक्रिया को तब तक दोहराया जाता है जब तक कि सरणी के शीर्ष बाईं ओर नहीं पहुंच जाता।

जैसा कि हम एक संरेखण की तलाश कर रहे हैं जो एनटी अनुक्रमों के एए अनुवाद को ध्यान में रखता है, हमें इन दो अनुक्रम स्तरों को जोड़ने के लिए एक नया संकेतन शुरू करने की आवश्यकता है। हम न्यूक्लियोटिडिक अनुक्रम के एए में कच्चे अनुवाद को निरूपित करने के लिए उपयोग करेंगे। यह कच्चा अनुवाद पहले रीडिंग-फ्रेम का उपयोग करके महसूस किया जाता है, अधूरे कोडन को "!" में बदल दिया जाता है। और स्टॉप कोडन अनुवाद को बाधित किए बिना "*" में बदल जाते हैं। फ्रेमशिफ्ट के बिना दो प्रोटीन-कोडिंग न्यूक्लियोटाइड अनुक्रमों को ध्यान में रखते हुए, सरणी को संरेखित करने के लिए उपयोग किया जाता है और इसे संबंधित सरणी के संपीड़न के रूप में देखा जा सकता है जिसका उपयोग संरेखित करने के लिए किया जाता था। दरअसल, की प्रत्येक पंक्ति (resp. column) की तीन पंक्तियों (resp। column) का प्रतिनिधित्व करती है। बैकट्रैकिंग द्वारा उत्पादित एक के बराबर एक संरेखण इस प्रकार प्राप्त किया जा सकता है कि केवल एए प्रतिस्थापन, सम्मिलन या विलोपन के अनुरूप आंदोलनों पर विचार किया जाता है। ये प्रतिबंध केवल कक्षों पर विचार करने और निम्न सूत्र (जब तक और ) के आधार पर उनके मूल्यों का अनुमान लगाने के लिए प्रेरित करते हैं: कहाँ और ।

फ्रेमशिफ्ट संभावनाओं को ध्यान में रखते हुए इस दृष्टिकोण का एक सामान्यीकरण है जहां सभी कोशिकाओं पर विचार किया जाता है और उनके मूल्यों का अनुमान , , और द्वारा सीमांकित वर्ग पड़ोस के अंदर सभी कोशिकाओं का उपयोग करके लगाया जाता है। यह 4×4 वर्ग इस प्रकार (चित्र 6) की 15 पड़ोसी कोशिकाओं को परिभाषित करता है। बैकट्रैकिंग प्रक्रिया के दौरान, इन 15 पड़ोसियों की ओर से सभी गतिविधियों पर विचार किया जाता है। उनमें से तीन शास्त्रीय एए अनुवाद के अनुरूप हैं, जबकि 12 अन्य 1 या 2 फ्रेमशिफ्ट प्रेरित करते हैं। अंजीर। 7 इन 15 संभावित आंदोलनों के अनुरूप साइट संरेखण दिखाता है। एक फ्रेमशिफ्ट और स्टॉप कोडन जागरूक एनटी/एए मॉडल के संबंध में दो कोडिंग डीएनए अनुक्रमों का परिणामी जोड़ीदार एल्गोरिदम एल्गोरिदम एस 1 में विस्तृत है। ध्यान दें कि इस एल्गोरिथम में, के मानों को "get_C(i,j)" विधि के माध्यम से एक्सेस किया जाता है, जो तब और जब मान्य सूचकांक होते हैं, और अन्यथा। लाभ यह है कि मान न्यूनतम मान की खोज में हस्तक्षेप नहीं करता है, ताकि केवल इनिशियलाइज़ करने की आवश्यकता हो जबकि तीन पहली पंक्तियों (और कॉलम) में अन्य कोशिकाओं को किसी अन्य की तरह संभाला जाता है।

शास्त्रीय नीडलमैन-वुन्श की तरह, एक सरणी का उपयोग (= ATTTCGAAATG) के उपसर्गों और (= ATCGAGATG) के उपसर्गों के बीच एक इष्टतम संरेखण की लागत को संग्रहीत करने के लिए किया जाता है। उन अनुक्रमों के एए अनुवादों का उपयोग स्टॉप कोडन का पता लगाने और उनके एए अनुवादों के आधार पर कोडन प्रतिस्थापन का मूल्यांकन करने के लिए किया जाता है। प्रत्येक सेल के मूल्य की गणना 15 पास की कोशिकाओं का उपयोग करके की जाती है। उदाहरण के लिए, बोल्ड सेल मान की गणना उसके 15 रंगीन पड़ोसियों के आधार पर की जाती है। उन 15 कोशिकाओं में, कुछ प्रेरित फ्रेमशिफ्ट एक या दोनों अनुक्रमों में (विवरण के लिए चित्र 7 देखें)। उदाहरण के लिए, "0" के साथ चिह्नित कोशिकाओं में कोई फ्रेमशिफ्ट नहीं होता है, जो "1" द्वारा चिह्नित होते हैं, वे के लिए फ्रेमशिफ्ट का कारण बनते हैं, लेकिन के लिए नहीं। इष्टतम पथ (तीरों द्वारा दर्शाया गया) शास्त्रीय पथ के समान एक बैकट्रैकिंग प्रक्रिया का उपयोग करके निर्धारित किया जाता है, सिवाय इसके कि अब 15 संभावित चालों पर विचार किया जाता है। इस तीर पथ के अनुरूप संरेखण को धराशायी बॉक्स में दर्शाया गया है।

मान लीजिए कि बैकट्रैकिंग प्रक्रिया ने बोल्ड सेल को जन्म दिया है। अगला आंदोलन इस सेल से इसके 15 रंगीन पड़ोसियों में से एक की ओर जाएगा और एक साइट को बैकट्रैकिंग प्रक्रिया द्वारा निर्मित संरेखण में जोड़ा जाएगा। जोड़ी जाने वाली साइट प्रत्येक सेल के लिए इंगित की गई है।

इस गतिशील प्रोग्रामिंग एल्गोरिदम को निरंतर अंतराल लागत का उपयोग करके वर्णित किया गया है, यानी आकार के एक इंडेल की लागत केवल . कार्यान्वित संस्करण को अधिक यथार्थवादी एफाइन गैप लागतों को संभालने के लिए बढ़ाया गया है जहां एक इंडेल की लागत है। यह तीन मैट्रिक्स का उपयोग करके किया जाता है, और एक सम्मिलन, एक विलोपन या एक मैच/प्रतिस्थापन (उदा. [४८]) द्वारा क्रमशः समाप्त होने वाले आंशिक संरेखण की इष्टतम लागतों को शामिल करता है।

चूंकि प्रत्येक सेल के लिए हम मानक नीडलमैन-वुन्श एल्गोरिथ्म में माने गए तीन के बजाय 15 पड़ोसियों पर विचार करते हैं, हमारा दृष्टिकोण, सैद्धांतिक रूप से, पांच गुना धीमा है। एक तेज़ जोड़ीवार एल्गोरिथम और एक वैध संरेखण प्रतिनिधित्व होने के कारण, अब हम इस NT/AA मॉडल के आधार पर फ्रेमशिफ्ट और स्टॉप कोडन के लिए शास्त्रीय MSA रणनीति लागू कर सकते हैं।

फ्रेमशिफ्ट और स्टॉप कोडन के लिए एनटी/एए मॉडल एकाउंटिंग का उपयोग करके प्रोटीन-कोडिंग न्यूक्लियोटाइड अनुक्रमों का एकाधिक संरेखण

अनुक्रमों का एक बहु संरेखण,…, अनुक्रमों के किसी भी जोड़े के लिए एक जोड़ीदार संरेखण को प्रेरित करता है, ( ) अन्य सभी अनुक्रमों और उन साइटों से हटाकर प्राप्त किया जाता है जिनमें दोनों और दोनों के लिए अंतर होता है। कई संरेखण की लागत को अक्सर जोड़ीदार संरेखण की लागत के योग के रूप में परिभाषित किया जाता है जो इसे प्रेरित करता है। इस मानदंड को जोड़े का योग (एसपी) स्कोर कहा जाता है। दो संरेखण और अनुक्रमों के अलग-अलग सेटों पर और, दो अनुक्रमों के लिए उपयोग किए जाने वाले गतिशील प्रोग्रामिंग एल्गोरिदम का एक प्रकार, उन उत्प्रेरणों के बीच संरेखण को खोजने की अनुमति देता है, जिसमें सबसे कम एसपी स्कोर होता है। इस प्रकार में, एक प्रतिस्थापन लागत की गणना योग-ऑफ-जोड़े मानदंड को दर्शाने के लिए की जाती है, अर्थात यह एए (रेस्प. एनटी) को में मौजूद लोगों में बदलने के लिए प्राथमिक प्रतिस्थापन लागत का योग है। गैप विस्तार लागत दोनों संरेखणों में शामिल अनुक्रमों की संख्या, साथ ही उनकी किसी भी साइट की अंतराल आवृत्तियों से भी आसानी से प्राप्त की जा सकती है। एकमात्र वास्तविक कठिनाई अंतराल निर्माण की सटीक लागत का सही अनुमान लगाना है जिसे सम्मिलन/हटाने की घटना पर विचार करते समय एसपी स्कोर में जोड़ा जाना चाहिए। यद्यपि इस संख्या की गणना ठीक से की जा सकती है [४४], अल्त्स्चुल [४३] द्वारा प्रस्तावित "निराशावादी अंतर गणना" अनुमान की गणना करने का बहुत आसान तरीका अच्छी गुणवत्ता [४९] का एमएसए उत्पन्न करता प्रतीत होता है।

MACSE द्वारा निर्मित MSA एक प्रारंभिक मसौदा MSA प्राप्त करने के लिए एक प्रगतिशील संरेखण रणनीति का उपयोग करता है जिसे बाद में परिष्कृत किया जाता है। उदाहरण के लिए, इस व्यापक रणनीति के वेरिएंट का उपयोग ClustalW [12], मसल [15] और OPAL [49] द्वारा किया जाता है। प्रत्येक चरण प्रकार के प्रभाव (जैसे अनुक्रम समानता को मापने के लिए उपयोग की जाने वाली विधि) का ओपल पेपर [४९] में व्यापक रूप से विश्लेषण किया गया है और हमने MACSE को डिजाइन करते समय इसके निष्कर्षों पर विचार किया। विशेष रूप से, उनके निष्कर्षों का पालन करते हुए, हमने BLOSUM62 [42] पर प्रतिस्थापन मैट्रिक्स तय किया। एमएसए में उपयोग की जाने वाली एमएसए रणनीति स्पष्ट रूप से वर्तमान पेपर का मूल नहीं है क्योंकि हम कोडिंग अनुक्रमों के अपने मूल जोड़ीदार संरेखण को उपयोगी एमएसए में विस्तारित करने के लिए शास्त्रीय दृष्टिकोण का उपयोग करते हैं। हालाँकि, हम अपने मुख्य वेरिएंट की पसंद की व्याख्या करने के लिए इसका संक्षेप में वर्णन करते हैं।

सबसे पहले, सभी जोड़ीदार अनुक्रम समानता का अनुमान उनके न्यूक्लियोटाइड k-mers की आवृत्तियों के आधार पर लगाया जाता है, अर्थात k न्यूक्लियोटाइड्स के उनके उप-अनुक्रम [50]। उन समानताओं का उपयोग UPGMA दूरी विधि [५१] का उपयोग करके एक द्विबीजपत्री जड़ वाले गाइड ट्री का अनुमान लगाने के लिए किया जाता है। UPGMA का उपयोग करके, लक्ष्य स्पष्ट रूप से अनुक्रमों के एक फ़ाइलोजेनी का अनुमान लगाना नहीं है, बल्कि एक गाइड ट्री का निर्माण करना है जो समान अनुक्रमों को समूहित करता है, जिसे पहले संरेखित किया जाना चाहिए [49]। इस पेड़ की पत्तियाँ संरेखित होने वाले अनुक्रमों से जुड़ी होती हैं, जबकि इसके आंतरिक नोड्स संबंधित क्लैड में शामिल अनुक्रमों के MSA से जुड़े होते हैं। आंतरिक नोड्स को तब नीचे की ओर संसाधित किया जाता है, और एक नोड का संरेखण इसके दो वंशजों के पहले से गणना किए गए संरेखण को संरेखित करके प्राप्त किया जाता है। ध्यान दें कि, OPAL पेपर के निष्कर्षों के बाद, हम निराशावादी गैप काउंट का उपयोग करके "एलाइनमेंट को संरेखित करना" चुनते हैं, जैसा कि [48] में विस्तृत है, प्रोफाइल को संरेखित करने के बजाय, जो अक्सर ऐसा होता है। [१२], [१५]। चूंकि प्रोफाइल केवल प्रत्येक साइट की वर्ण आवृत्तियों पर विचार करते हैं, वे कम समय और स्थान लेने वाले होते हैं लेकिन "निराशावादी अंतराल गणना" के अनुसार अंतराल लागत की गणना करने के लिए पर्याप्त जानकारी नहीं होती है। रूट नोड के परिणामी MSA को तब वांछित MSA के हमारे प्रारंभिक मसौदे के रूप में उपयोग किया जाता है। फिर हम इसे सुधारने के लिए शास्त्रीय 2-कट शोधन रणनीति का उपयोग करते हैं। इस रणनीति में वर्तमान समाधान को दो उप-संरेखणों में विभाजित करना शामिल है जिन्हें बाद में पुन: संरेखित किया जाता है। परिणामी MSA अपने SP स्कोर में सुधार होने पर पिछले वाले को बदल देता है। यह 2-कट शोधन रणनीति गाइड ट्री का भी उपयोग करती है: यह गाइड ट्री के प्रत्येक क्लैड पर पुनरावृत्त रूप से विचार करती है और वर्तमान वैश्विक संरेखण को विभाजित करती है ताकि दो उप-संरेखणों में से एक में संबंधित क्लैड का सटीक अनुक्रम हो। एक बार सभी क्लेडों का परीक्षण हो जाने के बाद, वर्तमान एमएसए [49] के एसपी स्कोर में अनुक्रम सामान्यीकृत योगदान के अनुसार अनुमानित अनुक्रम समानता के आधार पर यूपीजीएमए का उपयोग करके एक नए गाइड ट्री का अनुमान लगाया जाता है। ध्यान दें कि यदि गाइड ट्री बदलता है, तो कुछ नए 2-कट परिशोधनों का परीक्षण किया जाएगा। जब कोई और सुधार नहीं मिलता है, या जब शोधन पुनरावृत्तियों की अधिकतम संख्या तक पहुँच जाती है, तो शोधन प्रक्रिया रुक जाती है।

उपलब्धता, मुख्य विशेषताएं, और भविष्य के निर्देश

MACSE प्रोग्राम को एक ओपन सोर्स जावा फ़ाइल के रूप में उपलब्ध स्रोत कोड के साथ निष्पादन योग्य वितरित किया जाता है। चूंकि यह जावा में लिखा गया है, MACSE को एकल जार फ़ाइल के रूप में प्रदान किया जाता है जो प्रत्येक मानक ऑपरेटिंग सिस्टम (Windows, Linux, Mac OS) पर काम करता है। एक बार डाउनलोड हो जाने के बाद, इसे मूल कमांड लाइन निर्देश का उपयोग करके लॉन्च किया जा सकता है, उदाहरण के लिए, "java -jar MACSE.jar -i my_seq.fasta -o my_output_prefix" (किसी भी पैरामीटर की अनुपस्थिति में, MACSE इसके विकल्पों का वर्णन करने और कुछ प्रदान करने में कुछ मदद प्रिंट करेगा। कमांड लाइन उदाहरण।) यह एमएसीएसई को जैव सूचना विज्ञान पाइपलाइन में आसानी से एकीकृत करने की अनुमति देता है। MACSE का उपयोग वेब इंटरफेस के माध्यम से भी किया जा सकता है: http://mbb.univ-montp2.fr/macse।

MACSE की मुख्य विशेषताएं और विकल्प

MACSE FASTA प्रारूप में इनपुट अनुक्रम लेता है और एक ही प्रारूप में उन अनुक्रमों के आउटपुट दो संरेखण प्रदान करता है (एक NT स्तर पर और एक AA स्तर पर)। इनपुट फ़ाइल का नाम और दो आउटपुट संरेखण के लिए उपयोग किए जाने वाले बेसनाम MACSE के एकमात्र अनिवार्य पैरामीटर हैं। अनुक्रमों के दो सेटों को आसानी से परिभाषित किया जा सकता है जो अलग-अलग फ्रेमशिफ्ट का उपयोग करते हैं और दो अलग-अलग इनपुट फाइलों में गठबंधन किए जाने वाले अनुक्रमों को विभाजित करके कोडन लागत को रोकते हैं। यह मानक उपयोग के मामलों को संभालने की अनुमति देता है जब कोई प्रोटीन कोडिंग डीएनए अनुक्रमों को स्यूडोजेनाइज्ड लोगों के साथ संरेखित करना चाहता है, या सार्वजनिक डेटाबेस से क्यूरेटेड अनुक्रमों को नई पीढ़ी के उच्च-थ्रूपुट अनुक्रमण प्रौद्योगिकियों के कच्चे आउटपुट से उत्पन्न अनुक्रमों के साथ संरेखित करना चाहता है। MACSE द्वारा आउटपुट किए गए संरेखण को SEAVIEW प्रोग्राम [५२], [५३] का उपयोग करके जांचा जा सकता है, जिसमें एक उपयुक्त कोडन व्यू विकल्प है।

अंतराल खोलने/विस्तार लागत के लिए पैरामीटर मान किसी भी एमएसए दृष्टिकोण द्वारा उत्पादित संरेखण को दृढ़ता से प्रभावित करते हैं। इन लागतों को समायोजित करने के लिए एक स्वचालित रणनीति तैयार करने के सभी प्रयासों के बावजूद, इस तरह के समायोजित मापदंडों के साथ प्राप्त परिणाम उन लोगों की तुलना में अभी भी निराशाजनक हैं जो एक ही एमएसए विधि द्वारा प्राप्त किए जा सकते थे यदि सही पैरामीटर ज्ञात थे [49]। MACSE दस्तावेज़ में गैप ओपनिंग/एक्सटेंशन से जुड़े लागत दंड चुनने के लिए कुछ दिशानिर्देश शामिल हैं और सबसे आम उपयोगों के लिए फ्रेमशिफ्ट और आंतरिक स्टॉप कोडन घटनाओं के साथ - उदा। (छद्म) जीनों का संरेखण। यह भी ध्यान दें कि चूंकि उपयोगकर्ता एक प्रारंभिक संरेखण प्रदान कर सकता है जिसे MACSE अपनी 2-कट शोधन रणनीति के लिए शुरुआती बिंदु के रूप में उपयोग करेगा, कोई भी विभिन्न पैरामीटर सेटों का तेजी से परीक्षण कर सकता है।

MACSE वैकल्पिक आनुवंशिक कोड को भी एकीकृत करता है, और उपयोग किए जाने वाले डिफ़ॉल्ट आनुवंशिक कोड को निर्दिष्ट करने और/या अनुक्रम नामों के आधार पर उपयोग किए जाने वाले विभिन्न कोड निर्दिष्ट करने के लिए विकल्प प्रदान करता है। बाद वाले विकल्प के लिए, MACSE TranslatorX द्वारा उपयोग की गई फ़ाइल के साथ संगत एक अलग विकल्प फ़ाइल पर निर्भर करता है।

भविष्य की दिशाएं

भविष्य के कार्यों में कार्यक्रम को गति देने के लिए और अधिक अनुकूलन और अधिक विस्तृत दंड मॉडल के विकास को ध्यान में रखना शामिल है, उदाहरण के लिए, यह तथ्य कि फ्रेमशिफ्ट अनुक्रमों के होमोपोलिमर भागों के भीतर अधिक बार होते हैं। हम अअनुवादित क्षेत्रों (यूटीआर) को संभालने पर भी काम करते हैं जो ईएसटी अनुक्रमों की शुरुआत और/या अंत में दिखाई दे सकते हैं। यह हमारे एल्गोरिथम को अनुकूलित करके किया जा सकता है ताकि स्थानीय संरेखण को एक साथ शुरू करने और उनके चरम पर कोडन को रोकने की पहचान की जा सके। अंत में, हम MACSE को SEAVIEW प्लग-इन के रूप में प्रदान करने के लिए SEAVIEW डेवलपर टीम के साथ सहयोग करने की योजना बना रहे हैं।


प्रोटीन-कोडिंग मॉडल बिल्डिंग

मॉडल-निर्माण चरण में जीनोम असेंबली में प्रोटीन, सीडीएनए, ईएसटी और आरएनए-सीक्यू अनुक्रमों का संरेखण शामिल है। इस चरण में उपयोग की जाने वाली विधियाँ एनोटेशन के समय उपलब्ध इनपुट डेटा पर निर्भर करती हैं। इनपुट डेटासेट को उत्पत्ति को ध्यान में रखते हुए चुना जाता है, अन्य प्रजातियों के डेटा पर समान-प्रजाति के डेटा को प्राथमिकता दी जाती है, और एनोटेट किए गए अनुक्रमों को गणना किए गए अनुक्रमों पर प्राथमिकता दी जाती है। जीनबिल्ड के इस खंड का अंतिम आउटपुट डेटाबेस का एक संग्रह है जिसमें अनुक्रम संरेखण और संभावित प्रोटीन-कोडिंग प्रतिलेख मॉडल का एक बड़ा सेट होता है।

लक्षित पाइपलाइन

लक्षित (समान-प्रजाति) पाइपलाइन पहले प्रोटीन-कोडिंग जीन के किसी न किसी जीनोमिक स्थान की पहचान करने के लिए समान-प्रजाति प्रोटीन अनुक्रमों का उपयोग करती है, और फिर जीनवाइज (68) का उपयोग करके कोडिंग मॉडल तैयार करती है। इस दो-चरणीय विधि का उद्देश्य जीनवाइज को उपलब्ध कराए गए खोज स्थान को जीनोम के एक उपखंड में कम करके प्रक्रिया को गति देना है, जिसमें प्रोटीन अनुक्रम को संरेखित करने की समानता है।

समान-प्रजाति के प्रोटीन अनुक्रम UniProt और RefSeq (69) से डाउनलोड किए जाते हैं, जिसका उद्देश्य इन्हें उच्च-आत्मविश्वास वाले इनपुट अनुक्रमों के एक सेट तक सीमित रखना है। UniProt के लिए, हम केवल स्विस-प्रोट और TrEMBL प्रोटीन अनुक्रमों को PE स्तर 1 और PE स्तर 2 के रूप में लेबल करते हैं। RefSeq के मामले में, हम ‘NP’ और 𠆊P’ एक्सेस के साथ अनुक्रम डाउनलोड करते हैं, जो एनोटेट किए गए हैं प्रोटीन अनुक्रम। RefSeq परिकलित प्रोटीन अनुक्रम जिसमें ‘XP’ एक्सेस शामिल हैं, डाउनलोड नहीं किए जाते हैं। डाउनलोड किए गए UniProt और RefSeq प्रोटीन अनुक्रमों का संयुक्त सेट लक्षित पाइपलाइन के लिए इनपुट बनाता है।

हम Pmatch (R. Durbin, अप्रकाशित सॉफ़्टवेयर) का उपयोग करके ‘-T 14’ की सीमा के साथ जीनोम में प्रोटीन अनुक्रमों को संरेखित करके प्रतिलेखों के अनुमानित जीनोमिक स्थान का पता लगाते हैं।यह थ्रेशोल्ड लगातार अमीनो एसिड की संख्या को इंगित करता है जो कि जीनोमिक डीएनए से बिल्कुल मेल खाना चाहिए, और जीनोम के लिए उच्च पहचान होने पर प्रोटीन को संरेखित करने के लिए एक कुशल तरीका है। यह महत्वपूर्ण है कि जीनबिल्ड प्रक्रिया के इस प्रारंभिक चरण में बहुत अधिक समान-प्रजाति इनपुट अनुक्रम न खोएं। इस प्रकार, यदि Pmatch सभी इनपुट प्रोटीनों को संरेखित नहीं करता है, तो हम एक्सोनरेट (70) का उपयोग करके शेष प्रोटीन अनुक्रमों को संरेखित करते हैं।

प्रत्येक Pmatch हिट अनुवादित विदेशी अनुक्रम के अनुरूप होगा। प्रत्येक इनपुट प्रोटीन अनुक्रम से Pmatch हिट को जीनोमिक अनुक्रमों की लंबाई के साथ समूहीकृत किया जाता है, मॉड्यूल [जिसे रननेबल (56) के रूप में भी जाना जाता है] BestPmatch का उपयोग करते हुए, ताकि हिट की जीनोमिक रेंज मोटे तौर पर इनपुट प्रोटीन के स्थान से मेल खाती हो। x02019s प्रतिलेख। BestPmatch द्वारा पहचाने गए जीनोमिक रेंज को दोनों दिशाओं में २०००kb तक बढ़ाया गया है और इस क्षेत्र के लिए डीएनए अनुक्रम मूल इनपुट प्रोटीन अनुक्रम के साथ, GeneWise को पारित किया गया है। जीनवाइज एक स्प्लिस-अवेयर एल्गोरिथम का उपयोग करके डीएनए में प्रोटीन अनुक्रम को संरेखित करता है और आउटपुट के रूप में एक प्रोटीन-कोडिंग ट्रांसक्रिप्ट मॉडल उत्पन्न करता है।

मानव, माउस और चयनित अन्य प्रजातियों के लिए, हम जीनोम में कम से कम दो बार जीनवाइज चलाते हैं: पहली बार आम सहमति की आवश्यकता होती है और दूसरी बार गैर-सहमति ब्याह स्थलों की अनुमति देने के लिए। जबकि सर्वसम्मति splicing गैर-सहमति splicing की तुलना में अधिक सामान्य है, GeneWise का दूसरा रन वास्तविक गैर-सहमति ब्याह स्थलों के साथ उन कोडिंग मॉडल के लिए लचीलापन प्रदान करता है और उन क्षेत्रों में प्रोटीन अनुक्रम के संरेखण की अनुमति देता है जहां जीनोमिक अनुक्रम त्रुटियां हैं। जीनवाइज द्वारा निर्मित कुछ मॉडलों में 1, 2, 4 या 5਋p के छोटे ‘फ्रेमशिफ्ट इंट्रोन्स’ होते हैं जहां जीनोमिक अनुक्रम में त्रुटियां, सम्मिलन या विलोपन अन्यथा अनुवाद फ्रेमशिफ्ट पेश करेंगे। जब जीनोमिक अनुक्रम का अनुवाद किया जाता है, तो इन मॉडलों के लिए कोडिंग अनुक्रम पूरी लंबाई के होने की अधिक संभावना है, जो विशेष रूप से निम्न गुणवत्ता वाले ड्राफ्ट जीनोम में उपयोगी है।

कर्वेन में और अन्य। (४८), हमने जीन वाइज को ‘MiniSeqs’ पास करने का वर्णन किया। हालाँकि, हम अब इस दृष्टिकोण का उपयोग नहीं करते हैं। अब हम 𠆏ullSeqs’ का उपयोग करते हैं जिसमें पहले से अंतिम Pmatch संरेखण से सभी जीनोमिक अनुक्रम शामिल हैं, पुराने जीनोमिक अनुक्रम को अब हटाया नहीं गया है। यह फुलसेक विधि कम्प्यूटेशनल संसाधनों में वृद्धि और जीनवाइज कार्यक्रम के अनुकूलन के कारण संभव है। इसे पसंद किया जाता है क्योंकि यह जीनवाइज को पूर्ण जीनोमिक अनुक्रम की खोज करने और लघु एक्सॉन को सही ढंग से रखने की अनुमति देता है, जबकि लघु एक्सॉन के लिए जीनोमिक अनुक्रम हमेशा मिनीसेक में मौजूद नहीं थे।

जीनवाइज के अलावा, हम प्रोटीन-कोडिंग जीन मॉडल उत्पन्न करने के लिए एक्सोनरेट के cdna2genome टूल (70) का भी उपयोग करते हैं। यह सीडीएनए अनुक्रमों को डाउनलोड करके प्राप्त किया जाता है जिसमें आईएनएसडीसी रिकॉर्ड में एनोटेट सीडीएस के बिना आईएनएसडीसी रिकॉर्ड सीडीएनए अनुक्रमों में एनोटेट की गई एक कोडिंग अनुक्रम (सीडीएस) श्रेणी है, जो इस चरण में उपयोग नहीं की जाती है। एक्सोनरेट द्वारा सीडीएनए और इसके एनोटेट सीडीएस के संयुक्त संरेखण में एक चरण में प्रोटीन-कोडिंग मॉडल में अनट्रांसलेटेड क्षेत्रों (यूटीआर) को जोड़ने और यह सुनिश्चित करने का लाभ है कि सही यूटीआर एक कोडिंग मॉडल में जोड़ा गया है। यह कदम केवल उन मुट्ठी भर प्रजातियों के लिए चलाया जाता है जिनमें बड़ी संख्या में एनोटेट प्रोटीन-सीडीएनए युग्म होते हैं। चूंकि एक्सोनरेट ऐसे मॉडल तैयार करता है जिनके अनुवाद में स्टॉप कोडन शामिल हैं, हम प्रत्येक परिणामी मॉडल को खोजते हैं और एक से अधिक आंतरिक स्टॉप वाले मॉडल को हटा देते हैं। केवल एक आंतरिक स्टॉप कोडन वाले मॉडल के लिए, इसके स्थान पर एक छोटा फ्रेमशिफ्ट इंट्रॉन पेश किया जाता है।

ऊपर वर्णित कई जीनवाइज और एक्सोनरेट विधियों से, प्रत्येक मूल प्रोटीन अनुक्रम ने एक स्थान पर कई कोडिंग ट्रांसक्रिप्ट मॉडल का उत्पादन किया हो सकता है, थोड़ा अलग एक्सॉन संरचनाओं और अनुवादित अनुक्रमों के साथ, उस डिग्री के आधार पर जिस पर प्रोटीन अनुक्रम जीनोम से मेल खाता है। उस मॉडल की पहचान करने के लिए जिसका अनुवाद इनपुट अनुक्रम से सबसे अधिक निकटता से मेल खाता है, इनमें से प्रत्येक मॉडल के अनुवाद को एक्सोनरेट के �ine:स्थानीय’ मॉडल का उपयोग करते हुए, BestTargeted मॉड्यूल द्वारा मूल प्रोटीन अनुक्रम में वापस संरेखित किया जाता है। यह एक स्थानीय संरेखण है जो एफ़िन गैप पेनल्टी का उपयोग करता है, जो स्मिथ के समान है–वाटरमैन–गोटोह एल्गोरिथम (71)। प्रत्येक मूल प्रोटीन अनुक्रम के लिए, उच्चतम एक्सोनरेट स्कोर का उत्पादन करने वाले एसेम्बल मॉडल को लक्षित पाइपलाइन के लिए अंतिम आउटपुट के रूप में चुना जाता है।

समानता पाइपलाइन

लक्षित पाइपलाइन की तरह, समानता पाइपलाइन का उद्देश्य प्रोटीन-कोडिंग टेप के किसी न किसी जीनोमिक स्थान की पहचान करना और फिर जीनवाइज का उपयोग करके कोडिंग मॉडल तैयार करना है। लक्षित पाइपलाइन के विपरीत, जो अपने इनपुट को केवल समान-प्रजाति के प्रोटीन तक सीमित रखता है, समानता पाइपलाइन प्रजातियों की एक विस्तृत श्रृंखला से इनपुट यूनिप्रोट प्रोटीन के रूप में लेती है। यह दृष्टिकोण उन प्रजातियों के लिए विशेष रूप से उपयोगी है जिनके पास लक्षित पाइपलाइन में उपयोग के लिए उपयुक्त कई समान-प्रजाति प्रोटीन नहीं हैं जैसे कि हाथी या ओल छिपकली, लेकिन यूनीप्रोट में कई प्रोटीनों के साथ अच्छी तरह से वर्णित प्रजातियों के लिए ऐसा कम है, जैसे मानव और माउस .

लक्षित पाइपलाइन की तुलना में समानता पाइपलाइन में जीनवाइज को दिए गए जीनोमिक खोज स्थान को कम करने की विधि अलग है। प्रोटीन अनुक्रमों के किसी न किसी स्थान की पहचान करने के लिए Pmatch का उपयोग करने के बजाय, हम कच्चे गणना पाइपलाइन में उत्पादित UniProt BLAST परिणामों का उपयोग करते हैं। हालाँकि BLAST को चलाने के लिए Pmatch की तुलना में अधिक कंप्यूट संसाधन की आवश्यकता होती है, यह अनुक्रम बेमेल के प्रति अधिक सहिष्णु है जो आमतौर पर समानता पाइपलाइन में उपयोग की जाने वाली प्रजातियों की विस्तृत श्रृंखला से प्रोटीन को संरेखित करते समय होता है।

UniProt BLAST परिणामों को पहले UniProt द्वारा प्रदान की गई जानकारी के अनुसार तीन अक्षों में वर्गीकृत किया जाता है: PE स्तर द्वारा, स्रोत द्वारा (स्विस-प्रोट या TrEMBL) और वर्गीकरण द्वारा। UniProt उपसमुच्चय का यह विभाजन हमें समीक्षा किए गए प्रोटीन अनुक्रमों को प्राथमिकता देने की अनुमति देता है जो एनोटेट की जा रही प्रजातियों से अधिक निकटता से संबंधित हैं।

कच्चे गणना चरण के दौरान जेनस्कैन पेप्टाइड अनुक्रम में मैप किए गए यूनीप्रोट प्रोटीन को फिर से ब्लास्ट का उपयोग करते हुए जेनस्कैन मॉडल के तहत पूर्ण जीनोमिक अनुक्रम से जोड़ दिया जाता है। यह चरण हिट्स को जेनस्कैन एक्सॉन के बाहर पहचानने की अनुमति देता है। ये परिणाम हैं जो उन क्षेत्रों को परिभाषित करते हैं जिन पर बाद में GeneWise चलाया जाता है।

समानता पाइपलाइन का आउटपुट विभिन्न प्रजातियों के प्रोटीन अनुक्रमों के आधार पर मॉडल का एक सेट है, जो लक्षित पाइपलाइन द्वारा पहले से उत्पन्न मॉडल को पूरक करता है।

आरएनए-सीक्यू पाइपलाइन

एक प्रयोगात्मक विधि के रूप में उच्च-थ्रूपुट ट्रांसक्रिप्टोम अनुक्रमण (यानी आरएनए-सीक्यू) को तेजी से अपनाने के साथ, उपलब्ध लिखित अनुक्रम डेटा की मात्रा नाटकीय रूप से बढ़ रही है (७२)। अगले कुछ वर्षों में इस तरह के अनुक्रम डेटा की गुणवत्ता में वृद्धि जारी रहने की उम्मीद है, जिससे यह जीन एनोटेशन प्रक्रिया में एक मूल्यवान संसाधन बन जाएगा।

जीन एनोटेशन के लिए शॉर्ट रीड का उपयोग करने में मुख्य कठिनाई यह है कि एक एमआरएनए की पूरी लंबाई एक सन्निहित अनुक्रम में प्रदर्शित नहीं होती है। प्रत्येक व्यक्त आइसोफॉर्म में एक्सॉन के splicing पैटर्न के पूर्ण ज्ञान के बिना लंबे प्रतिलेख मॉडल उत्पन्न करने के लिए इन छोटे अनुक्रमों को जोड़ा जाना चाहिए। युग्मित पठन एकल पठन की तुलना में अधिक सूचनात्मक संरेखण प्रदान करते हैं क्योंकि यह पढ़ता है कि एक जोड़ी के रूप में संरेखित करने से सही ढंग से संरेखित होने का उच्च आत्मविश्वास स्तर होता है (73)। उनके संरेखण को मान्य करते समय युग्मित पठन के लिए अपेक्षित सम्मिलित आकार को ध्यान में रखना भी संभव है। फंसे हुए पठन उन मामलों के लिए विशेष रूप से उपयोगी होते हैं जिनमें प्रतिलेख विपरीत तारों पर ओवरलैप होते हैं, और सही स्ट्रैंड को पढ़ने का असाइनमेंट अस्पष्ट हो सकता है, हालांकि गैर-फंसे पढ़ने के लिए, एक प्रतिलेख के स्ट्रैंड को आमतौर पर स्प्लिस साइट की दिशा से निर्धारित किया जा सकता है . अधिकांश आरएनए-सीक्यू डेटा जिनके साथ हमने काम किया है, इल्लुमिना मशीनों द्वारा उत्पन्न 50 बेस या उससे अधिक के युग्मित-अंत रीड्स हैं।

क्योंकि शॉर्ट रीड डेटा फुल-लेंथ स्प्लिसिंग मॉडल के भरोसेमंद निर्माण की अनुमति नहीं देता है, एन्सेम्बल आरएनए-सीक्यू पाइपलाइन आमतौर पर आउटपुट के रूप में प्रति जीन केवल एक ट्रांसक्रिप्ट मॉडल का उत्पादन करने के लिए कॉन्फ़िगर किया गया है। इस रूढ़िवादी दृष्टिकोण का उद्देश्य झूठी प्रतिलेख संरचनाओं की शुरूआत को रोकना है जो एक मॉडल की लंबाई के साथ गलत तरीके से एक्सॉन और इंट्रॉन के संयोजन के परिणामस्वरूप होते हैं।

RNA-seq-आधारित मॉडल दो-चरण संरेखण प्रक्रिया से निर्मित होते हैं, जिसमें केवल मामूली संशोधन होते हैं जो Collins . द्वारा वर्णित हैं और अन्य। (७४)। सबसे पहले, कच्चे पठन को अब BWA (75) का उपयोग करके जीनोम से जोड़ दिया जाता है। इन संरेखणों को संरेखण ब्लॉक बनाने के लिए ध्वस्त कर दिया गया है जो मोटे तौर पर लिखित एक्सॉन के अनुरूप हैं। रीड पेयरिंग जानकारी का उपयोग तब पुटेटिव एक्सॉन को प्रोटो-ट्रांसक्रिप्ट नामक अनुमानित ट्रांसक्रिप्ट संरचनाओं में समूहित करने के लिए किया जाता है। दूसरे संरेखण चरण में, बीडब्ल्यूए द्वारा आंशिक रूप से संरेखित किए गए रीड्स निकाले जाते हैं और एक्सोनरेट का उपयोग करके प्रोटो-ट्रांसक्रिप्ट, या अधिक सामान्यतः अंतर्निहित जीनोमिक अनुक्रम के लिए गठबंधन किए जाते हैं। एक्सोनरेट ब्याह-जागरूक है, संरेखण प्रदान करता है जो हमें इंट्रोन्स का अनुमान लगाने की अनुमति देता है। स्पष्ट एक्सॉन –इंट्रोन जंक्शनों को खोजना एक चुनौती है जब कच्चे रीड को पूरी तरह से संसाधित और आंशिक रूप से संसाधित ट्रांसक्रिप्ट के मिश्रण से अनुक्रमित किया गया है, जो बनाए गए इंट्रोनिक अनुक्रम से अनुक्रमित पढ़ता है, एक लंबे, झूठे एक्सॉन के एनोटेशन को जन्म दे सकता है जिसे एक के रूप में एनोटेट किया जाना चाहिए था। इंट्रॉन दो एक्सॉन से घिरा हुआ है। इन झूठे एक्सॉन को हटा दिया जाता है जब पता चलता है कि उन्हें प्रत्येक पुटीय एक्सॉन की जीनोमिक रेंज के भीतर खोजे गए रीड्स के साक्ष्य के लिए खोज कर पहचाना जाता है। एक्सोनरेट संरेखण चरण का परिणाम विहित और गैर-विहित इंट्रॉन का प्रतिनिधित्व करने वाले स्प्लिस्ड संरेखण का एक सेट है। ट्रांसक्रिप्ट मॉडल प्रोटो-ट्रांसक्रिप्ट से ट्रांसक्रिप्ट किए गए क्षेत्रों को प्रेक्षित (इंट्रोनिक) स्प्लिस्ड एलाइनमेंट के साथ जोड़कर बनाए जाते हैं ताकि संरेखित डेटा द्वारा इंगित सभी संभावित ट्रांसक्रिप्ट आइसोफॉर्म तैयार किए जा सकें। हम आमतौर पर सिस्टम को केवल आइसोफॉर्म को इसके स्प्लिस जंक्शनों और एक्सॉन में सबसे अधिक पढ़े जाने वाले समर्थन के साथ रखने के लिए कॉन्फ़िगर करते हैं।

इंट्रोन्स की पहचान करते समय पढ़ें लंबाई और कवरेज की गहराई दोनों महत्वपूर्ण हैं। जब पठन कवरेज अधिक होता है, तो यह अधिक संभावना है कि कच्चे पठन के सेट में ऐसे अनुक्रम होते हैं जिन्हें एक इंट्रॉन में संरेखित किया जा सकता है। जब पढ़ा जाता है लंबे समय तक, यह अधिक संभावना है कि वे एक इंट्रॉन का विस्तार करेंगे। यह पढ़ने के बाद कि एक प्रतिलेख में प्रत्येक इंट्रॉन में संरेखित होता है, हमारे लिए एक पूर्ण प्रतिलेख मॉडल बनाना संभव बनाता है। यदि कवरेज बहुत कम है, तो कुछ ब्याह सीमाओं को कच्चे डेटा सेट में पढ़ने के द्वारा कवर नहीं किया जा सकता है। रीड सपोर्ट के बिना, ये इंट्रॉन एक्सोनरेट चरण में उत्पन्न नहीं होंगे, जिसके परिणामस्वरूप खंडित मॉडल या बनाए गए इंट्रॉन वाले मॉडल हो सकते हैं।

RNA-seq पाइपलाइन प्रोटीन-कोडिंग और नॉनकोडिंग ट्रांसक्रिप्ट मॉडल दोनों का उत्पादन करती है। इस प्रक्रिया में अंतिम चरण आरएनए-सीक्यू मॉडल के सेट के खिलाफ यूनीप्रोट पीई 1 और पीई 2 प्रोटीन को ब्लास्ट करना है ताकि प्रोटीन-कोडिंग ट्रांसक्रिप्ट मॉडल की पहचान की जा सके। UniProt संरेखण के लिए हमारे मानक थ्रेसहोल्ड 80% पहचान और अनुक्रमों के 80% कवरेज हैं।

प्रत्येक इनपुट नमूने से पढ़ने के लिए, और सभी नमूनों से रीड्स के मर्ज किए गए सेट के लिए, आरएनए-सीक्यू पाइपलाइन के आउटपुट में बीडब्ल्यूए द्वारा संरेखित रीड्स की एक अनुक्रमित बीएएम फ़ाइल शामिल है, जो इंट्रॉन-स्पैनिंग को संरेखित करके उत्पादित इंट्रॉन सुविधाओं का एक सेट है। Exonerate के साथ पढ़ता है, और प्रतिलेख मॉडल का एक सेट। इन डेटा को एन्सेम्बल ब्राउज़र में अलग ऊतक ट्रैक के रूप में देखा जा सकता है। उन्हें प्रोग्रामेटिक इंटरफ़ेस के माध्यम से भी प्राप्त किया जा सकता है।

प्रत्येक ऊतक के नमूनों के साथ-साथ मर्ज किए गए सेट के लिए ट्रांसक्रिप्ट मॉडल अलग से तैयार किए जाते हैं। एकल ऊतक इनपुट नमूने से प्रतिलेख मॉडल अक्सर मर्ज किए गए सेट से प्रतिलेख मॉडल की तुलना में अधिक खंडित होते हैं। (मर्ज किए गए सेट में डेटा गहरा है, और यह अधिक स्प्लिस जंक्शनों का पता लगाने की अनुमति देता है और इसलिए अधिक लगातार एक्सॉन को लंबे मॉडल का उत्पादन करने के लिए जोड़ा जाता है।) इस कारण से, ट्रांसक्रिप्ट मॉडल आमतौर पर केवल मर्ज किए गए रीड के सेट का उपयोग किया जाता है। अंतिम जीन सेट में शामिल करने के लिए।

मर्ज किए गए पठन के सेट से इंट्रोन सुविधाओं का उपयोग बाद में एनोटेशन प्रक्रिया में ट्रांसक्रिप्ट कॉन्सेंसस मॉड्यूल द्वारा समानता मॉडल (नीचे वर्णित) को फ़िल्टर करने के लिए किया जाता है। मर्ज किए गए रीड्स के सेट से ट्रांसक्रिप्ट मॉडल का उपयोग यूटीआर को लक्षित और समानता मॉडल में जोड़ने के लिए किया जा सकता है, और इसे लेयरएनोटेशन पाइपलाइन (नीचे भी वर्णित) के दौरान मुख्य जीन सेट के हिस्से के रूप में शामिल किया जा सकता है।

ऑर्थोलॉग रिकवरी पाइपलाइन

मॉडल-बिल्डिंग पाइपलाइनों द्वारा उत्पादित प्रारंभिक प्रतिलेख मॉडल का एक सेट तैयार करने में, तुलनात्मक डेटा का उपयोग ट्रांसक्रिप्ट सेट की पूर्णता का आकलन करने और ट्रांसक्रिप्ट सेट के पूरक के लिए जहां उपयुक्त हो, दोनों के लिए किया जा सकता है। ट्रांसक्रिप्ट संरचनाएं कई कारणों से प्रारंभिक सेट से अनुपस्थित हो सकती हैं, आमतौर पर क्योंकि जीनोमिक अनुक्रम असेंबली से गायब है या क्योंकि लक्षित और समानता पाइपलाइनों ने एक मॉडल का उत्पादन नहीं किया है। बाद के मामले के लिए, हमारे ऑर्थोलॉग रिकवरी पाइपलाइन का उपयोग करके मॉडल को एनोटेट करना अभी भी संभव हो सकता है। ऊपर वर्णित आरएनए-सीक्यू पाइपलाइन लक्षित और समानता पाइपलाइनों द्वारा नहीं पाए जाने वाले जीन की पहचान करेगी, और इसलिए ऑर्थोलॉग रिकवरी पाइपलाइन का उपयोग कम आम हो गया है क्योंकि आरएनए-सीक्यू डेटा अधिक व्यापक रूप से उपलब्ध हो गया है।

ऑर्थोलॉग इवैल्यूएटर मॉड्यूल को ऑर्थोलॉजी पर आधारित अतिरिक्त ट्रांसक्रिप्ट मॉडल की पहचान और एनोटेट करने के लिए विकसित किया गया था। ऑर्थोलॉग मूल्यांकनकर्ता कम से कम दो अच्छी तरह से एनोटेट प्रजातियों, आमतौर पर मानव और माउस से जीन सेट के साथ प्रारंभिक प्रतिलेख सेट इनपुट के रूप में लेता है। सभी इनपुट सेटों में सर्वश्रेष्ठ पारस्परिक BLAST हिट द्वारा ऑर्थोलॉजी भविष्यवाणियों का एक सेट उत्पन्न होता है। इन भविष्यवाणियों का उपयोग तब अंतराल को भरने और काटे गए मॉडल के पूरक के लिए किया जाता है। दोनों ही मामलों में, एक अच्छी तरह से एनोटेट प्रजातियों में से एक ऑर्थोलॉग के एन्सेम्बल प्रोटीन अनुक्रम को संरेखण के लिए चुना जाता है, एक्सोनरेट के साथ, जीनोम को एनोटेट किया जाता है। जब एक्सोनरेट एक अच्छा संरेखण उत्पन्न करता है तो परिणामी मॉडल को प्रारंभिक प्रतिलेख सेट में जोड़ा जाता है।

प्रोजेक्शन पाइपलाइन

लक्षित और समानता चरण जीनोम अनुक्रम के लिए पूर्ण प्रोटीन अनुक्रमों के संरेखण पर निर्भर करते हैं। यह विधि कम-कवरेज खंडित असेंबली के लिए अनुपयुक्त है जहां उच्च गुणवत्ता वाले ड्राफ्ट जीनोम असेंबली की तुलना में लापता जीनोमिक अनुक्रम, गलत-अभिविन्यास और गलत स्थान अधिक बार होते हैं। खंडित संयोजनों में कई जीन केवल आंशिक रूप से (या बिल्कुल नहीं) विधानसभा में प्रदर्शित किए जाएंगे, और कई अन्य (विशेष रूप से बड़े जीनोमिक सीमा वाले जीन) टुकड़ों में पाए जाएंगे, एक से अधिक मचान में वितरित किए जाएंगे।

खंडित असेंबलियों वाली प्रजातियों पर जीन एनोटेशन को बेहतर बनाने के लिए, हमने एक कार्यप्रणाली विकसित की है जो एक एनोटेट संदर्भ जीनोम के लिए एक संपूर्ण जीनोम संरेखण (WGA) पर निर्भर करती है-आमतौर पर मानव जीनोम। 29 स्तनपायी परियोजना (76) द्वारा उत्पादित सभी निम्न-कवरेज स्तनपायी जीनोमों को एनोटेट करने के लिए इस पद्धति का उपयोग निम्नानुसार किया गया था। कम कवरेज लक्ष्य जीनोम में से प्रत्येक के लिए, मानव जीनोम और लक्ष्य के बीच संपूर्ण-जीनोम संरेखण BLASTz (77) का उपयोग करके उत्पन्न किया गया था। स्थानीय संरेखण के परिणामी सेट को axtTools (78) का उपयोग करके जंजीरों में जोड़ा गया था। एक कस्टम फ़िल्टर तब यह सुनिश्चित करने के लिए लागू किया गया था कि लक्ष्य जीनोम में प्रत्येक आधार जोड़ी मानव जीनोम में एक से अधिक स्थिति में संरेखित न हो। मानव जीनोम में प्रत्येक एनोटेट जीन संरचना के अंतर्निहित WGA ब्लॉक का उपयोग लक्ष्य प्रजातियों से मचानों को एक साथ लाने और उन्हें लंबे समय तक ‘GeneScaffolds’ (चित्र 3) में शामिल करने के लिए एक गाइड के रूप में किया गया था, जिसमें पूर्ण जीन संरचनाएं हो सकती हैं। अनुमानित GeneScaffolds ने लक्ष्य प्रजातियों की प्राथमिक असेंबली के शीर्ष पर एक वर्चुअल असेंबली बनाई। मानव जीनोम से जीन को तब लक्ष्य जीनोम में ‘प्रक्षेपित’ (कॉपी) किया गया था। उन क्षेत्रों में जहां डब्ल्यूजीए ने निहित किया कि लक्ष्य असेंबली में एक आंतरिक एक्सॉन युक्त जीनोमिक अनुक्रम गायब था, अनुमानित एक्सॉन को अंतराल अनुक्रम पर रखा गया था। इसके परिणामस्वरूप अनुमानित अनुवाद की लंबाई के अनुरूप Xs की एक स्ट्रिंग मिली। GeneScaffolds के निर्माण ने टॉपलेवल अनुक्रमों के सेट को बदल दिया जो शुरू में Ensembl डेटाबेस में लोड किए गए थे, इसलिए कच्चे गणना विश्लेषण नए GeneScaffolds में चलाए गए थे। टॉपलेवल अनुक्रमों को बदलने की इस पद्धति का अब उपयोग नहीं किया जाता है क्योंकि यह एन्सेम्बल और अन्य जीनोम ब्राउज़र जैसे यूसीएससी और एनसीबीआई के बीच नेविगेशन में बाधा उत्पन्न करेगा।

मानव का प्रक्षेपण FGF10 अल्पाका को। NS FGF10 अल्पाका में जीन को BLASTz का उपयोग करके मानव और अल्पाका विधानसभाओं को संरेखित करके, और फिर अल्पाका जीनोम पर मानव जीन को प्रक्षेपित (प्रतिलिपि) करके एनोटेट किया गया था। एक उपन्यास संरचना, GeneScaffold_2975, अल्पाका विधानसभा में छोटे मचानों को एक साथ लाकर उत्पन्न किया गया था जो मानव क्षेत्र से जुड़े थे FGF10 जीन

पूरे जीनोम संरेखण की यह विधि और मानव जीनोम से लक्ष्य असेंबली तक एनोटेशन के प्रक्षेपण को उच्च प्राइमेट पर भी लागू किया गया था। हालाँकि, GeneScaffolds का निर्माण अनावश्यक था क्योंकि प्राइमेट असेंबलियाँ बेहतर गुणवत्ता की थीं या मानव असेंबली से ऑर्डर और ओरिएंटेशन जानकारी का उपयोग करके बनाई गई थीं।

अपने यूटीआर में प्रोटीन-कोडिंग मॉडल का विस्तार

लक्षित, समानता और ऑर्थोलॉग रिकवरी पाइपलाइनों में प्रोटीन-से-जीनोम संरेखण से उत्पन्न प्रोटीन-कोडिंग मॉडल में यूटीआर एनोटेट नहीं होंगे। दूसरी ओर एक्सोनरेट के सीडीएनए2जीनोम मॉडल द्वारा निर्मित लक्षित मॉडल को यूटीआर एक्सटेंशन की आवश्यकता नहीं है क्योंकि वे सीडीएनए के संरेखण पर आधारित हैं और उनमें पहले से ही यूटीआर एनोटेट होंगे।

आरएनए-सीक्यू, सीडीएनए या ईएसटी अनुक्रमों से बने मॉडल का उपयोग यूटीआर को कोडिंग मॉडल में जोड़ने के लिए किया जा सकता है। हम पहले ही RNA-seq पाइपलाइन का वर्णन कर चुके हैं और ये मॉडल कैसे उत्पन्न होते हैं। सीडीएनए के लिए, एक्सोनरेट का उपयोग करके सीडीएनए अनुक्रमों को सॉफ्टमास्कड जीनोम में संरेखित करके मॉडल तैयार किए जाते हैं। ईएसटी को सीडीएनए की तरह ही संरेखित किया जाता है, और इन संरेखणों को EST2genes या TranscriptCoalescer मॉड्यूल का उपयोग करके मॉडल में ढहा दिया जाता है। ये दो मॉड्यूल स्प्लिस्ड ईएसटी संरेखण को लंबी प्रतिलेख संरचनाओं में जोड़ते हैं।

ईएसटी डेटा की परिवर्तनीय गुणवत्ता, जो अक्सर विभिन्न प्रोटोकॉल का उपयोग करते हुए कई प्रयोगशालाओं से आती है, अनुक्रमों को एक एनोटेशन सिस्टम में शामिल करना मुश्किल बनाता है जो डेटा को लगातार उच्च गुणवत्ता का होने की उम्मीद करता है। हम यूटीआर जोड़ के लिए ईएसटी मॉडल का उपयोग नहीं करते हैं जब तक कि किसी प्रजाति में बड़ी संख्या में ईएसटी अनुक्रम और बहुत कम सीडीएनए या आरएनए-सीक्यू डेटा न हो।

UTR_Builder मॉड्यूल प्रत्येक टॉपलेवल अनुक्रम का पता लगाता है और प्रोटीन-कोडिंग मॉडल की पहचान करता है जो RNA-seq, cDNA या EST मॉडल द्वारा ओवरलैप किए जाते हैं। जब प्रोटीन-कोडिंग मॉडल के पहले इंट्रॉन की शुरुआत और अंत की सीमाएं आरएनए-सीक्यू, सीडीएनए या ईएसटी संरचना से मेल खाती हैं, तो इस अनुक्रम साक्ष्य का उपयोग 5-प्राइम एंड पर यूटीआर जोड़ने के लिए किया जा सकता है। 3-प्राइम यूटीआर जोड़ते समय प्रोटीन-कोडिंग मॉडल के अंतिम इंट्रॉन पर भी यही नियम लागू होता है। एकल-एक्सॉन टेप के लिए, यूटीआर जोड़ने के लिए एक्सॉन प्रारंभ और अंत संबंधित अनुक्रम साक्ष्य के भीतर होना चाहिए। जब कोई अनुवाद मेथियोनीन से शुरू नहीं होता है, तो यूटीआर को पहले इन-फ्रेम मेथियोनीन के लिए सीडीएस के अपस्ट्रीम में खोजा जाता है। इसी तरह, जब कोई अनुवाद स्टॉप कोडन में समाप्त नहीं होता है तो पहले इन-फ्रेम स्टॉप कोडन के लिए यूटीआर को सीडीएस के डाउनस्ट्रीम में 150 बेस तक खोजा जाता है।

CAGE (79) और युग्मित-अंत टैग (ditags) (80) प्रतिलेखन प्रारंभ और समाप्ति स्थिति के बारे में जानकारी प्रदान करते हैं। हमने इन डेटा का उपयोग करने के लिए अपनी यूटीआर पाइपलाइन को अनुकूलित किया है ताकि यूटीआर सीमाओं को अधिक सटीक रूप से परिभाषित किया जा सके। CAGE टैग और ditags के जीनोमिक स्थानों की तुलना cDNA मॉडल से की जाती है, जो प्रोटीन मॉडल की प्रत्येक संभावित जोड़ी को cDNA में स्कोर करने की अनुमति देता है।UTR_Builder मॉड्यूल सबसे अधिक CAGE और ditag समर्थन के साथ cDNA मॉडल को प्राथमिकता देता है। यह मानव और माउस में लागू किया गया है जहां गहन अनुक्रमण डेटा उपलब्ध हैं।

UTR_Builder चरण का आउटपुट प्रोटीन-कोडिंग प्रतिलेख मॉडल का एक अद्यतन सेट है जिसे UTRs को शामिल करने के लिए विस्तारित किया गया है जहां साक्ष्य उपलब्ध थे (चित्र 4)। सीडीएनए और ईएसटी मॉडल बाद में चरणों को फ़िल्टर करने में उपयोग किए जाते हैं और ईएसटीजीन के साथ वेबसाइट पर भी प्रदर्शित किए जाते हैं।

गैर-अनुवादित क्षेत्रों (यूटीआर) के लिए सहायक साक्ष्य के साथ नमूना प्रतिलेख मॉडल। यह आंकड़ा सीडीएनए (हरा), ईएसटी (बैंगनी) और प्रोटीन (नारंगी) से सहायक साक्ष्य के साथ गठबंधन हवाना (पीला) और एन्सेम्बल (लाल) से नमूना प्रतिलेख मॉडल दिखाता है। संरेखण में गहरे रंग एक्सॉन के अनुरूप होते हैं। टेप के सिरों पर भरे हुए बॉक्स यूटीआर का प्रतिनिधित्व करते हैं। यूटीआर के लिए समर्थन संरेखित सीडीएनए और ईएसटी से आता है लेकिन प्रोटीन से नहीं।

विशेष प्रकार के प्रोटीन-कोडिंग जीन

ऊपर वर्णित प्रोटीन-कोडिंग जीन एनोटेशन प्रक्रिया अधिकांश जीनोम में उच्च गुणवत्ता वाले जीन मॉडल बनाती है। एनोटेशन प्रक्रिया जीनोम में प्रोटीन अनुक्रमों को संरेखित करने पर निर्भर करती है और अधिकांश प्रोटीन-कोडिंग जीन के लिए उपयुक्त है।

हालांकि, कुछ प्रकार के प्रोटीन-कोडिंग जीन हैं, जहां उपरोक्त दृष्टिकोण उपयुक्त नहीं है। इनमें इम्युनोग्लोबुलिन / टी-सेल रिसेप्टर जीन और सेलेनोप्रोटीन शामिल हैं। हमने ऐसे दोनों मामलों के लिए एनोटेशन में सुधार करने के लिए अलग-अलग दृष्टिकोण विकसित किए हैं।

इम्युनोग्लोबुलिन और टी-सेल रिसेप्टर्स

इम्युनोग्लोबुलिन/टी-सेल रिसेप्टर समूहों को एनोटेट करना मुश्किल है क्योंकि अंतर्निहित जीनोमिक क्षेत्र दैहिक पुनर्संयोजन से गुजरता है। जीनोम पुनर्व्यवस्था की यह प्रक्रिया क्लस्टर से कई जीनों को जोड़ती है जिन्हें वेरिएबल (वी), कॉन्स्टेंट (सी), डायवर्स (डी) और जॉइनिंग (जे) जीन के रूप में जाना जाता है, जो हस्तक्षेप करने वाले डीएनए को एक्साइज करते हैं। यह एक कार्यात्मक इम्युनोग्लोबुलिन जीन अनुक्रम उत्पन्न करता है जो एक पूर्ण इम्युनोग्लोबुलिन / टी-सेल रिसेप्टर को एन्कोड करता है।

हमारा उद्देश्य व्यक्तिगत वी, डी, जे और सी जीन की व्याख्या करना है। हालाँकि, ENA में UniProt और cDNA में प्रोटीन के कई रिकॉर्ड संबंधित V (D) J दैहिक पुनर्संयोजन घटनाओं के बाद व्यक्त किए गए टेप के पूर्ण-लंबाई वाले उत्पाद हैं। इनमें से प्रत्येक रिकॉर्ड में कई जीनों के अनुक्रम होते हैं, जिन्हें सही एनोटेशन उत्पन्न करने के लिए अलग करने की आवश्यकता होगी।

वी, डी, जे और सी जीन सीमाओं की अक्सर गलत भविष्यवाणी की जाती है जब जीनवाइज या एक्सोनरेट जैसे स्प्लिस्ड-एलाइनमेंट प्रोग्राम का उपयोग करके गैर-पुनर्व्यवस्थित संदर्भ जीनोम में वापस गठबंधन किया जाता है। ऐसा इसलिए है क्योंकि जंक्शन मानक स्प्लिसिंग मशीनरी द्वारा उत्पन्न नहीं होते हैं, और इसलिए मानक स्प्लिसिंग सिग्नल प्रदर्शित नहीं करते हैं।

टी-सेल रिसेप्टर्स और इम्युनोग्लोबुलिन जीन के लिए एनोटेशन को अन्य एनोटेटर्स के साथ सहयोग करके मानव और माउस के लिए सुधार किया गया है जो अंतर्राष्ट्रीय इम्यूनोजेनेटिक्स सूचना प्रणाली (आईएमजीटी) (81) में योगदान करते हैं। इस डेटाबेस में आरएनए और जीनोमिक डीएनए संदर्भ प्रविष्टियों पर अलग-अलग जीनों के एनोटेशन शामिल हैं। IMGT जीन एक्सोनरेट का उपयोग करके जीनोम से जुड़े होते हैं और फिर हमारे जीन एनोटेशन के साथ विलय कर दिए जाते हैं। मौजूदा ट्रांसक्रिप्ट मॉडल जो संरेखित IMGT जीन के साथ एक्सॉन स्तर पर ओवरलैप करते हैं, हटा दिए जाते हैं।

सेलेनोप्रोटीन

सेलेनोसिस्टीन को यूजीए द्वारा एन्कोड किया गया है, जो अनुवाद समाप्ति के लिए जिम्मेदार तीन कोडन में से एक है। इन कोडन को स्टॉप कोडन के बजाय एन्कोडिंग सेलेनोसिस्टीन के रूप में प्रस्तुत करने के लिए, हम एक्सोनरेट का उपयोग करके जीनोम के लिए यूनीप्रोट रिकॉर्ड को ‘SEL_CYS’ टैग के साथ संरेखित करते हैं। इन अभिलेखों द्वारा निर्दिष्ट प्रासंगिक पदों पर स्टॉप कोडन को तब सेलेनोसिस्टीन अवशेषों से बदल दिया जाता है।


जीनोमिक अनुसंधान के कई क्षेत्रों में ऑर्थोलॉजी एक प्रमुख विकासवादी अवधारणा है। यह जीनोम के विकास, जीन कार्यों, सेलुलर नेटवर्क और कार्यात्मक जीनोम एनोटेशन के रूप में विविध विषयों के लिए एक रूपरेखा प्रदान करता है। यद्यपि ऑर्थोलॉगस प्रोटीन आमतौर पर विभिन्न प्रजातियों में समान कार्य करते हैं, सच्चे ऑर्थोलॉगस संबंधों को स्थापित करने के लिए एक फ़ाइलोजेनेटिक दृष्टिकोण की आवश्यकता होती है, जो दो से अधिक प्रजातियों से विश्वसनीय प्रजातियों के फ़ाइलोजेनी और उपलब्ध जीनोमिक डेटा का उपयोग करके पेड़ों और ग्राफ़ (नेटवर्क) दोनों को जोड़ती है, और प्रक्रियाओं में एक अंतर्दृष्टि। आणविक विकास। यहां, हम उपलब्ध जैव सूचना विज्ञान उपकरणों का मूल्यांकन करते हैं और शोधकर्ताओं को किसी भी स्थिति के लिए सबसे उपयुक्त उपकरण चुनने में सहायता करने के लिए दिशानिर्देशों का एक सेट प्रदान करते हैं।

हम अपनी सेवा प्रदान करने और बढ़ाने और सामग्री और विज्ञापनों को अनुकूलित करने में मदद करने के लिए कुकीज़ का उपयोग करते हैं। जारी रखकर आप इससे सहमत हैं कुकीज़ का उपयोग .


सार

NS डब्ल्यूएफडीसी1 प्रोस्टेट कैंसर में जीन अक्सर डाउन-रेगुलेटेड या खो जाता है, और एन्कोडेड प्रोटीन, ps20, को एपिथेलियल सेल व्यवहार और एंजियोजेनेसिस में फंसाया गया है। हालाँकि, ps20 इसकी संरचना और परस्पर क्रिया करने वाले भागीदारों के संबंध में काफी हद तक अप्रभावित रहता है। इस अध्ययन में फ़ाइलोजेनेटिक पुनर्निर्माण और अन्य कम्प्यूटेशनल दृष्टिकोणों का उपयोग करके WFDC1 / ps20 के विकास, कार्यक्षमता और संरचनात्मक विशेषताओं की विशेषता है। बायेसियन फ़ाइलोजेनेटिक विश्लेषण ने सुझाव दिया कि ps20 ड्यूटेरोस्टोम्स-प्रोटोस्टोम के एक सामान्य पूर्वज में दिखाई दिया। कशेरुक WFDC1 जीन के कोडिंग क्षेत्रों के भीतर विकासवादी परिवर्तन की दर और स्तनधारियों में समानार्थक संरक्षण अन्य कशेरुकी समूहों से भिन्न होता है, जो ps20 समरूपों की संभावित कार्यात्मक विविधता का संकेत देता है। WFDC1 (संरक्षित सिन्टेनी) के आसपास जीन के एक जीन सेट संवर्धन विश्लेषण ने WFDC1, CDH13, CRISPLD2, IRF8 और TFPI2 जीन के बीच कार्यात्मक संबंध दिखाया। Ps20 का आणविक विकास चयन को शुद्ध करके संचालित किया गया है, विशेष रूप से एक्सॉन 3 और 4 के अनुरूप खंडों में, जो प्रोटीन के सबसे संरक्षित क्षेत्रों को कूटबद्ध करते हैं। एक सह-विकास विश्लेषण से पता चला है कि इन क्षेत्रों के अवशेष ps20 के विकास के दौरान एक दूसरे के साथ सह-भिन्न होते हैं। इन परिणामों से पता चलता है कि एक्सॉन 3 और 4 के अनुरूप क्षेत्र ps20-विशिष्ट संरचना-फ़ंक्शन मॉड्यूल हैं। एक गाऊसी नेटवर्क मॉडल का उपयोग करते हुए एक्सॉन 2-एन्कोडेड पॉलीपेप्टाइड और बाद के डायनामिक्स कैलकुलस के होमोलॉजी मॉडलिंग से पता चला है कि उच्च गठनात्मक लचीलेपन वाले अवशेष प्रोटीन-प्रोटीन मान्यता में शामिल एक लूप क्षेत्र का हिस्सा हैं, जिसे अन्य सेरीन प्रोटीज इनहिबिटर के साथ समानता दी गई है। अवशेष C96, R94, L105 और C66 इस ps20 क्षेत्र की अखंडता और कार्यक्षमता के लिए महत्वपूर्ण हैं।


अंतर्वस्तु

यदि एक संरेखण में दो अनुक्रम एक सामान्य पूर्वज को साझा करते हैं, तो बेमेल को बिंदु उत्परिवर्तन और अंतराल के रूप में व्याख्या किया जा सकता है, जब से वे एक दूसरे से अलग हो गए थे, उस समय में एक या दोनों वंशों में पेश किए गए इंडल्स (अर्थात, सम्मिलन या विलोपन उत्परिवर्तन) के रूप में। प्रोटीन के अनुक्रम संरेखण में, अनुक्रम में एक विशेष स्थिति पर कब्जा करने वाले अमीनो एसिड के बीच समानता की डिग्री को किसी विशेष क्षेत्र या अनुक्रम आकृति को संरक्षित करने के एक मोटे उपाय के रूप में व्याख्या की जा सकती है। अनुक्रम के एक विशेष क्षेत्र में प्रतिस्थापन की अनुपस्थिति, या केवल बहुत ही रूढ़िवादी प्रतिस्थापन (अर्थात, अमीनो एसिड का प्रतिस्थापन, जिनकी साइड चेन में समान जैव रासायनिक गुण हैं) की उपस्थिति, सुझाव देती है [3] कि इस क्षेत्र का संरचनात्मक या कार्यात्मक महत्व है। . हालांकि डीएनए और आरएनए न्यूक्लियोटाइड आधार अमीनो एसिड की तुलना में एक दूसरे के समान हैं, लेकिन आधार जोड़े का संरक्षण एक समान कार्यात्मक या संरचनात्मक भूमिका का संकेत दे सकता है।

बहुत छोटे या बहुत समान अनुक्रमों को हाथ से संरेखित किया जा सकता है। हालांकि, सबसे दिलचस्प समस्याओं के लिए लंबे, अत्यधिक परिवर्तनशील या अत्यंत असंख्य अनुक्रमों के संरेखण की आवश्यकता होती है जिन्हें केवल मानव प्रयास से संरेखित नहीं किया जा सकता है। इसके बजाय, मानव ज्ञान को उच्च गुणवत्ता वाले अनुक्रम संरेखण का उत्पादन करने के लिए एल्गोरिदम के निर्माण में लागू किया जाता है, और कभी-कभी अंतिम परिणामों को समायोजित करने के लिए पैटर्न को प्रतिबिंबित करने के लिए जो एल्गोरिथम (विशेष रूप से न्यूक्लियोटाइड अनुक्रमों के मामले में) का प्रतिनिधित्व करना मुश्किल होता है। अनुक्रम संरेखण के लिए कम्प्यूटेशनल दृष्टिकोण आम तौर पर दो श्रेणियों में आते हैं: वैश्विक संरेखण तथा स्थानीय संरेखण. वैश्विक संरेखण की गणना करना वैश्विक अनुकूलन का एक रूप है जो संरेखण को सभी क्वेरी अनुक्रमों की पूरी लंबाई तक फैलाने के लिए "बल" देता है। इसके विपरीत, स्थानीय संरेखण लंबे अनुक्रमों के भीतर समानता के क्षेत्रों की पहचान करते हैं जो अक्सर समग्र रूप से व्यापक रूप से भिन्न होते हैं। स्थानीय संरेखण अक्सर बेहतर होते हैं, लेकिन समानता के क्षेत्रों की पहचान करने की अतिरिक्त चुनौती के कारण गणना करना अधिक कठिन हो सकता है। [4] अनुक्रम संरेखण समस्या के लिए विभिन्न प्रकार के कम्प्यूटेशनल एल्गोरिदम लागू किए गए हैं। इनमें डायनामिक प्रोग्रामिंग जैसे धीमे लेकिन औपचारिक रूप से सही तरीके शामिल हैं। इनमें बड़े पैमाने पर डेटाबेस खोज के लिए डिज़ाइन किए गए कुशल, अनुमानी एल्गोरिदम या संभाव्य तरीके भी शामिल हैं, जो सर्वोत्तम मिलान खोजने की गारंटी नहीं देते हैं।

संरेखण को आमतौर पर रेखांकन और पाठ प्रारूप दोनों में दर्शाया जाता है। लगभग सभी अनुक्रम संरेखण अभ्यावेदन में, अनुक्रमों को पंक्तियों में व्यवस्थित किया जाता है ताकि संरेखित अवशेष क्रमिक स्तंभों में दिखाई दें। पाठ प्रारूपों में, समान या समान वर्णों वाले संरेखित स्तंभों को संरक्षण प्रतीकों की एक प्रणाली के साथ दर्शाया जाता है। जैसा कि ऊपर की छवि में, एक तारक या पाइप प्रतीक का उपयोग दो स्तंभों के बीच पहचान दिखाने के लिए किया जाता है अन्य कम सामान्य प्रतीकों में रूढ़िवादी प्रतिस्थापन के लिए एक कोलन और अर्ध-रूढ़िवादी प्रतिस्थापन के लिए एक अवधि शामिल है। कई अनुक्रम विज़ुअलाइज़ेशन प्रोग्राम डीएनए और आरएनए अनुक्रमों में व्यक्तिगत अनुक्रम तत्वों के गुणों के बारे में जानकारी प्रदर्शित करने के लिए रंग का उपयोग करते हैं, यह प्रत्येक न्यूक्लियोटाइड को अपना रंग निर्दिष्ट करने के बराबर होता है। प्रोटीन संरेखण में, जैसे कि ऊपर की छवि में, रंग का उपयोग अक्सर अमीनो एसिड गुणों को इंगित करने के लिए किया जाता है ताकि किसी दिए गए अमीनो एसिड प्रतिस्थापन के संरक्षण का निर्धारण किया जा सके। कई अनुक्रमों के लिए प्रत्येक कॉलम में अंतिम पंक्ति अक्सर संरेखण द्वारा निर्धारित सर्वसम्मति अनुक्रम होती है, सर्वसम्मति अनुक्रम को अक्सर ग्राफिकल प्रारूप में अनुक्रम लोगो के साथ दर्शाया जाता है जिसमें प्रत्येक न्यूक्लियोटाइड या एमिनो एसिड अक्षर का आकार संरक्षण की डिग्री से मेल खाता है। [५]

अनुक्रम संरेखण को टेक्स्ट-आधारित फ़ाइल स्वरूपों की एक विस्तृत विविधता में संग्रहीत किया जा सकता है, जिनमें से कई मूल रूप से एक विशिष्ट संरेखण कार्यक्रम या कार्यान्वयन के संयोजन के साथ विकसित किए गए थे। अधिकांश वेब-आधारित उपकरण सीमित संख्या में इनपुट और आउटपुट स्वरूपों की अनुमति देते हैं, जैसे कि FASTA प्रारूप और जेनबैंक प्रारूप और आउटपुट आसानी से संपादन योग्य नहीं है। ग्राफिकल और/या कमांड लाइन इंटरफेस प्रदान करने वाले कई रूपांतरण कार्यक्रम उपलब्ध हैं [ मृत कड़ी ] , जैसे READSEQ और EMBOSS। कई प्रोग्रामिंग पैकेज भी हैं जो इस रूपांतरण कार्यक्षमता को प्रदान करते हैं, जैसे कि बायोपीथन, बायोरूबी और बायोपर्ल। एसएएम/बीएएम फाइलें सीआईजीएआर (कॉम्पैक्ट इडियोसिंक्रेटिक गैप्ड एलाइनमेंट रिपोर्ट) स्ट्रिंग प्रारूप का उपयोग करती हैं ताकि घटनाओं के अनुक्रम (जैसे मैच/बेमेल, सम्मिलन, विलोपन) को एन्कोड करके संदर्भ के अनुक्रम के संरेखण का प्रतिनिधित्व किया जा सके। [6]

सिगार प्रारूप संपादित करें

संदर्भ। : जीटीसीजीटीएटीए
पढ़ें: सीएसीजीटीएजी—टीए
सिगार: 2S5M2D2M जहां:
2S = 2 सॉफ्ट क्लिपिंग (बेमेल हो सकती है, या मिलान किए गए अनुक्रम से अधिक समय तक पढ़ा जा सकता है)
5M = 5 मैच या बेमेल
2डी = 2 हटाना
2M = 2 मैच या बेमेल

एक्सोनरेट अलाइनमेंट प्रोग्राम का मूल सिगार प्रारूप एम चरित्र के साथ बेमेल या मेल के बीच अंतर नहीं करता था।

SAMv1 विशिष्ट दस्तावेज़ नए CIGAR कोड को परिभाषित करता है। ज्यादातर मामलों में '=' ​​और 'X' वर्णों का उपयोग पुराने 'M' वर्ण के बजाय मिलान या बेमेल को दर्शाने के लिए करना पसंद किया जाता है, जो अस्पष्ट है।

  • "क्वेरी का उपभोग करता है" और "संदर्भ का उपभोग करता है" इंगित करता है कि क्या CIGAR ऑपरेशन संरेखण को क्रमशः क्वेरी अनुक्रम और संदर्भ अनुक्रम के साथ कदम रखने का कारण बनता है।
  • एच केवल पहले और/या अंतिम ऑपरेशन के रूप में उपस्थित हो सकता है।
  • S में केवल उनके और CIGAR स्ट्रिंग के सिरों के बीच H संचालन हो सकता है।
  • एमआरएनए-टू-जीनोम संरेखण के लिए, एक एन ऑपरेशन एक इंट्रॉन का प्रतिनिधित्व करता है। अन्य प्रकार के संरेखण के लिए, एन की व्याख्या परिभाषित नहीं है।
  • M/I/S/=/X संचालन की लंबाई का योग SEQ की लंबाई के बराबर होगा

वैश्विक संरेखण, जो प्रत्येक अनुक्रम में प्रत्येक अवशेष को संरेखित करने का प्रयास करते हैं, सबसे उपयोगी होते हैं जब क्वेरी सेट में अनुक्रम समान होते हैं और लगभग समान आकार के होते हैं। (इसका मतलब यह नहीं है कि वैश्विक संरेखण शुरू नहीं हो सकते हैं और/या अंतराल में समाप्त नहीं हो सकते हैं।) एक सामान्य वैश्विक संरेखण तकनीक नीडलमैन-वुन्श एल्गोरिथ्म है, जो गतिशील प्रोग्रामिंग पर आधारित है। स्थानीय संरेखण असमान अनुक्रमों के लिए अधिक उपयोगी होते हैं जिनके बारे में संदेह है कि उनके बड़े अनुक्रम संदर्भ में समानता या समान अनुक्रम रूपांकनों के क्षेत्र शामिल हैं। स्मिथ-वाटरमैन एल्गोरिथ्म एक ही गतिशील प्रोग्रामिंग योजना पर आधारित एक सामान्य स्थानीय संरेखण विधि है, लेकिन किसी भी स्थान पर शुरू और समाप्त करने के लिए अतिरिक्त विकल्प हैं। [४]

हाइब्रिड विधियाँ, जिन्हें अर्ध-वैश्विक या "ग्लोकल" के रूप में जाना जाता है ग्लोबाल-लोकैलोरी) विधियों, दो अनुक्रमों के सर्वोत्तम संभव आंशिक संरेखण की खोज करें (दूसरे शब्दों में, एक या दोनों का संयोजन प्रारंभ होता है और एक या दोनों सिरों को संरेखित कहा जाता है)। यह विशेष रूप से उपयोगी हो सकता है जब एक अनुक्रम का डाउनस्ट्रीम भाग दूसरे अनुक्रम के अपस्ट्रीम भाग के साथ ओवरलैप हो जाता है। इस मामले में, न तो वैश्विक और न ही स्थानीय संरेखण पूरी तरह से उपयुक्त है: एक वैश्विक संरेखण संरेखण को ओवरलैप के क्षेत्र से आगे बढ़ाने के लिए मजबूर करने का प्रयास करेगा, जबकि एक स्थानीय संरेखण पूरी तरह से ओवरलैप के क्षेत्र को कवर नहीं कर सकता है। [७] एक अन्य मामला जहां अर्ध-वैश्विक संरेखण उपयोगी है, जब एक अनुक्रम छोटा होता है (उदाहरण के लिए एक जीन अनुक्रम) और दूसरा बहुत लंबा होता है (उदाहरण के लिए एक गुणसूत्र अनुक्रम)। उस स्थिति में, लघु अनुक्रम विश्व स्तर पर (पूरी तरह से) संरेखित होना चाहिए, लेकिन लंबे अनुक्रम के लिए केवल एक स्थानीय (आंशिक) संरेखण वांछित है।

आनुवंशिक डेटा का तेजी से विस्तार वर्तमान डीएनए अनुक्रम संरेखण एल्गोरिदम की गति को चुनौती देता है। डीएनए प्रकार की खोज के लिए एक कुशल और सटीक विधि के लिए आवश्यक आवश्यकताएं वास्तविक समय में समानांतर प्रसंस्करण के लिए नवीन दृष्टिकोणों की मांग करती हैं। ऑप्टिकल कंप्यूटिंग दृष्टिकोणों को वर्तमान विद्युत कार्यान्वयन के लिए आशाजनक विकल्प के रूप में सुझाया गया है, फिर भी उनकी प्रयोज्यता का परीक्षण किया जाना बाकी है [1]।

जोड़ीवार अनुक्रम संरेखण विधियों का उपयोग दो क्वेरी अनुक्रमों के सर्वोत्तम-मिलान टुकड़े-वार (स्थानीय या वैश्विक) संरेखण को खोजने के लिए किया जाता है। जोड़ीदार संरेखण का उपयोग एक समय में केवल दो अनुक्रमों के बीच किया जा सकता है, लेकिन वे गणना करने के लिए कुशल होते हैं और अक्सर उन तरीकों के लिए उपयोग किए जाते हैं जिन्हें अत्यधिक सटीकता की आवश्यकता नहीं होती है (जैसे किसी क्वेरी के लिए उच्च समानता वाले अनुक्रमों के लिए डेटाबेस खोजना)। जोड़ीदार संरेखण बनाने की तीन प्राथमिक विधियाँ हैं डॉट-मैट्रिक्स विधियाँ, गतिशील प्रोग्रामिंग और शब्द विधियाँ [1] हालाँकि, कई अनुक्रम संरेखण तकनीकें अनुक्रमों के जोड़े को भी संरेखित कर सकती हैं। यद्यपि प्रत्येक विधि की अपनी अलग-अलग ताकत और कमजोरियां हैं, सभी तीन जोड़ीदार तरीकों में कम सूचना सामग्री के अत्यधिक दोहराव वाले अनुक्रमों में कठिनाई होती है - विशेष रूप से जहां दोहराव की संख्या दो अनुक्रमों में भिन्न होती है।

अधिकतम अद्वितीय मिलान संपादित करें

किसी दिए गए जोड़ीदार संरेखण की उपयोगिता को मापने का एक तरीका 'अधिकतम अद्वितीय मिलान' (एमयूएम), या दोनों क्वेरी अनुक्रमों में होने वाला सबसे लंबा अनुक्रम है। लंबे समय तक एमयूएम अनुक्रम आम तौर पर निकट संबंधीता को दर्शाते हैं। [8] कम्प्यूटेशनल जीव विज्ञान में जीनोम के बहु-अनुक्रम संरेखण में। MUMs और अन्य संभावित एंकरों की पहचान, MUMmer जैसे बड़े संरेखण प्रणालियों में पहला कदम है। एंकर दो जीनोम के बीच के क्षेत्र हैं जहां वे अत्यधिक समान हैं। यह समझने के लिए कि एमयूएम क्या है, हम प्रत्येक शब्द को संक्षिप्त रूप में तोड़ सकते हैं। मैच का तात्पर्य है कि सबस्ट्रिंग दोनों अनुक्रमों में संरेखित होने के लिए होती है। अद्वितीय का अर्थ है कि सबस्ट्रिंग प्रत्येक अनुक्रम में केवल एक बार होता है। अंत में, मैक्सिमम कहता है कि सबस्ट्रिंग किसी अन्य बड़े स्ट्रिंग का हिस्सा नहीं है जो दोनों पूर्व आवश्यकताओं को पूरा करता है। इसके पीछे विचार यह है कि लंबे अनुक्रम जो बिल्कुल मेल खाते हैं और प्रत्येक जीनोम में केवल एक बार होते हैं, लगभग निश्चित रूप से वैश्विक संरेखण का हिस्सा हैं।

  • यह अधिकतम है, अर्थात, इसे बेमेल किए बिना किसी भी छोर पर बढ़ाया नहीं जा सकता है और
  • यह दोनों दृश्यों में अद्वितीय है" [9]

डॉट-मैट्रिक्स विधियां संपादित करें

डॉट-मैट्रिक्स दृष्टिकोण, जो स्पष्ट रूप से व्यक्तिगत अनुक्रम क्षेत्रों के लिए संरेखण के एक परिवार का निर्माण करता है, गुणात्मक और अवधारणात्मक रूप से सरल है, हालांकि बड़े पैमाने पर विश्लेषण करने में समय लगता है। शोर की अनुपस्थिति में, डॉट-मैट्रिक्स प्लॉट से कुछ अनुक्रम विशेषताओं- जैसे सम्मिलन, विलोपन, दोहराव, या उल्टे दोहराव- को नेत्रहीन रूप से पहचानना आसान हो सकता है। डॉट-मैट्रिक्स प्लॉट बनाने के लिए, दो अनुक्रमों को दो-आयामी मैट्रिक्स के शीर्ष पंक्ति और बाएं कॉलम के साथ लिखा जाता है और किसी भी बिंदु पर एक बिंदु रखा जाता है जहां उपयुक्त कॉलम में वर्ण मिलते हैं-यह एक सामान्य पुनरावृत्ति प्लॉट है। रूढ़िवादी प्रतिस्थापन को समायोजित करने के लिए कुछ कार्यान्वयन दो वर्णों की समानता की डिग्री के आधार पर डॉट के आकार या तीव्रता को बदलते हैं। बहुत निकट से संबंधित अनुक्रमों के डॉट प्लॉट मैट्रिक्स के मुख्य विकर्ण के साथ एक पंक्ति के रूप में दिखाई देंगे।

सूचना प्रदर्शन तकनीक के रूप में डॉट प्लॉट के साथ समस्याओं में शामिल हैं: शोर, स्पष्टता की कमी, गैर-अंतर्ज्ञान, मिलान सारांश आंकड़े निकालने में कठिनाई और दो अनुक्रमों पर मिलान की स्थिति। बहुत अधिक व्यर्थ स्थान भी है जहां मिलान डेटा स्वाभाविक रूप से विकर्ण में दोहराया जाता है और भूखंड के अधिकांश वास्तविक क्षेत्र को खाली स्थान या शोर द्वारा लिया जाता है, और अंत में, डॉट-प्लॉट दो अनुक्रमों तक सीमित होते हैं। इनमें से कोई भी सीमा मिरोपीट्स संरेखण आरेखों पर लागू नहीं होती है, लेकिन उनकी अपनी विशेष खामियां हैं।

डॉट प्लॉट का उपयोग एकल अनुक्रम में दोहराव का आकलन करने के लिए भी किया जा सकता है। एक अनुक्रम स्वयं के विरुद्ध प्लॉट किया जा सकता है और महत्वपूर्ण समानताएं साझा करने वाले क्षेत्र मुख्य विकर्ण से दूर रेखाओं के रूप में दिखाई देंगे। यह प्रभाव तब हो सकता है जब एक प्रोटीन में कई समान संरचनात्मक डोमेन होते हैं।

गतिशील प्रोग्रामिंग संपादित करें

डायनेमिक प्रोग्रामिंग की तकनीक को नीडलमैन-वुन्श एल्गोरिथम के माध्यम से वैश्विक संरेखण और स्मिथ-वाटरमैन एल्गोरिथम के माध्यम से स्थानीय संरेखण का उत्पादन करने के लिए लागू किया जा सकता है। विशिष्ट उपयोग में, प्रोटीन संरेखण अमीनो-एसिड मैचों या बेमेल के लिए स्कोर प्रदान करने के लिए एक प्रतिस्थापन मैट्रिक्स का उपयोग करते हैं, और एक अनुक्रम में एक एमिनो एसिड को दूसरे में अंतराल में मिलान करने के लिए एक अंतराल दंड का उपयोग करते हैं। डीएनए और आरएनए संरेखण एक स्कोरिंग मैट्रिक्स का उपयोग कर सकते हैं, लेकिन व्यवहार में अक्सर एक सकारात्मक मैच स्कोर, एक नकारात्मक बेमेल स्कोर और एक नकारात्मक अंतराल दंड प्रदान करते हैं। (मानक गतिशील प्रोग्रामिंग में, प्रत्येक अमीनो एसिड स्थिति का स्कोर उसके पड़ोसियों की पहचान से स्वतंत्र होता है, और इसलिए बेस स्टैकिंग प्रभावों को ध्यान में नहीं रखा जाता है। हालांकि, एल्गोरिथम को संशोधित करके ऐसे प्रभावों को ध्यान में रखना संभव है।) ए मानक रैखिक अंतराल लागत के लिए सामान्य विस्तार, अंतराल को खोलने और अंतराल को बढ़ाने के लिए दो अलग-अलग अंतराल दंडों का उपयोग है। आमतौर पर पूर्व बाद वाले की तुलना में बहुत बड़ा होता है, उदा। -10 गैप ओपन के लिए और -2 गैप एक्सटेंशन के लिए। इस प्रकार, एक संरेखण में अंतराल की संख्या आमतौर पर कम हो जाती है और अवशेषों और अंतरालों को एक साथ रखा जाता है, जो आमतौर पर अधिक जैविक समझ में आता है। गोटोह एल्गोरिथ्म तीन मैट्रिक्स का उपयोग करके एफ़िन गैप लागत को लागू करता है।

डायनेमिक प्रोग्रामिंग न्यूक्लियोटाइड को प्रोटीन अनुक्रमों में संरेखित करने में उपयोगी हो सकती है, एक कार्य जो फ्रेमशिफ्ट म्यूटेशन (आमतौर पर सम्मिलन या विलोपन) को ध्यान में रखने की आवश्यकता से जटिल है। फ़्रेमसर्च विधि क्वेरी न्यूक्लियोटाइड अनुक्रम और प्रोटीन अनुक्रमों के एक खोज सेट, या इसके विपरीत के बीच वैश्विक या स्थानीय जोड़ीदार संरेखण की एक श्रृंखला उत्पन्न करती है।न्यूक्लियोटाइड्स की एक मनमानी संख्या द्वारा ऑफसेट फ्रेमशिफ्ट का मूल्यांकन करने की इसकी क्षमता बड़ी संख्या में इंडल्स वाले अनुक्रमों के लिए विधि को उपयोगी बनाती है, जिसे अधिक कुशल अनुमानी विधियों के साथ संरेखित करना बहुत मुश्किल हो सकता है। व्यवहार में, विधि के लिए बड़ी मात्रा में कंप्यूटिंग शक्ति या एक प्रणाली की आवश्यकता होती है जिसका आर्किटेक्चर गतिशील प्रोग्रामिंग के लिए विशिष्ट है। ब्लास्ट और एम्बॉस सूट अनुवादित संरेखण बनाने के लिए बुनियादी उपकरण प्रदान करते हैं (हालांकि इनमें से कुछ दृष्टिकोण टूल की अनुक्रम खोज क्षमताओं के साइड-इफेक्ट्स का लाभ उठाते हैं)। ओपन-सोर्स सॉफ़्टवेयर जैसे कि जीनवाइज से अधिक सामान्य तरीके उपलब्ध हैं।

गतिशील प्रोग्रामिंग पद्धति को एक विशेष स्कोरिंग फ़ंक्शन को देखते हुए एक इष्टतम संरेखण खोजने की गारंटी है, हालांकि, एक अच्छे स्कोरिंग फ़ंक्शन की पहचान करना सैद्धांतिक मामले के बजाय अक्सर एक अनुभवजन्य होता है। हालांकि गतिशील प्रोग्रामिंग दो से अधिक अनुक्रमों के लिए एक्स्टेंसिबल है, यह बड़ी संख्या में अनुक्रमों या अत्यधिक लंबे अनुक्रमों के लिए निषेधात्मक रूप से धीमा है।

शब्द विधियां संपादित करें

शब्द विधियाँ, जिन्हें के रूप में भी जाना जाता है -टुपल विधियाँ, अनुमानी विधियाँ हैं जो एक इष्टतम संरेखण समाधान खोजने की गारंटी नहीं हैं, लेकिन गतिशील प्रोग्रामिंग की तुलना में काफी अधिक कुशल हैं। ये विधियां विशेष रूप से बड़े पैमाने पर डेटाबेस खोजों में उपयोगी होती हैं जहां यह समझा जाता है कि उम्मीदवार अनुक्रमों का एक बड़ा हिस्सा अनिवार्य रूप से क्वेरी अनुक्रम के साथ कोई महत्वपूर्ण मेल नहीं होगा। शब्द विधियों को डेटाबेस खोज उपकरण FASTA और BLAST परिवार में उनके कार्यान्वयन के लिए सबसे अच्छी तरह से जाना जाता है। [1] शब्द विधियाँ क्वेरी अनुक्रम में लघु, गैर-अतिव्यापी अनुक्रमों ("शब्द") की एक श्रृंखला की पहचान करती हैं जो तब उम्मीदवार डेटाबेस अनुक्रमों से मेल खाती हैं। तुलना की जा रही दो अनुक्रमों में शब्द की सापेक्ष स्थिति को एक ऑफसेट प्राप्त करने के लिए घटाया जाता है, यह संरेखण के एक क्षेत्र को इंगित करेगा यदि कई अलग-अलग शब्द एक ही ऑफसेट उत्पन्न करते हैं। केवल अगर इस क्षेत्र का पता लगाया जाता है तो क्या ये विधियां अधिक संवेदनशील संरेखण मानदंड लागू करती हैं, इस प्रकार, बिना किसी प्रशंसनीय समानता के अनुक्रमों के साथ कई अनावश्यक तुलनाएं समाप्त हो जाती हैं।

FASTA पद्धति में, उपयोगकर्ता एक मान को परिभाषित करता है डेटाबेस को खोजने के लिए शब्द लंबाई के रूप में उपयोग करने के लिए। विधि धीमी है लेकिन कम मूल्यों पर अधिक संवेदनशील है , जो बहुत ही कम क्वेरी अनुक्रम वाली खोजों के लिए भी पसंद किए जाते हैं। खोज विधियों का BLAST परिवार विशेष प्रकार के प्रश्नों के लिए अनुकूलित कई एल्गोरिदम प्रदान करता है, जैसे कि दूर से संबंधित अनुक्रम मिलान की खोज करना। BLAST को FASTA के लिए एक तेज़ विकल्प प्रदान करने के लिए विकसित किया गया था, जिसमें FASTA की तरह अधिक सटीकता का त्याग नहीं किया गया था, BLAST लंबाई की एक शब्द खोज का उपयोग करता है , लेकिन FASTA के अनुसार प्रत्येक शब्द मिलान के बजाय केवल सबसे महत्वपूर्ण शब्द मिलान का मूल्यांकन करता है। अधिकांश BLAST कार्यान्वयन एक निश्चित डिफ़ॉल्ट शब्द लंबाई का उपयोग करते हैं जो क्वेरी और डेटाबेस प्रकार के लिए अनुकूलित है, और इसे केवल विशेष परिस्थितियों में बदला जाता है, जैसे कि दोहराव या बहुत कम क्वेरी अनुक्रमों के साथ खोज करते समय। कार्यान्वयन कई वेब पोर्टलों के माध्यम से पाया जा सकता है, जैसे ईएमबीएल फास्टा और एनसीबीआई ब्लास्ट।

एकाधिक अनुक्रम संरेखण एक समय में दो से अधिक अनुक्रमों को शामिल करने के लिए जोड़ीदार संरेखण का विस्तार है। एकाधिक संरेखण विधियां किसी दिए गए क्वेरी सेट में सभी अनुक्रमों को संरेखित करने का प्रयास करती हैं। क्रमिक रूप से संबंधित होने के लिए परिकल्पित अनुक्रमों के समूह में संरक्षित अनुक्रम क्षेत्रों की पहचान करने के लिए कई संरेखण का उपयोग अक्सर किया जाता है। इस तरह के संरक्षित अनुक्रम रूपांकनों का उपयोग एंजाइमों के उत्प्रेरक सक्रिय स्थलों का पता लगाने के लिए संरचनात्मक और यंत्रवत जानकारी के संयोजन में किया जा सकता है। संरेखण का उपयोग फ़ाइलोजेनेटिक पेड़ों के निर्माण के द्वारा विकासवादी संबंध स्थापित करने में सहायता के लिए भी किया जाता है। एकाधिक अनुक्रम संरेखण का उत्पादन करना कम्प्यूटेशनल रूप से कठिन है और समस्या के अधिकांश फॉर्मूलेशन एनपी-पूर्ण संयोजन अनुकूलन समस्याओं को जन्म देते हैं। [१०] [११] फिर भी, जैव सूचना विज्ञान में इन संरेखणों की उपयोगिता ने तीन या अधिक अनुक्रमों को संरेखित करने के लिए उपयुक्त विभिन्न तरीकों का विकास किया है।

गतिशील प्रोग्रामिंग संपादित करें

गतिशील प्रोग्रामिंग की तकनीक सैद्धांतिक रूप से किसी भी संख्या में अनुक्रमों पर लागू होती है, क्योंकि यह समय और स्मृति दोनों में कम्प्यूटेशनल रूप से महंगा है, इसका सबसे बुनियादी रूप में तीन या चार से अधिक अनुक्रमों के लिए शायद ही कभी उपयोग किया जाता है। इस विधि के निर्माण की आवश्यकता है एनदो अनुक्रमों से बने अनुक्रम मैट्रिक्स के -आयामी समकक्ष, जहां एन क्वेरी में अनुक्रमों की संख्या है। मानक गतिशील प्रोग्रामिंग का उपयोग पहले क्वेरी अनुक्रमों के सभी जोड़े पर किया जाता है और फिर "संरेखण स्थान" को मध्यवर्ती पदों पर संभावित मैचों या अंतराल पर विचार करके भर दिया जाता है, अंततः प्रत्येक दो-अनुक्रम संरेखण के बीच अनिवार्य रूप से एक संरेखण का निर्माण किया जाता है। यद्यपि यह तकनीक कम्प्यूटेशनल रूप से महंगी है, वैश्विक इष्टतम समाधान की इसकी गारंटी उन मामलों में उपयोगी है जहां केवल कुछ अनुक्रमों को सटीक रूप से संरेखित करने की आवश्यकता होती है। गतिशील प्रोग्रामिंग की कम्प्यूटेशनल मांगों को कम करने के लिए एक विधि, जो "जोड़े के योग" उद्देश्य फ़ंक्शन पर निर्भर करती है, को MSA सॉफ़्टवेयर पैकेज में लागू किया गया है। [12]

प्रगतिशील तरीके संपादित करें

प्रगतिशील, पदानुक्रमित, या ट्री विधियां पहले सबसे समान अनुक्रमों को संरेखित करके और फिर संरेखण में क्रमिक रूप से कम संबंधित अनुक्रमों या समूहों को जोड़कर एक बहु अनुक्रम संरेखण उत्पन्न करती हैं जब तक कि संपूर्ण क्वेरी सेट को समाधान में शामिल नहीं किया जाता है। अनुक्रम संबंधितता का वर्णन करने वाला प्रारंभिक पेड़ जोड़ीदार तुलनाओं पर आधारित है जिसमें FASTA के समान अनुमानी जोड़ीदार संरेखण विधियां शामिल हो सकती हैं। प्रगतिशील संरेखण परिणाम "सबसे संबंधित" अनुक्रमों की पसंद पर निर्भर हैं और इस प्रकार प्रारंभिक जोड़ीदार संरेखण में अशुद्धियों के प्रति संवेदनशील हो सकते हैं। अधिकांश प्रगतिशील एकाधिक अनुक्रम संरेखण विधियां अतिरिक्त रूप से क्वेरी सेट में अनुक्रमों को उनकी संबंधितता के अनुसार भारित करती हैं, जिससे प्रारंभिक अनुक्रमों के खराब विकल्प बनाने की संभावना कम हो जाती है और इस प्रकार संरेखण सटीकता में सुधार होता है।

क्लस्टल प्रगतिशील कार्यान्वयन के कई रूपांतर [१३] [१४] [१५] का उपयोग कई अनुक्रम संरेखण, फ़ाइलोजेनेटिक ट्री निर्माण और प्रोटीन संरचना भविष्यवाणी के लिए इनपुट के रूप में किया जाता है। प्रगतिशील पद्धति का एक धीमा लेकिन अधिक सटीक संस्करण टी-कॉफी के रूप में जाना जाता है। [16]

पुनरावृत्त विधियां संपादित करें

पुनरावृत्त विधियां प्रारंभिक जोड़ीदार संरेखण की सटीकता पर भारी निर्भरता पर सुधार करने का प्रयास करती हैं, जो प्रगतिशील विधियों का कमजोर बिंदु है। एक प्रारंभिक वैश्विक संरेखण निर्दिष्ट करके और फिर अनुक्रम सबसेट को पुन: व्यवस्थित करके एक चयनित संरेखण स्कोरिंग विधि के आधार पर एक उद्देश्य फ़ंक्शन को पुनरावृत्त विधियां अनुकूलित करती हैं। अगले पुनरावृति के कई अनुक्रम संरेखण का उत्पादन करने के लिए वास्तविक उपसमुच्चय को तब स्वयं संरेखित किया जाता है। अनुक्रम उपसमूहों और उद्देश्य समारोह के चयन के विभिन्न तरीकों की समीक्षा की गई है। [17]

मोटिफ ढूँढना संपादित करें

मोटिफ खोज, जिसे प्रोफ़ाइल विश्लेषण के रूप में भी जाना जाता है, वैश्विक एकाधिक अनुक्रम संरेखण का निर्माण करता है जो क्वेरी सेट में अनुक्रमों के बीच लघु संरक्षित अनुक्रम रूपांकनों को संरेखित करने का प्रयास करता है। यह आमतौर पर पहले एक सामान्य वैश्विक एकाधिक अनुक्रम संरेखण का निर्माण करके किया जाता है, जिसके बाद अत्यधिक संरक्षित क्षेत्रों को अलग कर दिया जाता है और प्रोफ़ाइल मैट्रिस का एक सेट बनाने के लिए उपयोग किया जाता है। प्रत्येक संरक्षित क्षेत्र के लिए प्रोफाइल मैट्रिक्स को एक स्कोरिंग मैट्रिक्स की तरह व्यवस्थित किया जाता है, लेकिन प्रत्येक स्थिति में प्रत्येक अमीनो एसिड या न्यूक्लियोटाइड के लिए इसकी आवृत्ति की गणना अधिक सामान्य अनुभवजन्य वितरण के बजाय संरक्षित क्षेत्र के चरित्र वितरण से प्राप्त होती है। प्रोफ़ाइल मैट्रिसेस का उपयोग तब अन्य अनुक्रमों को खोजने के लिए किया जाता है, जिसमें वे जिस आकृति की विशेषता रखते हैं, उसकी घटनाएँ होती हैं। ऐसे मामलों में जहां मूल डेटा सेट में अनुक्रमों की एक छोटी संख्या होती है, या केवल अत्यधिक संबंधित अनुक्रम होते हैं, मोटिफ में दर्शाए गए वर्ण वितरण को सामान्य करने के लिए छद्म गणनाएं जोड़ी जाती हैं।

कंप्यूटर विज्ञान से प्रेरित तकनीक संपादित करें

कंप्यूटर विज्ञान में आमतौर पर उपयोग किए जाने वाले विभिन्न प्रकार के सामान्य अनुकूलन एल्गोरिदम को भी कई अनुक्रम संरेखण समस्या पर लागू किया गया है। छिपे हुए मार्कोव मॉडल का उपयोग किसी दिए गए क्वेरी सेट के लिए संभावित एकाधिक अनुक्रम संरेखण के परिवार के लिए संभाव्यता स्कोर बनाने के लिए किया गया है, हालांकि प्रारंभिक एचएमएम-आधारित विधियों ने जबरदस्त प्रदर्शन किया है, बाद के अनुप्रयोगों ने उन्हें दूरस्थ रूप से संबंधित अनुक्रमों का पता लगाने में विशेष रूप से प्रभावी पाया है क्योंकि वे कम संवेदनशील हैं रूढ़िवादी या अर्ध-रूढ़िवादी प्रतिस्थापन द्वारा उत्पन्न शोर के लिए। [१८] जेनेटिक एल्गोरिदम और सिम्युलेटेड एनीलिंग का उपयोग कई अनुक्रम संरेखण स्कोर को अनुकूलित करने में भी किया गया है, जैसा कि सम-ऑफ-पेयर विधि जैसे स्कोरिंग फ़ंक्शन द्वारा आंका जाता है। अधिक संपूर्ण विवरण और सॉफ़्टवेयर पैकेज मुख्य लेख एकाधिक अनुक्रम संरेखण में पाए जा सकते हैं।

बॉटी और बीडब्ल्यूए जैसे लोकप्रिय टूल में तेजी से शॉर्ट रीड अलाइनमेंट के लिए बुरो-व्हीलर ट्रांसफॉर्म को सफलतापूर्वक लागू किया गया है। एफएम-इंडेक्स देखें।

संरचनात्मक संरेखण, जो आमतौर पर प्रोटीन और कभी-कभी आरएनए अनुक्रमों के लिए विशिष्ट होते हैं, अनुक्रमों को संरेखित करने में सहायता के लिए प्रोटीन या आरएनए अणु की माध्यमिक और तृतीयक संरचना के बारे में जानकारी का उपयोग करते हैं। इन विधियों का उपयोग दो या अधिक अनुक्रमों के लिए किया जा सकता है और आम तौर पर स्थानीय संरेखण उत्पन्न करते हैं, क्योंकि वे संरचनात्मक जानकारी की उपलब्धता पर निर्भर करते हैं, उनका उपयोग केवल उन अनुक्रमों के लिए किया जा सकता है जिनकी संबंधित संरचनाएं ज्ञात हैं (आमतौर पर एक्स-रे क्रिस्टलोग्राफी या एनएमआर स्पेक्ट्रोस्कोपी के माध्यम से) . क्योंकि प्रोटीन और आरएनए संरचना दोनों अनुक्रम की तुलना में अधिक क्रमिक रूप से संरक्षित हैं, [१९] संरचनात्मक संरेखण उन अनुक्रमों के बीच अधिक विश्वसनीय हो सकते हैं जो बहुत दूर से संबंधित हैं और जो इतने बड़े पैमाने पर अलग हो गए हैं कि अनुक्रम तुलना उनकी समानता का मज़बूती से पता नहीं लगा सकती है।

होमोलॉजी-आधारित प्रोटीन संरचना भविष्यवाणी [20] के लिए संरेखण का मूल्यांकन करने में संरचनात्मक संरेखण का उपयोग "स्वर्ण मानक" के रूप में किया जाता है क्योंकि वे प्रोटीन अनुक्रम के क्षेत्रों को स्पष्ट रूप से संरेखित करते हैं जो विशेष रूप से अनुक्रम जानकारी पर निर्भर होने के बजाय संरचनात्मक रूप से समान होते हैं। हालांकि, संरचना की भविष्यवाणी में स्पष्ट रूप से संरचनात्मक संरेखण का उपयोग नहीं किया जा सकता है क्योंकि क्वेरी सेट में कम से कम एक अनुक्रम मॉडलिंग का लक्ष्य है, जिसके लिए संरचना ज्ञात नहीं है। यह दिखाया गया है कि, एक लक्ष्य और एक टेम्पलेट अनुक्रम के बीच संरचनात्मक संरेखण को देखते हुए, लक्ष्य प्रोटीन अनुक्रम के अत्यधिक सटीक मॉडल को होमोलॉजी-आधारित संरचना भविष्यवाणी में एक प्रमुख ठोकर का उत्पादन किया जा सकता है, केवल अनुक्रम जानकारी दिए गए संरचनात्मक रूप से सटीक संरेखण का उत्पादन होता है। . [20]

डाली संपादित करें

DALI विधि, या दूरी मैट्रिक्स संरेखण, क्वेरी अनुक्रमों में क्रमिक हेक्सापेप्टाइड्स के बीच संपर्क समानता पैटर्न के आधार पर संरचनात्मक संरेखण के निर्माण के लिए एक टुकड़ा-आधारित विधि है। [२१] यह जोड़ीदार या एकाधिक संरेखण उत्पन्न कर सकता है और प्रोटीन डेटा बैंक (पीडीबी) में एक क्वेरी अनुक्रम के संरचनात्मक पड़ोसियों की पहचान कर सकता है। इसका उपयोग FSSP संरचनात्मक संरेखण डेटाबेस (प्रोटीन की संरचना-संरचना संरेखण के आधार पर तह वर्गीकरण, या संरचनात्मक रूप से समान प्रोटीन के परिवार) के निर्माण के लिए किया गया है। DALI वेबसर्वर को DALI में एक्सेस किया जा सकता है और FSSP डाली डेटाबेस में स्थित है।

एसएसएपी संपादित करें

SSAP (अनुक्रमिक संरचना संरेखण कार्यक्रम) संरचनात्मक संरेखण की एक गतिशील प्रोग्रामिंग-आधारित विधि है जो तुलना बिंदुओं के रूप में संरचना स्थान में परमाणु-से-परमाणु वैक्टर का उपयोग करती है। इसके मूल विवरण के बाद से कई और साथ ही जोड़ीदार संरेखण को शामिल करने के लिए इसका विस्तार किया गया है, [22] और इसका उपयोग CATH (वर्ग, वास्तुकला, टोपोलॉजी, होमोलॉजी) के निर्माण में प्रोटीन फोल्ड के पदानुक्रमित डेटाबेस वर्गीकरण में किया गया है। [२३] CATH डेटाबेस को CATH प्रोटीन संरचना वर्गीकरण में एक्सेस किया जा सकता है।

संयुक्त विस्तार संपादित करें

संरचनात्मक संरेखण की संयोजन विस्तार विधि विश्लेषण किए जा रहे दो प्रोटीनों के छोटे टुकड़ों को संरेखित करने के लिए स्थानीय ज्यामिति का उपयोग करके एक जोड़ीदार संरचनात्मक संरेखण उत्पन्न करती है और फिर इन टुकड़ों को एक बड़े संरेखण में जोड़ती है। [24] कठोर शरीर की जड़ माध्य वर्ग दूरी, अवशेषों की दूरी, स्थानीय माध्यमिक संरचना, और आसपास की पर्यावरणीय विशेषताओं जैसे अवशेष पड़ोसी हाइड्रोफोबिसिटी जैसे उपायों के आधार पर, "संरेखित टुकड़े जोड़े" नामक स्थानीय संरेखण उत्पन्न होते हैं और एक समानता मैट्रिक्स बनाने के लिए उपयोग किए जाते हैं। पूर्वनिर्धारित कटऑफ मानदंडों के भीतर सभी संभावित संरचनात्मक संरेखण का प्रतिनिधित्व करना। एक प्रोटीन संरचना अवस्था से दूसरे तक का मार्ग फिर मैट्रिक्स के माध्यम से बढ़ते संरेखण को एक समय में एक टुकड़े का विस्तार करके पता लगाया जाता है। इष्टतम ऐसा पथ संयोजन-विस्तार संरेखण को परिभाषित करता है। एक वेब-आधारित सर्वर जो प्रोटीन डेटा बैंक में इस पद्धति को लागू करता है और संरचनाओं के जोड़ीवार संरेखण का एक डेटाबेस प्रदान करता है, कॉम्बिनेटोरियल एक्सटेंशन वेबसाइट पर स्थित है।

अनुक्रम संबंधितता के मूल्यांकन की साझा आवश्यकता के कारण फ़ाइलोजेनेटिक्स और अनुक्रम संरेखण निकट से संबंधित क्षेत्र हैं। [२५] फ़ाइलोजेनेटिक्स का क्षेत्र फ़ाइलोजेनेटिक पेड़ों के निर्माण और व्याख्या में अनुक्रम संरेखण का व्यापक उपयोग करता है, जो कि भिन्न प्रजातियों के जीनोम में प्रतिनिधित्व किए गए समरूप जीनों के बीच विकासवादी संबंधों को वर्गीकृत करने के लिए उपयोग किया जाता है। एक क्वेरी सेट में अनुक्रम जिस डिग्री से भिन्न होता है, वह गुणात्मक रूप से अनुक्रमों की एक दूसरे से विकासवादी दूरी से संबंधित होता है। मोटे तौर पर, उच्च अनुक्रम पहचान से पता चलता है कि प्रश्न में अनुक्रमों में तुलनात्मक रूप से युवा सबसे हाल के सामान्य पूर्वज हैं, जबकि कम पहचान से पता चलता है कि विचलन अधिक प्राचीन है। यह सन्निकटन, जो "आणविक घड़ी" परिकल्पना को दर्शाता है कि विकासवादी परिवर्तन की लगभग स्थिर दर का उपयोग बीता हुआ समय निकालने के लिए किया जा सकता है क्योंकि दो जीन पहले अलग हो गए थे (अर्थात, सहसंयोजन समय), यह मानता है कि उत्परिवर्तन और चयन के प्रभाव हैं अनुक्रम वंश में स्थिर। इसलिए, यह डीएनए की मरम्मत की दरों में जीवों या प्रजातियों के बीच संभावित अंतर या एक क्रम में विशिष्ट क्षेत्रों के संभावित कार्यात्मक संरक्षण के लिए जिम्मेदार नहीं है। (न्यूक्लियोटाइड अनुक्रमों के मामले में, आणविक घड़ी परिकल्पना अपने सबसे बुनियादी रूप में मूक उत्परिवर्तन के बीच स्वीकृति दरों में अंतर को भी छूट देती है जो किसी दिए गए कोडन और अन्य उत्परिवर्तनों के अर्थ को परिवर्तित नहीं करती है जिसके परिणामस्वरूप एक अलग एमिनो एसिड शामिल होता है प्रोटीन)। अधिक सांख्यिकीय रूप से सटीक तरीके फ़ाइलोजेनेटिक पेड़ की प्रत्येक शाखा पर विकास दर को अलग-अलग करने की अनुमति देते हैं, इस प्रकार जीन के लिए सहसंयोजन समय के बेहतर अनुमान का उत्पादन करते हैं।

प्रोग्रेसिव मल्टीपल एलाइनमेंट तकनीक आवश्यकता से एक फ़ाइलोजेनेटिक ट्री का उत्पादन करती है क्योंकि वे संबंधितता के क्रम में बढ़ते संरेखण में अनुक्रमों को शामिल करते हैं। अन्य तकनीकें जो कई अनुक्रम संरेखण और फ़ाइलोजेनेटिक पेड़ इकट्ठा करती हैं, पहले पेड़ों को स्कोर करती हैं और क्रमबद्ध करती हैं और उच्चतम स्कोरिंग पेड़ से कई अनुक्रम संरेखण की गणना करती हैं। फ़ाइलोजेनेटिक ट्री निर्माण की सामान्य रूप से उपयोग की जाने वाली विधियाँ मुख्य रूप से अनुमानी हैं क्योंकि इष्टतम पेड़ के चयन की समस्या, जैसे कि इष्टतम एकाधिक अनुक्रम संरेखण के चयन की समस्या, एनपी-हार्ड है। [26]

महत्व का आकलन संपादित करें

अनुक्रम संरेखण जैव सूचना विज्ञान में अनुक्रम समानता की पहचान करने, फ़ाइलोजेनेटिक पेड़ बनाने और प्रोटीन संरचनाओं के होमोलॉजी मॉडल विकसित करने के लिए उपयोगी हैं। हालांकि, अनुक्रम संरेखण की जैविक प्रासंगिकता हमेशा स्पष्ट नहीं होती है। संरेखण को अक्सर एक सामान्य पूर्वज से उतरे अनुक्रमों के बीच विकासवादी परिवर्तन की एक डिग्री को प्रतिबिंबित करने के लिए माना जाता है, हालांकि, यह औपचारिक रूप से संभव है कि अभिसरण विकास प्रोटीन के बीच स्पष्ट समानता उत्पन्न करने के लिए हो सकता है जो क्रमिक रूप से असंबंधित हैं लेकिन समान कार्य करते हैं और समान संरचनाएं हैं।

डेटाबेस खोजों जैसे BLAST में, सांख्यिकीय तरीके खोजे जा रहे डेटाबेस के आकार और संरचना को देखते हुए संयोग से उत्पन्न होने वाले अनुक्रमों या अनुक्रम क्षेत्रों के बीच एक विशेष संरेखण की संभावना निर्धारित कर सकते हैं। खोज स्थान के आधार पर ये मान महत्वपूर्ण रूप से भिन्न हो सकते हैं। विशेष रूप से, किसी दिए गए संरेखण को संयोग से खोजने की संभावना बढ़ जाती है यदि डेटाबेस में केवल उसी जीव से अनुक्रम होते हैं जो क्वेरी अनुक्रम के रूप में होते हैं। डेटाबेस या क्वेरी में दोहराए जाने वाले अनुक्रम खोज परिणामों और सांख्यिकीय महत्व के आकलन दोनों को विकृत कर सकते हैं, BLAST सांख्यिकीय कलाकृतियों वाले स्पष्ट हिट से बचने के लिए क्वेरी में ऐसे दोहराव वाले अनुक्रमों को स्वचालित रूप से फ़िल्टर करता है।

अंतराल अनुक्रम संरेखण के लिए सांख्यिकीय महत्व आकलन के तरीके साहित्य में उपलब्ध हैं। [२५] [२७] [२८] [२९] [३०] [३१] [३२] [३३]

विश्वसनीयता का आकलन संपादित करें

सांख्यिकीय महत्व इस संभावना को इंगित करता है कि किसी दिए गए गुणवत्ता का संरेखण संयोग से उत्पन्न हो सकता है, लेकिन यह इंगित नहीं करता है कि समान अनुक्रमों के वैकल्पिक संरेखण के लिए दिया गया संरेखण कितना बेहतर है। संरेखण विश्वसनीयता के उपाय यह इंगित करते हैं कि किसी दिए गए अनुक्रमों की जोड़ी के लिए सर्वोत्तम स्कोरिंग संरेखण किस हद तक समान हैं। अंतराल अनुक्रम संरेखण के लिए संरेखण विश्वसनीयता आकलन के तरीके साहित्य में उपलब्ध हैं। [34]

स्कोरिंग फ़ंक्शन संपादित करें

एक स्कोरिंग फ़ंक्शन का चुनाव जो ज्ञात अनुक्रमों के बारे में जैविक या सांख्यिकीय टिप्पणियों को दर्शाता है, अच्छे संरेखण के निर्माण के लिए महत्वपूर्ण है। प्रोटीन अनुक्रमों को अक्सर प्रतिस्थापन मैट्रिक्स का उपयोग करके संरेखित किया जाता है जो दिए गए चरित्र-से-चरित्र प्रतिस्थापन की संभावनाओं को दर्शाते हैं। PAM मेट्रिसेस नामक मैट्रिक्स की एक श्रृंखला (प्वाइंट स्वीकृत म्यूटेशन मैट्रिसेस, मूल रूप से मार्गरेट डेहॉफ द्वारा परिभाषित और कभी-कभी "डेहॉफ मैट्रिसेस" के रूप में संदर्भित) विशेष रूप से अमीनो एसिड म्यूटेशन की दरों और संभावनाओं के बारे में विकासवादी अनुमानों को स्पष्ट रूप से सांकेतिक शब्दों में बदलना। स्कोरिंग मैट्रिक्स की एक अन्य सामान्य श्रृंखला, जिसे BLOSUM (ब्लॉक प्रतिस्थापन मैट्रिक्स) के रूप में जाना जाता है, अनुभवजन्य रूप से व्युत्पन्न प्रतिस्थापन संभावनाओं को एन्कोड करता है। दोनों प्रकार के मैट्रिसेस के वेरिएंट का उपयोग अलग-अलग स्तरों के विचलन के साथ अनुक्रमों का पता लगाने के लिए किया जाता है, इस प्रकार ब्लास्ट या फास्टा के उपयोगकर्ताओं को खोजों को अधिक निकटता से संबंधित मैचों तक सीमित करने या अधिक भिन्न अनुक्रमों का पता लगाने के लिए विस्तार करने की अनुमति मिलती है। गैप दंड एक अंतराल की शुरूआत के लिए खाता है - विकासवादी मॉडल पर, एक सम्मिलन या विलोपन उत्परिवर्तन - दोनों न्यूक्लियोटाइड और प्रोटीन अनुक्रमों में, और इसलिए दंड मान ऐसे उत्परिवर्तन की अपेक्षित दर के समानुपाती होना चाहिए। इसलिए उत्पादित संरेखण की गुणवत्ता स्कोरिंग फ़ंक्शन की गुणवत्ता पर निर्भर करती है।

मैट्रिक्स और/या गैप पेनल्टी मानों को स्कोर करने और परिणामों की तुलना करने के लिए विभिन्न विकल्पों के साथ एक ही संरेखण को कई बार आज़माना बहुत उपयोगी और शिक्षाप्रद हो सकता है। जिन क्षेत्रों में समाधान कमजोर या गैर-अद्वितीय है, उन्हें अक्सर यह देखकर पहचाना जा सकता है कि संरेखण के कौन से क्षेत्र संरेखण मापदंडों में भिन्नता के लिए मजबूत हैं।

अनुक्रमित आरएनए, जैसे व्यक्त अनुक्रम टैग और पूर्ण-लंबाई वाले mRNAs, को अनुक्रमित जीनोम से जोड़ा जा सकता है ताकि यह पता लगाया जा सके कि जीन कहाँ हैं और वैकल्पिक स्प्लिसिंग [३५] और आरएनए संपादन के बारे में जानकारी प्राप्त करें। [३६] अनुक्रम संरेखण भी जीनोम असेंबली का एक हिस्सा है, जहां अनुक्रमों को ओवरलैप खोजने के लिए संरेखित किया जाता है ताकि अंजीर (अनुक्रम के लंबे खंड) बन सकते हैं। [३७] एक अन्य उपयोग एसएनपी विश्लेषण है, जहां अलग-अलग व्यक्तियों के अनुक्रमों को एकल बेसपेयर खोजने के लिए संरेखित किया जाता है जो अक्सर आबादी में भिन्न होते हैं। [38]

जैविक अनुक्रम संरेखण के लिए उपयोग की जाने वाली विधियों को अन्य क्षेत्रों में भी आवेदन मिला है, विशेष रूप से प्राकृतिक भाषा प्रसंस्करण और सामाजिक विज्ञान में, जहां नीडलमैन-वुन्श एल्गोरिथ्म को आमतौर पर इष्टतम मिलान के रूप में जाना जाता है। [39] ऐसी तकनीकें जो उन तत्वों के समूह को उत्पन्न करती हैं जिनसे प्राकृतिक-भाषा पीढ़ी के एल्गोरिदम में शब्दों का चयन किया जाएगा, ने कंप्यूटर-जनित गणितीय प्रमाणों के भाषाई संस्करणों का उत्पादन करने के लिए जैव सूचना विज्ञान से कई अनुक्रम संरेखण तकनीकों को उधार लिया है। [४०] ऐतिहासिक और तुलनात्मक भाषाविज्ञान के क्षेत्र में, अनुक्रम संरेखण का उपयोग तुलनात्मक पद्धति को आंशिक रूप से स्वचालित करने के लिए किया गया है जिसके द्वारा भाषाविद पारंपरिक रूप से भाषाओं का पुनर्निर्माण करते हैं। [41] व्यापार और विपणन अनुसंधान ने समय के साथ खरीद की श्रृंखला के विश्लेषण में कई अनुक्रम संरेखण तकनीकों को भी लागू किया है। [42]

एल्गोरिदम और संरेखण प्रकार द्वारा वर्गीकृत उपलब्ध सॉफ़्टवेयर की एक और पूरी सूची अनुक्रम संरेखण सॉफ़्टवेयर पर उपलब्ध है, लेकिन सामान्य अनुक्रम संरेखण कार्यों के लिए उपयोग किए जाने वाले सामान्य सॉफ़्टवेयर टूल में संरेखण के लिए ClustalW2 [43] और टी-कॉफ़ी [44] और BLAST [45] शामिल हैं। और डेटाबेस खोज के लिए FASTA3x [46]। डीएनएस्टार लेजरजीन, जीनियस और पैटर्नहंटर जैसे वाणिज्यिक उपकरण भी उपलब्ध हैं। अनुक्रम संरेखण के रूप में एनोटेट किए गए उपकरण बायो.टूल्स रजिस्ट्री में सूचीबद्ध हैं।

BAliBASE के रूप में ज्ञात बेंचमार्क संदर्भ एकाधिक अनुक्रम संरेखण के मानकीकृत सेट का उपयोग करके संरेखण एल्गोरिदम और सॉफ़्टवेयर की सीधे एक दूसरे से तुलना की जा सकती है। [४७] डेटा सेट में संरचनात्मक संरेखण होते हैं, जिसे एक मानक माना जा सकता है जिसके विरुद्ध विशुद्ध रूप से अनुक्रम-आधारित विधियों की तुलना की जाती है। बार-बार सामना होने वाली संरेखण समस्याओं पर कई सामान्य संरेखण विधियों के सापेक्ष प्रदर्शन को सारणीबद्ध किया गया है और चयनित परिणाम BAliBASE पर ऑनलाइन प्रकाशित किए गए हैं। [48] ​​[49] प्रोटीन वर्कबेंच स्ट्रैप के भीतर कई (वर्तमान में 12) विभिन्न संरेखण उपकरणों के लिए BAliBASE स्कोर की एक व्यापक सूची की गणना की जा सकती है। [50]


जुड़ाव

एबीओ हिस्टो-ब्लड ग्रुप्स एंड कैंसर लेबोरेटरी, कैंसर जेनेटिक्स एंड एपिजेनेटिक्स प्रोग्राम, इंस्टिट्यूट डी मेडिसिना प्रेडिक्टिवा आई पर्सनलिट्जाडा डेल कंसर (आईएमपीपीसी), कैंपस कैन रूटी, बडालोना, कैटेलोनिया, स्पेन

फुमिइचिरो यामामोटो, एमिली सिड और मियाको यामामोटो

जनसंख्या आनुवंशिकी विभाग, राष्ट्रीय आनुवंशिकी संस्थान, मिशिमा, जापान

IBE - इंस्टिट्यूट ऑफ़ इवोल्यूशनरी बायोलॉजी (UPF-CSIC), यूनिवर्सिटेट पोम्पेउ फ़बरा, बार्सिलोना, कैटेलोनिया, स्पेन

लेबोरेटोइरे डी'इम्युनोगेनेटिक मोलेकुलेयर (LIMT, EA3034), फैकल्टे डे मेडेसीन पुरपन, यूनिवर्सिटी पॉल सबाटियर, (यूनिवर्सिटी डी टूलूज़ III), टूलूज़, फ़्रांस


वह वीडियो देखें: FTDNA Mitochondrial Journey (अक्टूबर 2022).