معلومة

محاذاة تسلسلات متعددة في مجموعة غير متجانسة


لدي قائمة بحوالي 200 تسلسل من الحمض النووي ، يمثلون على الأرجح 50 منطقة جينومية مختلفة ، لكنهم جميعًا مختلطون. على سبيل المثال ، إذا كان لديseq1 ، seq2 ... seq10,seq1قد تتماشى معseq3وseq8، ولكن لا علاقة لها بالآخرين على الإطلاق.

توجد أيضًا بعض الاختلافات في أطوال العينة ، لذلك قد يمثل المثال أعلاه:

Seq1 -------------------------------------------------

Seq3 ---------------------- seq8 -----------------

مثل ذلكseq3وseq8لا تتماشى مع بعضها البعض ، ولكن كلاهما يتوافق معseq1

لذا ما أود فعله هو المرور وإنشاء قائمة من مجموعات التسلسلات التي تتوافق مع بعضها ، بالإضافة إلى المحاذاة بطريقة ما. على سبيل المثال:

مجموعة 1

Seq1 -------------------------------------------------

Seq3 ---------------------- seq8 -----------------

المجموعة 2

seq2 ------------------------------------

. seq6 -----------------------------

. seq7 -------------------------- xxxxxx

المجموعة 3… إلخ

محاولة ClustalW أو MUSSLE لمحاذاة كل شيء لا يعمل (أو يستغرق وقتًا غير معقول) ، أعتقد أن هناك العديد من التسلسلات التي لا تتوافق على الإطلاق. حاولت إنشاء قاعدة بيانات BLAST مخصصة ثم قمت بتفجير كل تسلسل مقابلها ، ولكن بعد ذلك أحصل على عدة زيارات لنفس المحاذاة (مع مثال المجموعة 2 أعلاه ،seq2: seq6,seq2: seq7,seq6: seq2,seq6: seq7,seq7: seq2وseq7: seq6يتم إرجاعها جميعًا في شكل 6 نتائج فريدة ، عندما يجب تجميعها معًا.

معرفتي الحالية بالترميز أساسية إلى حد ما ، لكنني على استعداد لقراءة المستندات ومعرفة الأشياء ، لا أريد إعادة اختراع العجلة.

تحرير 2: حقًا ، التجميع هو الجزء المهم - بمجرد أن تكون لدي المجموعات ، يمكنني القيام بالمحاذاة بشكل منفصل بجهد قليل. أود فقط أن يكون لدي مجموعات حيث يكون كل تسلسل في مجموعة واحدة.


يمكنك تجربة هذا:

  • تفجير كل تسلسل لكل تسلسل آخر (زوجي).
  • تشير كل محاذاة (مع بعض القطع المحدد) إلى وجود اتصال.
  • تعيين كافة الاتصالات.
  • إذا كان التسلسل متصلاً ببعض الآخر بشكل مباشر أو غير مباشر ، فإنه يقع في مجموعة. ضع كل التسلسلات التيseq1يتوافق مع ، في مجموعة 1، ثم انتقل إلى محاذاة هذه التسلسلات ؛ ضع كل التسلسلات التي تتماشى معها مرة أخرى مجموعة 1؛ لذا استمر في ملء المجموعة بهذا الشكل.

المنهجية:

  • قم بتثبيت انفجار مستقل (إذا لم يكن لديك العديد من التسلسلات ، فيمكنك تشغيل BLAST عبر الإنترنت أيضًا)
  • قم بإنشاء قاعدة بيانات انفجار من التسلسلات الخاصة بك باستخدامmakeblastdb
  • قم بمحاذاة هذه التسلسلات مع قاعدة البيانات. إذا كنت تستخدم BLAST عبر الإنترنت ، فاستخدم BL2seq (محاذاة تسلسلين). إنه أفضل بكثير وملائم لاستخدام قائمة بذاتها. يمكنك أيضًا ذكر ما إذا كنت تريد محاذاة زائد أو زائد ناقص أو كليهما. قد ترغب في بعض الحالات فقط في أي من الاثنين.
  • في BLAST المستقل ، يمكنك تحديد تنسيق الإخراج (الحقول المراد تضمينها وما إلى ذلك - يعتمد التنسيق الذي تختاره فقط على متطلباتك).

يبدو تنسيق الإخراج المجدول كما يلي:

# BLASTN 2.2.27+ # Query: TCONS_00036712 gene = XLOC_017996 # Database:… / nt_db / nt # الحقول: معرف الاستعلام ، معرف الموضوع ، الهوية٪ ، طول المحاذاة ، عدم التطابق ، تفتح الفجوة ، q. ابدأ ، ف. النهاية ، س. ابدأ ، s. تم العثور على النهاية ، التقييم ، درجة البت # 1014 نتيجة TCONS_00036712 gi | 191174875 | emb | CU655970.6 | 95.54 202 9 0423624 16680 16479 8e-85324 TCONS_00036712 gi | 51491599 | gb | AC144709.2 | 95.02 201 10 0424624 28443 28243 1e-82216

تجاهل التعليق (#) خطوط؛ الحقل الأول هو معرف الاستعلام ، والثاني هو معرف الموضوع وهناك محاذاة بين الاثنين ؛ توفر الحقول الأخرى معلومات حول المحاذاة (يمكنك اختيار هذه الحقول).

للتحليل ، أستخدم لغة برمجة نصية سريعة وسهلة تسمى awk والتي يتم تضمينها في جميع الأنظمة القائمة على UNIX. وهو متاح أيضًا لنظام التشغيل windows في حزمة GNUWin32.

ما عليك القيام به هو التحقق من أول حقلين وتحديث المجموعة.

# MakeGroups.awk BEGIN {FS = " t"} # التصريح عن فاصل الحقول كـ Tab! ($ 1 في grp) {# تحقق مما إذا كانت seq هي مجموعة رئيسية. إذا لم يكن ... k = 1 لـ (i in grp) {if ($ 1 in grp [i]) {# تحقق مما إذا كان التسلسل جزءًا من أي مجموعات أخرى parentgrp [$ 1] = i if (! ($ 2 in grp [i] )) # تحقق مما إذا كان الحقل الثاني ، أي الموضوع موجود بالفعل في المجموعة الأم grp [i] [$ 2] # إذا لم يتم تعيين الحقل الثاني للمجموعة الرئيسية k = 0 break # stop فحص إضافي}} إذا (k == 1) # لا توجد مجموعة رئيسية تحمل هذه التسمية والتسلسل ليس جزءًا من أي مجموعة أخرى grp [$ 1] [$ 1] # أنشئ مجموعة بمعرف الاستعلام كعلامة وأضف هذا الاستعلام إلى هذه المجموعة. } $ 1 في grp {if (! ($ 2 in grp [$ 1])) grp [$ 1] [$ 2] # إذا لم يكن الحقل الثاني جزءًا من المجموعة مع الحقل الأول كتسمية ، فقم بتعيينه إلى ذلك} END {لـ (i in grp) {x ++ print "Group-" x " n ----------" لـ (j in grp [i]) print j} print " n"}

قم بتشغيل هذا البرنامج النصي مثل هذا في المحطة:
gawk -f MakeGroups.awk blastalignmentfile.txt

ملحوظة: يحتوي هذا البرنامج النصي على مصفوفات متعددة الأبعاد. لن يعمل مع جميع إصدارات awk. يستخدمإصدار gawk> 4.0.

كما ذكر Swarnbes في إجابته ، هناك خوارزميات أسرع تقوم بهذا النوع من الأشياء وتستخدم لتجميع التسلسل. ما يفعله الكثير منهم هو عمل رسم بياني (شبكات تسمى الرسوم البيانية deBruijn) ، حيث يكون كل اتصال عبارة عن محاذاة ، وحساب مسار أويلير. راجع هذا الاستعراض من قبل Pavel Pevzner للحصول على التفاصيل. تشكل التسلسلات المتداخلة contigs ويمكنك بسهولة تتبع التسلسل الذي جاء من أي contig (والذي يمكنك استدعاء مجموعة). كل كونتيج / مجموعة هي رسم بياني فرعي منفصل.


هل تحتاج حقًا إلى بلاست؟ بمعنى ، هل تختلف التسلسلات عن بعضها بشكل كافٍ لدرجة أنك تحتاج إلى خوارزمية تبحث عن الاختلافات الكبيرة بينها؟

ربما يمكنك استخدام شيء مثل Phrap ، والذي يجب أن يجمع contigs معًا ، إذا كانت التسلسلات التي يجب أن تتوافق مع بعضها قريبة جدًا من المتطابقة.


ما هي الكتلة غير المتجانسة؟

وفقًا لـ Genes & amp Development ، فإن الكتلة غير المتجانسة في علم الأحياء هي ورم يحتوي على كل من الخلايا الطبيعية والخلايا الورمية ، وهي خلايا من أنسجة النمو غير الطبيعية. تسمى الكتل غير المتجانسة الأورام الصلبة ويمكن أن تكون سرطانية.

يوضح الدكتور باري تي كان من HealthTap أن الكتل غير المتجانسة يمكن أن تكون خبيثة أو حميدة. اعتمادًا على الحجم ، يجب إزالة الكتل غير المتجانسة وفحصها من أجل الأورام الخبيثة. بعض الكتل غير المتجانسة على المبايض تتحلل من تلقاء نفسها.

تمضي ويكيبيديا لتشرح أن عدم تجانس الكتل السرطانية يجعل من الصعب علاج السرطان لأن الخلايا لها أشكال مختلفة ، وتعبيرات جينية ، وقدرة على الحركة والتمثيل الغذائي. على سبيل المثال ، بعض الخلايا في الأورام هي خلايا جذعية سرطانية ، والتي بدورها يمكن أن تشكل المزيد من الأورام. علاوة على ذلك ، هناك اختلافات في الخلايا الجذعية السرطانية. تحدث هذه الاختلافات في الخلايا السرطانية جزئيًا بسبب الطفرات وعدم استقرار الجينات واختلال الحمض النووي والتأثيرات الخارجية أو البيئية. كل هذه الخلايا المختلفة والمتنوعة تجعل الورم نفسه غير متجانس ويصعب علاجه. إدارة الأدوية ، أحد خيارات علاج السرطان ، لا تقضي على جميع أنواع الخلايا السرطانية المختلفة في الورم.

تشمل السرطانات التي تحتوي على كتل غير متجانسة سرطان الثدي وسرطان البروستاتا وسرطان القولون وسرطان الدماغ والورم النخاعي وسرطان الدم ، بحسب ويكيبيديا.


برنامج محاذاة متعدد لتسلسلات الأحماض الأمينية أو النوكليوتيدات

الإصدار الأحدث هو 7.48 [0-3] ، 2021 / مايو. جديد! (2020 / مايو / 14) ->

تم إصلاح خطأ في تحليل اسم ملف الإدخال. الرجاء استخدام 7.470 أو أعلى. (2020 / يونيو)

نمط الإدخال

تنسيق Fasta. مثال 1 (LSU rRNA) ، مثال 2 (بروتين)

يتم التعرف تلقائيًا على نوع تسلسل الإدخال (حمض أميني أو نيوكليوتيد).

إستعمال

اسم مستعار لخيار دقيق (L-INS-i) لمحاذاة ما يصل إلى & sim200 تسلسل وأوقات و sim2000 موقع:

خيار سريع (FFT-NS-2) لمحاذاة تسلسل أكبر:

موارد ذات الصلة

  • خادم MAFFT في EBI
  • خادم MAFFT في MPI Bioinformatics Toolkit
  • ClustalW / MAFFT / PRRN في GenomeNet
  • ClustalW / TCoffee / MAFFT في MyHits ، SIB
  • خدمة MAFFT في خادم الويب T-REX
  • خدمة MAFFT في WABI ، DDBJ
  • بوابة العلوم CIPRES: موارد TeraGrid لاستدلال شجرة النشوء والتطور
  • جالفيو: محرر محاذاة مكتوب بلغة جافا
  • Pfam: قاعدة بيانات عائلات البروتين الخاصة بالمحاذاة و HMMs
  • الشريط: محرر لمحاذاة التسلسل المتعدد مكتوب بلغة JAVA
  • BioRuby: أدوات روبي للمعلوماتية الحيوية
  • يجمع aLeaves متواليات الأحماض الأمينية من جينومات حيوانية متنوعة

مراجع

  • روزويكي ، لي ، أمادا ، ستاندلي ، كاتوه 2019 (بحوث الأحماض النووية47: W5-W10) جديد!
    MAFFT-DASH: تسلسل البروتين المتكامل والمحاذاة الهيكلية
    (يصف واجهة الويب للتسلسل والمحاذاة الهيكلية)
  • ناكامورا ، يامادا ، تومي ، كاتوه 2018 (المعلوماتية الحيوية34:2490–2492)
    موازاة MAFFT لمحاذاة تسلسل متعدد على نطاق واسع.
    (يصف موازاة MPI للخيارات التقدمية الدقيقة)
  • كاتوه ، روزويكي ، يامادا 2019 (إحاطات في المعلوماتية الحيوية20:1160-1166)
    خدمة MAFFT عبر الإنترنت: محاذاة تسلسل متعدد واختيار تسلسل تفاعلي وتصور.
    (يشرح الخدمة عبر الإنترنت)
  • يامادا ، تومي ، كاتوه 2016 (المعلوماتية الحيوية32: 3246-3251) معلومات إضافية
    تطبيق برنامج محاذاة التسلسل MAFFT على البيانات الكبيرة واختبار mdashre لفائدة أشجار الدليل المتسلسلة.
    (يشرح بعض الخيارات لمحاذاة عدد كبير من التسلسلات القصيرة)
  • كاتوه ، ستاندلي 2016 (المعلوماتية الحيوية32:1933-1942)
    طريقة بسيطة للتحكم في المحاذاة الزائدة في برنامج محاذاة التسلسل المتعدد MAFFT.
    (يصف بعض الخيارات لتجنب المحاذاة الزائدة)
  • كاتوه ، ستاندلي 2013 (علم الأحياء الجزيئي والتطور30:772-780)
    الإصدار 7 من برنامج محاذاة التسلسل المتعدد MAFFT: تحسينات في الأداء وسهولة الاستخدام.
    (الخطوط العريضة للإصدار 7)
  • كوراكو ، زمسيك ، نيشيمورا ، كاتوه 2013 (بحوث الأحماض النووية41: W22-W28)
    تسهل aLeaves الاستكشاف عند الطلب لأشجار عائلة الجينات metazoan على خادم محاذاة تسلسل MAFFT مع تفاعل محسن.
    (يصف خدمة تجميع / اختيار تسلسل تفاعلي بواسطة aLeaves و MAFFT و Archeopteryx)
  • كاتوه ، فريث 2012 (المعلوماتية الحيوية28:3144-3146)
    إضافة التسلسلات غير المحاذاة إلى محاذاة موجودة باستخدام MAFFT و LAST.
    (يصف --يضيف و - شظايا والخيارات)
  • كاتوه ، توه 2010 (المعلوماتية الحيوية26:1899-1900)
    موازاة برنامج محاذاة التسلسل المتعدد MAFFT.
    (يصف الإصدار متعدد الخيوط)
  • كاتوه ، أسيمينوس ، توه 2009 (طرق في علم الأحياء الجزيئي537:39-64)
    المحاذاة المتعددة لتسلسل الحمض النووي مع MAFFT. في المعلوماتية الحيوية لتحليل تسلسل الحمض النووي حرره د. بوسادا
    (يحدد طرق محاذاة الحمض النووي والعديد من النصائح بما في ذلك المحاذاة من مجموعة إلى مجموعة والتكتل الخام لعدد كبير من التسلسلات)
  • كاتوه ، توه 2008 (المعلوماتية الحيوية BMC9:212)
    تحسين دقة محاذاة ncRNA المتعددة من خلال دمج المعلومات الهيكلية في إطار عمل قائم على MAFFT.
    (يصف طرق المحاذاة الهيكلية لـ RNA)
  • كاتوه ، توه 2008 (إحاطات في المعلوماتية الحيوية9:286-298)
    التطورات الأخيرة في برنامج محاذاة التسلسل المتعدد MAFFT.
    (الخطوط العريضة لورقة سريعة التكسير للإصدار 6 في ScienceWatch من Thomson Reuters)
  • كاتوه ، توه 2007 (المعلوماتية الحيوية23: 372-374) أخطاء
    PartTree: خوارزمية لبناء شجرة تقريبية من عدد كبير من التسلسلات غير المحاذاة.
    (يصف خوارزمية PartTree)
  • كاتوه ، كوما ، توه ، مياتا 2005 (الدقة الأحماض النووية.33:511-518)
    الإصدار 5 من MAFFT: تحسين دقة محاذاة التسلسل المتعدد.
    (يصف [الإصدارات القديمة من] استراتيجيات G-INS-i و L-INS-i و E-INS-i)
  • كاتوه ، ميساوا ، كوما ، مياتا 2002 (الدقة الأحماض النووية.30:3059-3066)
    MAFFT: طريقة جديدة لمحاذاة التسلسل المتعدد السريع بناءً على تحويل فورييه السريع.
    (يصف استراتيجيات FFT-NS-1 و FFT-NS-2 و FFT-NS-i)

اتصل

[email protected]

غير متاح مؤقتًا منذ 2018 / فبراير / 7. إذا قمت بإرسال بريد إلكتروني إلى العنوان أعلاه ولكنك لم تتلق أي رد ، فأعد إرسال البريد الإلكتروني إلى:

[email protected]


إعدادات المشروع

يحتوي GeneDoc على مجموعة غنية من إعدادات تكوين المشروع. بينما يتم التحكم في بعض هذه الإعدادات من خلال القوائم ، يتم العثور على جميع الإعدادات في مربع حوار التكوين. يتم الوصول إلى مربع الحوار هذا إما من خلال قائمة المشروع أو شريط أدوات المشروع.

حوار التكوين

يحتوي مربع حوار التكوين على عشر علامات تبويب. تحتوي كل علامة تبويب على إعدادات GeneDoc المختلفة المتعلقة ببعضها البعض والموضحة بواسطة عنوان علامة التبويب. يمكن وضع وظائف علامة التبويب في ثلاث مجموعات ، إعداد المشروع والتحكم في الطباعة والتحكم في التظليل. علامة التبويب الأولى ، المشروع ، تتحكم في حجم الخط وخطوط الإجماع وحظر المحاذاة والإعدادات الأخرى التي تنطبق على كل شاشة. تتحكم علامة التبويب طباعة في هوامش الطابعة ورؤوس الصفحات والتذييلات والأرقام وما شابه ذلك. تحاكي علامة تبويب الظل الكثير من الإدخالات الموجودة في قائمة الظل ، مع بعض الإعدادات الأخرى لنمط التظليل المحفوظ والمحدد. توجد علامة تبويب تسجيل تسمح لك بتحديد جداول تسجيل DayHoff أو PAM ومجموعات الاستبدال التي تريد استخدامها. باقي علامات التبويب مخصصة للتحكم في أوضاع التظليل الفردية. توجد علامة تبويب للخصائص والخصائص الفيزيائية والكيميائية والبحث عن الأنماط واحتمالات السجل والهويات والبنية. يتم التحكم في جميع جوانب أوضاع العرض هذه من خلال علامات تبويب التكوين هذه. هنا يمكنك تغيير الألوان وإضافة الأنماط أو الخصائص وتحريرها وحذفها وتحميل ملفات البيانات لأوضاع العرض ، أيًا كان. لا علاقة لمربع حوار التكوين بترتيب التسلسل اليدوي ، على الرغم من أنه يمكن التحكم في إعدادات التسجيل هنا.

مربع حوار تحرير التسلسل

تحتوي قائمة المشروع أيضًا على مربع حوار تحرير التسلسلات. في مربع الحوار هذا ، يمكن إضافة التسلسلات أو استيرادها أو حذفها. يمكنك تكملة التسلسلات وعكسها وتكرارها هنا. يمكن إدخال تعليقات حول التسلسلات. يمكن تغيير الأوزان ، والتي يتم استخدامها بواسطة شاشات Log Odds.

مرفق تمليك المشروع

تحتوي قائمة المشروع أيضًا على تسهيلات الملكية. تمنحك ميزة منح الملكية طريقة ملائمة لإدخال التعليقات في أعلى ملف MSF. لا يتم حفظ هذه التعليقات في العنوان المشفر GeneDoc المعتاد ، ولكن فوقها في نص ascii ، بحيث يمكن لأي شخص أو أي برنامج الوصول إليها.

حفظ وتحميل افتراضيات المستخدم

حفظ وتحميل افتراضيات المستخدم هي طريقة لحفظ الإعدادات الحالية كإعدادات افتراضية لـ GeneDoc & # 8217s. يمكن تطبيق ذلك عند فتح ملف MSF لم يتم حفظه مسبقًا بواسطة GeneDoc. إذا كنت ترغب في تطبيق هذه الإعدادات على ملف به إعدادات GeneDoc ، ثم قم بتحميل الملف ثم استخدم تحميل افتراضيات المستخدم ، فستحل هذه الإعدادات محل أي إعدادات GeneDoc & # 8217s الحالية.


3. التحليل والمناقشة

كانت البيانات المستخدمة في هذه الدراسة عبارة عن 14 تسلسلًا للحمض النووي لمرضى مصابين بفيروس السارس برمز وصول بنك الجينات AY278489 و AY394997 و AY395004 و AY394978 و AY394983 و AY304495 و AY278554 و AY278741 و AY274119 و AY283794 و AY2949851 و AY283794 و AY2949851. ستة منها تم تحليلها في الورقة [12 أميروتش إس ، برادانا إم إس ، إيراوان مي ، مخلص 1. تحليل المحاذاة المتعددة على شجرة النشوء والتطور لانتشار وباء السارس باستخدام طريقة المسافة. J Phys Conf Ser 2017 890 (1)] ، ولكن في هذه الورقة تم تحليل 14 تسلسلًا للحمض النووي جنبًا إلى جنب مع التحسين باستخدام الخوارزميات الجينية. بعد تحليل المحاذاة المتعددة للحمض النووي للأمراض البشرية 14 مع فيروس السارس ، تم وصف النتائج التي تم الحصول عليها من خلال تحليل طوبولوجيا نظام الشبكة ، وطفرة منطقة أنظمة الشبكة ، وطفرات وضع نظام الشبكة بالتفصيل على النحو التالي:

3.1. تحليل طوبولوجيا نظام الشبكة

يتم إنتاج طوبولوجيا شبكة النظام من خلال المحاذاة المتعددة الناتجة ، وهي G (W)=<م ، الخامس ، دبليو> أين دبليو هي عقوبة وظيفية للنتيجة المحاذاة المتعددة حيث تستخدم المحاذاة الزوجية خوارزمية Needleman Wunsch التي تمت محاكاتها في Matlab كما هو موضح في واجهة قائمة المستخدم في الشكل. 3 ).

من المحاذاة كما هو معروض في الشكل ( 3 ) ، يمكن اشتقاق مصفوفة الجزاء على النحو التالي:

حيث تمثل A و B و C و D و E و F و G و H و I و J و K و L و N التسلسلات في مدن وتواريخ معينة على التوالي على النحو التالي قوانغتشو ، 16 ديسمبر 2002 تشونغشان ، 26 ديسمبر 2002 تشونغشان ، 4 يناير 2003 قوانغتشو ، 24 يناير 2003 مستشفى قوانغتشو قوانغتشو 2 فبراير 2003 متروبول ، 21 فبراير 2003 هانوي ، 26 فبراير 2003 تورنتو ، 27 فبراير 2003 سنغافورة ، 1 مارس 2003 تايوان ، 8 مارس 2003 هونغ كونغ ، 19 مارس 2003 هونغ كونغ ، 15 مايو 2003 ، وزباد النخيل. زباد النخيل هو نمس يُزعم أنه مضيف لوباء السارس [4 Isa Irawan M، Amiroch S. بناء شجرة النشوء والتطور باستخدام خوارزميات الانضمام المجاورة لتحديد المضيف وانتشار وباء السارس. J Theor Appl Inf Technol 2015 71 (3)]. تم عزل فيروسات السارس من قطط الزباد في جبال الهيمالايا الموجودة في سوق للحيوانات الحية في قوانغدونغ ، الصين. كما تم الكشف عن أدلة على الإصابة بالفيروس لدى البشر العاملين في نفس السوق. يتم رفع تسلسل زباد النخيل من هؤلاء المرضى [13 Guan Y، Zheng BJ، He YQ، وآخرون. عزل وتوصيف الفيروسات المتعلقة بفيروس السارس التاجي من الحيوانات في جنوب الصين العلم (80-) 302 (5643): 276-8.2003
[http://dx.doi.org/10.1126/science.1087139]]. يكتسب تحليل طوبولوجيا نظام الشبكة منطقة مستقرة [12 أميروتش إس ، برادانا إم إس ، إيراوان مي ، مخلص 1. تحليل المحاذاة المتعددة على شجرة النشوء والتطور لانتشار وباء السارس باستخدام طريقة المسافة. J Phys Conf Ser 2017 890 (1)] يخبرنا عن موضع النوكليوتيدات المماثل في محاذاة متعددة ، ومنطقة غير مستقرة تلتقط موضع النوكليوتيدات غير المتشابهة. تُعرف المنطقة غير المستقرة بين التسلسلات هنا بالطفرة. يمكن رؤية المناطق المستقرة وغير المستقرة في المحاذاة المتعددة لوباء السارس في الجدول 2 .

في الجدول 2 ، هناك 19 منصبًا تبدو مناطق غير مستقرة ، بنسبة 0.5٪. من الواضح أن جميع تسلسلات السارس DNA المدروسة لها تشابه كبير جدًا. يظهر عدد النيوكليوتيدات الطافرة في كل تسلسل بالتفصيل في الجدول 3 .

3.2 تحليل نظام شبكة الطفرة

التحليل التالي هو نظام شبكة الطفرات على محاذاة متعددة لوباء السارس. في هذا القسم ، المخطط التفصيلي هو كيفية إنشاء رسم بياني وشجرة ناتجة عن وباء السارس. يعرض الرسم البياني في الشكل (4) شجرة النشوء والتطور التي تخبر انتشار وباء السارس في مناطق معينة. يتم استخدام مصفوفة المسافة التي يتم تحويلها بعد ذلك إلى مصفوفة مسافة تطورية كمدخل لبناء شجرة النشوء والتطور. مصفوفة المسافة التي تم الحصول عليها من النوكليوتيدات الاختلافات بين أزواج من المتواليات في محاذاة متعددة. علاوة على ذلك ، قم بتحويل الاختلاف إلى مسافة تطورية عن طريق تصحيح أحداث متعددة لكل موقع باستخدام نموذج jukes cantor [14 Lemey P، Salemi M، Vandamme A-M. دليل علم الوراثة نهج عملي لتحليل النشوء والتطور واختبار الفرضيات ثانياً. نيويورك: مطبعة جامعة كامبريدج 142-81.2009
[http://dx.doi.org/10.1017/CBO9780511819049]]. فيما يلي نتائج محاكاة شجرة النشوء والتطور Matlab باستخدام خوارزمية ربط الجوار مع تصحيح المسافة Jukes Cantor.

في التين. ( 4 ) ، يبدو أن أقرب تسلسل إلى Palm Civet كمضيف [4 Isa Irawan M، Amiroch S. بناء شجرة النشوء والتطور باستخدام خوارزميات الانضمام المجاورة لتحديد المضيف وانتشار وباء السارس. J Theor Appl Inf Technol 2015 71 (3)] هو Zhongshan 26/12/02. ومع ذلك ، إذا لم يكن الاهتمام كثيرًا على المسافة الجينية من قوانغتشو 12/16/02 ، فيمكن الاستدلال بشكل معقول على مدى انتشار وباء السارس في قوانغتشو 16/12/02 ، ثم انتشر إلى تشونغشان 26/12/02 ، ثم في وقت واحد تقريبًا إلى قوانغتشو 02/18/03 ومستشفى قوانغتشو. من هناك ، استمر الفيروس في الانتشار إلى متروبول وتشونغشان وهونغ كونغ وسنغافورة وتايوان وهونغ كونغ وهانوي وقوانغتشو 24/01/03 وتورنتو في وقت واحد.

3.3 تحليل نظام الشبكة لوضع الطفرة

قبل شرح تحليل نظام الشبكة لوضع الطفرات ، من مصفوفة العقوبة ، يمكن تصور رسم بياني غير اتجاهي يوضح العلاقة بين طفرات التسلسل. يشير الترميز الموجود على العقدة إلى اسم التسلسل المشفر كأحرف أ ، ب. ن مع الرموز التي تمثل أسماء مناطق معينة كما هو مذكور من قبل.

يمكن عرض عدد الطفرات في الشكل. ( 5 />). كلما زادت سماكة الخطوط ، زاد حدوث الطفرة. كما ذكرنا ، ظهرت 19 طفرة في مناطق غير مستقرة على 14 تسلسلًا مختلفًا للحمض النووي لوباء السارس هذا. كما يظهر في الشكل. ( 5 />) ، تحدث بعض الطفرات فقط في الترتيب المتعامد القوسي لـ 1 ، على سبيل المثال في Δآبي، ΔABF، ΔABD، ΔAFD، ΔBFD وضع الطفرة حAE (طفرة في تسلسل قوانغتشو ، 16 ديسمبر 2002 إلى تورنتو ، 27 مارس 2003) ، طفرات الوضع حAB (الطفرات في تسلسل قوانغتشو ، 16 ديسمبر 2002 لتسلسل مستشفى قوانغتشو) ، وكذلك نمط الطفرة حيكون (طفرة في تسلسل مستشفى قوانغتشو لتسلسل تورونتو ، 27 مارس 2003).

في Δآبي تأثير: ومعامل الهيكل حAE, حAB, حيكون متعامد متبادل.

3.4. التحسين بواسطة الخوارزمية الجينية

نهج الخوارزمية الجينية للمحاذاة المتعددة في حالة وباء السارس محدد أدناه:

3.4.1. تعداد السكان

السكان الأوليون عبارة عن مصفوفة جزائية لنتيجة محاذاة متعددة لمحاذاة Needleman Wunsch مع استخدام المحاذاة التدريجية. نظرًا لأن جميع البيانات المستخدمة لها نفس طول التسلسل 3768 نقطة أساس ، وبالتالي فإن نتيجة المحاذاة المتعددة لا تحتوي على فجوة على الإطلاق.

3.4.2. دالة الهدف

الوظيفة الموضوعية المستخدمة في هذه الحالة هي درجة وزن نتائج MA Wunsch Needleman. دالة الهدف:

3.4.3. قيمة اللياقة

قيمة اللياقة هي قيمة الوظيفة الموضوعية:

بسبب انتشار وباء السارس ، أظهرت أقصر مسافة أقرب صلة ، بمعنى أقرب إلى المضيف ، ثم يتم أخذ قيمة اللياقة من أقل قيمة.

3.4.4. اختيار

استخدمت إجراءات الاختيار نهج روليت عجلة. تم اختيار كروموسوم واحد لإنتاج مجموعة سكانية جديدة ، وتم إنشاء عدد r عشوائيًا من النطاق [0،1] ، وتم لعب قرص الروليت 14 مرة.

3.4.5. Outcrossing (كروس)

في عملية العبور هذه ، يتم تقسيم التسلسل إلى عدة أجزاء. يُفترض الفصل لكل مضاعف لـ 500 ، لذلك بالنسبة للتسلسل الطويل البالغ 3768 نقطة أساس ، هناك 8 متواليات لحل الأجزاء. في هذه الأثناء ، تتم عملية الربط المتبادل بشكل عشوائي لكن احتمال عبور المعيار (Pج) ليكون 0.25. هذا يعني أنه مع القيم من المتوقع أن يكون متوسط ​​25 ٪ من الكروموسومات في السكان سيختبرون عبورًا.

3.4.6. طفره

احتمال الطفرة (صم) لتكون 0.01. هذا يعني أنه من المتوقع في المتوسط ​​أن 1٪ من إجمالي عدد البتات في المجتمع سيتغير.

في هذه الحالة 3768 × 14 = 52752 عندما يتم ضربها في 0.01 ، هذا يعني أن هناك 528 طفرة في جيل واحد.

3.4.6.1. السكان الأولي

المجموعة الأولية هي خوارزمية المحاذاة المتعددة مع خوارزمية Needleman Wunsch كما هو موضح سابقًا.

يتم عرض نتائج البرنامج في نافذة الأوامر في matlab. تتشابه التسلسلات الـ 14 في المجموعة الأولية بشكل كبير جدًا كما هو موضح في الشكل. ( 6 ).

3.4.6.2. نتيجة قيمة اللياقة

قبل حساب قيمة الملاءمة ، يتم حساب وزن MA من مصفوفة العقوبة. من مصفوفة الوزن ، يتم حساب درجة كل تسلسل. تم الاسترجاع:

تقييم (v_1) = 124 تقييم (v_6) = 64 تقييم (v_11) = 46

تقييم (v_2) = 102 تقييم (v_7) = 46 تقييم (v_12) = 46

تقييم (v_3) = 46 تقييم (v_8) = 58 تقييم (v_13) = 70

تقييم (v_4) = 58 تقييم (v_9) = 58 تقييم (v_14) = 112

تقييم (v_5) = 52 تقييم (v_10) = 46

من القيم المذكورة أعلاه ، فإن أقوى كروموسوم هو الكروموسوم ذو القيمة الأقرب v_14 (زباد النخيل ، مضيف وباء السارس) ، أي كروموسوم v_1. وأضعف كروموسوم هو الكروموسوم صاحب القيم الأصغر ، بمعنى آخر.، و هو v_7, v_10 ، v_11، و الإصدار_12.

3.4.6.3. نتيجة الاختيار

للجيل الأول من العملية الناتجة ، يتم الحصول على قرص عجلة روليت التحديد كما في الجدول 4 .

ثم يتم تدوير القرص 14 مرة بشكل عشوائي في النطاق [0،1] ، ويفترض أن تكون القيمة العشوائية هي قيمة ص في كل مرة من وقت التناوب

أخيرًا ، بعد اكتمال الاختيار ، يتم إنشاء مجموعة سكانية جديدة (كروموسومات أبوية محتملة) ، تتكون من كروموسومات من التسلسلات 1 ، 2 ، 3 ، 7 ، 8 ، 9 ، 13 ، والتسلسل 14.

3.4.6.4. نتيجة التقاطع

في عملية التقاطع هذه ، سيتم كسر التسلسل عند أي مضاعف لـ 500. يتم تعيين احتمال التقاطع على 0.25 وبناءً على التوليد العشوائي في النطاق [0،1] ، يتم تحديد التسلسل 2 والتسلسل 8 للتخطي. لذلك تم كسر التسلسل في المواضع 500 و 1000 و 1500 وما إلى ذلك.

3.4.6.5. نتيجة الطفرة

سوف تحل عملية الطفرة محل واحد أو أكثر من الجينات بفرصة مساوية لاحتمال الطفرة. تشير الطفرة إلى تغيير أحد النوكليوتيدات إلى نيوكليوتيدات أخرى. بعد عملية التقاطع على التسلسل 2 والتسلسل 8 ، كان لدى السكان النهائيين في الجيل الأول طفرات في التسلسلات 5 و 8 و 12 و 14 كما في الجدول 5 . يتم تفصيل عدد الطفرات في التسلسل المعني على النحو التالي:

وهكذا تتكرر العملية مرارًا وتكرارًا حتى تقترب قطعة من قيم اللياقة من الثابت.

3.4.6.6. قطع من النتائج القيمة للياقة البدنية

يتم تنفيذ نتائج التكرارات حتى الجيل العاشر لأنه بالنسبة لعدد أكبر من الأجيال ، فإن النظام ليس داعمًا بعد. تظهر القيم الأخيرة التي تم الحصول عليها في التكرار العاشر كما في الجدول 6 .

لذلك يمكن عرض مخطط قيم اللياقة للأجيال العاشرة بناءً على النتائج التي تم الحصول عليها في الشكل. (7).

تين. ( 7 ) يبدو أن النتيجة لا تزال بعيدة عن التقارب لذا يجب تكرارها مرة أخرى حتى تصبح النتيجة قريبة من الثبات.


نتائج ومناقشة

نقوم بتقييم CMSA باستخدام تسلسلات rRNA 16 ثانية على محطة عمل CPU / GPU غير متجانسة. في هذا القسم ، نقدم أولاً البيئات التجريبية ثم نقوم بتقييم كفاءة CMSA وقابليتها للتوسع جنبًا إلى جنب مع الخوارزمية القائمة على الصور النقطية. أخيرًا ، نقارن CMSA ببعض أدوات MSA الحديثة.

الإعداد التجريبية

منصة تجريبية

يتم إجراء التجارب على منصة CPU / GPU غير متجانسة ، والتي تحتوي على ذاكرة وصول عشوائي (RAM) بسعة 32 جيجابايت ، ومعالج Intel Xeon E5-2620 بسرعة 2.4 جيجاهرتز وبطاقة رسومات NVIDIA Tesla K40. يتم تثبيت Centos 6.5 ويستخدم CUDA Toolkit 6.5 لتجميع البرنامج. تتكون وحدة المعالجة المركزية من 12 نواة. يتم عرض المواصفات التفصيلية لـ Tesla K40 في الجدول 3.

مجموعات البيانات

BALiBASE صغير ومناسب فقط لمحاذاة البروتين. نظرًا لعدم وجود مجموعات بيانات معيارية تحتوي على تسلسلات DNA / RNA واسعة النطاق ، فإننا نستخدم جينومات الميتوكوندريا البشرية (جينومات mt) و 16 rRNA. غالبًا ما تُستخدم متواليات الرنا الريباسي 16s لاستنتاج العلاقات التطورية ولتمييز الأنواع في تحليلات الجينوم البيئي الميكروبي (Hao et al. ، 2011). يتم الحصول على جميع التسلسلات من قاعدة بيانات GenBank التابعة لـ NCBI (http://www.ncbi.nlm.nih.gov/pubmed). جينومات الجبل هي مجموعة بيانات متشابهة للغاية. لمعالجة تسلسل الحمض النووي / الحمض النووي الريبي ذات التشابه المنخفض ، اختبرنا أيضًا برنامجنا على الرنا الريباسي 16 ثانية. قمنا بتصنيف تسلسلات الرنا الريباسي 16 ثانية هذه إلى ثلاث مجموعات بيانات وفقًا لمتوسط ​​أطوالها ، المسماة D1 و D2 و D3 ، على التوالي ، كما هو موضح في الجدول 4.

المقاييس

غالبًا ما يتم اختيار مجموع نقاط الزوج (SP) لقياس دقة المحاذاة. نقاط SP هي مجموع كل نقاط محاذاة زوجية من MSA. ولكن بالنسبة لمجموعات البيانات كبيرة الحجم ، فقد تكون كبيرة جدًا وتتجاوز حدود الكمبيوتر. وبالتالي فإننا نستخدم متوسط ​​قيمة SP ، والذي يقسم ببساطة قيمة SP على عدد التسلسلات ، n. يمكن لمتوسط ​​SP أيضًا وصف أداء المحاذاة. في الاختبارات التجريبية ، هناك برنامج ، " بالي_نتيجة"، الذي تم تنزيله من اختبار Balibase (http://www.lbgi.fr/balibase/) لمقارنة نتائج المحاذاة.

خطوط الأساس

لإظهار كفاءة ودقة CMSA ، نقارن CMSA بأحدث أدوات MSA بما في ذلك Kalign و MAFFT و HAlign. لا تستطيع معظم برامج MSA الحديثة التعامل مع مجموعات البيانات واسعة النطاق. بالترتيب مع حجم معالجة البيانات ، هذه الأدوات هي T-Coffee (صغير) ، CLUSTAL (متوسط) ، MAFFT (متوسط ​​كبير) و Kalign (كبير) ، على النحو الذي اقترحه EMBL-EBI. لذلك ، تم اعتماد MAFFT ، Kalign v2. إلى جانب ذلك ، HAlign هو أحدث البرامج التي تستخدم استراتيجية نجمة المركز. لذلك ، نستخدم HAlign و MAFFT و Kalign v2 كمعايير ، ويتم استخدام المعلمات الافتراضية لـ Kalign v2 و MAFFT و HAlign. لمقارنة أكثر إنصافًا ، يتم إجراء جميع التجارب على عقدة واحدة.

خوارزمية تعتمد على الصورة النقطية لاختيار التسلسل المركزي

كما ناقشنا في قسم "إستراتيجية مركز النجم" ، يعتمد كل من HAlign و CMSA على إستراتيجية نجمة المركز. يستخدم HAlign خوارزمية قائمة على شجرة الإطارات للعثور على التسلسل المركزي بينما يستخدم CMSA خوارزمية تعتمد على الصورة النقطية. لتقييم الخوارزمية الجديدة المقترحة لدينا ، نقارن أولاً وقت تشغيل المرحلة الأولى من HAlign و CMSA. ثم نقوم بتنفيذ الخطوات التالية باستخدام التسلسل المركزي المحدد بواسطة HAlign ومقارنة نتائجه مع نتائجنا. بالإضافة إلى مجموعات البيانات الخاصة بنا ، نقوم أيضًا باختبار HAlign و CMSA على مجموعة بيانات جينومات الميتوكوندريا البشرية (التي تحمل علامة MT) ، والتي تُستخدم في تجارب HAlign. مجموعة بيانات جينوم الميتوكوندريا البشرية هي مجموعة بيانات متشابهة للغاية. لديها ما مجموعه 672 جينوم ميتوكوندريا بشري كما هو موضح في الجدول 4.

يوضح الجدول 5 وقت التشغيل ودرجة النقاط الذهنية لـ HAlign و CMSA (CPU) بناءً على خوارزميات مختلفة لاختيار تسلسل المركز. لتحقيق الإنصاف ، تم اختبار HAlign على عقدة واحدة فقط. التسلسل المركزي الموضح في الجدول هو فهرس التسلسلات على أساس الصفر. كما نرى ، يعد CMSA أسرع بكثير من HAlign في جميع التجارب نظرًا لأن الخوارزمية القائمة على الصورة النقطية لديها تعقيد زمني أقل (ا(مليون)). أيضًا ، تنفد ذاكرة HAlign عند حساب مجموعة البيانات D3 مع 5000 تسلسل. عند معالجة مجموعة البيانات D2 ذات 1000 تسلسل ومجموعة البيانات D3 مع 1000 تسلسل ، تجد HAlign و CMSA نفس تسلسل المركز. باستثناء هذين الاختبارين ، يصل HAlign و CMSA إلى نتيجة مختلفة. وعند فحص متوسط ​​درجة النقاط الذهنية ، يكون أداء CMSA أفضل من HAlign. إلى جانب ذلك ، يحدث متوسط ​​درجة النقاط الذهنية الأفضل مع مجموعات البيانات ذات التشابه العالي. وبالتالي يمكننا أن نستنتج أن الخوارزمية الجديدة المستخدمة لإيجاد التسلسل المركزي تتسم بالكفاءة والدقة مع التشابه العالي والمنخفض.

الكفاءة وقابلية التوسع

كدليل على كيفية قياس CMSA مع حجم مجموعة البيانات ، يوضح الشكل 3 أ وقت تشغيل CMSA على مجموعات البيانات الثلاث الموضحة في الجدول 4. ومن الواضح أنه كلما زاد متوسط ​​الطول ، زاد الوقت الذي سيكلفه. علاوة على ذلك ، في جميع مجموعات البيانات الثلاث ، يرتفع وقت التشغيل خطيًا مع زيادة عدد التسلسلات ، مما يدل على قابلية كبيرة للتوسع لـ CMSA. يوضح الشكل 3 ب تسريع نفس التجارب. لم يتم تحقيق أفضل تسريع في البداية لأنه مع وجود عدد قليل من التسلسلات ، فإن وقت تشغيل الحساب المسبق والتهيئة يشكلان نسبة كبيرة. مع زيادة عدد التسلسلات ، سيهيمن الحساب الحقيقي على معظم وقت التشغيل ، والذي بدوره يُبلغ عن تسريع أفضل.

تجارب على مجموعات بيانات بعدد مختلف من التسلسلات. تمثل D1 و D2 و D3 ثلاثة أنواع من مجموعات البيانات الموضحة في الجدول 4. أ وقت الجري و ب اسرع

لقد اختبرنا CMSA (CPU / GPU) بأعداد مختلفة من التسلسلات (متوسط ​​الطول: 252). يوضح الجدول 6 نسبة عبء العمل (R) الموضحة في قسم "توزيع عبء العمل". من الجدول ، قيم نسبة عبء العمل متشابهة ، ومتوسط ​​نسبة عبء العمل لوحدة معالجة الرسومات ووحدة المعالجة المركزية هو 1.420. يمكننا أن نؤكد أن CMSA لديها طريقة جيدة لتوزيع عبء العمل لوحدة المعالجة المركزية ووحدة معالجة الرسومات.

مقارنة بأحدث الأدوات

لإظهار كفاءة ودقة CMSA ، نقارن CMSA بأحدث أدوات MSA. في هذه المجموعة ، يتم اختبار كل من CMSA (CPU) و CMSA (CPU / GPU).

يوضح الجدول 7 الوقت المستغرق لثلاث مجموعات بيانات مع عدد مختلف من التسلسلات المحسوبة. في تجاربنا ، لا يستطيع Kalign التعامل مع مجموعات البيانات التي تتكون من أكثر من 100000 تسلسل. يعمل MAFFT بدون مشكلة ، ولكنه يستغرق الكثير من الوقت ، على سبيل المثال 18 ساعة لـ D1 مع 100000 تسلسل وأكثر من 24 ساعة لـ D2 و D3 مع 100000 تسلسل. لذلك لا نسجل وقت التشغيل الدقيق لـ CMSA لـ D2 و D3 مع أكثر من 100000 تسلسل. بالمقارنة ، يمكن لكل من HAlign و CMSA التعامل مع جميع مجموعات البيانات في وقت مقبول. Moreover, in all experiments, CMSA is the fastest one and also the one having the best scalability as the number of sequences increases. When computing D3, CMSA is 13× faster than HAlign when the dataset size is 10,000 and 24× faster when the size increases to 500,000.

Table 8 shows the comparison result of average SP scores for 16 s rRNA datasets. From Table 8, we can observe that MAFFT produced better alignment results than other state-of-the-art MSA softwares when addressing the large-scale datasets. The average SP of CMSA was lower than that of MAFFT and higher than that of HAlign. Therefore, we confirm the robustness of CMSA, whether with large-scale or small datasets.


Aligning multiple sequences in heterogeneous group - Biology

Your basket is currently empty. i <p>When browsing through different UniProt proteins, you can use the 'basket' to save them, so that you can back to find or analyse them later.<p><a href='/help/basket' target='_top'>More. </a></p>

Select item(s) and click on "Add to basket" to create your own collection here
(400 entries max)

Sequence alignments

Last modified April 10, 2018

حدد ملف محاذاة tab of the toolbar to align two or more protein sequences with the Clustal Omega program (cf also this ClustalO FAQ):

  1. Enter either protein sequences in FASTA format or UniProt identifiers into the form field.
  2. انقر على Run Align زر.

The following kinds of UniProt identifiers are supported:

P00750 UniProtKB entry
P00750-2 UniProtKB entry isoform sequence
A4_HUMAN UniProtKB entry name
UPI0000000001 UniParc entry
UniRef100_P00750 UniRef entry

To limit the range within a sequence, append the range in square brackets to the identifier. For example, P00750[1-10] represents the first ten amino acids of P00750.

Instead of entering identifiers into the form, you can collect sequences by clicking into the checkboxes next to them. Once two or more sequences have been marked, the Run Align button becomes available:

Similarly, you can align the sequences that you have collected into your basket.

After you have submitted your data, a status page is shown. This page is reloaded in regular intervals until the alignment is complete. The final result page shows a colored version of the alignment and allows to download in Clustal format.

  • An * (asterisk) indicates positions which have a single, fully conserved residue.
  • A : (colon) indicates conservation between groups of strongly similar properties - scoring > 0.5 in the Gonnet PAM 250 matrix.
  • أ . (period) indicates conservation between groups of weakly similar properties - scoring =< 0.5 in the Gonnet PAM 250 matrix.

Jobs have unique identifiers, which (depending on the job type) can be used in queries (e.g. to get the intersection of two sequence similarity searches). Job identifiers and the related data are kept for 7 days, and are then deleted.

To add sequences to your alignment, a text box just after the alignment results allows you to do so, in FASTA format:

To rerun the alignment with fewer sequences, check the box for "Result info" under "Display", and scroll down to the bottom of the page. Use the checkboxes to select the sequences you want to realign:

If you want to use another sequence alignment service, click on the تحميل instead of the محاذاة button to download the sequences, or copy the sequences from the form in the result page.

'Annotation' and 'Amino acid properties' highlighting options are available on the left column. This allows to highlight key regions in the sequence alignment.


مراجع

Breitkreutz, B.-J. وآخرون. The BioGRID interaction database: 2008 update. بحوث الأحماض النووية 36, D637–D640 (2008).

Bamford, S. وآخرون. The COSMIC (Catalogue of Somatic Mutations in Cancer) database and website. British journal of cancer 91, 355 (2004).

de Magalhães, J. P. Aging research in the post-genome era: New technologies for an old problem. Redox Metabolism and Longevity Relationships in Animals and Plants. Taylor and Francis, New York and Abingdon 99–115 (2009).

Hulovatyy, Y., Solava, R. W. & Milenković, T. Revealing missing parts of the interactome via link prediction. PloS ONE 9, e90073 (2014).

Sharan, R. & Ideker, T. Modeling cellular machinery through biological network comparison. التكنولوجيا الحيوية الطبيعة 24 (2006).

Faisal, F. E., Meng, L., Crawford, J. & Milenković, T. The post-genomic era of biological network alignment. EURASIP Journal on Bioinformatics and Systems Biology 2015, 3 (2015).

Emmert-Streib, F., Dehmer, M. & Shi, Y. Fifty years of graph matching, network alignment and network comparison. Information Sciences 346, 180–197 (2016).

Elmsallati, A., Clark, C. & Kalita, J. Global alignment of protein-protein interaction networks: A survey. IEEE/ACM Transactions on Computational Biology and Bioinformatics 13, 689–705 (2016).

Guzzi, P. H. & Milenković, T. Survey of local and global biological network alignment: the need to reconcile the two sides of the same coin. إحاطات في المعلوماتية الحيوية 19, 472–481 (2017).

Berg, J. & Lässig, M. Local graph alignment and motif search in biological networks. وقائع الأكاديمية الوطنية للعلوم بالولايات المتحدة الأمريكية 101, 14689–14694 (2004).

Berg, J. & Lässig, M. Cross-species analysis of biological networks by bayesian alignment. وقائع الأكاديمية الوطنية للعلوم 103, 10967–10972 (2006).

Flannick, J., Novak, A., Srinivasan, B. S., McAdams, H. H. & Batzoglou, S. Graemlin: general and robust alignment of multiple large interaction networks. أبحاث الجينوم 16, 1169–1181 (2006).

Kelley, B. P. وآخرون. PathBLAST: a tool for alignment of protein interaction networks. بحوث الأحماض النووية 32, W83–W88 (2004).

Koyutürk, M. وآخرون. Pairwise alignment of protein interaction networks. Journal of Computational Biology 13, 182–199 (2006).

Liang, Z., Xu, M., Teng, M. & Niu, L. NetAlign: a web-based tool for comparison of protein interaction networks. المعلوماتية الحيوية 22, 2175–2177 (2006).

Sharan, R. وآخرون. Conserved patterns of protein interaction in multiple species. وقائع الأكاديمية الوطنية للعلوم بالولايات المتحدة الأمريكية 102, 1974–1979 (2005).

Ciriello, G., Mina, M., Guzzi, P. H., Cannataro, M. & Guerra, C. AlignNemo: a local network alignment method to integrate homology and topology. PloS ONE 7, e38107 (2012).

Mina, M. & Guzzi, P. H. Improving the robustness of local network alignment: design and extensive assessment of a markov clustering-based approach. IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB) 11, 561–572 (2014).

Faisal, F. E., Zhao, H. & Milenković, T. Global network alignment in the context of aging. IEEE/ACM Transactions on Computational Biology and Bioinformatics 12, 40–52 (2015).

Flannick, J., Novak, A., Do, C., Srinivasan, B. & Batzoglou, S. Automatic parameter learning for multiple network alignment. في Research in Computational البيولوجيا الجزيئية, 214–231 (Springer, 2008).

Klau, G. W. A new graph-based method for pairwise global network alignment. BMC bioinformatics 10, S59 (2009).

Kuchaiev, O. & Pržulj, N. Integrative network alignment reveals large regions of global network similarity in yeast and human. المعلوماتية الحيوية 27, 1390–1396 (2011).

Kuchaiev, O., Milenković, T., Memišević, V., Hayes, W. & Pržulj, N. Topological network alignment uncovers biological function and phylogeny. Journal of the Royal Society Interface rsif20100063 (2010).

Liao, C.-S., Lu, K., Baym, M., Singh, R. & Berger, B. IsoRankN: spectral methods for global alignment of multiple protein networks. المعلوماتية الحيوية 25, i253–i258 (2009).

Milenković, T., Ng, W. L., Hayes, W. & Pržulj, N. Optimal network alignment with graphlet degree vectors. Cancer informatics 9, 121 (2010).

Narayanan, A., Shi, E. & Rubinstein, B. I. Link prediction by de-anonymization: How we won the Kaggle social network challenge. في Neural Networks (IJCNN), The 2011 International Joint Conference on, 1825–1834 (IEEE, 2011).

Neyshabur, B., Khadem, A., Hashemifar, S. & Arab, S. S. NETAL: a new graph-based method for global alignment of protein–protein interaction networks. المعلوماتية الحيوية 29, 1654–1662 (2013).

Patro, R. & Kingsford, C. Global network alignment using multiscale spectral signatures. المعلوماتية الحيوية 28, 3105–3114 (2012).

Singh, R., Xu, J. & Berger, B. Pairwise global alignment of protein interaction networks by matching neighborhood topology. في Research in Computational Molecular Biology, 16–31 (Springer, 2007).

Singh, R., Xu, J. & Berger, B. Global alignment of multiple protein interaction networks with application to functional orthology detection. وقائع الأكاديمية الوطنية للعلوم 105, 12763–12768 (2008).

Zaslavskiy, M., Bach, F. & Vert, J.-P. Global alignment of protein–protein interaction networks by graph matching methods. المعلوماتية الحيوية 25, i259–1267 (2009).

Meng, L., Striegel, A. & Milenković, T. Local versus global biological network alignment. المعلوماتية الحيوية 32, 3155–3164 (2016).

Meng, L., Crawford, J., Striegel, A. & Milenkovic, T. IGLOO: Integrating global and local biological network alignment. arXiv preprint arXiv:1604.06111 (2016).

Vijayan, V. & Milenković, T. Multiple network alignment via multiMAGNA++. IEEE/ACM Transactions on Computational Biology and Bioinformatics ص, https://doi.org/10.1109/TCBB.2017.2740381 (2017).

Vijayan, V., Krebs, E., Meng, L. & Milenkovic, T. Pairwise versus multiple network alignment. arXiv preprint arXiv:1709.04564 (2017).

Sun, Y., Crawford, J., Tang, J. & Milenković, T. Simultaneous optimization of both node and edge conservation in network alignment via WAVE. Lecture Notes in Computer Science Algorithms in Bioinformatics, 16–39 (2015).

Milenković, T. & Pržlj, N. Uncovering biological network function via graphlet degree signatures. Cancer Informatics 6, https://doi.org/10.4137/cin.s680 (2008).

Vijayan, V., Saraph, V. & Milenković, T. MAGNA++: Maximizing accuracy in global network alignment via both node and edge conservation. المعلوماتية الحيوية 31, 2409–2411 (2015).

Mamano, N. & Hayes, W. B. SANA: simulated annealing far outperforms many other search algorithms for biological network alignment. المعلوماتية الحيوية 33, 2156–2164 (2017).

Gligorijević, V. & Pržulj, N. Methods for biological data integration: perspectives and challenges. Journal of the Royal Society Interface 12, 20150571 (2015).

Wu, X., Liu, Q. & Jiang, R. Align human interactome with phenome to identify causative genes and networks underlying disease families. المعلوماتية الحيوية 25, 98–104 (2009).

Gligorijević, V., Malod-Dognin, N. & Pržlj, N. Fuse: multiple network alignment via data fusion. المعلوماتية الحيوية 32, 1195–1203 (2016).

Nassar, H. & Gleich, D. F. Multimodal network alignment. Proceedings of the 2017 SIAM International Conference on Data Mining, 615–623 (2017).

Yaveroğlu, Ö. N., Milenković, T. & Pržulj, N. Proper evaluation of alignment-free network comparison methods. المعلوماتية الحيوية 31, 2697–2704 (2015).

Solava, R. W., Michaels, R. P. & Milenković, T. Graphlet-based edge clustering reveals pathogen-interacting proteins. المعلوماتية الحيوية 28, i480–i486 (2012).

Faisal, F. E. & Milenković, T. Dynamic networks reveal key players in aging. المعلوماتية الحيوية 30, 1721–1729 (2014).

Wang, X.-D. وآخرون. Identification of human disease genes from interactome network using graphlet interaction. بلوس واحد 9, e86142 (2014).

Singh, O., Sawariya, K. & Aparoy, P. Graphlet signature-based scoring method to estimate protein–ligand binding affinity. الجمعية الملكية للعلوم المفتوحة 1, 140306 (2014).

Vacic, V., Iakoucheva, L. M., Lonardi, S. & Radivojac, P. Graphlet kernels for prediction of functional residues in protein structures. Journal of Computational Biology 17, 55–72 (2010).

Malod-Dognin, N. & Pržulj, N. GR-Align: fast and flexible alignment of protein 3D structures using graphlet degree similarity. المعلوماتية الحيوية 30, 1259–1265 (2014).

Hermjakob, U. Improved word alignment with statistics and linguistic heuristics. Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing 1, 229–237 (2009).

Penrose, M. Random geometric graphs. 5 (Oxford University Press, 2003).

Barabási، A.-L. & amp Albert، R. ظهور التدرج في الشبكات العشوائية. علم 286, 509–512 (1999).

Milenković, T., Lai, J. & Pržulj, N. GraphCrunch: a tool for large network analyses. المعلوماتية الحيوية BMC 9, 70 (2008).

Berchtold, N. C. وآخرون. Gene expression changes in the course of normal brain aging are sexually dimorphic. وقائع الأكاديمية الوطنية للعلوم 105, 15605–15610 (2008).

Simpson, J. E. وآخرون. Microarray analysis of the astrocyte transcriptome in the aging brain: relationship to Alzheimer’s pathology and APOE genotype. Neurobiology of Aging 32, 1795–1807 (2011).

Ashburner, M. وآخرون. Gene Ontology: tool for the unification of biology. Nature genetics 25, 25 (2000).

Mazandu, G. K. & Mulder, N. J. DaGO-Fun: tool for Gene Ontology-based functional analysis using term information content measures. BMC bioinformatics 14, 284 (2013).

Hočevar, T. & Demšar, J. A combinatorial approach to graphlet counting. المعلوماتية الحيوية 30, 559–565 (2014).

Marcus, D. & Shavitt, Y. RAGE–a rapid graphlet enumerator for large networks. Computer Networks 56, 810–819 (2012).

Rahman, M., Bhuiyan, M. A. & Al Hasan, M. Graft: An efficient graphlet counting method for large graph analysis. IEEE Transactions on Knowledge and Data Engineering 26, 2466–2478 (2014).

Ahmed, N. K., Neville, J., Rossi, R. A. & Duffield, N. Efficient graphlet counting for large networks. In Data Mining (ICDM), 2015 IEEE International Conference on, 1–10 (IEEE, 2015).

Grover, A. & Leskovec, J. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 855–864 (ACM, 2016).

Dong, Y., Chawla, N. V. & Swami, A. metapath2vec: Scalable representation learning for heterogeneous networks. في Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 135–144 (ACM, 2017).

Vijayan, V., Critchlow, D. & Milenković, T. Alignment of dynamic networks. المعلوماتية الحيوية 33, i180–i189 (2017).

Vijayan, V. & Milenković, T. Aligning dynamic networks with DynaWAVE. المعلوماتية الحيوية 34, 1795–1798 (2017).

Cannistraci, C. V., Alanis-Lobato, G. & Ravasi, T. Minimum curvilinearity to enhance topological prediction of protein interactions by network embedding. المعلوماتية الحيوية 29, 199–209 (2013).

Saraph, V. & Milenković, T. MAGNA: maximizing accuracy in global network alignment. المعلوماتية الحيوية 30, 2931–2940 (2014).


Prediction of Mutational Effects

The mutational fitness landscape provides deep insight into biology. Coupling next-generation sequencing with a mutagenesis screen allows parallel readout of tens of thousands of variants of a single protein (62). The detail and coverage of these experiments provides a view into the mutational fitness landscape of individual proteins, giving quantitative relationships between sequence and protein function. We adapt the Transformer protein language model to predict the quantitative effect of mutations.

First, we investigate intraprotein variant effect prediction, where a limited sampling of mutations is used to predict the effect of unobserved mutations. This setting has utility in protein engineering applications (63). We evaluate the representations on two deep mutational scanning datasets used by recent state-of-the-art methods for variant effect prediction, Envision (64) and DeepSequence (26). Collectively, the data includes over 700,000 variant effect measurements from over 100 large-scale experimental mutagenesis datasets.

Fine-tuning the Transformer yields a mutational effect predictor that is comparable to the results of Envision. Envision (64) relies on protein structural and evolutionary features to generalize. We assess whether the Transformer can achieve similar generalization results without direct access to structural features. The same methodology for partitioning data for training and evaluation is used as in Gray et al. (64) to allow a comparison of the results. We use the 34-layer Transformer trained on UR50/S. Fig. 7 shows the fine-tuned Transformer exceeds the performance of Envision on 10 of the 12 proteins. For each protein, a fraction p = 0.8 of the data are used for training, and the remaining data are used for testing. We report mean and SDs for fivefold cross validation in الملحق SI, Table S5. Results varying the fraction of data that is used for training are reported in الملحق SI, Fig. S5.

Representation learning enables state-of-the-art supervised prediction of the quantitative effect of mutations. (اليسار) Envision dataset (65). (حق) DeepSequence dataset (26). Transformer representations (34-layer, UR50/S) are compared to the LSTM bidirectional language model (large model, UR50/S). The result of fivefold cross validation is reported for each protein. For each partition, supervised fine-tuning is performed on 80% of the mutational data for the protein, and results are evaluated on the remaining 20%. Transformer representations outperform baseline LSTM representations on both datasets. State-of-the-art methods are also shown for each dataset. Gray et al. (65) is a supervised method using structural, evolutionary, and biochemical features, trained with the same protocol as used for the Transformer. Riesselman et al. (26) is an unsupervised method trained on the MSA of each protein. Mean and SD across the five partitions for Transformer model and LSTM baseline.

We also evaluate using the same fivefold cross validation methodology on the deep mutational scanning experiments assembled for DeepSequence (26). The fine-tuned Transformer model outperforms the fine-tuned LSTM baselines. While not directly comparable, we also include the performance of the original DeepSequence method, which is unsupervised and represents state of the art for this dataset.

Generalization to a New Fitness Landscape.

We analyze the Transformer’s ability to generalize to the fitness landscape of a new protein. Following the protocol introduced in Envision, we use a leave-one-out analysis: to evaluate performance on a given protein, we train on data from the remaining n − 1 proteins and test on the held-out protein. الملحق SI, Fig. S6 shows that the Transformer’s predictions from raw sequences perform better than Envision on five of the nine tasks.


LocARNA - Alignment & Folding

LocARNA is a tool for multiple alignment of RNA molecules. يتطلب LocARNA تسلسلات RNA فقط كمدخلات وسيقوم في نفس الوقت بطي ومحاذاة تسلسل الإدخال. Specifications of additional constraints or fixed input structures are possible. ينتج LocARNA محاذاة متعددة مع بنية إجماع. For the folding it makes use of a very realistic energy model for RNAs as it is by RNAfold of the Vienna RNA package (or Zuker's mfold). بالنسبة للمحاذاة ، فهي تتميز بتسجيل تشابه يشبه الريبوسوم وتكلفة فجوة واقعية. The LocARNA software is available for download as part of the LocARNA package (GPL 3).

For articles describing the tool and webserver refer to the reference section below. Please cite us when using our tools.
For more information check the help page.

  • snoRNAs with constraints (input|result)
  • tRNA alignment with fixed structure (input|result)
  • tRNA alignment (input|result)
  • RNA Boundaries with LocARNA-P (input|result)


شاهد الفيديو: icdl word arabic محاذاة الفقرة واتجاه الفقرة (كانون الثاني 2022).