معلومة

7.3: سلاسل ماركوف و HMMS - من المثال إلى الشكل الرسمي - علم الأحياء


مثال محفز: التنبؤ بالطقس

لطالما كان التنبؤ بالطقس صعبًا ، خاصةً عندما نرغب في التنبؤ بالطقس بعد عدة أيام أو أسابيع أو حتى أشهر. ومع ذلك ، إذا احتجنا فقط إلى التنبؤ بالطقس في اليوم التالي ، فيمكننا الوصول إلى دقة تنبؤ لائقة باستخدام بعض النماذج البسيطة جدًا مثل Markov Chain و Hidden Markov Model من خلال بناء نماذج رسومية في الشكل 7.2.

بالنسبة لنموذج Markov Chain الموجود على اليسار ، يمكن لأربعة أنواع من الطقس (الشمس والمطر والغيوم والثلج) الانتقال مباشرة من نوع إلى آخر. هذا هو "ما تراه هو ما تحصل عليه" في أن الحالة التالية تعتمد فقط على الحالة الحالية ولا توجد ذاكرة للحالة السابقة. ومع ذلك ، بالنسبة إلى HMM على اليمين ، يتم تصميم جميع أنواع الطقس على أنها انبعاث (أو نتيجة) للمواسم الخفية (الصيف والخريف والشتاء والربيع). الفكرة الرئيسية وراء ذلك هي أن الحالات المخفية في العالم (مثل الموسم أو نظام العاصفة) تحدد احتمالات الانبعاث بينما تخضع انتقالات الحالة لسلسلة ماركوف.

إضفاء الطابع الرسمي على سلسلة ماركوف و HMMS

لإلقاء نظرة فاحصة على نموذج ماركوف المخفي ، دعنا أولاً نحدد المعلمات الرئيسية في الشكل 7.3. يمثل المتجه x تسلسل الملاحظات. يمثل المتجه π المسار المخفي ، وهو تسلسل الحالات المخفية. كل إدخال أكوالا لمبور من مصفوفة الانتقال A تشير إلى احتمال الانتقال من الحالة k إلى الحالة l. كل إدخال هك(xأنا) من ناقلات الانبعاث تشير إلى احتمال مراقبة xأنا من دولة ك. وأخيرًا باستخدام هذه المعلمات وقاعدة بايز ، يمكننا استخدام p (xأنا| πأنا = ك) لتقدير ص (πأنا = ك | سأنا).

سلاسل ماركوف

يتم إعطاء سلسلة ماركوف من خلال مجموعة محدودة من الحالات واحتمالات الانتقال بين الدول. في كل خطوة زمنية ، تكون سلسلة ماركوف في حالة معينة وتخضع للانتقال إلى حالة أخرى. يعتمد احتمال الانتقال إلى حالة أخرى على الحالة الحالية فقط ، وبشكل خاص مستقل عن كيفية الوصول إلى الحالة الحالية. بشكل أكثر رسمية ، سلسلة ماركوف هي ثلاثية (Q ، p ، A) تتكون من:

مجموعة من الدول Q.

  • مصفوفة انتقالية A تتوافق عناصرها مع احتمال Aij للانتقال من الحالة i إلى الحالة j.
  • متجه p لاحتمالات الحالة الأولية.

الخاصية الرئيسية لسلاسل Markov هي أنها تفتقر إلى الذاكرة ، أي أن كل ولاية تعتمد فقط على الحالة السابقة. لذلك يمكننا تحديد احتمالية للحالة التالية على الفور ، بالنظر إلى الحالة الحالية:

[P left (x_ {i} mid x_ {i-1}، ldots، x_ {1} right) = P left (x_ {i} mid x _ {i-1} right) ]

بهذه الطريقة ، يمكن أن يتحلل احتمال التسلسل على النحو التالي:

[P (x) = P (x_L، x_ {L − 1}، ...، x_1) = P (x_L | x_ {L − 1}) P (x_ {L − 1} | x_ {L − 2 }) ... ف (x_2 | x_1) ف (x_1) ]

يمكن أيضًا حساب (P (xL) ) من احتمالات الانتقال: إذا ضربنا احتمالات الحالة الأولية في الوقت t = 0 في مصفوفة الانتقال A ، نحصل على احتمالات الحالات في الوقت t = 1. الضرب في السلطة المناسبة AL لمصفوفة الانتقال ، نحصل على احتمالات الحالة في الوقت t = L.

نماذج ماركوف المخفية

تُستخدم نماذج ماركوف المخفية كتمثيل لمساحة مشكلة تظهر فيها الملاحظات كنتيجة لحالات نظام لا يمكننا مراقبته مباشرة. هذه الملاحظات ، أو الانبعاثات ، ناتجة عن حالة معينة بناءً على مجموعة من الاحتمالات. وبالتالي ، فإن HMMs هي نماذج Markov حيث يتم إخفاء الحالات عن المراقب وبدلاً من ذلك لدينا ملاحظات تم إنشاؤها باستخدام احتمالات معينة مرتبطة بكل حالة. تُعرف احتمالات الملاحظات هذه باسم احتمالات الانبعاث.

بشكل رسمي ، نموذج ماركوف المخفي عبارة عن 5 مجموعات (Q ، A ، p ، V ، E) والتي تتكون من المعلمات التالية:

  • سلسلة من الدول ، س.
  • مصفوفة انتقالية ، أ
  • متجه احتمالات الحالة الأولية ، ص.
  • مجموعة من رموز الملاحظة ، V ، على سبيل المثال {A ، T ، C ، G} أو مجموعة الأحماض الأمينية أو الكلمات في قاموس اللغة الإنجليزية.
  • مصفوفة احتمالات الانبعاث ، E: لكل s ، t ، في Q ، يكون احتمال البث هو eكورونا = P (vك في الوقت t | qر = ق)

الخاصية الرئيسية لفقدان الذاكرة موروثة من Markov Models. الانبعاثات والتحولات تعتمد فقط على الوضع الحالي وليس على التاريخ الماضي.


مقدمة

عمليات ماركوفيان منتشرة في كل مكان في العديد من تطبيقات العالم الحقيقي ، بما في ذلك تكوين الموسيقى الخوارزمي ، ومحرك بحث Google 1 ، ونماذج تسعير الأصول ، ومعالجة المعلومات ، والتعلم الآلي ، واكتشاف البرامج الضارة للكمبيوتر 2 وغيرها الكثير. 3 يمكن استخدام سلاسل ماركوف للمساعدة في نمذجة كيفية نمو النباتات ، وتفاعل المواد الكيميائية ، وانتشار الذرات ، وتوجد تطبيقات متزايدة في مجالات مثل الهندسة وعلوم الكمبيوتر والاقتصاد والتعليم. ادعى جيفري كوان من جامعة هارفارد أن سلاسل ماركوف لم يكن لها تأثير هائل فقط على تطور الرياضيات ، ولكن نماذج ماركوف قد تكون كذلك أكثر "العالم الحقيقي" مفهوم رياضي مفيد بعد المشتق.

نموذج ماركوف الخفي هو أنسب فئة بين عمليات ماركوف لتطبيقات النمذجة في المالية والاقتصاد ، ومع ذلك فإن الصعوبات في تقدير معلماته لا تزال تمثل مشكلة لاعتمادها على نطاق واسع من قبل الصناعة والأوساط الأكاديمية.

كما سنرى ، تمتلك سلاسل ماركوفيان ونماذج ماركوف المخفية نسيجًا رياضيًا غنيًا ويمكن الوصول إليه وأصبحت قابلة للتطبيق بشكل متزايد في مجموعة واسعة من التطبيقات. على الرغم من أن الافتراضات التي تقوم عليها عمليات ماركوف يمكن اعتبارها مقيدة بشكل غير مقبول في البداية ، إلا أن نماذج ماركوف تميل إلى ملاءمة البيانات بشكل جيد. يمكن للمرء أن يميز أنواعًا عديدة من عمليات ماركوفيان ، ولكل منها مجموعة ميزاتها الخاصة. في هذا البرنامج التعليمي ، نفحص نوعًا واحدًا فقط: النماذج ذات التوزيعات الاحتمالية الثابتة للوقت داخل الدولة. 4 تسمح هذه النماذج باستخدام النتائج النظرية من الدراسات التي تركز على خصائص التقارب للتوزيع الثابت كوقت (t mapsto infty ). هذا مفيد في الاقتصاد لأنه يفتح سبلًا ليس فقط لإعادة تفسير النمو الاقتصادي في إعدادات المصفوفة العشوائية ولكنه يسمح بحساب معدلات النمو الاقتصادي المتوقعة طويلة الأجل بكفاءة.

يسمح امتداد سلاسل ماركوفيان إلى HMMs بنمذجة نطاق أوسع من التطبيقات ، وهو مناسب ليس فقط لوصف سلوك الاقتصاد على مستوى الاقتصاد الكلي ولكن أيضًا لتقديم المشورة بشأن السياسة النقدية. يمكن أن يكون لهذا أيضًا القدرة على حل نقد Morgenstern. 5

خوارزمية قابلة للتطبيق على نطاق واسع لحساب تقديرات الاحتمالية القصوى من البيانات غير الكاملة هي خوارزمية EM ، انظر A. P. Dempster (1977). استند عمل أ. ب. ديمبستر (1977) إلى درجة الدكتوراه. أطروحة Sundberg (1972) التي قدمت معالجة مفصلة للغاية لطريقة EM للوظائف الأسية. أول من وصف خوارزمية EM هذه في نموذج تقنية التعظيم الرياضي للوظائف الاحتمالية في سلاسل ماركوف كان ليونارد إي باوم وآخرون. (1970) 6. قدمت ورقة (Rabiner 1989) إرشادات عملية لفهم نتائج (Leonard E. Baum and Petrie 1966) و (Leonard E Baum et al. 1970) وتطبيقها في إطار هندسي ، وتحديداً مهام التعرف على الصوت. على نفس المنوال ، قامت الأوراق (James D Hamilton 2016) و (James D. Hamilton and Raj 2002) و (James D. لنماذج تبديل النظام في وصف المجاميع الاقتصادية مثل معدلات النمو. نفس الجوانب النظرية التي ناقشها AP Dempster (1977) و Rabiner (1989) و Leonard E. ( Theta )) للعملية الأساسية لتوليد الملاحظات التي نشير إليها بواسطة ( mathcal). من الناحية المثالية ، نود أن يكون لدينا طريقة قوية لتقدير معلمات HMM والتي تعمل بشكل جيد ليس فقط في الملاحظات السابقة ولكن أيضًا توقع النتائج المستقبلية. يمكن تعديل هذه النماذج بسهولة لزيادة نماذج SDGE (التوازن العام الديناميكي العشوائي) التي تعتمد حاليًا على أنظمة معادلات الفروق.

لسوء الحظ ، لا توجد حتى الآن طرق تحليلية لتقدير احتمالية الانتقال التي من شأنها أن تضمن الحد الأقصى من الاحتمالات لمخرجات معينة ناتجة عن عملية ماركوف ، وما زلنا بحاجة إلى استخدام نهج إرشادي في تحديد العدد "الصحيح" من الحالات داخل نموذج ماركوف المخفي. هذا لأن أي محاولة لاستخدام أي منهجيات تقدير مناسبة لإطار عمليات ماركوفيان ترث بلا شك جميع مشكلاتها (على سبيل المثال ، لا تضمن لك خوارزمية EM حدًا أدنى عالميًا بينما لن تتمكن خوارزميات التجميع من تحديد قدر معقول من التنسيق نقاط بدون دالة تكلفة مجردة). لذلك ، يتطلب حل مشكلة بسلسلة ماركوف المخفية اتباع نهج رقمي.

والخبر السار هو أنه كلما أصبحت أجهزة الكمبيوتر أكثر قوة ، لا يمكن إجراء المزيد من التكرارات فحسب ، بل يمكن أيضًا إجراء المزيد من المحاولات للعثور على الحد الأقصى. تسمح معماريات الكمبيوتر Paralel مع وظائف mapreduce بتحسين أفضل لخوارزمية Baum-Welch وبالتالي احتمال أكبر للعثور على الحد الأقصى العالمي. ومع ذلك ، فإن النهج الإرشادي في اختيار النموذج الذي يكون منطقيًا بعد تطبيق الخوارزميات لتقدير مصفوفة احتمالية الانتقال هو ، في رأيي المتواضع ، النهج الأكثر قابلية للتطبيق في الوقت الحالي.


Learntofish & # 039s Blog

في ما يلي سأقدم مثالاً سهلاً على سلاسل ماركوف. سأفترض أنك تعرف كيفية ضرب مصفوفتين.

مثال:
افترض اليوم أنه & # 8217s يوم الاثنين وتريد الاحتفال بعيد ميلادك يوم الأربعاء بحفلة في الهواء الطلق. بالطبع أنت مهتم بالطقس وتجد هذه البيانات:

يمكن على سبيل المثال جمع هذه البيانات خلال فصل الصيف. لاحظ أن الطقس غدًا يعتمد فقط على الطقس من اليوم ، على سبيل المثال لا يهم ما كان الطقس قبل أسبوع. لذلك اليوم الاثنين ، تخرج وترى أنه يوم ممطر. لذلك ، فإن احتمال أن يكون الجو مشمسًا غدًا هو 60٪. المشكلة هي أن عيد ميلادك ليس غدًا بل بعد يومين يوم الأربعاء. ما هو الاحتمال إذن؟

فكرة جيدة هي تصور الموقف كرسم بياني:

هذه هي طرق الحصول عليها ممطر (الاثنين) إلى مشمس (الأربعاء):
أ) ممطر (الاثنين) - & GT مشمس (الثلاثاء) - & GT مشمس (الأربعاء)
ب) ممطر (الاثنين) - & GT ممطر (الثلاثاء) - & GT مشمس (الأربعاء)

لنحسب & # 8217s احتمال أ):

لنحسب & # 8217s احتمال ب):

لذلك فإن احتمالية الانتقال الإجمالية هي: 0.48 + 0.24 = 0.72
في تدوين أكثر رسمية:

يمكننا طرح أسئلة أخرى:
& # 8211 ما هو الاحتمال إذا بدأنا به مشمس (الإثنين)?
& # 8211 ما هو احتمال هطول أمطار يوم الجمعة؟

اتضح أنه يمكننا الإجابة على هذه الأسئلة بسهولة إذا قدمنا ​​ملف مصفوفة الانتقال P.:

p (ij) هو انتقال احتمال الانتقال من i إلى j ، على سبيل المثال p (sr) هو احتمال الانتقال من مشمس إلى ماطر.
لقد حسبنا احتمال هطول الأمطار (الاثنين) - & gtsunny (الأربعاء) من قبل. لنفعل ذلك مرة أخرى باستخدام مصفوفة الانتقال. للحصول على الاحتمال ، نأخذ القوة الثانية لـ P:

الاحتمال ل ممطر (الاثنين) - & gtsunny (الأربعاء) في الزاوية اليسرى السفلية من المصفوفة. القيمة 72٪ وهي نفس القيمة التي حسبناها من قبل.
(يوجد أدناه أحد أشكال المصفوفة. الاحتمال ل ممطر (الاثنين) - & gtsunny (الأربعاء) هو الدخول.)

للإجابة على الأسئلة الأخرى:
& # 8211 ما هو الاحتمال إذا بدأنا به مشمس (الإثنين)، أي ما هو احتمال مشمس (الاثنين) - & gtsunny (الأربعاء)?
الإجابة: ألقِ نظرة على قيمة الزاوية اليسرى العلوية. الاحتمال 76٪.

& # 8211 ما هو احتمال هطول الأمطار يوم الجمعة ، أي ما هو الاحتمال ممطر (الاثنين) - & gtsunny (الجمعة)
الجواب: إذا بدأنا يوم الاثنين ، فسيتعين علينا الانتظار أربعة أيام أخرى: الثلاثاء والأربعاء والخميس والجمعة. هذا يتوافق مع 4 انتقالات:
(ط) الاثنين - & GT الثلاثاء
(الثاني) الثلاثاء - & GT الأربعاء
(3) الأربعاء - & GT الخميس
(رابعا) الخميس - و GT الجمعة
وبالتالي ، احسب وابحث عن الإدخال.

أخيرًا ، إليك ملف تعريف لسلسلة ماركوف (مقتبسة من المرجع [3]):

سلسلة ماركوف (محدودة) هي عملية ذات عدد محدود من الحالات (أو النتائج ، أو الأحداث) التي
يعتمد احتمال التواجد في حالة معينة في الخطوة n + 1 فقط على الحالة المشغولة عند
خطوة

تمارين:
أ) ما هو الاحتمال ل مشمس (الاثنين) - & gtsunny (الثلاثاء)
ب) ما هو الاحتمال ل مشمس (الاثنين) - & gtrainy (الأربعاء)?
ج) إلقاء نظرة على و. أين تدرك أن مجموع الاحتمالات يساوي 1.
د) كيف تحسب الاحتمال ل ممطر (الاثنين) - & gtrainy (الخميس)؟
هـ) هل يمكنك شرح سبب نجاح الشكلية مع مصفوفة الانتقال؟ (تلميح: انظر إلى المرجع [2])

الإجابات:
أ) احتمالية مشمس (الاثنين) - & gtsunny (الثلاثاء) هو P (ss) = 0.8.
ب) الاحتمال ل مشمس (الاثنين) - & gtrainy (الأربعاء) يكون
ج) تضاف الاحتمالات في صف واحد إلى 1: الطقس النهائي إما مشمس أو ممطر.
د) إذا كان يوم الاثنين ، فسيتعين علينا الانتظار 3 أيام حتى الخميس: الثلاثاء والأربعاء والخميس.
هذا يتوافق مع 3 انتقالات:
(ط) الاثنين - & GT الثلاثاء
(الثاني) الثلاثاء - & GT الأربعاء
(3) الأربعاء - & GT الخميس
احسب واعتبر الإدخال.

ه) لمعرفة سبب الشكليات مع مصفوفة الانتقال ، فكر مرة أخرى في مثالنا الأول.
أردنا معرفة الاحتمال p [ممطر (الاثنين) - & gtsunny (الأربعاء)] ووجدنا أن هناك مسارين يقابلان احتمالين:

اكتشفنا أيضًا أنه يمكن كتابة (1) و (2) على النحو التالي:

مجموع كلاهما هو الاحتمال الذي نبحث عنه:

الآن ، سأعيد تسمية حالات الطقس إلى 1 و 2:
1 تعني مشمس
2 تعني الأمطار

بشكل عام ، إذا كان لدينا ملف الحالة الأولية أنا و أ الحالة النهائية ي يمكننا أن نكتب:

يجب أن يذكرك هذا بضرب المصفوفة:
لنفترض أن C = A * B حيث A و B و C عبارة عن مصفوفات. ثم يكون ضرب المصفوفة هو:

[2] مقدمة في الاحتمالية (pdf)
كتاب عن نظرية الاحتمالات من تأليف تشارلز جرينستيد وجي لوري سنيل (انظر الفصل 11).

[3] سلاسل ماركوف (pdf)
ملاحظات المحاضرة لوارن ويكيسر ، جامعة كولجيت.


12 إجابات 12

فيما يلي بعض البرامج التعليمية (متوفرة كملفات PDF):

  1. دوجاد وديساي ، برنامج تعليمي عن نماذج ماركوف المخفية
  2. فاليريا دي فونزو 1 وفيليبو ألوفي بنتيني 2 وفاليريو باريزي (2007). نماذج ماركوف المخفية في المعلوماتية الحيوية. المعلوماتية الحيوية الحالية, 2, 49-61.
  3. سميث ، ك.نماذج ماركوف المخفية في المعلوماتية الحيوية مع تطبيق العثور على الجينات في الحمض النووي البشري

ألق نظرة أيضًا على دروس الموصل الحيوي.

أفترض أنك تريد موارد مجانية بخلاف ذلك ، تقدم المعلوماتية الحيوية من Polanski and Kimmel (Springer ، 2007) نظرة عامة لطيفة (§2.8-2.9) والتطبيقات (الجزء الثاني).

هناك أيضًا كتاب جيد حقًا من تأليف Oliver Cappe et. al: الاستدلال في نماذج ماركوف المخفية. ومع ذلك ، فهو نظري إلى حد ما وخفيف جدًا على التطبيقات.

هناك كتاب آخر به أمثلة في R ، لكنني لم أستطع تحمله - نماذج ماركوف المخفية للسلسلة الزمنية.

ملاحظة. لدى مجتمع التعرف على الكلام أيضًا الكثير من المؤلفات حول هذا الموضوع.

من المثير للدهشة أن نرى أن أيا من الإجابات لا يذكر ورقة رابينير التعليمية عن HMMs.

في حين أن التنفيذ العملي (الجزء الأخير من الورقة) يركز على التعرف على الكلام ، فمن المحتمل أن تكون هذه الورقة هي الأكثر شيوعًا في أدبيات HMM ، وذلك بفضل طبيعتها الواضحة والمقدمة جيدًا.

يبدأ بإدخال سلاسل markov ثم ينتقل إلى HMMs.

بالنسبة لتطبيقات المعلوماتية الحيوية ، سيكون النص الكلاسيكي على HMMs هو Durbin و Eddy و Krough & amp Michison ، "تحليل التسلسل البيولوجي - النماذج الاحتمالية للبروتينات والأحماض النووية" ، مطبعة جامعة كامبريدج ، 1998 ، ISBN 0-521-62971-3. إنها تقنية ، لكنها واضحة جدًا ووجدتها مفيدة جدًا.

بالنسبة إلى MCMC ، يوجد كتاب حديث (نسخة من) لروبرت وكاسيلا ، "تقديم طرق مونت كارلو مع R" ، Springer ، الذي يبدو جيدًا ، لكن لم تتح لي الفرصة لقراءته بعد (يستخدم R للأمثلة ، وهي طريقة جيدة للتعلم ، لكني بحاجة إلى تعلم R أولاً)

اقتراحات لطيفة بالفعل ، أود أن أضيف المقالات التالية التي تصف HMMs من منظور التطبيق في علم الأحياء بواسطة Sean Eddy.

لقد تعلمت HMMs باستخدام الكتاب الرائع من تأليف Walter Zucchini و Iain L. MacDonald

إنها جيدة حقًا وتتميز بأمثلة في R.

ألق نظرة على (HMM) Toolbox for Matlab بواسطة Kevin Murphy وأيضًا القسم يوصى بالقراءة على HMMs على هذا الموقع.

يمكنك أيضًا الحصول على مجموعة أدوات النمذجة الاحتمالية لـ Matlab / Octave مع بعض الأمثلة على استخدام Markov Chains و HMM.

يمكنك أيضًا العثور على محاضرات ومختبرات على HMM ، على سبيل المثال:

2 سنتي
شرح جميل ومجاني.

فيما يلي بعض الملاحظات التي كتبها رامون فان هاندل في برينستون:

هذه الدورة هي مقدمة لبعض الأساليب الحسابية والإحصائية والحسابية الأساسية لنماذج ماركوف المخفية.

يتضمن القسم الأول مجموعة رائعة من تطبيقات HMMs في علم الأحياء والتمويل.


شاهد الفيديو: Markov Chains. سلاسل ماركوف (شهر نوفمبر 2021).