معلومة

يجب أن يكون مجموع RPKMs ثابتًا على التجارب


لدي بيانات أزرار أكمام من 18 تجربة مختلفة من RNA-seq.

لقد لاحظت أنه إذا كان مجموع كل قيم RPKM لتجربة معينة ، يختلف اختلافًا كبيرًا بين التجارب. كيف يكون ذلك؟ كان لدي انطباع بأن RPKM تم تطبيعه من خلال العدد الإجمالي للقراءات. إذا كان هذا صحيحًا ، فيجب أن يكون مجموع قيم RPKM لتجربة واحدة هو نفسه؟


أعتقد أن هذا ينشأ بسبب خيار أزرار الكم الافتراضي- مجموع ضربات القاعدةحيث تقوم بتطبيع FPKMs مع إجمالي القراءات بما في ذلك تلك التي لم يتم تعيينها إلى جين معروف أو الجين المتوقع من التجمع. في الالجيناتملف يتم الإبلاغ عن قيم FPKM للجينات المعروفة / المتوقعة. من الممكن بالتأكيد أن يكون عدد الجينات مختلفًا في عينة معينة مقارنة بالعينة الأخرى ، وبالتالي ربما تختلف المبالغ. إذا لم تكن مهتمًا بالعثور على نصوص جديدة ، فيمكنك تشغيل أزرار أكمام بملف GTF / GFF المرجعي المقدم باستخدام--GFFمع استخدام ملفات- متوافق-يضرب-القاعدة.

يمكنك أيضًا تجربة هذا:

تتجمع مع أزرار أكمام، ادمج GTFs مع الكفمرج و اهرب الكم مع GTF المدمج.

يمكنك بعد ذلك استخدام ملفات صفعة لتطبيع قيم التعبير. لقد لاحظت أنا وآخرون أن قيمة FPKM التي تم الإبلاغ عنها بواسطة cuffdiff وأزرار الكم مختلفة وهو على الأرجح بسبب الاختلافات في المعلمات الافتراضية (انظر هذا). لم يتم توثيق العمليات الداخلية لأزرار الكم بشكل واضح ؛ لذلك لا أستطيع أن أجيب على سؤالك بشكل قاطع.


زيادة قدرة التجربة على قياس التأثير

جميع الملاحظات التجريبية هي مزيج من الإشارة، التأثير الحقيقي للمتغير على النتيجة ، و الضوضاء، الخطأ العشوائي الملازم لأسلوبك التجريبي. عند تصميم التجارب وتحليلها ، يكون الهدف هو تعظيم نسبة الإشارة إلى الضوضاء بحيث يمكنك استخلاص استنتاجات دقيقة. ست وسائل شائعة لزيادة نسبة الإشارة إلى الضوضاء هي:

  1. إجراء قياسات متكررة لعنصر واحد ،
  2. زيادة حجم العينة.
  3. عينات عشوائية ،
  4. التجارب العشوائية ،
  5. تكرار التجارب ، و
  6. بما في ذلك المتغيرات المشتركة.

نادرًا ما يكون أي سؤال علمي واحدًا مناسبًا لاستخدام جميع تقنيات تقليل الإشارة إلى الضوضاء الستة هذه ، ولكن لزيادة دقة نتائجك ، يجب أن تحاول دمج أكبر عدد من هذه التقنيات مثل بشكل معقول ممكن في تصميماتك التجريبية. سيساعد توافر التكلفة والوقت والموارد في تحديد التقنيات الممكنة وأيها غير ممكن. يوضح الجدول 1 أدناه أنواع السيناريوهات التي يكون فيها كل أسلوب مفيدًا للغاية.

المتغيرات الكمية
تقنية لزيادة نسبة الإشارة إلى الضوضاء ما هذا؟ متى تكون مفيدة؟ أمثلة على وقت استخدامها
إجراء قياسات متكررة قياس عنصر أو حدث واحد أكثر من مرة لإزالة الخطأ في القياس.

  • كم عدد قطرات الحمض اللازمة لتغيير لون محلول المؤشر هذا؟ قم بتشغيل التفاعل عدة مرات على أجزاء متساوية من نفس المحلول.
  • ما الوقت الذي تستغرقه بطاقة الرسومات المحددة هذه لتسخين الهواء المحيط بها إلى 100 درجة مئوية؟ اختبر نفس بطاقة الرسوميات عدة مرات.
  • ما هي المدة التي تقضيها هذه السلحفاة تحت الماء قبل أن تطفو لتلتقط أنفاسها؟ راقب نفس السلحفاة عدة مرات.
  • هل المراهقون يأكلون الأطعمة الصحية؟ قم بإجراء مسح لعدد كبير من المراهقين ، وليس فقط خمسة أشخاص يتسكعون معًا دائمًا ، حول وجباتهم الغذائية اليومية.
  • كيف تقارن سعة الرئة للمدخنين مقابل غير المدخنين؟ أخذ القياسات من العديد من المدخنين وغير المدخنين.
  • ما هي المدة التي تستغرقها بطارية 9 فولت (فولت) من العلامة التجارية X في تشغيل مصباح يدوي؟ اختبر مجموعات تصنيع متعددة لبطارية العلامة التجارية X 9-V.
  • ما هي تقنية التسميد التي تزيد من غلة المحاصيل أكثر؟ قم بتعيين معالجة الأسمدة لكل قطعة أرض عن طريق القرعة ، وبالتالي التخلص من تأثيرات المتغيرات الأخرى ، مثل تركيبة التربة ومحتوى الماء ، بين المجموعات التجريبية.
  • هل يقلل هذا الدواء من هشاشة العظام؟ قم بتعيين الأشخاص بشكل عشوائي لتحديد ما إذا كان الدواء فعالًا أم لا. قم بتخصيص المرضى بشكل عشوائي للعلاج الوهمي أو مجموعة الأدوية.
  • هل يؤثر طول الوقت الذي يتم فيه ضغط البلاستيك في قالب على القوة النهائية للبلاستيك؟ بدلاً من إجراء التجارب التي تختبر 10 ، 20 ، 30 ، إلخ. ثوانٍ من الضغط للخلف للخلف ، قم بترتيب عشوائي لطول الوقت الذي يتم اختباره أولاً ، ثانيًا ، إلخ. مع تقدم التجارب والتغييرات في درجة حرارة القالب على مدار جميع التجارب.
  • هل يؤثر لون جدران متاهة الفأر على الوقت الإجمالي الذي تستغرقه الفئران لتجد طريقها؟ لتكرار التجربة مرة واحدة ، اختبر جميع الفئران في نفس اليوم في جميع المتاهات. يجب أن تكون المتاهات متطابقة ، بخلاف لون الجدار. لكل فأر ، حدد عشوائيًا الترتيب الذي يجب اختباره في متاهات الألوان المختلفة. سيؤدي التوزيع العشوائي إلى القضاء على المساهمة المحتملة للتأثيرات مثل إجهاد الماوس على مدار الاختبار.
  • ما هو الطول الموجي للضوء المرئي الذي ينبعث منه أكبر قدر من الحرارة؟ قم بإجراء قياسات متكررة لكل طول موجة ، وعشوائي الترتيب الذي تجري فيه تجارب الطول الموجي ، وكرر المجموعة الكاملة من التجارب مرتين على الأقل في أيام مختلفة باستخدام ، إن أمكن ، معدات مختلفة.
  • كيف يؤثر تقييد السعرات الحرارية على عمر الديدان؟ ابدأ بحجم عينة كبير إحصائيًا بما يكفي ، واختر عشوائيًا الديدان المقيدة بالسعرات الحرارية والتي يُسمح لها بتناول ما تشاء ، كرر التجربة بأكملها مرتين على الأقل ، بدءًا من أيام مختلفة ، مع مجموعات مختلفة من الديدان.
  • كيف يؤثر الدواء X على ضغط دم المريض؟ ابدأ بعينة كبيرة إحصائيًا بشكل كافٍ ، تم اختيارها عشوائيًا من المرضى. أعط نصفهم عقار X والنصف الآخر دواء وهمي. تقييم النتائج ، مع الأخذ في الاعتبار المتغيرات الأخرى ، مثل الجنس والعمر والوزن ، المعروف أنها تؤثر على ضغط الدم.
  • تقييم كيف سيؤثر انقراض نوع معين على بقية النظام البيئي المحلي. أسس النماذج التنبؤية على البيانات التاريخية حول التفاعلات بين الأنواع المختلفة ، بدءًا من الأنواع المهددة بالانقراض والمتفرعة.

القياسات المتكررة

يعد إجراء قياسات متكررة لعنصر واحد تقنية قوية ولكنها محدودة. إنه مفيد للغاية في الحالات التي يكون فيها القياس صعبًا ، كما هو الحال في حالة مراقبة وتسجيل اللحظة الدقيقة عندما يتبخر السائل تمامًا. في هذه الحالات ، يساعد حساب متوسط ​​عدة قياسات في التخلص من أخطاء القياس. وبالنظر إلى النطاق والتنوع بين القياسات الفردية و [مدش] على سبيل المثال ، من خلال رسم كل منهم و [مدشكان] يساعدك حتى على تحديد ما إذا كانت تقنية القياس مناسبة أو ببساطة غير منتظمة للغاية للاعتماد عليها. ومع ذلك ، إذا كان القياس بسيطًا ومباشرًا ، مثل وزن أكياس الرمل على مقياس لأقرب كيلوغرام ، فإن القياسات المتكررة لا تضيف أي قيمة ، وبدلاً من ذلك ، تضيع الوقت والموارد.

زيادة حجم العينة

التوزيع العشوائي (العينات والتجارب)

حتى لو أدركوا جميع المصادر المحتملة للاختلاف ، فمن شبه المستحيل على العلماء التحكم في جميع العوامل في التجربة. يمكن أن تؤدي الاختلافات الصغيرة في درجة الحرارة أو الموقع أو المعدات أو الظروف المادية الأخرى إلى التحيز التجريبي (تفضيل نتيجة على أخرى) وضوضاء. يمكن تقليل التحيز التجريبي والضوضاء عن طريق التوزيع العشوائي. يمكن اختيار كل من العينات والتجارب بشكل عشوائي ، على الرغم من أنه قد لا يكون من الممكن دائمًا استخدام كلا التكتيكات في مشروع علمي واحد. أثناء التوزيع العشوائي للعينة ، يتم تعيين موضوعات الاختبار عن طريق القرعة إلى مجموعات ضابطة أو تجريبية مختلفة. على سبيل المثال ، عند دراسة نظام غذائي جديد ، سيتم تعيين الأشخاص بشكل عشوائي إلى أي من مجموعة التحكم السلبية ، حيث لا يتبعون نظامًا غذائيًا ، أ مجموعة تحكم إيجابية ، حيث يستخدمون أي نظام غذائي يعتبر المعيار الذهبي (أي أفضل نظام غذائي معروف حاليًا) ، و المجموعة التجريبية، حيث يستخدمون نظام النظام الغذائي الجديد. بدلاً من ذلك ، إذا سُمح للأشخاص بالاختيار في المجموعة التي يريدون أن يكونوا فيها ، فقد يؤدي ذلك إلى تحيز النتائج. قد يميل الأشخاص الذين اختاروا مجموعة "لا يوجد نظام غذائي" عن طيب خاطر إلى تناول وجبات أكبر ، أو قد يكون الأشخاص الذين اختاروا اتباع النظام الغذائي القياسي الذهبي أكثر رياضية. قد يؤدي أي من هذين الاحتمالين ، أي الميل نحو استهلاك المزيد من الطعام أو ممارسة المزيد من التمارين ، إلى تحريف النتائج. ولكن إذا تم تعيين الموضوعات بشكل عشوائي ، فمن المرجح أن يتم توزيع هذه الاختلافات في جميع المجموعات التجريبية والضابطة ، وبالتالي ، لا تؤدي إلى تحريف النتائج التجريبية بشكل ملحوظ.

يمكن تطبيق التوزيع العشوائي للتجربة في الحالات التي توجد فيها سلسلة من الاختبارات يمكن تحديد ترتيبها عن طريق اليانصيب. في هذه الأنواع من الحالات ، يمكن استخدامه لتقليل التحيز غير المتوقع في البيانات. على سبيل المثال ، إذا كان الهدف هو معرفة مستوى النكهة الحامضة التي يمكن تحملها بالنسبة للبالغين العاديين ، فسيتم إعطاء كل شخص بالغ في الاختبار سلسلة من الجيلاتين حسب الذوق ، ولكل منها كثافة حامضة مختلفة. ثم يقوم الأشخاص الذين تم اختبارهم بتقييم الجيلاتين الذي وجدوه مقبولًا والذي كان حامضًا جدًا بحيث لا يمكن تناوله. إذا تم إعطاء جميع الأشخاص الخاضعين للاختبار الجيلاتين حسب الذوق ، بترتيب متزايد من شدة الحموضة ، فستكون النتيجة متوسط ​​تحمّل حامض مضخم بشكل مصطنع. لماذا ا؟ لأن زيادة التعرض للنكهة الحامضة بشكل منهجي يزيل مؤقتًا براعم التذوق من تأثيرات الحموضة. من خلال التوزيع العشوائي للترتيب الذي يتذوق به كل موضوع اختبار الجيلاتين المختلف ، تكون البيانات أقل تأثرًا بالتحيز الناتج عن إزالة التحسس المؤقت ويكون المتوسط ​​الناتج أكثر دقة.

تكرار التجارب

يؤدي تكرار التجربة أيضًا إلى زيادة نسبة الإشارة إلى الضوضاء. التحليل يكرر التجريبية يقلل من احتمالية أن تكون التأثيرات الزائفة (مثل ارتفاع درجة الحرارة المحيطة المرتفعة قليلاً أو آلة ذات قراءات عالية جدًا) هي التي تقود الاستنتاجات. يتم جمع البيانات من العينات معًا في تجربة واحدة ، ويجب تكرار التجربة مستقل، مما يعني أنه يجب تغيير أكبر عدد ممكن من المعلمات التجريبية عمليًا: عينات مختلفة ، آلة مختلفة ، يوم مختلف ، مجرب مختلف ، إلخ. تعتبر ثلاث مرات متكررة للتجربة هي الحد الأدنى بشكل عام. لماذا ا؟ هناك سببان ، الأول له علاقة بحقيقة أن ثلاث عمليات تكرار تضمن احتمال ثلثي (66٪) أن تكون النتائج المتوسطة أكثر دقة من تجربة واحدة. قد لا يبدو أن الثلثين كثيرًا ، لكن التكرارات لها عائد متناقص و mdashmore أكثر من ثلاثة وعليك أن تفعل الكثير من التكرارات لتحقيق زيادة كبيرة في الثقة. حتى مع تكرار 500 مرة ، لا يزال هناك احتمال ضئيل بأن تكون تجربة واحدة أقرب إلى القيمة الحقيقية من المتوسط. انظر الجدول 2 أدناه للحصول على التفاصيل. السبب الثاني هو أنه مع ثلاث تكرارات ، يكون لديك أساس جيد لرسم الرسوم البيانية واستخدام الأوصاف الإحصائية ، مثل المتوسط ​​والخطأ المعياري للمتوسط ​​، لتقييم بياناتك ومعرفة ما إذا كانت النتائج قوية بما يكفي للتوصل إلى استنتاج من ، أو إذا تحتاج إلى جمع المزيد من البيانات. في بعض الحالات ، لا يمكن تكرار التجربة بسبب قيود الموارد. على سبيل المثال ، لن يتم إجراء مسح بيولوجي لمسار كبير من الأرض ، مثل غابات الأمازون المطيرة ، إلا مرة واحدة. عندما لا تكون التكرارات ممكنة ، فمن الأهمية بمكان التأكد من أن حجم العينة كبير بما فيه الكفاية.

# التكرارات التجريبية النسبة المئوية للاحتمال أن يكون متوسط ​​التكرارات أكثر دقة من تجربة فردية
2 60.8
3 66.7
4 70.5
5 73.2
10 80.5
20 86.0
40 90.0
100 93.7
162 95.0
500 97.2

الجدول 2. يؤدي تكرار التجربة عدة مرات إلى زيادة كبيرة في الفرصة الإحصائية لمتوسط ​​التكرارات
أكثر دقة من تجربة واحدة للتجربة ، لكن التكرارات اللاحقة لها عوائد متناقصة.
(الجدول مقتبس من Gauch ، 2006. انظر النص الأصلي للنظرية الأساسية).

بما في ذلك المتغيرات المشتركة

العديد من النظم الطبيعية والظواهر العلمية هي حصيلة العديد من العوامل. هذه العوامل تسمى المتغيرات المشتركة لأنهم "يختلفون معًا" ، يتحكمون بشكل جماعي في النتيجة النهائية. على الرغم من أن العلماء غالبًا ما يهتمون بتقييم كيفية تأثير تغيير عامل واحد على النظام بأكمله ، فقد يكون من غير العملي ، أو حتى المستحيل ، إعداد تجربة حيث يمكن تغيير متغير واحد فقط وتقييمه. على سبيل المثال ، إذا أردت التنبؤ بكيفية تأثير بناء مصنع جديد لتصنيع السيارات على جودة الهواء المحلي ، فستكون إحدى الطرق هي تحديد مقدار تلوث الهواء الذي قد يساهم به المصنع. لكن هذا النموذج غير دقيق. هناك أحداث أخرى ذات صلة قد تحدث عند بناء مصنع جديد. على سبيل المثال ، سيخلق المصنع وظائف ، وقد ينتقل المزيد من الناس إلى المنطقة للاستفادة من هذه الوظائف. هؤلاء الأشخاص سيشترون منازل محلية ، ويقودون السيارات ، ويبدأون الصناعات ذات الصلة ، وما إلى ذلك. كل هذه الأحداث ستؤثر أيضًا على جودة الهواء المحلي. لذا ، فإن التقييم الأكثر دقة سيأخذ في الاعتبار أكبر عدد ممكن من المتغيرات المشتركة.

يمكن أن يساعد أخذ المتغيرات المشتركة في الاعتبار أيضًا في زيادة قدرتك على اكتشاف التغيير. على سبيل المثال ، لنفترض أنك أجريت دراسة حول قدرة دواء جديد على خفض الكوليسترول. يتم تحديد مستويات الكوليسترول من خلال عدد كبير من العوامل ، بما في ذلك: الجنس والعمر والتاريخ العائلي والنظام الغذائي والنشاط البدني والوزن. في دراسة أجريت على الفئران ، يمكنك التحكم في كل هذه العوامل ، ويمكن أن يكون لديك فئران لها جينات متطابقة ، وجميعها من نفس العمر والجنس ، وتتغذى على نفس النظام الغذائي ، وتزن نفس الكمية ، وتؤدي نفس نظام التمرين. لكن سيكون من المستحيل إجراء دراسة مشابهة مضبوطة بالكامل على البشر. وكل عامل تحاول التحكم فيه ، كلما قل عدد الأشخاص المتاحين لدراستك ، وكلما زادت صعوبة تعيين الأشخاص. البديل هو تقييد بعض المتغيرات فقط ، وقياس المتغيرات المشتركة المتبقية من أجل تضمينها في نموذج تحليل البيانات النهائي الخاص بك. باستخدام النموذج ، يمكنك طرح تأثيرات المتغيرات المشتركة رياضيًا مع الاستمرار في رؤية تأثيرات المتغير الذي تهتم به: عقار خفض الكوليسترول.

فهرس

توفر هذه الموارد معلومات إضافية حول كيفية تصميم التجارب وزيادة نسبة الإشارة إلى الضوضاء في البيانات العلمية:


تطوير تعبير ثابت للتوازن

في عام 1864 ، قام الكيميائيون النرويجيون كاتو جولدبرج (1836 و ndash1902) وبيتر واج (1833 و ndash1900) بقياس تركيبات العديد من أنظمة التفاعل عند التوازن. اكتشفوا ذلك لأي رد فعل عكسي من الشكل العام

[aA + bB rightleftharpoons cC + dD label]

حيث A و B متفاعلتان ، و C و D منتجان ، و a و b و c و d هي المعاملات المتكافئة في المعادلة الكيميائية المتوازنة للتفاعل ، ونسبة ناتج تركيزات التوازن للمنتجات (مرفوعة إلى تكون معاملاتها في المعادلة الكيميائية المتوازنة) إلى ناتج تركيزات توازن المواد المتفاعلة (مرفوعة إلى معاملاتها في المعادلة الكيميائية المتوازنة) دائمًا ثابتًا في ظل مجموعة معينة من الشروط. تُعرف هذه العلاقة باسم قانون العمل الجماعي (أو قانون التوازن الكيميائي) ويمكن ذكرها على النحو التالي:

حيث (K ) هو ثابت التوازن للتفاعل. المعادلة ( المرجع) تسمى معادلة التوازن ، والجانب الأيمن من المعادلة ( المرجع) يسمى التعبير الثابت للتوازن. العلاقة الموضحة في المعادلة ( المرجع) صحيح لأي زوج من التفاعلات المتعارضة بغض النظر عن آلية التفاعل أو عدد الخطوات في الآلية.

يمكن أن يختلف ثابت التوازن عبر نطاق واسع من القيم. قيم (K ) الموضحة في Table ( PageIndex <2> ) ، على سبيل المثال ، تختلف بمقدار 60 أمرًا من حيث الحجم. نظرًا لوجود المنتجات في بسط التعبير الثابت للتوازن وتكون المواد المتفاعلة في المقام ، فإن قيم K أكبر من (10 ​​^ 3 ) تشير إلى ميل قوي للمواد المتفاعلة لتشكيل المنتجات. في هذه الحالة ، يقول الكيميائيون إن التوازن يكمن في اليمين كما هو مكتوب ، ويفضلون تكوين المنتجات. مثال على ذلك هو التفاعل بين (H_2 ) و (Cl_2 ) لإنتاج (HCl ) ، الذي له ثابت توازن (1.6 مرات 10 ^ <33> ) عند 300 كلفن لأن ( H_2 ) هو اختزال جيد و (Cl_2 ) مؤكسد جيد ، يستمر التفاعل بشكل أساسي حتى الاكتمال. في المقابل ، تشير قيم (K ) الأقل من (10 ​​^ <-3> ) إلى أن نسبة المنتجات إلى المواد المتفاعلة عند التوازن صغيرة جدًا. أي أن المواد المتفاعلة لا تميل إلى تكوين نواتج بسهولة ، ويكمن التوازن إلى اليسار كما هو مكتوب ، ويفضل تكوين المواد المتفاعلة.

الجدول ( PageIndex <2> ): ثوابت التوازن لتفاعلات مختارة *
رد فعل درجة الحرارة (ك) ثابت التوازن (ك)
* تختلف ثوابت التوازن باختلاف درجة الحرارة. قيم K الموضحة هي للأنظمة عند درجات الحرارة المحددة.
(S _ <(s)> + O_ <2 (g)> rightleftharpoons SO_ <2 (g)> ) 300 (4.4 مرات 10 ^ <53> )
(2H_ <2 (g)> + O_ <2 (g)> rightleftharpoons 2H2O _ <(g)> ) 500 (2.4 مرات 10 ^ <47> )
(H_ <2 (g)> + Cl_ <2 (g)> rightleftharpoons 2HCl _ <(g)> ) 300 (1.6 مرات 10 ^ <33> )
(H_ <2 (g)> + Br_ <2 (g)> rightleftharpoons 2HBr _ <(g)> ) 300 (4.1 مرات 10 ^ <18> )
(2NO _ <(g)> + O_ <2 (g)> rightleftharpoons 2NO_ <2 (g)> ) 300 (4.2 مرات 10 ^ <13> )
(3H_ <2 (g)> + N_ <2 (g)> rightleftharpoons 2NH_ <3 (g)> ) 300 (2.7 مرات 10 ^ <8> )
(H_ <2 (g)> + D_ <2 (g)> rightleftharpoons 2HD _ <(g)> ) 100 (1.92)
(H_ <2 (g)> + I_ <2 (g)> rightleftharpoons 2HI _ <(g)> ) 300 (2.9 مرات 10 ^ <-1> )
(I_ <2 (g)> rightleftharpoons 2I _ <(g)> ) 800 (4.6 مرات 10 ^ <-7> )
(Br_ <2 (g)> rightleftharpoons 2Br _ <(g)> ) 1000 (4.0 مرات 10 ^ <-7> )
(Cl_ <2 (g)> rightleftharpoons 2Cl _ <(g)> ) 1000 (1.8 مرات 10 ^ <-9> )
(F_ <2 (g)> rightleftharpoons 2F _ <(g)> ) 500 (7.4 مرات 10 ^ <-13> )

التركيزات الفعالة مقابل التركيزات الحقيقية

ستلاحظ أيضًا في Table ( PageIndex <2> ) أن ثوابت التوازن لا تحتوي على وحدات ، على الرغم من المعادلة ( ref) يشير إلى أن وحدات التركيز قد لا تلغي دائمًا لأن الأسس قد تختلف. في الواقع ، يتم حساب ثوابت التوازن باستخدام & ldquo التراكيز الفعالة ، & rdquo أو الأنشطة ، من المواد المتفاعلة والمنتجات ، وهي نسب التركيزات المقاسة إلى الحالة القياسية 1 م. كما هو موضح في المعادلة ( المرجع) ، يتم إلغاء وحدات التركيز ، مما يجعل (K ) بلا وحدة أيضًا:

نظرًا لأن ثوابت التوازن تُحسب باستخدام & ldquo التراكيز الفعالة & rdquo بالنسبة إلى الحالة القياسية البالغة 1 M ، فإن قيم K لا تحتوي على وحدات.

العديد من التفاعلات لها ثوابت توازن بين 1000 و 0.001 ( (10 ​​^ 3 ge K ge 10 ^ <-3> )) ، ليست كبيرة جدًا ولا صغيرة جدًا. عند التوازن ، تميل هذه الأنظمة إلى احتواء كميات كبيرة من كل من المنتجات والمواد المتفاعلة ، مما يشير إلى عدم وجود ميل قوي لتشكيل أي من المنتجات من المواد المتفاعلة أو المواد المتفاعلة من المنتجات. مثال على هذا النوع من النظام هو تفاعل الهيدروجين الغازي والديوتيريوم ، وهو أحد مكونات مصادر ضوء الألياف الضوئية عالية الثبات المستخدمة في دراسات المحيطات ، لتكوين ( م)):

[ م لا يوجد رقم] التعبير الثابت للتوازن لهذا التفاعل هو مع (ك ) تتراوح بين 1.9 و 4 على نطاق واسع لدرجة الحرارة (100 & ndash1000 كلفن). وبالتالي ، فإن خليط التوازن من (H_2 ) ، (D_2 ) ، و (HD ) يحتوي على تركيزات مهمة لكل من المنتج والمواد المتفاعلة. يلخص الشكل ( PageIndex ) العلاقة بين حجم K والتركيزات النسبية للمواد المتفاعلة والمنتجات عند التوازن لتفاعل عام ، مكتوبًا كمواد متفاعلة ( rightleftharpoons ) منتجات. لأن هناك علاقة مباشرة بين حركية التفاعل وتركيزات التوازن للمنتجات والمواد المتفاعلة (المعادلات ( المرجع) و ( المرجع)) ، عندما (k_f gg k_r ) ، (K ) هو ملف كبير العدد ، ويسود تركيز المنتجات عند التوازن. هذا يتوافق مع رد فعل لا رجوع فيه في الأساس. على العكس من ذلك ، عندما يكون (k_f ll k_r ) ، (K ) عبارة عن ملف صغير عدد ، والتفاعل لا ينتج تقريبا أي منتجات كما هو مكتوب. الأنظمة التي لها (k_f & asymp k_r ) تركيزات مهمة لكل من المواد المتفاعلة والمنتجات عند التوازن. الشكل ( PageIndex ): العلاقة بين تكوين الخليط عند التوازن ومقدار ثابت التوازن. كلما زاد K ، كلما تقدم التفاعل إلى اليمين قبل الوصول إلى التوازن ، وزادت نسبة المنتجات إلى المواد المتفاعلة عند التوازن. تعني القيمة الكبيرة لثابت التوازن (K ) أن المنتجات تسود عند التوازن ، وتعني القيمة الصغيرة أن المواد المتفاعلة تسود عند التوازن. مثال ( PageIndex ): التعبيرات الثابتة المتوازنة اكتب التعبير الثابت للتوازن لكل تفاعل. منح: معادلات كيميائية متوازنة يطلب: التعبيرات الثابتة التوازن الرجوع إلى المعادلة ( ref). ضع الناتج الحسابي لتركيزات المنتجات (مرفوعًا إلى معاملاتها المتكافئة) في البسط وحاصل ضرب تركيزات المواد المتفاعلة (مرفوعة إلى معاملاتها المتكافئة) في المقام. المنتج الوحيد هو الأمونيا ، التي لها معامل 2. بالنسبة للمواد المتفاعلة ، ( م) له معامل 1 و ( م) معامله 3. التعبير الثابت للتوازن هو كما يلي: [ dfrac ] ^ 2> ] [ م] ^ 3> nonumber ] المنتج الوحيد هو ثاني أكسيد الكربون ، الذي له معامله 1. المواد المتفاعلة ( م) بمعامل 1 و ( م) بمعامل ( frac ). وبالتالي فإن التعبير الثابت للتوازن هو كما يلي: هذا التفاعل هو عكس رد الفعل في الجزء b ، حيث يتم ضرب جميع المعاملات في 2 لإزالة المعامل الكسري لـ ( م.). وبالتالي ، فإن التعبير الثابت للتوازن هو معكوس التعبير في الجزء ب ، مع ضرب جميع الأسس في 2 اكتب التعبير الثابت للتوازن لكل تفاعل. ( م) ( ce ) ( م) توقع أي الأنظمة عند التوازن سوف (أ) تحتوي بشكل أساسي على المنتجات فقط ، (ب) تحتوي بشكل أساسي فقط على المواد المتفاعلة ، و (ج) تحتوي على كميات ملحوظة من كل من المنتجات والمواد المتفاعلة. (H_ + I_ rightleftharpoons 2HI _ & emspK _ = 54 ) (2CO_ rightleftharpoons 2CO _ + O_ & emspK _ = 3.1 times 10 ^ ) (PCl_ rightleftharpoons PCl_ + Cl_ & emspK _ = 97 ) (2O_ rightleftharpoons 3O_ & emspK _ = 5.9 times 10 ^ ) منح: أنظمة وقيم (K ) يطلب: تكوين الأنظمة عند التوازن استخدم قيمة ثابت التوازن لتحديد ما إذا كان خليط التوازن سيحتوي بشكل أساسي على المنتجات فقط ، أو المواد المتفاعلة بشكل أساسي فقط ، أو كميات كبيرة من كليهما. يحتوي النظام 4 فقط على (K gg 10 ^ 3 ) ، لذلك عند التوازن سيتكون من المنتجات فقط. يحتوي النظام 2 على (K ll 10 ^ ) ، لذلك فإن المتفاعلات لديها ميل ضئيل لتشكيل المنتجات في ظل الظروف المحددة لذلك ، عند التوازن ، سيحتوي النظام بشكل أساسي على المواد المتفاعلة فقط. يحتوي كلا النظامين 1 و 3 على ثوابت توازن في النطاق (10 ​​^ 3 ge K ge 10 ^ ) ، مما يشير إلى أن مخاليط التوازن ستحتوي على كميات ملحوظة من كل من المنتجات والمواد المتفاعلة. يتفاعل الهيدروجين والنيتروجين لتكوين الأمونيا وفقًا للمعادلة الكيميائية المتوازنة التالية: تم الإبلاغ عن قيم ثابت التوازن عند درجات حرارة مختلفة على أنها (K_ = 3.3 مرات 10 ^ 8 ) ، (K_ = 2.6 مرات 10 ^ 3 ) ، و (K_ = 4.1 ). في أي درجة حرارة تتوقع أن تجد أعلى نسبة من (H_2 ) و (N_2 ) في خليط التوازن؟ بافتراض أن معدلات التفاعل سريعة بدرجة كافية بحيث يتم الوصول إلى التوازن بسرعة ، في أي درجة حرارة ستصمم مفاعلًا تجاريًا ليعمل لزيادة إنتاج الأمونيا إلى الحد الأقصى؟ لماذا تختلف قياسات ثابت الجاذبية كثيرًا؟

تُظهر مجموعة من 13 قياسًا لـ G تذبذبًا دوريًا لمدة 5.9 سنوات (منحنى صلب) يتطابق بشكل وثيق مع التذبذب البالغ 5.9 سنوات في قياسات LOD (منحنى متقطع). القيمتان الشاذتان هما قياس كمي لعام 2014 وقياس عام 1996 معروف أنه يعاني من الانجراف. النقطة الخضراء عبارة عن تقدير لمتوسط ​​قيمة G بعد إزالة دورية مدتها 5.9 سنوات. الائتمان: جي دي أندرسون وآخرون. & # 1692015 EPLA

(Phys.org) - ثابت الجاذبية لنيوتن ، جي، تم قياسه حوالي اثنتي عشرة مرة على مدار الأربعين عامًا الماضية ، لكن النتائج اختلفت بأكثر بكثير مما كان متوقعًا بسبب أخطاء عشوائية ومنهجية. الآن وجد العلماء أن المقاس جي تتأرجح القيم بمرور الوقت مثل الموجة الجيبية مع فترة 5.9 سنوات. ليست كذلك جي في حد ذاته يتغير بهذا القدر ، كما يقترحون ، ولكن من المرجح أن شيئًا آخر يؤثر على القياسات.

كدليل على ماهية هذا "الشيء الآخر" ، لاحظ العلماء أن الفترة التذبذبية البالغة 5.9 سنوات من القياس جي ترتبط القيم تمامًا تقريبًا بالفترة التذبذبية البالغة 5.9 سنوات لمعدل دوران الأرض ، على النحو الذي تحدده قياسات طول اليوم الأخيرة (LOD). على الرغم من أن العلماء لا يدعون معرفة أسباب جي/ LOD ، يقترحون بحذر أن التفسير "الأقل احتمالًا" قد يتضمن تيارات متداولة في لب الأرض. قد تعمل التيارات المتغيرة على تعديل الجمود الدوراني للأرض ، مما يؤثر على LOD ، وتكون مصحوبة بتغيرات في الكثافة ، مما يؤثر جي.

نشر العلماء ، جون د.أندرسون ، المتقاعد من معهد كاليفورنيا للتكنولوجيا في باسادينا ، والمؤلفون المشاركون ، ورقة حول الارتباط بين قياسات ثابت الجاذبية لنيوتن وطول اليوم في عدد حديث من EPL.

كما أوضح العلماء ، فإن النقطة الأساسية للورقة هي اكتشاف ذلك ، بينما يقاس جي تختلف القيم ، فهي تفعل ذلك بطريقة يمكن التنبؤ بها.

"بمجرد أخذ دورية مدهشة مدتها 5.9 سنوات في الاعتبار ، فإن معظم القياسات المختبرية لـ جي متسقة ، وتقع في حدود أخطاء تجريبية واحدة سيجما ، "قال أندرسون Phys.org.

لا تتوافق الدورة الشمسية (المتوسط ​​الشهري لإجمالي عدد البقع الشمسية) (المنحنى الأسود) باستمرار مع البيانات الموجودة في G. Credit: J.D. Anderson، et al. & # 1692015 EPLA

ثابت جي ضروري لفهمنا للجاذبية ، ويظهر في كل من قانون نيوتن للجاذبية والنسبية العامة لأينشتاين. جي ليس مفهومًا بديهيًا ، ولا يشبه تسارع الجسم بسبب الجاذبية ، ز، 9.81 م / ث 2.

القيمة الرسمية لـ جي هي 6.673889 × 10 11 N · (م / كجم) 2 ، لكن قيم القياس الـ 13 التي تم تحليلها في هذه الدراسة تتراوح من حوالي 6.672 × 10 −11 N · (م / كجم) 2 إلى 6.675 × 10 11 نيوتن · (م) / كجم) 2 ، وهي نسبة تباين تبلغ حوالي 10 -4. الاختلافات في جي يُعتقد عمومًا أنها ناتجة عن تناقضات القياس بسبب جي من الصعب جدًا قياسه ، ويرجع ذلك جزئيًا إلى حقيقة أن الجاذبية أضعف بكثير من القوى الأساسية الأخرى.

رغم الصعوبات في القياس جي، يشير التحليل الجديد إلى أن القياسات ليست معيبة ، ولكن شيئًا ما يختلف في عملية القياس. كان أحد اعتبارات العلماء الأولى هو أن فترة 5.9 سنوات هي حوالي نصف فترة 11 عامًا من الدورة الشمسية. تحدث التغييرات في النشاط الشمسي بسبب التغيرات في عدد البقع الشمسية ، والتي تؤثر على الغلاف الجوي للأرض ، وتؤثر بدورها على الجمود الدوراني للأرض. ومع ذلك ، فإن إلقاء نظرة فاحصة على الدورة الشمسية يظهر أنها لا تتماشى مع البيانات الموجودة على جي.

بعد ذلك ، تحول العلماء إلى ورقة بحثية نُشرت في عام 2013 في طبيعة سجية التي أبلغت عن دورية مدتها 5.9 سنوات في LOD للأرض ، باستخدام بيانات من خدمات نظم دوران الأرض والمراجع الدولية (IERS) (هولمي ودي فيرون). كما تظهر البيانات ، يختلف طول كل يوم قليلاً ، مع بعض الأيام أطول قليلاً وبعض الأيام أقصر قليلاً من غيرها. تباين مستوى اللد هو مقياس لسرعة دوران الأرض ، ووجد العلماء في الدراسة الحالية أن تذبذبها الدوري يتوافق تمامًا تقريبًا مع جي التذبذبات. (تختلف هذه الاختلافات الدورية التي تبلغ مدتها 5.9 سنوات عن الملاحظات التي تشير إلى أن دوران الأرض يتباطأ وأن الأيام تطول بسبب الاحتكاك المد والجزر للقمر ، والذي يحدث على نطاق زمني أطول بكثير).

على الرغم من الارتباط الوثيق بين LOD و جي، لاحظ العلماء أن الحد الأقصى لنسبة الاختلاف في مستوى اللد هو في حدود 10 -9 ، وهو كبير بما يكفي للتغيير جي بمقدار 10 -5 فقط من السعة - لا يكفي لتفسير التباين الكامل بنسبة 10-4 في جي. نظرًا لأن هذا يعني أن اختلافات LOD لا يمكن أن تسبب جي الاختلافات ، يعتقد الباحثون أن كلا الاختلافين ناتج عن تغير الحركات في لب الأرض ، أو ربما بعض العمليات الجيوفيزيائية الأخرى.

على الرغم من أن النتائج تثير أيضًا احتمال أن تفسر الفيزياء الجديدة الاختلافات ، يعتقد العلماء أن هذا غير مرجح. واحد من 13 قياسات جي المستخدم في هذا التحليل هو أول قياس كمي على الإطلاق ، يسمى LENS-14 ، تم إجراؤه في عام 2014 جي القيمة التي تم الحصول عليها عن طريق القياس الكمي هي أكبر قيمتين متطرفتين في البيانات ، والقيمة الشاذة الأخرى هي تجربة عام 1996 التي من المعروف أن بها مشاكل. مزيد من القياسات الكمومية جي هناك حاجة لفهم سبب انحراف القياس الكمي عن القياسات الكلاسيكية.

كما أن العلماء ليسوا مقتنعين تمامًا بأن جي/ ارتباط LOD هو القصة الكاملة ، وهم يخططون للبحث عن ارتباطات أخرى في المستقبل.

وقال أندرسون: "نخطط للنظر في إمكانية وجود علاقة مع شذوذ تحليق الأرض ، والذي يبدو أيضًا دوريًا ، وربما حالات شاذة أخرى".


الحواشي

نشرته الجمعية الملكية. كل الحقوق محفوظة.

مراجع

Orendurff MS، Schoen JA، Bernatz GC، Segal AD، Klute GK

. 2008 كيف يمشي البشر: مدة النوبة ، عدد الخطوات في كل نوبة ، ومدة الراحة. رحابيل. الدقة. ديف . 45، 1077-1089. (دوى: 10.1682 / JRRD.2007.11.0197) كروسريف ، PubMed ، الباحث العلمي من Google

. 1960 إنفاق الطاقة في المشي على المستويات والصفوف. J. أبل. فيسيول . 15، 1015-1021. كروسريف ، آي إس آي ، الباحث العلمي من جوجل

. 2009 سرعات مثالية للمشي والجري والمشي على ممشى متحرك. فوضى 19، 026112. (دوى: 10.1063 / 1.3141428) كروسريف ، PubMed ، ISI ، الباحث العلمي من Google

Minetti AE ، Ardigò LP ، Capodaglio EM ، Saibene F

. 2001 علم الطاقة والميكانيكا لسير الإنسان بسرعات متذبذبة. أكون. زول . 41، 205 - 210. (دوى: 10.1093 / icb / 41.2.205) الباحث العلمي من Google

. 1976 الميكانيكا الحيوية وطاقة التمارين العضلية . أكسفورد ، المملكة المتحدة: مطبعة كلارندون. منحة جوجل

. 2011 خمسة عشر ملاحظة حول هيكل المشية الموفرة للطاقة في العديد من النماذج البسيطة ذات القدمين. J.R Soc. واجهه المستخدم 8، 74-98. (دوى: 10.1098 / rsif.2009.0544) الرابط ، ISI ، الباحث العلمي من Google

Klute GK ، Berge JS ، Orendurff MS ، Williams RM ، Czerniecki JM

. 2006 آثار التدخل التعويضي على نشاط مبتوري الأطراف السفلية. قوس. فيز. ميد. رحاب. 87، 717-722. (دوى: 10.1016 / j.apmr.2006.02.007) كروسريف ، PubMed ، ISI ، الباحث العلمي من Google

. 2004 الأسرع هو الأفضل: الآثار المترتبة على تدريب المشي المكثف السرعة بعد السكتة الدماغية. السكتة الدماغية 35، ٢٥٤٣-٢٥٤٨. (دوى: 10.1161 / 01.STR.0000144685.88760.d7) كروسريف ، PubMed ، ISI ، الباحث العلمي من Google

Osgnach C ، Poser S ، Bernardini R ، Rinaldo R ، Di Prampero PE

. 2010 تكلفة الطاقة والطاقة الأيضية في كرة القدم النخبة: نهج جديد لتحليل المطابقة. ميد. علوم. تمارين رياضية. 42، 170 - 178. (دوى: 10.1249 / MSS.0b013e3181ae5cfd) كروسريف ، PubMed ، ISI ، الباحث العلمي من Google

. 2001 تم التنبؤ بالعلاقات المتعددة لتردد سرعة السير من خلال التحسين المقيد. J. Theor. بيول . 209، 445-453. (دوى: 10.1006 / jtbi.2001.2279) كروسريف ، PubMed ، ISI ، الباحث العلمي من Google

Minetti AE، Gaudino P، Seminati E، Cazzola D

. 2012 The cost of transport of human running is not affected, as in walking, by wide acceleration/deceleration cycles . J. Appl. فيسيول. 114, 498–503. (doi:10.1152/japplphysiol.00959.2012) Crossref, PubMed, ISI, Google Scholar


محتويات

Probability mass function Edit

In general, if the random variable X follows the binomial distribution with parameters ن ∈ ℕ and ص ∈ [0,1], we write X

B(ن, ص). The probability of getting exactly ك successes in ن independent Bernoulli trials is given by the probability mass function:

ل ك = 0, 1, 2, . ن، أين

is the binomial coefficient, hence the name of the distribution. The formula can be understood as follows: ك successes occur with probability ص ك و نك failures occur with probability (1 − ص) نك . However, the ك successes can occur anywhere among the ن trials, and there are ( n k ) >> different ways of distributing ك successes in a sequence of ن trials.

In creating reference tables for binomial distribution probability, usually the table is filled in up to ن/2 values. This is because for ك & GT ن/2, the probability can be calculated by its complement as

f ( k , n , p ) = f ( n − k , n , 1 − p ) .

Looking at the expression F(ك, ن, ص) as a function of ك، هناك ك value that maximizes it. هذه ك value can be found by calculating

and comparing it to 1. There is always an integer م that satisfies [1]

F(ك, ن, ص) is monotone increasing for ك < م and monotone decreasing for ك & GT م, with the exception of the case where (ن + 1)ص is an integer. In this case, there are two values for which F is maximal: (ن + 1)ص and (ن + 1)ص − 1. م هل most probable outcome (that is, the most likely, although this can still be unlikely overall) of the Bernoulli trials and is called the mode.

Example Edit

Suppose a biased coin comes up heads with probability 0.3 when tossed. The probability of seeing exactly 4 heads in 6 tosses is

Cumulative distribution function Edit

It can also be represented in terms of the regularized incomplete beta function, as follows: [2]

Some closed-form bounds for the cumulative distribution function are given below.

Expected value and variance Edit

ب(ن, ص), that is, X is a binomially distributed random variable, n being the total number of experiments and p the probability of each experiment yielding a successful result, then the expected value of X is: [4]

This follows from the linearity of the expected value along with the fact that X is the sum of n identical Bernoulli random variables, each with expected value p . In other words, if X 1 , … , X n ,ldots ,X_> are identical (and independent) Bernoulli random variables with parameter p , then X = X 1 + ⋯ + X n +cdots +X_> and

This similarly follows from the fact that the variance of a sum of independent random variables is the sum of the variances.

Higher moments Edit

μ 1 = 0 , μ 2 = n p ( 1 − p ) , μ 3 = n p ( 1 − p ) ( 1 − 2 p ) , μ 4 = n p ( 1 − p ) ( 1 + ( 3 n − 6 ) p ( 1 − p ) ) , μ 5 = n p ( 1 − p ) ( 1 − 2 p ) ( 1 + ( 10 n − 12 ) p ( 1 − p ) ) , μ 6 = n p ( 1 − p ) ( 1 − 30 p ( 1 − p ) ( 1 − 4 p ( 1 − p ) ) + 5 n p ( 1 − p ) ( 5 − 26 p ( 1 − p ) ) + 15 n 2 p 2 ( 1 − p ) 2 ) . mu _<1>&=0,mu _<2>&=np(1-p),mu _<3>&=np(1-p)(1-2p),mu _<4>&=np(1-p)(1+(3n-6)p(1-p)),mu _<5>&=np(1-p)(1-2p)(1+(10n-12)p(1-p)),mu _<6>&=np(1-p)(1-30p(1-p)(1-4p(1-p))+5np(1-p)(5-26p(1-p))+15n^<2>p^<2>(1-p)^<2>).end>>

The non-central moments satisfy

Mode Edit

Usually the mode of a binomial ب(ن, ص) distribution is equal to ⌊ ( n + 1 ) p ⌋ , where ⌊ ⋅ ⌋ is the floor function. However, when (ن + 1)ص is an integer and ص is neither 0 nor 1, then the distribution has two modes: (ن + 1)ص and (ن + 1)ص − 1. When ص is equal to 0 or 1, the mode will be 0 and ن correspondingly. These cases can be summarized as follows:

Median Edit

In general, there is no single formula to find the median for a binomial distribution, and it may even be non-unique. However several special results have been established:

  • لو np is an integer, then the mean, median, and mode coincide and equal np. [7][8]
  • Any median م must lie within the interval ⌊np⌋ ≤ م ≤ ⌈np⌉. [9]
  • A median م cannot lie too far away from the mean: |مnp| ≤ min< ln 2, max<ص, 1 − ص> >. [10]
  • The median is unique and equal to م = round(np) when |مnp| ≤ min<ص, 1 − ص> (except for the case when ص = 1 / 2 and ن is odd). [9]
  • متي ص is a rational number (with the exception of ص = 1/2 and ن odd) the median is unique. [11]
  • متي ص = 1/2 and ن is odd, any number م in the interval
  • 1 / 2 (ن − 1) ≤ م
  • 1 / 2 (ن + 1) is a median of the binomial distribution. لو ص = 1/2 and ن is even, then م = ن/2 is the unique median.

Tail bounds Edit

which is however not very tight. In particular, for ص = 1, we have that F(كن,ص) = 0 (for fixed ك, ن مع ك < ن), but Hoeffding's bound evaluates to a positive constant.

A sharper bound can be obtained from the Chernoff bound: [12]

أين د(أ || ص) is the relative entropy (or Kullback-Leibler divergence) between an أ-coin and a ص-coin (i.e. between the Bernoulli(أ) and Bernoulli(ص) distribution):

Asymptotically, this bound is reasonably tight see [12] for details.

which implies the simpler but looser bound

ل ص = 1/2 and ك ≥ 3ن/8 for even ن, it is possible to make the denominator constant: [14]

Sums of binomials Edit

B(ن, ص) و ص

B(م, ص) are independent binomial variables with the same probability ص، من ثم X + ص is again a binomial variable its distribution is Z=X+Y

ومع ذلك، إذا X و ص do not have the same probability ص, then the variance of the sum will be smaller than the variance of a binomial variable distributed as B ( n + m , p ¯ ) . >).,>

Poisson binomial distribution Edit

The binomial distribution is a special case of the Poisson binomial distribution, or general binomial distribution, which is the distribution of a sum of ن independent non-identical Bernoulli trials B(صأنا). [15]

Ratio of two binomial distributions Edit

This result was first derived by Katz and coauthors in 1978. [16]

B(ن,ص1) و ص

B(م,ص2) be independent. يترك تي = (X/ن)/(ص/م).

Then log(تي) is approximately normally distributed with mean log(ص1/ص2) and variance ((1/ص1) − 1)/ن + ((1/ص2) − 1)/م.

Conditional binomials Edit

B(ن, ص) و ص | X

B(X, ف) (the conditional distribution of ص, given X), then ص is a simple binomial random variable with distribution ص

For example, imagine throwing ن balls to a basket يوX and taking the balls that hit and throwing them to another basket يوص. لو ص is the probability to hit يوX من ثم X

B(ن, ص) is the number of balls that hit يوX. لو ف is the probability to hit يوص then the number of balls that hit يوص يكون ص

B(X, ف) and therefore ص

Notice that the sum (in the parentheses) above equals ( p − p q + 1 − p ) n − m > by the binomial theorem. Substituting this in finally yields

Bernoulli distribution Edit

The Bernoulli distribution is a special case of the binomial distribution, where ن = 1. Symbolically, X

B(1, ص) has the same meaning as X

Bernoulli(ص). Conversely, any binomial distribution, B(ن, ص), is the distribution of the sum of ن Bernoulli trials, Bernoulli(ص), each with the same probability ص. [17]

Normal approximation Edit

لو ن is large enough, then the skew of the distribution is not too great. In this case a reasonable approximation to B(ن, ص) is given by the normal distribution

and this basic approximation can be improved in a simple way by using a suitable continuity correction. The basic approximation generally improves as ن increases (at least 20) and is better when ص is not near to 0 or 1. [18] Various rules of thumb may be used to decide whether ن is large enough, and ص is far enough from the extremes of zero or one:

  • One rule [18] is that for ن > 5 the normal approximation is adequate if the absolute value of the skewness is strictly less than 1/3 that is, if
  • A stronger rule states that the normal approximation is appropriate only if everything within 3 standard deviations of its mean is within the range of possible values that is, only if

Moving terms around yields:

Subtracting the second set of inequalities from the first one yields:

and so, the desired first rule is satisfied,

The following is an example of applying a continuity correction. Suppose one wishes to calculate Pr(X ≤ 8) for a binomial random variable X. لو ص has a distribution given by the normal approximation, then Pr(X ≤ 8) is approximated by Pr(ص ≤ 8.5). The addition of 0.5 is the continuity correction the uncorrected normal approximation gives considerably less accurate results.

This approximation, known as de Moivre–Laplace theorem, is a huge time-saver when undertaking calculations by hand (exact calculations with large ن are very onerous) historically, it was the first use of the normal distribution, introduced in Abraham de Moivre's book The Doctrine of Chances in 1738. Nowadays, it can be seen as a consequence of the central limit theorem since B(ن, ص) is a sum of ن independent, identically distributed Bernoulli variables with parameter ص. This fact is the basis of a hypothesis test, a "proportion z-test", for the value of ص استخدام x/n, the sample proportion and estimator of ص, in a common test statistic. [19]

For example, suppose one randomly samples ن people out of a large population and ask them whether they agree with a certain statement. The proportion of people who agree will of course depend on the sample. If groups of ن people were sampled repeatedly and truly randomly, the proportions would follow an approximate normal distribution with mean equal to the true proportion ص of agreement in the population and with standard deviation σ = p ( 1 − p ) n >>>

Poisson approximation Edit

The binomial distribution converges towards the Poisson distribution as the number of trials goes to infinity while the product np remains fixed or at least ص tends to zero. Therefore, the Poisson distribution with parameter λ = np can be used as an approximation to B(ن, ص) of the binomial distribution if ن is sufficiently large and ص is sufficiently small. According to two rules of thumb, this approximation is good if ن ≥ 20 and ص ≤ 0.05, or if ن ≥ 100 and np ≤ 10. [20]

Concerning the accuracy of Poisson approximation, see Novak, [21] ch. 4, and references therein.

Limiting distributions Edit

  • Poisson limit theorem: As ن approaches ∞ and ص approaches 0 with the product np held fixed, the Binomial(ن, ص) distribution approaches the Poisson distribution with expected valueλ = np. [20]
  • de Moivre–Laplace theorem: As ن approaches ∞ while ص remains fixed, the distribution of

Beta distribution Edit

The binomial distribution and beta distribution are different views of the same model of repeated Bernoulli trials. The binomial distribution is the PMF of k successes given n independent events each with a probability p of success. Mathematically, when α = ك + 1 and β = نك + 1 , the beta distribution and the binomial distribution are related by a factor of ن + 1 :

Given a uniform prior, the posterior distribution for the probability of success p given n independent events with k observed successes is a beta distribution. [23]

Estimation of parameters Edit

متي ن is known, the parameter ص can be estimated using the proportion of successes: p ^ = x n . >=>.> This estimator is found using maximum likelihood estimator and also the method of moments. This estimator is unbiased and uniformly with minimum variance, proven using Lehmann–Scheffé theorem, since it is based on a minimal sufficient and complete statistic (i.e.: x). It is also consistent both in probability and in MSE.

A closed form Bayes estimator for ص also exists when using the Beta distribution as a conjugate prior distribution. When using a general Beta ⁡ ( α , β ) (alpha ,eta )> as a prior, the posterior mean estimator is: p b ^ = x + α n + α + β >>=>> . The Bayes estimator is asymptotically efficient and as the sample size approaches infinity (ن → ∞), it approaches the MLE solution. The Bayes estimator is biased (how much depends on the priors), admissible and consistent in probability.

Confidence intervals Edit

Even for quite large values of ن, the actual distribution of the mean is significantly nonnormal. [25] Because of this problem several methods to estimate confidence intervals have been proposed.

In the equations for confidence intervals below, the variables have the following meaning:


Availability of data and materials

All methods and assessments described in this manuscript are publicly available at https://github.com/willtownes/scrna2019 [62]. GLM-PCA is available as an R package from CRAN (https://cran.r-project.org/web/packages/glmpca/index.html). The source code is licensed under LGPL-3.

All datasets used in the study were obtained from public sources (Table 1). The three Zheng datasets (ERCCs, monocytes, and 68K PBMCs) [5] were downloaded from https://support.10xgenomics.com/single-cell-gene-expression/datasets. The Duo datasets were obtained through the bioconductor package DuoClustering2018 [15]. The remaining three datasets had GEO accession numbers GSE77288 (Tung) [32], GSE92332 (Haber) [33], and GSE85241 (Muraro) [34].


Reaction Time Ruler

In this activity, the students participate in a simple ruler drop experiment and learn about the body’s response behind it.

When your friend drops the timer in the experiment, you see it start to move. A nerve signal travels from your eye to your brain then to your finger muscles. Your finger muscles move to catch the timer. The whole process takes between 150 and 220 milliseconds.

The neural pathway involved in a reaction time experiment involves a series of neural processes. This experiment does not test a simple reflex. Rather, this activity is designed to measure the response time to something that you see.

Catching a dropped ruler begins with the eye watching the ruler in anticipation of it falling. After the ruler is dropped, the eye sends a message to the visual cortex, which perceives that the ruler has fallen. The visual cortex sends a message to the motor cortex to initiate catching the ruler. The motor cortex sends a message to the spinal cord, which then sends a message to the muscle in the hand/fingers. The final process is the contraction of the muscles as the hand grasps the ruler. All of these processes involve individual neurons that transmit electrochemical messages to other neurons.

A person’s reaction time depends on a couple of things that can be improved and a couple that cannot.

Practice does make perfect because you can create a “muscle memory” that means you do not have to think so much to catch the ruler. You can take the time it takes to decide things out of the equation. Much of the time it takes you to react to the ruler dropping is the time it takes electrical signals to travel along your nerves. Moving at about 100 metres per second, a signal telling a finger to move has to travel from your brain down your spinal cord and into your arm. Signals for muscle control generally move faster than other ones. (Pain signals for example, move very slowly, often less than one metre per second). But these signals are “involuntary” which means that no matter how hard you try, you cannot control how quickly they occur.

The distance the reaction timer travels before you catch it has been converted to time using the equation د=1/2أt² where أ is the acceleration due to gravity.


Comparing two conditions

A simple microarray experiment may be carried out to detect the differences in expression between two conditions. Each condition may be represented by one or more RNA samples. Using two-color cDNA microarrays, samples can be compared directly on the same microarray or indirectly by hybridizing each sample with a common reference sample [4, 6]. The null hypothesis being tested is that there is no difference in expression between the conditions when conditions are compared directly, this implies that the true ratio between the expression of each gene in the two samples should be one. When samples are compared indirectly, the ratios between the test sample and the reference sample should not differ between the two conditions. It is often more convenient to use logarithms of the expression ratios than the ratios themselves because effects on intensity of microarray signals tend be multiplicative for example, doubling the amount of RNA should double the signal over a wide range of absolute intensities. The logarithm transformation converts these multiplicative effects (ratios) into additive effects (differences), which are easier to model the log ratio when there is no difference between conditions should thus be zero. If a single-color expression assay is used - such as the Affymetrix system [7] - we are again considering a null hypothesis of no expression-level difference between the two conditions, and the methods described in this article can also be applied directly to this type of experiment.

A distinction should be made between RNA samples obtained from independent biological sources - biological replicates - and those that represent repeated sampling of the same biological material - technical replicates. Ideally, each condition should be represented by multiple independent biological samples in order to conduct statistical tests. If only technical replicates are available, statistical testing is still possible but the scope of any conclusions drawn may be limited [3]. If both technical and biological replicates are available, for example if the same biological samples are measured twice each using a dye-swap assay, the individual log ratios of the technical replicates can be averaged to yield a single measurement for each biological unit in the experiment. Callow وآخرون. [8] describe an example of a biologically replicated two-sample comparison, and our group [9] provide an example with technical replication. More complicated settings that involve multiple layers of replication can be handled using the mixed-model analysis of variance techniques described below.

'Fold' change

The simplest method for identifying differentially expressed genes is to evaluate the log ratio between two conditions (or the average of ratios when there are replicates) and consider all genes that differ by more than an arbitrary cut-off value to be differentially expressed [10–12]. For example, if the cut-off value chosen is a two-fold difference, genes are taken to be differentially expressed if the expression under one condition is over two-fold greater or less than that under the other condition. This test, sometimes called 'fold' change, is not a statistical test, and there is no associated value that can indicate the level of confidence in the designation of genes as differentially expressed or not differentially expressed. The fold-change method is subject to bias if the data have not been properly normalized. For example, an excess of low-intensity genes may be identified as being differentially expressed because their fold-change values have a larger variance than the fold-change values of high-intensity genes [13, 14]. Intensity-specific thresholds have been proposed as a remedy for this problem [15].

ال راختبار

ال ر test is a simple, statistically based method for detecting differentially expressed genes (see Box 2 for details of how it is calculated). In replicated experiments, the error variance (see Box 1) can be estimated for each gene from the log ratios, and a standard ر test can be conducted for each gene [8] the resulting ر statistic can be used to determine which genes are significantly differentially expressed (see below). This gene-specific ر test is not affected by heterogeneity in variance across genes because it only uses information from one gene at a time. It may, however, have low power because the sample size - the number of RNA samples measured for each condition - is small. In addition, the variances estimated from each gene are not stable: for example, if the estimated variance for one gene is small, by chance, the ر value can be large even when the corresponding fold change is small. It is possible to compute a global ر test, using an estimate of error variance that is pooled across all genes, if it is assumed that the variance is homogeneous between different genes [16, 17]. This is effectively a fold-change test because the global ر test ranks genes in an order that is the same as fold change that is, it does not adjust for individual gene variability. It may therefore suffer from the same biases as a fold-change test if the error variance is not truly constant for all genes.

Modifications of the راختبار

As noted above, the error variance (the square root of which gives the denominator of the ر tests) is hard to estimate and subject to erratic fluctuations when sample sizes are small. More stable estimates can be obtained by combining data across all genes, but these are subject to bias when the assumption of homogeneous variance is violated. Modified versions of the ر test (Box 2) find a middle ground that is both powerful and less subject to bias.

In the 'significance analysis of microarrays' (SAM) version of the ر test (known as the س test) [18], a small positive constant is added to the denominator of the gene-specific ر اختبار. With this modification, genes with small fold changes will not be selected as significant this removes the problem of stability mentioned above. The regularized ر test [19] combines information from gene-specific and global average variance estimates by using a weighted average of the two as the denominator for a gene-specific ر اختبار. ال ب statistic proposed by Lonnstedt and Speed [20] is a log posterior odds ratio of differential expression versus non-differential expression it allows for gene-specific variances but it also combines information across many genes and thus should be more stable than the ر statistic (see Box 2 for details).

ال ر و ب tests based on log ratios can be found in the Statistics for Microarray Analysis (SMA) package [21] the س test is available in the SAM software package [22] and the regularized ر test is in the Cyber T package [23]. In addition, the Bioconductor [24] has a collection of various analysis tools for microarray experiments. Additional modifications of the ر test are discussed by Pan [25].

Graphical summaries (the 'volcano plot')

The 'volcano plot' is an effective and easy-to-interpret graph that summarizes both fold-change and ر-test criteria (see Figure 1). It is a scatter-plot of the negative log10-transformed ص-values from the gene-specific ر test (calculated as described in the next section) against the log2 fold change (Figure 1a). Genes with statistically significant differential expression according to the gene-specific ر test will lie above a horizontal threshold line. Genes with large fold-change values will lie outside a pair of vertical threshold lines. The significant genes identified by the S, B, and regularized ر tests will tend to be located in the upper left or upper right parts of the plot.

Volcano plots. The negative log10-transformed ص-values of the F1 test (see Box 3b) are plotted against (أ) the log ratios (log2 fold change) in a two-sample experiment or (ب) the standard deviations of the variety-by-gene VG values (see Box 3a) in a four-sample experiment. The horizontal bars in each plot represent the nominal significant level 0.001 for the F1 test under the assumption that each gene has a unique variance. The vertical bars represent the one-step family-wise corrected significance level 0.01 for the F3 test (see Box 3b) under the assumption of constant variance across all genes. Black points represent the significant genes selected by the F2 test with a compromise of these two variance assumptions.


Regression Coefficient: Meaning, Properties and Application

Regression coefficient is a statistical measure of the average functional relationship between two or more variables. In regression analysis, one variable is considered as dependent and other(s) as independent. Thus, it measures the degree of dependence of one variable on the other(s). Regression coefficient was first used for estimating the relationship between the heights of fathers and their sons.

Properties of Regression Coefficient:

The important properties of regression coefficient are given below:

2. It is expressed in terms of original unit of data.

3. Between two variables (say x and y), two values of regression coefficient can be obtained. One will be obtained when we consider x as independent and y as dependent and the other when we consider y as independent and x as dependent. The regression coefficient of y on x is represented as byx and that of x on y as bxy.

4. Both regression coefficients must have the same sign. If byx is positive, bxy will also be positive and vice versa.

5. If one regression coefficient is greater than unity, then the other regression coefficient must be lesser than unity.

6. The geometric mean between two regression coefficients is equal to the coefficient of correlation, r =

7. Arithmetic mean of both regression coefficients is equal to or greater than coefficient of correlation.

(byx + bxy)/2 = equal or greater than r

Regression coefficients are classified as:

(1) Simple, partial and multiple

(2) Positive and negative and

Computation of Regression Coefficient:

Regression coefficient can be worked out from both un-replicated and replicated data. For calculation of regression coefficient from un-replicated data three estimates, viz., (1) sum of all observations on x and y (∑x, ∑y) variables, (2) their sum of squares (∑x 2 and ∑y 2 ) and (3) sum of products of all observations on x and y variables (∑xy).

Then regression coefficient can be worked out as follows:

In case of replicated data, first analysis of variances and co-variances is performed and then regression coefficient is worked out as given below:

byx = Cov. (xy)/Vx, and bxy = Cov. (xy) /Vy,

where Cov = co-variance between x and y, Vx = variance of x, and Vy = variance of y.

The significance of regression coefficient is generally tested with the help of t-test.

First t is worked out as given below:

The calculated value of t is compared with the table value of t at desired level of significance and appropriate degrees of freedom. If the calculated value of t is greater than table value, it is considered significant and vice versa.

The value of dependent variable can be predicated with the value of independent variable. By substituting the value of dependent variable we can get value of independent variable.

Applications of Regression Coefficient in Genetics:

Regression analysis has wide applications in the field of genetics and breeding as given below:

1. It helps in finding out a cause and effect relationship between two or more plant characters.

2. It is useful in determining the important yield contributing characters.

3. It helps in the selection of elite genotypes by indirect selection for yield through independent characters.

4. It also helps in predicting the performance of selected plants in the next generation.


شاهد الفيديو: تجربة سلاح اربي كي رصاصة قديمة (شهر نوفمبر 2021).