چرا، کی و چگونه مقادیر P خود را تنظیم کنیم؟

ساخت وبلاگ

این یک مقاله با دسترسی آزاد است که تحت شرایط Creative Commons Attribution License توزیع شده است، که اجازه استفاده، توزیع، و بازتولید نامحدود را در هر رسانه ای می دهد، مشروط بر اینکه اثر اصلی به درستی ذکر شده باشد.

خلاصه

در حال حاضر، مقالات متعددی منتشر شده است که تجزیه و تحلیل داده های بیولوژیکی را در سطوح مختلف omics با استنباط آماری گزارش می دهد. شایان ذکر است، بسیاری از مطالعات، مانند آنچه در این مجله منتشر شده است، ارتباط ژن(ها) را در سطوح ژنومی و ترانسکریپتومی با انجام آزمایش های آماری مناسب گزارش می دهند. به عنوان مثال، فراوانی ژنوتیپ، آلل یا هاپلوتیپ در سطح ژنومی یا سطوح بیان نرمال شده در سطح ترانسکریپتومی بین گروه مورد و شاهد به ترتیب با استفاده از آزمون کای اسکوئر/فیشر یا آزمون t مستقل (یعنی دو نمونه) مقایسه می شود.، که این به یک عدد منفرد، یعنی مقدار P (یا درجه نرخ مثبت کاذب) ختم می شود، که برای ایجاد یا شکستن نتیجه آزمایش ارتباط استفاده می شود. این رویکرد دارای اشکالاتی است اما با این وجود یک رویکرد استاندارد و راحت در مطالعات ارتباطی باقی می ماند. با این حال، چیزی که به یک مسئله مهم تبدیل می شود این است که زمانی که آزمایش های «چندگانه» بر روی یک مقایسه مورد-شاهدی (یا هر دوتایی) انجام می شوند، از همان برش استفاده می شود. در اینجا، به اختصار، آنچه را که مقدار P نشان می دهد، و چرا و چه زمانی باید تنظیم شود، ارائه می دهیم. ما همچنین با مثال های کار شده نشان می دهیم که چگونه مقادیر P را برای آزمایش های چندگانه در محیط R برای محاسبات آماری تنظیم کنیم (http://www. R-project.org).

کلیدواژه ها: سوگیری، پروفایل بیان ژن، تنوع ژنتیکی، طراحی پژوهش، تجزیه و تحلیل داده های آماری مجله سلولی (یخته)، سال 20، شماره 4، ژانویه-مار (زمستان) 2019، صفحات: 604-607

در حال حاضر داده های بیولوژیکی در مقیاس گسترده تولید می شود ، که نه تنها در بهمن داده های خام حاصل شده است ، بلکه منجر به آزمایش فرضیه های متعدد نیز شده است. برای آزمایش این فرضیه ها ، آمار استنباطی برای مجموعه داده های نمونه مربوطه اعمال می شود و منجر به بینش های بیولوژیکی بیشتر و اکتشافات احتمالی می شود. در اصل ، آزمایش فرضیه یک روش آماری است که احتمال قدرت شواهد را بر اساس داده های نمونه برداری شده برای یا در برابر فرضیه تهی (یعنی تفاوت یا تغییر) محاسبه می کند ، که در یک عددی واحد ، یعنی مقدار P به اوج می رسد. در اینجا ، ما در مورد ارزشهای P بحث می کنیم ، اما مهمتر از همه ، با تمرکز بر مطالعات انجمن ، بحث می کنیم که چرا ، چه موقع و چگونه باید تنظیم شوند. ما امیدواریم که این راهنمای کوتاه منجر به گزارش دقیق تر از مقادیر P و استنتاج های مربوط شود.

مقدار P چیست؟

هنگامی که می خواهید از نظر آماری استنباط کنید که آیا نتیجه قابل توجه است ، با توجه به فرضیه تهی ، احتمال آن نتیجه را که با احتمال تصادفی خالص رخ می دهد ، تعیین می کنید. یک برش تاریخی و شهودی برای رد فرضیه تهی (بنابراین یک رویداد غیر تصادفی معنی دار) 0. 05 (1) است. بر این اساس ، اگر احتمال آزمایش فرضیه تهی از برابری میانگین سطح بیان نرمال ژن X در گروه های مورد و کنترل (μ1, µ2) 1 است=µ2) ، و پذیرش (پذیرش) فرضیه جایگزین (μ12). با این حال ، آنچه ما در واقع در حال تعیین هستیم ، احتمال مشاهده داده ها به عنوان یا شدیدتر از آنچه مشاهده کردیم با توجه به فرضیه تهی صحیح است (2-4). در همین حال ، لازم به ذکر است که در آزمایش فرضیه آماری ، ما نه تنها باید مقدار P را گزارش کنیم بلکه قدرت آزمون ، فواصل اطمینان و اندازه اثر را نیز شامل می شویم (5-8).

مسائل ارزش P

موضوع بحث و جدال قابل توجهی در مورد موقعیت PValue در استنتاج علمی وجود دارد و این امر با ظهور تجزیه و تحلیل داده های بزرگ ، که عمدتاً حول سوء تفاهم و سوء استفاده از آن می چرخد ، حتی بیشتر می شود (9 ، 10). اولین نقص این است که برش 0. 05 کاملاً دلخواه و صرفاً یک کنوانسیون است. بنابراین ، این نشان می دهد که این مقدار لزوماً برای همه متغیرها و برای همه تنظیمات تحقیق مناسب نیست. به عنوان مثال ، در مطالعات انجمن بیماری ، برش دقیق تری از 0. 01 توصیه می شود. علاوه بر این ، دو تعصب مشترک بیشتر بر یکپارچگی یافته های تحقیق ، یعنی گزارش انتخابی و هک کردن P (7) تأثیر می گذارد. به طور خلاصه ، گزارش انتخابی به تعصب نتایج منفی قابل گزارش زیر گزارش (یعنی مقادیر P غیر معنی دار) می پردازد. این تعصب در توزیع ناچیز نتایج گزارش شده به سمت یافته های مثبت مشهود است (11). در مقابل ، P-Hacking انتخاب مغرضانه داده ها را برای نشان دادن نتایج غیر مهم در صورت مطلوب توصیف می کند. اگرچه این از نظر فنی صحیح است ، اما یک شکل بسیار غیرقابل نمایش از دستکاری داده های مستقیم است (12).

با فرض اینکه به تمام نقص های ذکر شده پرداخته شده است ، آخرین اما مهمترین مسئله ای که در تعیین مقدار P باقی مانده است ، هنگام آزمایش چندگانه است ، اما چه چیزی تعدد را تشکیل می دهد؟یک سناریو را تصور کنید که بیان بیست ژن در سطح متن بین یک مجموعه ثابت از موارد و کنترل ها مقایسه شده است یا در سطح ژنومی ، فرکانس ژنوتیپ/آلل بیست پلی مورفیسم تک نوکلئوتیدی تک (SNP) مقایسه شده است. به احتمال زیاد ، با فرض استقلال آزمون ها ، به طور متوسط انتظار می رود که یک در بیست نسخه یا SNP در سطح 5 ٪ قابل توجه باشد. این امر به این دلیل است که "احتمال" مثبت کاذب در این سناریو اکنون متورم شده است و به وضوح نیاز به تنظیم سطح اهمیت اصلی تست اصلی 0. 05 دارد. به عبارت دیگر ، احتمال مشاهده مثبت کاذب مثبت (یعنی خطای نوع I) ایجاد شده توسط کلیه تست های انجام شده نباید از سطح 5 ٪ (2) تجاوز کند. این مسئله پس از ظهور علم OMICS آشکار شده است ، که در آن تعداد زیادی از متغیرهای مستقل به طور همزمان آزمایش می شوند و محاسبه کسری از مثبت های واقعی بسیار مهم است (5). به عنوان یک محاسبه ساده ، فرض کنید احتمال خطای نوع I در یک آزمایش واحد α استتنها= 5 × 1 0-2. احتمال عدم مشاهده خطای نوع I در یک آزمایش واحد پس از آن P استتنها= 1-α = 1-5 × 10-2 = 0. 95. بر این اساس ، احتمال عدم مشاهده خطای نوع I در تست های متعدد (به عنوان مثال 20) P استچندگانه= (1-α) M = (1- 5 × 10-2) 20≈3. 6E-01 و در نتیجه αچندگانه= 1- (1-α) M ≈ 0. 64 ، بنابراین افزایش قابل توجهی در خطای نوع I پس از آزمایش چندگانه را نشان می دهد. اگر تعداد آزمایشات به طرز چشمگیری افزایش یابد ، میزان خطای نوع I باد (αچندگانه) به 1. برای مثال ، α می رسدچندگانه= 0. 9941 اگر α = 0. 05 و m = 100 باشد.

بنابراین چگونه باید این تورم از نرخ مثبت کاذب را اصلاح کرد؟راه حل اول کنترل خطای نوع I با به حداقل رساندن آستانه اهمیت (یعنی محاسبه α) است. بگویید احتمال خطای نوع I در یک آزمایش واحد α استاندارد استتنها= α´. احتمال عدم مشاهده خطای نوع I در یک آزمایش واحد پس از آن P استتنها= 1-α´. برای تست های مستقل ، این احتمال P خواهد بودچندگانه= (1-α´) متر. در مرحله بعد ، احتمال خطای نوع I برای چندین آزمایش α استچندگانه= 1- (1-α´) متر. تنظیم مجدد معادله منجر به تصحیح تقریب Bonferroni برای آزمایش چندگانه α´کام α/m می شود. به دنبال همان سناریو ، α´ برای هر یک از بیست آزمایش 0. 05/20 = 2. 5 × 10-3 خواهد بود. با استفاده از همان قانون ، هنگامی که 1000،000 SNP در یک مطالعه ارتباط ژنوم در سطح ژنوم آزمایش می شود (GWAS) αˊ می تواند 5 × 10-8 باشد و هنگامی که اختلال در بیان برای 20،000 ژن در یک ریزآرایی کامل با استفاده از آن بررسی می شود ، αˊ 2. 5 × خواهد بود. 1 0-6

چگونه مقادیر p را تنظیم کنیم؟

در اینجا ما برای دو روش متداول بدون جزئیات و فرمول های عمیق ریاضی نمونه های کار شده ای را ارائه می دهیم. این روش از نظر تحلیلی در مقایسه با روش اول راحت تر است ، که در آن ، پس از تنظیم یک آستانه تنظیم شده ، مقادیر P RAW باید در یک زمان در برابر یک "بررسی شود. عملکرد مورد استفاده در اینجا p. Adust از بسته Stats در R. است. تصور کنید که شما سطح اختلال در تنظیم ژن را بین دو گروه (به عنوان مثال موارد و کنترل) برای ده ژن در سطح متن و در زیر وکتور مقادیر خام P به دست آمده آزمایش کرده اید. با اجرای آزمون t مستقل (با فرض عادی بودن داده های بیان).

ساده ترین راه برای تنظیم مقادیر P شما استفاده از روش تصحیح Bonferroni محافظه کار است که مقادیر R خام را با تعداد تست های M (یعنی طول وکتور P_Values) ضرب می کند. با استفاده از عملکرد P. Adjust و آرگومان "روش" روی "Bonferroni" تنظیم شده است ، ما یک بردار با طول یکسان اما با مقادیر P تنظیم شده دریافت می کنیم. این رویکرد تعدیل با توجه به میزان خطای خانوادگی حداقل یک مثبت کاذب (FamilywiseErrate (FWER) = احتمال (FalsePositive≥ 1)) تصحیح می کند.

p. adjust (p_values ، method = "bonferroni") ## [1] 0. 001 0. 010 0. 060 0. 300 0. 950 1. 000 1. 000 1. 000 1. 000 1. 000

نتایج نشان می دهد که تنها دو از ده ژن به طور قابل توجهی اختلال در تنظیم باقی مانده است. اگر ما این اصلاح چند آزمایش را انجام نداده ایم ، ما برای دو ژن دیگر اختلال در تنظیم قابل توجهی گزارش می کردیم. این روش تصحیح محافظه کارانه ترین از همه است و به دلیل فیلتر دقیق آن ، به طور بالقوه میزان منفی کاذب را افزایش می دهد (5) که به سادگی به معنای رد مثبت واقعی در بین مثبت کاذب است.

بنیامین و هوچبرگ

یک روش تنظیم فلسفی متفاوت و قدرتمندتر است که توسط بنیامین و هوچبرگ ارائه شده است (13). این روش ، به جای کنترل نرخ مثبت کاذب (a. k. a fwer) همانطور که در روش Bonferroni ، میزان کشف کاذب را کنترل می کند (FalsediscoveryRate (FDR) = مورد انتظار (falsppositive/ (falsppositive+truepositive))). به عبارت دیگر ، FDR نسبت مورد انتظار مثبت کاذب در بین همه مثبت ها است که فرضیه تهی را رد می کند و نه در بین تمام آزمایشات انجام شده. در روش FDR ، مقادیر P در یک آرایه صعودی رتبه بندی می شوند و توسط m/k ضرب می شوند که در آن K موقعیت یک مقدار p در بردار مرتب شده و M تعداد تست های مستقل است.

p. Adjust (p_values ، method = "fdr")

## [1] 0. 001 0. 005 0. 02 0. 075 0. 19 0. 195

## [7] 0. 334 0. 690 0. 834 0. 985

مقایسه سریع نتایج نشان می دهد که FDR یک ژن تنظیم نشده دیگر را در مقایسه با روش Bonferroni مشخص می کند. این ژن سوم (اصلاح شده P = 0. 02) همان چیزی است که می توان آن را منفی کاذب نامید زیرا در هنگام استفاده از روش Bonferroni محافظه کارانه هیچ اهمیتی نشان نمی دهد اما تحت FDR قابل توجه است.

برای مقایسه بهتر این دو روش تصحیح آزمایش چندگانه ، یک آرایه بزرگ از مقادیر P تصادفی (500 نفر) تنظیم شد (شکل 1). توزیع فرکانس نشان می دهد که روش Bonferroni به طور چشمگیری تعداد مقادیر P قابل توجه را کاهش می دهد و مقادیر P بزرگ (نزدیک یا برابر با 1) P را به میزان قابل توجهی افزایش می دهد. با این حال ، روش FDR مقادیر P قابل توجه تر را حفظ می کند در حالی که مقادیر P غیر معنی دار را با اوج در حدود P = 0. 8 افزایش می دهد. این با همبستگی بالاتر بین مقادیر P RAW و تنظیم شده با FDR نسبت به سایر ترکیبات جفتی سازگار است. اگرچه تعدادی از روشهای مختلف تصحیح آزمایش چندگانه وجود دارد (به عنوان مثال ، مستندات P. Adjust را در روشهای تصحیح R یا اصلاحات مبتنی بر جابجایی مشاهده کنید) ، ترجیحا ترین روش کنترل FDR است زیرا نه تنها مثبت کاذب را کاهش می دهد ، بلکه منفی های کاذب را نیز به حداقل می رساند.

An exteal file that holds a picture, illustration, etc. Object name is Cell-J-20-604-g01.jpg

مقایسه دو روش تنظیم آزمایش چندگانه در یک نقشه ماتریس. توزیع 500 مقدار P تصادفی قبل و بعد از تنظیم بر روی مورب نشان داده شده است. مثلث های فوقانی و تحتانی ضرایب همبستگی زوج و طرح پراکندگی را به ترتیب بین مقادیر P خام و تنظیم شده نشان می دهد.

پیام خانگی این است که فرقی نمی کند که شما علاقه مند به شناسایی ارتباط قابل توجهی با SNP ها ، ژنهای متفاوت بیان شده (DEG) یا اصطلاحات هستی شناسی ژن (GO) باشید ، لحظه ای که چندین آزمایش را در همان نمونه ها یا مجموعه های ژن انجام می دهیدبه ترتیب ، رسیدگی به مسئله آزمایش چندگانه با تنظیم نرخ مثبت کاذب کلی از طریق محاسبه A´ یا تنظیم مقادیر خام P (همانطور که در اینجا بر اساس Bonferroni یا FDR نشان داده شده است) ضروری خواهد بود تا مثبت های واقعی از بین بروند. این امر بدون شک قابلیت اطمینان و تکرارپذیری یافته های تحقیق را افزایش می دهد.

تصدیق

نویسندگان هیچ پشتیبانی مالی برای افشای با توجه به این نسخه خطی ندارند. نویسندگان هیچ تضاد منافع را اعلام نمی کنند.

کمک های نویسنده

N. A-P. ؛ساختار کلی مقاله را تصور و برنامه ریزی کرد. M. J. ؛تجزیه و تحلیل محاسباتی انجام شده است. هر دو نویسنده در مورد ایده های اصلی مفهومی که ارائه می شود بحث کردند ، به نوشتن نسخه خطی کمک کردند و پیش نویس نهایی را تصویب کردند. همه نویسندگان نسخه نهایی را می خوانند و تصویب کردند.

منابع

1. فیشر RA. آزمون اهمیت در تجزیه و تحلیل هارمونیک. Proc R Soc A Math Phys Eng Sci. 1929 ؛125 (796): 594-599.[Google Scholar]

2. DJ Balding. آموزش روشهای آماری برای مطالعات انجمن جمعیت. Nat Rev Genet. 2006 ؛7 (10): 781-791.[PubMed] [Google Scholar]

3.cohen J. زمین دور است (ص<.05): rejoinder. Am Psychol. 1995; 50 (12):1103 1103. [Google Scholar]

4- استرن JA ، دیوی اسمیت جی. BMJ2001 ؛322 (7280): 226-231.[مقاله رایگان PMC] [PubMed] [Google Scholar]

5. لی JK. بیوانفورماتیک آماری. چاپ اولنیوجرسی: جان ویلی و پسران شرکت ؛2010. [Google Scholar]

6. Ranstam J. چرا فرهنگ ارزش p بد است و فواصل اطمینان جایگزین بهتری می شود. غضروف استئوآرتریت. 2012 ؛20 (8): 805-808.[PubMed] [Google Scholar]

7. Vidgen B ، Yasseri T. P- مقادیر: سوء تفاهم و سوءاستفاده. فیزیک جلو ؛2016. [Google Scholar]

8. لی DK. گزینه های دیگر برای مقدار p: فاصله اطمینان و اندازه اثر. کره ای J Anesthesiol. 2016 ؛69 (6): 555-562.[مقاله رایگان PMC] [PubMed] [Google Scholar]

9.colquhoun D. بررسی میزان کشف کاذب و تفسیر نادرست از ارزشهای P. R Soc Open Sci. 2014 ؛1 (3): 140216 140216.[مقاله رایگان PMC] [PubMed] [Google Scholar]

10. Wasserstein RL ، Lazar NA. بیانیه ASA در مورد مقادیر p: زمینه ، فرآیند و هدف. آمار2016 ؛70 (2): 129-133.[Google Scholar]

11. Franco A ، Malhotra N ، Simonovits G. علوم اجتماعی. تعصب در علوم اجتماعی: باز کردن کشو پرونده. علوم پایه. 2014 ؛345 (6203): 1502-1505.[PubMed] [Google Scholar]

12. Jager LR ، Leek JT. برآوردی از میزان کشف کاذب و کاربردی در ادبیات پزشکی برتر. آمار زیستی. 2014 ؛15 (1): 1 12.[PubMed] [Google Scholar]

13. Benjamini Y ، Hochberg Y. کنترل میزان کشف کاذب: یک رویکرد عملی و قدرتمند برای آزمایش های متعدد. J R Statist Soc B. 1995 ؛57 (1): 289-300.[Google Scholar]

استراتژی ترید...
ما را در سایت استراتژی ترید دنبال می کنید

برچسب : نویسنده : مرجان شیرمحمدی بازدید : 39 تاريخ : چهارشنبه 31 خرداد 1402 ساعت: 18:27