تصویر: ماریان بانتجس "همه مدل ها اشتباه هستند ، اما برخی از آنها مفید هستند."30 سال پیش ، جورج باکس ، آماری را اعلام کرد ، و او درست بود. اما چه انتخابی داشتیم؟به نظر می رسید که فقط مدل ها ، از معادلات کیهان شناختی گرفته تا نظریه های رفتار انسان ، اگر به طور ناقص ، دنیای اطراف ما را توضیح دهند ، به طور مداوم قادر به توضیح هستند. تا به حال. امروز شرکت ها […]
فیس بوک توییتر پست الکترونیک داستان را ذخیره کنید فیس بوک توییتر پست الکترونیک داستان را ذخیره کنید

تصویر: ماریان بانتجس "همه مدل ها اشتباه هستند ، اما برخی از آنها مفید هستند."
30 سال پیش ، جورج باکس ، آماری را اعلام کرد ، و او درست بود. اما چه انتخابی داشتیم؟به نظر می رسید که فقط مدل ها ، از معادلات کیهان شناختی گرفته تا نظریه های رفتار انسان ، اگر به طور ناقص ، دنیای اطراف ما را توضیح دهند ، به طور مداوم قادر به توضیح هستند. تا به حال. امروز شرکت هایی مانند Google ، که در دوره ای از داده های بسیار فراوان رشد کرده اند ، نیازی به حل و فصل مدل های اشتباه ندارند. در واقع ، آنها به هیچ وجه مجبور نیستند برای مدل ها حل و فصل کنند.
شصت سال پیش ، رایانه های دیجیتال اطلاعات را قابل خواندن ساختند. بیست سال پیش ، اینترنت آن را به دست آورد. ده سال پیش ، اولین خزندگان موتور جستجو آن را به یک پایگاه داده واحد تبدیل کردند. اکنون شرکت های گوگل و همفکر در حال سنجش در سن اندازه گیری شده در تاریخ هستند و این جسد عظیم را به عنوان آزمایشگاه شرایط انسانی درمان می کنند. آنها فرزندان عصر پتابیت هستند.
سن پتابیت متفاوت است زیرا بیشتر متفاوت است. کیلوبیت ها در دیسک های فلاپی ذخیره شدند. مگابیت ها در دیسک های سخت ذخیره شدند. ترابایت ها در آرایه های دیسک ذخیره شدند. Petabytes در ابر ذخیره می شود. همانطور که در آن پیشرفت حرکت کردیم ، از قیاس پوشه به قیاس کابینت پرونده به قیاس کتابخانه رفتیم - خوب ، در Petabytes که از قیاس سازمانی فرار کردیم.
در مقیاس Petabyte ، اطلاعات مربوط به طبقه بندی و نظم ساده سه و چهار بعدی نیست بلکه از آمار آگنوستیک ابعادی است. این یک رویکرد کاملاً متفاوت را فراخوانی می کند ، که ما را ملزم به از دست دادن داده ها به عنوان چیزی می کند که می تواند در کلیت آن تجسم شود. این ما را وادار می کند تا ابتدا داده ها را به صورت ریاضی مشاهده کنیم و بعداً زمینه ای را برای آن ایجاد کنیم. به عنوان مثال ، گوگل دنیای تبلیغات را با چیزی بیش از ریاضیات کاربردی فتح کرد. این وانمود نشده است که در مورد فرهنگ و کنوانسیون های تبلیغات چیزی نمی داند - فقط فرض می کرد که داده های بهتر ، با ابزارهای تحلیلی بهتر ، روز را به دست می آورند. و گوگل درست بود.
فلسفه بنیانگذار Google این است که ما نمی دانیم چرا این صفحه بهتر از آن است: اگر آمار پیوندهای دریافتی می گویند این است ، این به اندازه کافی خوب است. هیچ تجزیه و تحلیل معنایی یا علّی لازم نیست. به همین دلیل است که گوگل می تواند زبان ها را بدون اینکه واقعاً آنها را "دانستن" ترجمه کند (با توجه به داده های مساوی با Corpus ، Google می تواند کلینگون را به آسانی ترجمه کند تا بتواند فرانسوی ها را به آلمانی ترجمه کند). و اینکه چرا می تواند بدون هیچ گونه دانش و فرض در مورد تبلیغات یا محتوا ، تبلیغات را با محتوا مطابقت دهد.
پیتر نورویگ ، مدیر تحقیقات گوگل ، در کنفرانس فناوری نوظهور اوریلی در این مارس گذشته ، به روزرسانی را به ماکسیم جورج باکس ارائه داد: "همه مدل ها اشتباه هستند و به طور فزاینده ای می توانید بدون آنها موفق شوید."
این دنیایی است که مقادیر زیادی از داده ها و ریاضیات کاربردی جایگزین هر ابزاری دیگر که ممکن است تحمل شود جایگزین می شود. خارج از هر نظریه رفتار انسان ، از زبانشناسی گرفته تا جامعه شناسی. طبقه بندی ، هستی شناسی و روانشناسی را فراموش کنید. چه کسی می داند چرا مردم کاری را انجام می دهند؟نکته این است که آنها این کار را انجام می دهند ، و ما می توانیم آن را با وفاداری بی سابقه ردیابی و اندازه گیری کنیم. با داده های کافی ، اعداد برای خودشان صحبت می کنند.
محبوبترین ایده ها مالکیت زمین بی معنی است جوهان آزاد فرهنگ فیلم های جدید جنگ ستارگان همه چیز را تغییر می دهند آندلا علوم پایه فیزیک Jetpacks ماندالوری (اشاره: آنها Jetpacks نیستند) Rhett Allain امنیت Google در حال چرخش فناوری کشتن رمز عبور به همه حساب ها است لیلی هی نیومن
هدف بزرگ در اینجا تبلیغات نیست. این علم است. روش علمی در مورد فرضیه های قابل آزمایش ساخته شده است. این مدل ها ، در بیشتر موارد ، سیستمهایی هستند که در ذهن دانشمندان تجسم می شوند. سپس مدل ها مورد آزمایش قرار می گیرند ، و آزمایش ها مدل های نظری نحوه عملکرد جهان را تأیید یا جعل می کنند. این روشی است که علم برای صدها سال کار کرده است.
دانشمندان آموزش دیده اند تا تشخیص دهند که همبستگی علیت نیست ، که هیچ نتیجه گیری نباید به سادگی بر اساس همبستگی بین x و y انجام شود (این فقط می تواند یک تصادف باشد). درعوض ، شما باید مکانیسم های اساسی را که این دو را به هم وصل می کنند درک کنید. پس از داشتن یک مدل ، می توانید مجموعه داده ها را با اطمینان وصل کنید. داده های بدون مدل فقط سر و صدا است.
اما در مواجهه با داده های گسترده ، این رویکرد به علم - فرضیه ، مدل ، آزمون - منسوخ می شود. فیزیک را در نظر بگیرید: مدل های نیوتنی تقریب های خام از حقیقت (اشتباه در سطح اتمی ، اما هنوز هم مفید بودند). صد سال پیش ، مکانیک کوانتومی مبتنی بر آماری تصویر بهتری را ارائه می دهد - اما مکانیک کوانتومی مدل دیگری است ، و به همین ترتیب نیز دارای نقص است ، بدون شک کاریکاتور یک واقعیت اساسی پیچیده تر است. دلیل اینکه فیزیک طی چند دهه گذشته به گمانه زنی های نظری درباره مدل های بزرگ و بزرگ جدید N- بعدی (مرحله "داستان زیبا" یک رشته گرسنه از داده ها) این است که ما نمی دانیم چگونه آزمایشاتی را انجام دهیم که جعل می کندفرضیه ها - انرژیها خیلی زیاد هستند ، شتاب دهنده ها خیلی گران هستند و غیره.
اکنون زیست شناسی در همان جهت پیش می رود. مدلهایی که ما در مدرسه در مورد ژنهای "غالب" و "مغلوب" که یک روند کاملاً مندلی را هدایت می کنند ، به ما آموزش داده شده اند ، ساده سازی حتی بیشتر از قوانین نیوتن است. کشف فعل و انفعالات پروتئین ژن و سایر جنبه های اپی ژنتیک ، دیدگاه DNA را به عنوان سرنوشت به چالش کشیده و حتی شواهدی را ارائه می دهد که نشان می دهد محیط می تواند بر صفات ارثی تأثیر بگذارد ، چیزی که زمانی غیرممکن ژنتیکی تلقی می شود.
به طور خلاصه ، هرچه بیشتر در مورد زیست شناسی بیاموزیم ، بیشتر خودمان را از مدلی می یابیم که می تواند آن را توضیح دهد.
اکنون راه بهتری وجود دارد. Petabytes به ما اجازه می دهد تا بگوییم: "همبستگی کافی است."ما می توانیم به دنبال مدل ها متوقف شویم. ما می توانیم داده ها را بدون فرضیه در مورد آنچه ممکن است نشان دهد تجزیه و تحلیل کنیم. ما می توانیم این اعداد را به بزرگترین خوشه های محاسباتی که جهان تاکنون دیده است ، پرتاب کنیم و اجازه دهیم الگوریتم های آماری الگویی پیدا کنند که علم نتواند.
بهترین نمونه عملی این توالی ژن اسلحه توسط J. Craig Venter است. توسط ترتیب سنج و ابر رایانه هایی که از نظر آماری داده های تولید شده را تجزیه و تحلیل می کنند ، فعال شده است ، ونتر از توالی ارگانیسم های فردی به توالی کل اکوسیستم ها رفت. در سال 2003 ، او توالی بخش اعظم اقیانوس را آغاز کرد و از سفر کاپیتان کوک استفاده کرد. و در سال 2005 او توالی هوا را آغاز کرد. در این فرآیند ، او هزاران گونه از باکتری های قبلاً ناشناخته و سایر شکل های زندگی را کشف کرد.
اگر کلمات "یک گونه جدید را کشف کنید" به ذهن داروین و نقاشی های فینچ می پردازد ، ممکن است در روش قدیمی انجام علم گیر کنید. ونتر می تواند تقریباً چیزی در مورد گونه هایی که پیدا کرده است به شما بگوید. او نمی داند که آنها چگونه زندگی می کنند ، چگونه زندگی می کنند ، یا بسیاری از موارد دیگر در مورد مورفولوژی خود. او حتی کل ژنوم خود را ندارد. تنها چیزی که او دارد ، یک توالی آماری است - یک دنباله منحصر به فرد که برخلاف هر دنباله دیگری در پایگاه داده است ، باید گونه جدیدی را نشان دهد.
استراتژی ترید...
ما را در سایت استراتژی ترید دنبال می کنید
برچسب :
نویسنده : مرجان شیرمحمدی
بازدید : 53
تاريخ : جمعه
10 شهريور
1402 ساعت: 0:56