راهنمای عمیق نحوه عملکرد جستجوی Google

ساخت وبلاگ

موتور جستجوی ما کاملاً خودکار است و از روبات های به اصطلاح جستجوگر استفاده می کند که دائماً در اینترنت می خزند و صفحات جدیدی را به فهرست اضافه می کنند. تقریباً تمام سایت های موجود در جستجوی Google به این ترتیب یافت می شوند. این سند نحوه عملکرد جستجوی Google با محتوای سایت شما را توضیح می دهد. با خواندن اطلاعات زیر، می توانید مشکلات خزیدن و نمایه سازی را عیب یابی کنید و نحوه بهینه سازی دید سایت خود را در جستجوی گوگل بیاموزید.

یادداشت

ما برای خزیدن بیشتر سایت ها یا رتبه بالاتر در نتایج جستجو هزینه ای از شما دریافت نمی کنیم. کسانی که خلاف این را ادعا می کنند، شما را گمراه می کنند.

ما تضمین نمی کنیم که سایت شما خزیده شود، فهرست شود یا در نتایج جستجو نشان داده شود، حتی اگر دستورالعمل های ما در نمای کلی جستجوی Google را رعایت کند.

سه مرحله در الگوریتم جستجوی گوگل

الگوریتم جستجوی گوگل از سه مرحله تشکیل شده است، اما همه صفحات از آنها عبور نمی کنند.

  1. اسکن کردن. گوگل متن، تصاویر و ویدئوها را از وب سایت های موجود در اینترنت با استفاده از برنامه های خودکار به نام روبات دانلود می کند.
  2. نمایه سازیگوگل متن، تصاویر و فایل های ویدئویی یک صفحه را تجزیه می کند و اطلاعات مربوط به آنها را در فهرست گوگل که یک پایگاه داده بزرگ است ذخیره می کند.
  3. نمایش نتایج جستجووقتی کاربر یک عبارت جستجو را در گوگل وارد می کند، سیستم ما مرتبط ترین نتایج را نشان می دهد.

اسکن کردن

اولین قدم جستجوی صفحات منتشر شده در اینترنت است. از آنجایی که رجیستری رسمی آنها وجود ندارد، گوگل باید دائماً به دنبال صفحات جدید باشد و آنها را به لیست صفحات شناخته شده اضافه کند. این فرآیند "کشف URL" نامیده می شود. برخی از صفحات به این دلیل شناخته می شوند که Googlebot قبلاً از آنها بازدید کرده است. موارد دیگر هنگام کلیک کردن روی پیوندهای صفحات شناخته شده از قبل کشف می شوند (به عنوان مثال، یک صفحه دسته دارای پیوندی به یک پست وبلاگ جدید است). گاهی اوقات خود صاحبان سایت لیستی از URL ها را برای خزیدن برای ما ارسال می کنند - به اصطلاح نقشه سایت.

با کشف صفحه URL ، Google Robot از آن بازدید می کند (اسکن) تا دریابد چه چیزی در آن منتشر شده است. تعداد زیادی از رایانه ها برای کار استفاده می شوند ، زیرا میلیاردها صفحه را پردازش می کند. برنامه SCAN روبات GoogleBot (یا "عنکبوت") نامیده می شود. این به طور خودکار تعیین می کند که کدام سایت ها را اسکن کنید ، چند بار باید انجام شود و چه تعداد صفحه را باید برای هر یک از آنها انتخاب کرد. روبات های جستجوی Google سعی می کنند سایت را خیلی سریع اسکن نکنند تا از اضافه بار آن جلوگیری شود. این مکانیسم مبتنی بر پاسخ سایت است (به عنوان مثال ، خطاهای HTTP 500 به این معنی است که سایت کند است) و تنظیمات موجود در کنسول جستجو.

روبات GoogleBot همه صفحات کشف شده را اسکن نمی کند. برخی از صفحات اسکن ممنوع است ، در حالی که صفحات دیگر بدون وارد کردن رمز عبور قابل مشاهده نیستند.

در طول اسکن ، گوگل صفحه را ترسیم می کند و کد JavaScript را در نسخه فعلی Chrome راه اندازی می کند. در یک روش مشابه ، مرورگر صفحاتی را که بازدید می کنید ترسیم می کند. این بسیار مهم است ، زیرا JavaScript اغلب برای نشان دادن محتوا در صفحه استفاده می شود و بدون ترسیم Google ممکن است آن را نبیند.

امکان اسکن بستگی به این دارد که آیا روبات های جستجوی Google به سایت دسترسی دارند یا خیر. ممکن است به دلایل زیر نباشد:

  • مشکلات سرور ارسال شده در سایت.
  • مشکلات شبکه ؛
  • دستورالعمل های robots. txt از دسترسی جلوگیری می کنند.

نمایه سازی

پس از اسکن صفحه ، باید بدانید که چه نوع محتوا روی آن قرار می گیرد. این مرحله به عنوان نمایه سازی نامیده می شود و شامل پردازش و تجزیه و تحلیل متن و برچسب ها و ویژگی های اصلی (به عنوان مثال ، عناصر و ویژگی های ALT) ، تصاویر ، فیلم و غیره است.

در طول نمایه سازی ، گوگل تعیین می کند که آیا صفحه پردازش شده یک نسخه کپی است یا یک نسخه متعارف از صفحه دیگر. نسخه متعارف را می توان در نتایج جستجو نشان داد. به شرح زیر است: ابتدا صفحات موجود در اینترنت (یا "خوشه") را با محتوای مشابه ترکیب می کنیم و سپس اصلی را در بین آنها انتخاب می کنیم. صفحات باقیمانده در این گروه نسخه های جایگزین در نظر گرفته می شوند که می توانند در شرایط دیگر نشان داده شوند ، به عنوان مثال ، اگر کاربر با استفاده از دستگاه تلفن همراه جستجو کند یا صفحه خاصی را از گروه جستجو کند.

علاوه بر این ، Google سیگنالهایی را در مورد صفحات متعارف و محتوای آنها جمع می کند و می تواند در مرحله بعدی از این اطلاعات استفاده کند - هنگام نشان دادن نتایج جستجو. چنین سیگنالهایی شامل زبان صفحه ، کشوری که برای آن محتوا در نظر گرفته شده است ، استفاده از یک صفحه و غیره.

اطلاعات مربوط به صفحه Canonical و گروه آن را می توان در فهرست Google ذخیره کرد - یک پایگاه داده بزرگ که در هزاران رایانه واقع شده است. در عین حال ، تمام صفحات فرآوری شده فهرست بندی نمی شوند.

امکان نمایه سازی نیز به محتوای صفحه و ابرداده آن بستگی دارد. مشکلات ممکن است به دلایل زیر رخ دهد:

  • محتوای صفحه کم کیفیت ؛
  • دستورالعمل های موجود در روبات ها ، نمایه سازی را ممنوع می کند.
  • با توجه به طراحی سایت ، نمایه سازی دشوار است.

نتایج جستجو

هنگامی که کاربر وارد درخواست می شود ، سیستم ما در فهرست پیدا می کند و مناسب ترین صفحات با کیفیت بالا را در نتایج جستجوی کاربر نشان می دهد. در عین حال ، صدها عامل مختلف مانند مکان ، زبان ، نوع دستگاه کاربر (رایانه یا تلفن) و موارد دیگر در نظر گرفته می شود. به عنوان مثال ، نتایج حاصل از درخواست "تعمیر دوچرخه" بسته به اینکه در پاریس یا هنگ کنگ هستید متفاوت خواهد بود.

بعضی اوقات صفحات ایندکس در نتایج جستجو نشان داده نمی شوند. این به دلایل زیر می تواند اتفاق بیفتد:

  • محتوای صفحه مربوط به درخواست کاربر نیست.
  • محتوای با کیفیت پایین ؛
  • دستورالعمل های روبات ها Metata مانع نمایش می شوند.

ما دائماً در حال بهبود الگوریتم هستیم. می توانید تغییرات در وبلاگ مرکز جستجوی Google را کنترل کنید.

به استثنای آنچه در غیر این صورت ذکر نشده است ، محتوای این صفحه تحت مجوز Creative Commons Attribution 4. 0 مجوز دارد و نمونه های کد مجوز انتشار Apache 2. 0 را دارند. برای جزئیات بیشتر ، به سیاست های سایت Google Developers مراجعه کنید. جاوا یک علامت تجاری ثبت شده اوراکل و/یا شرکت های وابسته به آن است.

استراتژی ترید...
ما را در سایت استراتژی ترید دنبال می کنید

برچسب : نویسنده : مرجان شیرمحمدی بازدید : 59 تاريخ : سه شنبه 15 فروردين 1402 ساعت: 13:36