وکتوریزه کردن جریان کنترل واگرا با ادغام فعال در معماری های بردار طولانی

ساخت وبلاگ

واگرایی کنترل جریان ، کاربرد بردار حلقه ، یک انتقال مهم کد را که باعث تسریع در حلقه های موازی داده می شود ، محدود می کند. واگرایی کنترل جریان معمولاً با استفاده از یک تحول IF-Conversion همراه با پیش بینی بردار انجام می شود. با این حال ، دستورالعمل های بردار حاصل با بسیاری از خطوط غیرفعال به طور ناکارآمد اجرا می شوند. از دستورالعمل های شعبه روی-superword-condition (BOSCC) برای پرش از برخی دستورالعمل های بردار استفاده می شود ، اما با افزایش طول بردار ، اثربخشی آنها کاهش می یابد. در این مقاله ، یک وکتور جدید ، ادغام لاین فعال (ALC) ارائه شده است ، که با ادغام خطوط فعال دو بردار ، اجرای کارآمد حلقه های کنترل شده را امکان پذیر می کند. این مقاله استفاده از ALC را با دو تحول حلقه نشان می دهد و آنها را در هسته های استخراج شده از مجموعه معیار CPU 2017 به کار می برد که منجر به کاهش 30. 9 ٪ در تعداد دستورالعمل های پویا در مقایسه با بهینه سازی با استفاده از تنها BOSCC ها می شود. با انگیزه ALC ، این مقاله همچنین تغییرات طراحی را در گسترش وکتور مقیاس پذیر بازو (SVE) برای بهبود بردار حلقه های کنترل کننده کنترل می کند.

این پیش نمایش محتوای اشتراک ، دسترسی از طریق موسسه شما است.

گزینه های دسترسی

خرید مقاله منفرد

دسترسی فوری به مقاله کامل PDF.

قیمت شامل مالیات بر ارزش افزوده (فدراسیون روسیه)

یادداشت

برای جزئیات بیشتر در مورد آزمایش به فرقه مراجعه کنید. 6. 1. در این مقاله ، ثبت های بردار به سادگی به عنوان بردارها گفته می شود.

منابع

  1. مونرو د (2020) فوگاکو رهبری می کند. Comm Comm ACM 64 (1): 16-18 ArticleGoogle Scholar
  2. آلن ، جونیور ، کندی ، ک ، پورترفیلد ، ج ، وارن ، ج (1983) تبدیل وابستگی کنترل به وابستگی به داده ها. در: مجموعه مقالات دهمین سمپوزیوم ACM SIGACT-SIGPLAN در مورد اصول زبانهای برنامه نویسی ، صص 177-189
  3. Barredo A ، Cebrian JM ، Moretó M ، Casas M ، Valero M (2020) بهبود کارآیی پیش بینی از طریق تراکم/ترمیم دستورالعمل های SIMD. در: 2020 سمپوزیوم بین المللی IEEE در مورد معماری رایانه ای با کارایی بالا (HPCA) ، صص 717-728
  4. Jaewook S (2007) معرفی جریان کنترل به کد بردار. در: شانزدهمین کنفرانس بین المللی در مورد معماری موازی و تکنیک های تدوین (PACT 2007) ، صص 280-291. IEEE
  5. Shin J ، Hall MW ، Chame J (2009) ارزیابی فناوری کامپایلر برای بهینه سازی های کنترل جریان برای معماری های پسوند چندرسانه ای. میکروپروس میکروسیست 33 (4): 235-243 ArticleGoogle Scholar
  6. Flynn MJ (1972) برخی از سازمان های کامپیوتری و اثربخشی آنها. IEEE Trans Comput C-21(9):948-960 ArticleGoogle Scholar
  7. شرکت اینتل (2021) Intel AVX-512. https://www. intel. com/content/www/us/en/architecture-and-technology/avx-512-overview. html
  8. ARM Corporation (2021) ARM Advanced SIMD. https://developer. arm. com/architectures/instruction-sets/simd-isas/neon
  9. Arm Limited (2021) Arm®Architecture مرجع راهنمای Armv8، برای نمایه معماری Armv8-A
  10. راسل RM (1978) سیستم کامپیوتری CRAY-1. Commun ACM 21(1):63-72 ArticleGoogle Scholar
  11. دیوید پترسون (2017) دستورالعمل های SIMD مضر در نظر گرفته شده است. https://www. sigarch. org/simd-instructions-considered-harmful
  12. Arm Limited (2021) Arm®Architecture Reference Manual Extension The Scalable Vector Extension (SVE) برای Armv8-A
  13. اعضای بین المللی RISC-V® (2021) پسوند برداری RISC-V "V". نسخه 0. 10 (بازدید شده در 26 آوریل 2021). https://github. com/riscv/riscv-v-spec/releases/download/v0. 10/riscv-v-spec-0. 10. pdf
  14. Sreraman N, Govindarajan R (2000) یک کامپایلر برداری برای پسوندهای چند رسانه ای. Int J Parallel Prog 28(4):363-400 ArticleGoogle Scholar
  15. کندی کی، آلن JR (2001) بهینه سازی کامپایلرها برای معماری های مدرن: رویکردی مبتنی بر وابستگی. Morgan Kaufmann Publishers Inc.، ماساچوست Google Scholar
  16. Wolfe MJ (1995) کامپایلرهای با کارایی بالا برای محاسبات موازی. شرکت انتشارات آدیسون-وسلی لانگمن، محقق نیویورک MATH Google
  17. Moll S, Hack S (2018) خطی سازی جزئی کنترل جریان. اطلاعیه های ACM SIGPLAN 53(4):543 556 ArticleGoogle Scholar
  18. آلن اف، کوک جی (1971) کاتالوگ بهینه سازی تبدیل ها. Prentice-Hall، نیوجرسی Google Scholar
  19. Anantpur J، Govindarajan R (2014) رام کردن واگرایی کنترل در gpus از طریق خطی سازی جریان کنترل. در: Albert C (ed) ساخت کامپایلر. Springer, Berlin Heidelberg, pp 133-153 ChapterGoogle Scholar
  20. Sun H، Gorlatch S، Zhao R (2018) حلقه های بازسازی با ifهای تودرتو برای برنامه های افزودنی simd بدون دستورالعمل های ماسک دار. در: کنفرانس اروپایی در مورد پردازش موازی، صفحات 769-781. اسپرینگر
  21. Sun، H، Fey F، Zhao J، Gorlatch S (2019) WCCV: بهبود بردار سازی گزاره های IF با شرایط منسجم تاب. در: مجموعه مقالات کنفرانس بین المللی ACM در ابرکامپیوتر، صفحات 319-329
  22. ARM (2020) پسوندهای زبان بازو C https://developer. arm. com/architectures/system-architectures/software-standards/acle
  23. Fujitsu Limited (2021) A64FX®Microarchitecture Manual. نسخه 1. 4
  24. بازو (2020) شبیه ساز دستورالعمل بازو. https://developer. arm. com/tools-and-software/server-and-hpc/compile/arm-instruction-emulator
  25. Bruening D ، Amarasinghe S (2004) دستکاری کارآمد ، شفاف و جامع کد اجرا. پایان نامه دکترا ، انستیتوی فناوری ماساچوست ، گروه مهندسی برق
  26. SPEC (2021) نمای کلی معیار SPEC2017. https://www. spec. org/cpu2017/docs/overview. html
  27. Coutinho B ، Sampaio D ، Pereira FMQ ، Meira Jr W (2011) تجزیه و تحلیل واگرایی و بهینه سازی. در: کنفرانس بین المللی 2011 در مورد معماری های موازی و تکنیک های تدوین ، صص 320-329. IEEE
  28. Lang H ، Passing L ، Kipf A ، Boncz P ، Neumann T ، Kemper A (2020) بیشترین استفاده را از سرمایه گذاری SIMD شما می کند: واگرایی جریان کنترل پیشخوان در خطوط لوله پرس و جو کامپایل شده. VLDB J 29 (2): 757-774 ArticleGoogle Scholar
  29. FUNG WWL ، SHAM I ، YUAN G ، AAMODT TM (2007) تشکیل و برنامه ریزی WARP پویا و برنامه ریزی برای جریان کنترل GPU کارآمد. در: چهلمین سمپوزیوم بین المللی IEEE/ACM سالانه در مورد میکروارشی (میکرو 2007) ، صص 407-420. IEEE
  30. Fung WWL ، Aamodt TM (2011) تراکم بلوک موضوع برای جریان کنترل کارآمد SIMT. در: 2011 IEEE هفدهمین سمپوزیوم بین المللی در مورد معماری رایانه ای با کارایی بالا ، صص 25-36. IEEE ،
  31. Khorasani F ، Gupta R ، Bhuyan LN (2015) اجرای کارآمد WARP در حضور واگرایی با مجموعه زمینه های مشترک. در: مجموعه مقالات 48 مین سمپوزیوم بین المللی در زمینه میکروارشی ، میکر و-48 ، صص 204-215
  32. Stephens N ، Biles S ، Boettcher M ، Eapen J ، Eyole M ، Gabrielli G ، Horsnell M ، Magklis G ، Martinez A ، Premillieu N et al (2017) پسوند وکتور مقیاس پذیر بازو. IEEE Micro 37 (2): 26-39 ArticleGoogle Scholar
  33. Sato M ، Ishikawa Y ، Tomita H ، Kodama Y ، Odajima T ، Tsuji M ، Yashiro H ، Aoki M ، Shida N ، Mioshi I ، et al (2020) طراحی مشترک A64FX پردازنده Manscore و "Fugaku". در: SC20: کنفرانس بین المللی برای محاسبات با کارایی بالا ، شبکه سازی ، ذخیره و تجزیه و تحلیل ، صص 1-15. IEEE
  34. Lovett (2021) SVE در LLVM. https://hps. vi4io. org/_media/events/2020/llvm-cth20_lovett. pdf
  35. Armejach A ، Caminal H ، Cebrian JM ، Langarita R ، González-Alberquilla R ، Adeniyi-Jones C ، Valero M ، Casas M ، Moretó M (2020) با استفاده از پسوند بردار مقیاس پذیر ARM® در کدهای استنسیل. J Supercomput 76 (3): 2039-2062 ArticleGoogle Scholar
  36. Cococcioni M ، Rossi F ، Ruffaldi E ، Saponara S (2020) شبکه های عصبی عمیق سریع برای پردازش تصویر با استفاده از موقعیت و پسوند بردار مقیاس پذیر بازو. j فرآیند تصویر در زمان واقعی 17: 759-771 ArticleGoogle Scholar
  37. Chen C ، Xiang X ، Liu C ، Shang Y ، Guo R ، Lu D ، Lu Y ، Hao Z ، Luo J ، Chen Z ، et al (2020) Xuantie-910: یک خط لوله 12 هسته ای تجاری از خارج-پردازنده RISC-V با کارایی بالا 64 بیتی با گسترش بردار: محصول صنعتی. در: 2020 ACM/IEEE 47th سمپوزیوم بین المللی سالانه معماری رایانه (ISCA) ، صص 52-64. IEEE

سپاسگزاریها

این تحقیق توسط دانشگاه آلبرتا هواوی همکاری نوآوری مشترک (UAHJIC) و شورای تحقیقات علوم ملی و مهندسی (NSERC) کانادا تأمین شد. ما از Giancarlo Peudi Segura بخاطر کمک های بزرگ خود برای ایجاد برخی از برنامه نویسی در سطح مونتاژ برای مطالعات موردی تشکر می کنیم.

اطلاعات نویسنده

نویسندگان و وابستگی ها

  1. دانشگاه آلبرتا ، ادمونتون ، کانادا Wyatt Praharenka ، David Pankratz ، João P. L. De Carvalho & José Nelson Amaral
  2. Huawei Technologies Canada ، Markham ، Canada Ehsan Amiri
  1. Wyatt Praharenka < Span> Chen C ، Xiang X ، Liu C ، Shang Y ، Guo R ، Liu D ، Lu Y ، Hao Z ، Luo J ، Chen Z ، et al (2020) Xuantie-910: یک بازار چند هسته ای 12خط لوله مرحله خارج از سفارش 64 بیتی پردازنده RISC-V با عملکرد بالا با گسترش بردار: محصول صنعتی. در: 2020 ACM/IEEE 47th سمپوزیوم بین المللی سالانه معماری رایانه (ISCA) ، صص 52-64. IEEE
استراتژی ترید...
ما را در سایت استراتژی ترید دنبال می کنید

برچسب : نویسنده : مرجان شیرمحمدی بازدید : 30 تاريخ : سه شنبه 17 مرداد 1402 ساعت: 22:24