یک مهندس قابلیت اطمینان سایت (SRE) می تواند یک متخصص عمومی یا متخصص باشد. ماهیت تخصصی نقش SRE را می توان از فرآیند استخدام برجسته کرد. بسته به مجموعه مهارت‌های فردی، سازمان‌ها می‌توانند یک SRE را در تعدادی از نقش‌های تخصصی مانند مربی، پشتیبان SLO، معمار زیرساخت و رهبر واکنش به حادثه درگیر کنند.

 
نقش SRE دارای یک فرض منحصر به فرد است که امکان تخصص در کنار آگاهی از تصویر بزرگتر را فراهم می کند. SRE ها نقش “پشتیبان قابلیت اطمینان” را ایفا می کنند و از پایبندی به اهداف سطح خدمات (SLOs) اطمینان می دهند. SREها همچنین تیم‌ها را تشویق می‌کنند تا آزمایش‌ها را انجام دهند و ریسک‌های محاسبه‌شده را برای یادگیری از آن‌ها انجام دهند. هنگام پیشرفت به سمت قابلیت اطمینان، سازمان ها اغلب تیم های SRE ایجاد می کنند که در مدل های توزیع شده یا متمرکز کار می کنند. SRE ها ممکن است به پایگاه کد یک سرویس کمک کنند یا خط مشی ها و رویه های توسعه را بنویسند. گاهی اوقات، SRE ها کار چسب را انجام می دهند – کاری که برای موفقیت پروژه ضروری است، اما مستلزم کمک به کد نیست. یک سازمان می تواند به دنبال نقش های تخصصی زیر در تیم های SRE باشد:

مربی
خط مشی های توسعه، رویه ها، ارزش های فرهنگی و زیرساخت هایی را ایجاد می کند که به نفع سازمان خواهد بود. آنها می توانند جلسات اطلاعاتی را برای انتقال شیوه های جدید و تجزیه و تحلیل میزان استفاده از آنها برگزار کنند. همچنین مربیان باید در کنار اینکه بتوانند افراد را متقاعد کنند تا شیوه های جدید را اتخاذ کنند، همدلی داشته باشند.

پشتیبان SLO
اطمینان حاصل می کند که یک SLO آنچه را که نیاز دارد اندازه گیری می کند و آن را نقض نمی کند. جلسات بررسی SLO را راه‌اندازی می‌کند و ابزارهای اضافی را برای جمع‌آوری داده‌های مرتبط ترکیب می‌کند. “توانایی نه گفتن” را پرورش می دهد. برقراری ارتباط با کسی که برای حفظ SLO نیاز به تأخیر در توسعه دارد، یک مهارت حیاتی است.

معمار زیرساخت
زیرساخت‌های SRE را برای پروژه‌های مختلف، از جمله مستندسازی برای ابزارهای داخلی، کتاب‌های اجرایی برای رویه‌ها، فرآیندهای تکمیل پروژه‌ها و غیره ایجاد می‌کند. از نزدیک با تیم توسعه که نقشی مشابه SRE-Developer ایفا می کند، کار می کند. به عنوان یک نقش فنی، مجموعه مهارت های مورد نظر شامل درک فرآیندهای توسعه است. دانش عمیق از پایگاه کد یک سازمان یک امر ضروری است.

رهبر واکنش به حادثه
واکنش موثر به حوادث به شیوه ای واضح، تضمین می کند که سازمان “آماده حادثه” است. این نقش قبل، حین و بعد از حادثه ضروری است. از این رو، مسئولیت‌ها از ایجاد یک برنامه آماده‌سازی قبل از حادثه تا همکاری با تیم‌ها در طول حادثه، و در نهایت ایجاد پس‌نگر پس از حادثه متغیر است. مهارت های گوناگونی برای این نقش مورد نیاز است، همراه با مهارت های اولویت بندی و آگاهی از ابزارها.

بیشتر بدانید: https://lnkd.in/dVa3Fjub