SITE RELIABILITY ENGINEER

United States Cold Storage, Inc.•Camden, NJ

About The Position

SITE RELIABILITY ENGINEER (SRE) ENGINEER RELIABILITY INTO THE SYSTEMS THAT MOVE THE NATION’S FOOD SUPPLY WHO WE ARE US COLD OWNS AND OPERATES ONE OF THE MOST COMPLEX TEMPERATURE-CONTROLLED LOGISTICS NETWORKS IN NORTH AMERICA. EVERY DAY, OUR SYSTEMS COORDINATE THE STORAGE AND MOVEMENT OF FOOD AT NATIONAL SCALE ACROSS A NETWORK OF STATE-OF-THE-ART DISTRIBUTION CENTERS, INCLUDING MULTIPLE HIGHLY AUTOMATED WAREHOUSE FACILITIES. WE CONTINUE TO ADVANCE OUR CORE WAREHOUSE AND LOGISTICS PLATFORMS. OUR CURRENT FOCUS IS ON MODULAR, EVENT-DRIVEN, API-FIRST AND CLOUD ARCHITECTURES. WE CONTINUE TO ENHANCE RELIABILITY AND ACCELERATE ENGINEERING PRODUCTIVITY BY STRENGTHENING OUR SRE AND AI PRACTICES. THIS IS A LARGE INVESTMENT IN INNOVATION TO CONTINUE TO DRIVE OPERATIONAL EXCELLENCE AT OUR FACILITIES. IF YOU WANT TO BUILD DURABLE SYSTEMS THAT OPERATE IN THE PHYSICAL WORLD AT SCALE, THIS IS THAT OPPORTUNITY. THE ROLE THE SITE RELIABILITY ENGINEER IS A FOUNDING MEMBER OF US COLD’S SRE PRACTICE. THIS ROLE EXISTS TO MOVE THE ORGANIZATION FROM REACTIVE OPERATIONS TO ENGINEERED RELIABILITY. YOU WILL STUDY HOW OUR MOST CRITICAL SYSTEMS FAIL — PARTICULARLY OUR PHENIX WMS AND FACILITY AUTOMATION INTERFACES — AND DESIGN CONTROLS, AUTOMATION, AND OBSERVABILITY THAT REDUCE INCIDENTS OVER TIME. SUCCESS IN THIS ROLE MEANS FEWER FALSE ALERTS, FASTER RECOVERY, LESS MANUAL INTERVENTION, AND SYSTEMS THAT HEAL THEMSELVES WHEN POSSIBLE. You WILL WORK CLOSELY WITH APPLICATION, INFRASTRUCTURE, AND OPERATIONS TEAMS AND PARTICIPATE DIRECTLY IN ON‑CALL AND INCIDENT RESPONSE. THIS IS HANDS‑ON RELIABILITY ENGINEERING. THE SYSTEMS YOU IMPROVE WILL DIRECTLY IMPACT DAILY WAREHOUSE OPERATIONS.

Requirements

3+ YEARS OF EXPERIENCE IN SRE, DEVOPS, SYSTEMS ENGINEERING, OR RELATED ROLES
STRONG LINUX AND WINDOWS SYSTEMS ADMINISTRATION AND TROUBLESHOOTING SKILLS
HANDS‑ON EXPERIENCE WITH AUTOMATION AND SCRIPTING
EXPERIENCE DESIGNING AND OPERATING MONITORING, ALERTING, AND OBSERVABILITY SOLUTIONS
PRACTICAL EXPERIENCE WORKING IN AZURE ENVIRONMENTS
STRONG ANALYTICAL SKILLS AND A BIAS TOWARD ELIMINATING ROOT CAUSES, NOT SYMPTOMS
ABILITY TO COLLABORATE ACROSS APPLICATION, INFRASTRUCTURE, AND OPERATIONS TEAMS

Nice To Haves

EXPERIENCE SUPPORTING WAREHOUSE MANAGEMENT SYSTEMS OR INDUSTRIAL AUTOMATION PLATFORMS
EXPOSURE TO KUBERNETES, MICROSERVICES, OR CONTAINER ORCHESTRATION
FAMILIARITY WITH INFRASTRUCTURE‑AS‑CODE TOOLS SUCH AS TERRAFORM OR ANSIBLE
UNDERSTANDING OF DISTRIBUTED SYSTEMS AND HIGH‑AVAILABILITY DESIGN
EXPERIENCE WITH SRE PRACTICES SUCH AS SLO‑BASED OPERATIONS, RUNBOOK AUTOMATION, OR CHAOS TESTING

Responsibilities

RELIABILITY OF THE PHENIX WMS AND ITS INTEGRATION WITH FACILITY AUTOMATION SYSTEMS (ROBOTICS, CONVEYORS, AND CONTROL INTERFACES)
DEFINITION AND IMPLEMENTATION OF SLIS AND SLOS THAT MEASURE MEANINGFUL SYSTEM HEALTH, NOT JUST AVAILABILITY
OBSERVABILITY ACROSS THE FULL STACK, CORRELATING CLOUD SERVICES, APIS, AND ON‑PREMISE FACILITY OPERATIONS
AUTOMATION TO ELIMINATE OPERATIONAL TOIL, INCLUDING PATCHING, DATA CORRECTIONS, RESTARTS, AND RECOVERY TASKS
DEVELOPMENT OF SELF‑HEALING BEHAVIORS FOR COMMON FAILURE MODES
PARTICIPATION IN ON‑CALL ROTATIONS AND LEADERSHIP OF BLAMELESS POST‑INCIDENT REVIEWS
DESIGN AND EXECUTION OF DISASTER RECOVERY TESTS ACROSS SAAS, CLOUD, AND ON‑PREMISE ENVIRONMENTS

Stand Out From the Crowd

Upload your resume and get instant feedback on how well it matches this job.

Upload and Match Resume