System Reliability & Operations Engineer (QA Systems Specialist)

Tinvention
Milano, Lombardia

Candidatura rapida

Dettagli della posizione

Tempo pieno

Qualifiche

Gestione degli incidenti
Windows
PRTG
Bash
SQL
AWS
Splunk
New Relic
DNS
Produzione
HTTPS
Python

Descrizione completa della posizione

Siamo alla ricerca di un System Reliability & Operations Engineer (o QA Systems Specialist) da inserire nel nostro team. La risorsa non si occuperà del classico testing pre-deploy, ma garantirà la stabilità, le performance e l'affidabilità dei sistemi già in esercizio (produzione). Il candidato ideale ha una forte mentalità analitica, capacità di troubleshooting proattivo e competenze sistemistiche.

Responsabilità principali:

Osservabilità e Monitoraggio: Monitorare costantemente i sistemi in esercizio, interpretando metriche e alert per anticipare comportamenti critici e colli di bottiglia prima che impattino il business.
Log Analysis: Analizzare i log applicativi e di sistema per identificare anomalie, diagnosticare la causa radice (Root Cause Analysis) dei disservizi e tracciare i difetti.
Troubleshooting: Collaborare strettamente con i team di sviluppo e infrastruttura per riprodurre, isolare e risolvere tempestivamente gli incidenti sui sistemi live.
Automazione e Scripting: Sviluppare e mantenere script automatizzati per ottimizzare le attività di controllo, la gestione dei dati in esercizio e le verifiche di routine.
Metriche di Qualità: Raccogliere dati sulle performance dei sistemi e monitorare i KPI di affidabilità e i livelli di servizio (SLA/SLO).

Requisiti fondamentali (Technical Skills):

Log & Data Analysis: Comprovata capacità di analizzare, correlare e interrogare flussi di log complessi e database relazionali tramite query SQL.
Sistemi Operativi e Networking: Solide competenze amministrative su sistemi operativi (Windows e/o Linux) e approfondita conoscenza dei protocolli di rete (TCP/IP, DNS, HTTP/S).
Monitoring & Observability: Esperienza maturata nell’utilizzo di piattaforme per il controllo e l’analisi dei principali contesti architetturali:
Piattaforme Enterprise & Cloud-Native (All-in-One), come Datadog, Dynatrace, New Relic, Splunk.
Soluzioni Open-Source standard di mercato, come Prometheus, Grafana, ELK stack.
Monitoraggio Cloud dei Vendor Pubblici, come Azure Monitor, AWS CloudWatch.
Monitoraggio di Rete e Infrastruttura Tradizionali, come Zabbix, Nagios, PRTG Network Monitor.

Qualifiche preferenziali (Nice to have):

Automation & Scripting: Forte competenza nella scrittura di script (es. Bash, PowerShell, Python) per l'automazione di alert e controlli di routine.
Incident Management: Familiarità con i processi di gestione degli incidenti in produzione (ITIL, concetti di SLA/SLO) e sistemi di alert (es. PagerDuty, Opsgenie).

Cosa offriamo:

Contratto a tempo indeterminato, ma siamo aperti anche a liberi professionisti.
Il lavoro è compatibile con la modalità full remote.
La retribuzione sarà adeguata al livello di esperienza della persona

La ricerca è rivolta a candidati di entrambi i sessi (L.903/77).

About Tinvention:

Tinvention ti offre la possibilità di entrare a far parte di un team di persone appassionate di tecnologia, capaci di immaginare e di esplorare soluzioni innovative. Siamo convinti che la professionalità e la qualità dei servizi che offriamo dipendano in primo luogo dalla valorizzazione delle persone. Per questa ragione disponiamo di un percorso formativo interno necessario non solo a trasferire contenuti tecnici, ma anche a infondere la filosofia e l’impegno di Tinvention. Per noi la forma mentis e la continua formazione sul campo sono elementi imprescindibili, senza i quali i progetti non possono avere successo. La crescita professionale delle persone in Tinvention avviene in un contesto dinamico che lascia spazio alle ambizioni e premia il lavoro ben fatto. I nostri collaboratori vengono incentivati ad aggiornarsi, a sperimentare e a coltivare il proprio ingegno.

Candidatura rapida

Strumenti per chi cerca lavoro

Strumenti Aziende

Visualizza

Resta in contatto