Siamo alla ricerca di un System Reliability & Operations Engineer (o QA Systems Specialist) da inserire nel nostro team. La risorsa non si occuperà del classico testing pre-deploy, ma garantirà la stabilità, le performance e l'affidabilità dei sistemi già in esercizio (produzione). Il candidato ideale ha una forte mentalità analitica, capacità di troubleshooting proattivo e competenze sistemistiche.
Responsabilità principali:
-
Osservabilità e Monitoraggio: Monitorare costantemente i sistemi in esercizio, interpretando metriche e alert per anticipare comportamenti critici e colli di bottiglia prima che impattino il business.
-
Log Analysis: Analizzare i log applicativi e di sistema per identificare anomalie, diagnosticare la causa radice (Root Cause Analysis) dei disservizi e tracciare i difetti.
-
Troubleshooting: Collaborare strettamente con i team di sviluppo e infrastruttura per riprodurre, isolare e risolvere tempestivamente gli incidenti sui sistemi live.
-
Automazione e Scripting: Sviluppare e mantenere script automatizzati per ottimizzare le attività di controllo, la gestione dei dati in esercizio e le verifiche di routine.
-
Metriche di Qualità: Raccogliere dati sulle performance dei sistemi e monitorare i KPI di affidabilità e i livelli di servizio (SLA/SLO).
Requisiti fondamentali (Technical Skills):
-
Log & Data Analysis: Comprovata capacità di analizzare, correlare e interrogare flussi di log complessi e database relazionali tramite query SQL.
-
Sistemi Operativi e Networking: Solide competenze amministrative su sistemi operativi (Windows e/o Linux) e approfondita conoscenza dei protocolli di rete (TCP/IP, DNS, HTTP/S).
-
Monitoring & Observability: Esperienza maturata nell’utilizzo di piattaforme per il controllo e l’analisi dei principali contesti architetturali:
-
Piattaforme Enterprise & Cloud-Native (All-in-One), come Datadog, Dynatrace, New Relic, Splunk.
-
Soluzioni Open-Source standard di mercato, come Prometheus, Grafana, ELK stack.
-
Monitoraggio Cloud dei Vendor Pubblici, come Azure Monitor, AWS CloudWatch.
-
Monitoraggio di Rete e Infrastruttura Tradizionali, come Zabbix, Nagios, PRTG Network Monitor.
Qualifiche preferenziali (Nice to have):
-
Automation & Scripting: Forte competenza nella scrittura di script (es. Bash, PowerShell, Python) per l'automazione di alert e controlli di routine.
-
Incident Management: Familiarità con i processi di gestione degli incidenti in produzione (ITIL, concetti di SLA/SLO) e sistemi di alert (es. PagerDuty, Opsgenie).
Cosa offriamo:
-
Contratto a tempo indeterminato, ma siamo aperti anche a liberi professionisti.
-
Il lavoro è compatibile con la modalità full remote.
-
La retribuzione sarà adeguata al livello di esperienza della persona
La ricerca è rivolta a candidati di entrambi i sessi (L.903/77).
About Tinvention:
Tinvention ti offre la possibilità di entrare a far parte di un team di persone appassionate di tecnologia, capaci di immaginare e di esplorare soluzioni innovative. Siamo convinti che la professionalità e la qualità dei servizi che offriamo dipendano in primo luogo dalla valorizzazione delle persone. Per questa ragione disponiamo di un percorso formativo interno necessario non solo a trasferire contenuti tecnici, ma anche a infondere la filosofia e l’impegno di Tinvention. Per noi la forma mentis e la continua formazione sul campo sono elementi imprescindibili, senza i quali i progetti non possono avere successo. La crescita professionale delle persone in Tinvention avviene in un contesto dinamico che lascia spazio alle ambizioni e premia il lavoro ben fatto. I nostri collaboratori vengono incentivati ad aggiornarsi, a sperimentare e a coltivare il proprio ingegno.