Site Reliability Engineering
Schulungen der Extraklasse ✔ Durchführungsgarantie ✔ Trainer aus der Praxis ✔ Kostenfreies Storno ✔ 3=2 Kostenfreie Teilnahme für den Dritten ✔ Persönliche Lernumgebung ✔ Kleine Lerngruppen
Seminarziel
Am Ende des Seminars sind die Teilnehmenden in der Lage, SRE-Praktiken effektiv zu nutzen, um die Zuverlässigkeit, Skalierbarkeit und Sicherheit ihrer Systeme zu verbessern. Sie lernen, wie sie Projekte planen, entwickeln, integrieren und testen, um verschiedene Anforderungen abzudecken und die Systemleistung zu optimieren.Inhalt
-
Einführung in Site Reliability Engineering (SRE)
- Was ist SRE und warum ist es wichtig? Historische Entwicklung und Hauptmerkmale
- Kerngedanken hinter SRE, Unterschiede zu traditionellen Operations- und DevOps-Ansätzen
- Typische Anwendungsbereiche und Szenarien, in denen SRE eingesetzt wird
-
SLI / SLO / SLA - Definition und Bedeutung
- Service Level In…
Es wurden noch keine FAQ hinterlegt. Falls Sie Fragen haben oder Unterstützung benötigen, kontaktieren Sie unseren Kundenservice. Wir helfen gerne weiter!
Schulungen der Extraklasse ✔ Durchführungsgarantie ✔ Trainer aus der Praxis ✔ Kostenfreies Storno ✔ 3=2 Kostenfreie Teilnahme für den Dritten ✔ Persönliche Lernumgebung ✔ Kleine Lerngruppen
Seminarziel
Am Ende des Seminars sind die Teilnehmenden in der Lage, SRE-Praktiken effektiv zu nutzen, um die Zuverlässigkeit, Skalierbarkeit und Sicherheit ihrer Systeme zu verbessern. Sie lernen, wie sie Projekte planen, entwickeln, integrieren und testen, um verschiedene Anforderungen abzudecken und die Systemleistung zu optimieren.Inhalt
- Einführung in Site Reliability Engineering (SRE)
- Was ist SRE und warum ist es wichtig? Historische Entwicklung und Hauptmerkmale
- Kerngedanken hinter SRE, Unterschiede zu traditionellen Operations- und DevOps-Ansätzen
- Typische Anwendungsbereiche und Szenarien, in denen SRE eingesetzt wird
- SLI / SLO / SLA - Definition und Bedeutung
- Service Level Indicators (SLI)
- Service Level Objectives (SLO)
- Service Level Agreements (SLA)
- Monitoring/Alerting Werkzeuge
- Einführung in gängige Überwachungs- und Logging-Tools (z.B. Prometheus, Grafana, ELK Stack)
- Tools und Prozesse zur Incident-Erkennung und -Behebung (z.B. PagerDuty, Opsgenie)
- Praktische Übung: Einrichtung einer Überwachungs- und
Incident Management-Lösung
- Problemstellung: Einrichtung einer Überwachungs- und Incident Management-Lösung für eine Beispielanwendung
- Lösung: Installation und Konfiguration von Prometheus und Grafana zur Überwachung, Einrichtung von Incident Management-Tools wie PagerDuty
- Ergebnis: Ein funktionierendes Überwachungs- und Incident Management-System für die Beispielanwendung
- Continuous Delivery und Release Engineering
- Kleine Deployments
- Automatisierte Deployments
- Canary Releases
- Feature Toggles
- Infrastruktur als Code
- Definition
- Nutzen
- Beispiele: Ansible / Terraform
- Zusammenarbeit zwischen Entwicklung und Betrieb
- Error Budgets: Konzept und Anwendung von Error Budgets zur Verwaltung von Systemstabilität und Featureentwicklung
- Reduzierung der operativen Last: Automatisierung, Toil-Reduzierung und Best Practices zur Effizienzsteigerung
- Incident Management
- Umgang mit Vorfällen und Ausfällen
- Status-Seite
- Post-Mortem-Analysen und Lessons Learned
- Hochverfügbarkeit vs. Notfallwiederherstellung
- Security & Compliance
- DSGVO
- Fortgeschrittene Techniken
- Chaos Engineering
- Kapazitätsplanung - datenbasiert
- Automatische Skalierung - in Public und Private Cloud
- Abschlussdiskussion und Feedbackrunde
Es wurden noch keine FAQ hinterlegt. Falls Sie Fragen haben oder Unterstützung benötigen, kontaktieren Sie unseren Kundenservice. Wir helfen gerne weiter!
