Kubernetes Monitoring

Naslagartikelen voor de Kubernetes-observabilitygaten die ik het vaakst tegenkom: Prometheus-scraping die stilletjes stopt na een relabel-wijziging, Grafana-dashboards die groen tonen terwijl het cluster in brand staat, logpipelines die onder druk entries verliezen en alertingregels die of nooit afgaan of zo vaak dat ze worden genegeerd.

Elk artikel behandelt steeds een observabilitylaag: wat je moet meten, hoe een gezonde baseline eruitziet en hoe je verifieert dat de monitoring zelf werkt voordat je die nodig hebt.

Scrollen

Kubernetes monitoring met Prometheus en kube-prometheus-stack
Een productiecluster zonder observability is een cluster waar je naar raadt. Deze tutorial loopt door de installatie van kube-prometheus-stack via Helm, legt uit wat elk component doet, laat zien hoe je je eigen applicatiemetrics scrapt met ServiceMonitor, hoe je alertingregels schrijft, alerts routeert en wanneer remote storage nodig wordt.

2166 woorden
Kubernetes observability met OpenTelemetry: de Collector deployen en workloads instrumenteren
Prometheus geeft je metrics. Fluent Bit verstuurt logs. Geen van beide produceert traces, en geen van beide spreekt een formaat dat elke backend begrijpt. In deze tutorial deploy je de OpenTelemetry Operator op Kubernetes, zet je twee Collectors op (DaemonSet voor node-niveau, Deployment voor clusterniveau), instrumenteer je workloads automatisch zonder applicatiecode aan te raken, en route je traces, metrics en logs naar de backends die je zelf kiest.

2942 woorden
Kubernetes CPU-throttling: waarom pods stilvallen bij laag verbruik
Een pod toont 12% gemiddeld CPU-verbruik in Grafana, maar wordt 60% van de tijd gethrottled. De oorzaak is niet een overbelaste node. Het is de Linux CFS-scheduler die een tijdsbudget per 100 ms handhaaft dat monitoringdashboards onzichtbaar maken door middeling. Dit artikel legt het mechanisme uit, toont hoe je het meet, en zet de opties voor herstel naast elkaar met hun afwegingen.

1137 woorden
Kubernetes cluster-logging met Fluent Bit en de EFK-stack
Container-logs verdwijnen zodra een pod wordt verwijderd. kubectl logs toont alleen het laatste 10 MiB rotatiebestand van een enkele pod. Voor alles voorbij lokaal debuggen heb je een gecentraliseerde logging-pipeline nodig. Deze tutorial laat zien hoe je Fluent Bit als DaemonSet deployt, logs naar Elasticsearch 8.x stuurt via TLS, en ze bevraagt in Kibana.

2306 woorden
Kubernetes Vertical Pod Autoscaler (VPA): resource requests goed dimensioneren
De Vertical Pod Autoscaler bekijkt het werkelijke CPU- en geheugengebruik per container en past resource requests daarop aan. In Off-modus krijg je right-sizing aanbevelingen zonder dat er iets aan draaiende pods verandert. In enforcement-modus past VPA die aanbevelingen automatisch toe, door pods te herstarten of (vanaf Kubernetes 1.33) in-place te resizen. Deze guide loopt door het installeren van VPA, het lezen van aanbevelingen, het begrenzen ervan met resource policies, het veilig opschalen naar auto-apply, en het vermijden van conflicten met HPA.

1441 woorden
Karpenter op EKS: snellere node-autoscaling met NodePool en EC2NodeClass
Karpenter provisiont nodes in 45–60 seconden op EKS door rechtstreeks de EC2 Fleet API aan te roepen in plaats van te wachten op Auto Scaling Groups. Waar Cluster Autoscaler uit voorgedefinieerde node groups kiest, evalueert Karpenter alle beschikbare instance types per batch van pending pods en lanceert de best passende node. Deze guide behandelt het installeren van Karpenter v1.x op EKS, het schrijven van NodePool- en EC2NodeClass-manifests, disruption en consolidation configureren, migreren vanaf Cluster Autoscaler zonder downtime, en monitoring via Prometheus.

1962 woorden
Kubernetes Cluster Autoscaler: automatisch nodes schalen voor managed clusters
Cluster Autoscaler houdt de API server in de gaten op pods die in Pending staan omdat er geen node capaciteit is, en voegt dan een node toe uit een passende node group. Wanneer nodes lang genoeg onder de 50% resource-gebruik zakken, worden ze verwijderd. Deze guide behandelt het configureren van Cluster Autoscaler op EKS, GKE en AKS, het afstellen van scale-down timing, het diagnosticeren van veelvoorkomende blokkades, en wanneer Karpenter een betere keuze is.

2243 woorden
Kubernetes spot en preemptible instances: kostenbesparing met interruption safety
Spot instances op AWS en preemptible VMs op GCP kosten 60–80% minder dan on-demand, maar de cloudprovider kan ze terugvorderen met soms maar 30 seconden waarschuwing. Kubernetes-workloads veilig op spot draaien vereist interruption handlers, PodDisruptionBudgets, de juiste taints en gediversifieerde instance pools. Deze guide doorloopt elke laag van de setup op zowel EKS als GKE.

1477 woorden
Kubernetes multi-tenancy: namespace-isolatie, ResourceQuota en LimitRange
Meerdere teams of omgevingen op een enkel Kubernetes-cluster draaien bespaart infrastructuurkosten, maar zonder expliciete grenzen kan een namespace alle resources opeisen. Deze gids loopt door het inrichten van een tenant-namespace met ResourceQuota voor totaallimieten, LimitRange voor standaardwaarden per container, NetworkPolicy voor netwerkisolatie, RBAC voor toegangscontrole op de API, en Pod Security Standards voor runtime-restricties.

2111 woorden
Kubernetes kostenoptimalisatie: workloads juist dimensioneren en clusterkosten verlagen
De meeste Kubernetes-clusters verspillen 60–80% van de aangevraagde resources omdat teams requests hoog instellen en nooit herzien. Deze gids loopt door het verkrijgen van kostenvisibiliteit met Kubecost en kubectl top, het genereren van rightsizing-aanbevelingen met Goldilocks en VPA, het afdwingen van verstandige standaarden met LimitRange en ResourceQuota, en het combineren van rightsizing met spot-instances en autoscaling om clusterkosten te verlagen zonder betrouwbaarheid op te offeren.

1260 woorden

Terugkerende server- of deploymentproblemen?

Ik help teams productie betrouwbaar maken met CI/CD, Kubernetes en cloud—zodat fixes blijven en deploys geen stress meer zijn.

Bekijk DevOps consultancy

Kubernetes Monitoring

Artikelen

Terugkerende server- of deploymentproblemen?