Gunnar Morling

Part two of a series on running Apache Flink on Kubernetes using the Flink Kubernetes Operator. Covers fault tolerance via checkpointing and RocksDB state backend, job manager high availability using Kubernetes HA services, savepoint management (automatic and manual), and observability setup with Elasticsearch, Kibana, and the Kubernetes Logging Operator using fluentbit/fluentd. Also introduces the Heimdall UI for managing multiple Flink jobs from a single dashboard. Concludes with a summary of operator capabilities including auto-scaling and auto-tuning, and notes on operator extensibility via plugins.

Get Running with Apache Flink on Kubernetes, part 2 of 2