Prometheus Alertmanager Vs Grafana Alerting (2026): Arquitectura, Diferencias Y Cuándo Usar Cada Uno

En entornos de observabilidad en producción es habitual acabar con dos sistemas de alertas corriendo en paralelo: Prometheus Alertmanager gestionando las alertas basadas en métricas, y Grafana Alerting cubriendo el resto de necesidades de notificación. El resultado es el problema clásico de consolidación de alertas: páginas duplicadas al equipo de guardia, reglas de silencio dispersas entre dos plataformas, y ningún sistema con autoridad clara sobre el ciclo de vida de las alertas.

La elección entre ambas herramientas depende de tu ecosistema de datasources, la madurez de tu flujo GitOps y el enfoque de gestión de guardias. Los dos son productos maduros en producción, pero abordan el problema desde ángulos fundamentalmente distintos.

Visión general de la arquitectura

Prometheus Alertmanager: el componente independiente

Alertmanager opera como un componente dedicado y desacoplado. No evalúa reglas de alerta — esa responsabilidad recae en sistemas externos (Prometheus, Thanos Ruler, Cortex, Mimir Ruler), que evalúan expresiones PromQL y envían las alertas activas a la API de Alertmanager mediante HTTP POST.

Modelo de configuración: un único fichero YAML (alertmanager.yml) que contiene el árbol de routing, las definiciones de receivers, las reglas de inhibition y las plantillas de silencio. Sin base de datos, sin estado gestionado por interfaz — configuración puramente declarativa, controlable por versiones, que facilita la reproducibilidad total y los flujos GitOps.

Modelo de alta disponibilidad: múltiples instancias de Alertmanager forman un clúster basado en gossip usando el protocolo mesh, compartiendo el estado de silencios y notificaciones entre nodos. El failover ocurre sin notificaciones duplicadas ni pérdidas.

Grafana Alerting: la plataforma integrada

Grafana Alerting embebe el ciclo de vida completo de las alertas — evaluación de reglas, gestión de estado, routing y notificación — dentro del propio proceso de Grafana. Internamente utiliza un fork del Alertmanager de Prometheus para el routing y la notificación, aunque este detalle de implementación resulta invisible para el usuario.

Capacidad diferencial: evalúa reglas de alerta directamente, consultando cualquier datasource compatible — Prometheus, Loki, Elasticsearch, CloudWatch, PostgreSQL y más de 100 plugins de datasource. Las reglas, contact points, políticas de notificación y mute timings se almacenan en la base de datos de Grafana o se provisionan mediante YAML o API.

Alta disponibilidad: en entornos self-hosted se utiliza base de datos compartida y peer-discovery entre instancias de Grafana. Grafana Cloud proporciona HA totalmente gestionada.

Comparativa de características

Característica	Prometheus Alertmanager	Grafana Alerting
Datasources	Solo compatibles con Prometheus	Cualquier datasource de Grafana
Evaluación de reglas	Externa (Prometheus/Ruler)	Integrada
Árbol de routing	YAML jerárquico	Políticas de notificación con label matchers
Agrupación	group_by, group_wait, group_interval	Controles equivalentes mediante políticas
Inhibition	Reglas nativas de inhibition	Soportado desde v10.3, menos flexible
Silencios	Basados en labels, limitados en el tiempo	Mute timings + silencios ad hoc
Canales de notificación	Email, Slack, PagerDuty, OpsGenie, webhook, etc.	Los anteriores más Teams, Discord, Google Chat, LINE y más
Plantillas	Go templates	Go templates + variables de Grafana
Multi-tenancy	No integrado	Nativo mediante organizaciones + RBAC
Alta disponibilidad	Clúster basado en gossip	Respaldado por base de datos con peer discovery
Modelo de configuración	Fichero YAML único	UI + API + YAML de provisionamiento
Compatibilidad GitOps	Excelente	Requiere ficheros de provisionamiento o Terraform
Servicio gestionado	Grafana Cloud (Mimir), Amazon Managed Prometheus	Grafana Cloud

Puntos fuertes de Alertmanager

Configuración declarativa, nativa para GitOps

Toda la configuración reside en un único fichero YAML sin estado oculto en ninguna base de datos. Los cambios pasan por pull requests, siguen el mismo proceso de revisión de código que el resto de la infraestructura, y se despliegan mediante pipelines CI/CD exactamente igual que cualquier otro componente de infraestructura como código.

# alertmanager.yml — todo en un único fichero
global:
  resolve_timeout: 5m
  slack_api_url: "https://hooks.slack.com/services/T00/B00/XXX"

route:
  receiver: platform-team
  group_by: [alertname, cluster, namespace]
  group_wait: 30s
  group_interval: 5m
  repeat_interval: 4h
  routes:
    - match:
        severity: critical
      receiver: pagerduty-oncall
      group_wait: 10s
    - match_re:
        team: "^(payments|checkout)$"
      receiver: payments-slack
      continue: true

receivers:
  - name: platform-team
    slack_configs:
      - channel: "#platform-alerts"
  - name: pagerduty-oncall
    pagerduty_configs:
      - service_key: ""
  - name: payments-slack
    slack_configs:
      - channel: "#payments-oncall"

inhibit_rules:
  - source_match:
      severity: critical
    target_match:
      severity: warning
    equal: [alertname, cluster]

Cada cambio es completamente auditable. Los rollbacks se reducen a un git revert. La herramienta amtool permite validar la configuración en los pipelines de CI antes de desplegar.

Ligero y con una única responsabilidad

Alertmanager hace una sola cosa: enrutar y entregar notificaciones. Sin dashboards, sin motor de consultas, sin plugins de datasource. Este diseño de responsabilidad única garantiza un consumo de recursos mínimo — una instancia modesta gestiona miles de alertas activas con pocos cientos de megabytes de memoria. El tiempo de arranque se mide en milisegundos; la carga operativa es prácticamente inexistente.

Inhibition y routing maduros

Las reglas de inhibition son elementos de primera clase en la configuración de Alertmanager. Suprimen warnings secundarios cuando ya hay alertas críticas activas, evitando las tormentas de alertas que tanto daño hacen a los equipos de guardia. El árbol de routing jerárquico con flags continue permite entregas matizadas: enviar simultáneamente al canal del equipo Y escalar a PagerDuty con agrupaciones distintas en cada nivel.

Alta disponibilidad probada en producción

El clúster HA basado en gossip lleva años demostrando su estabilidad. Tres réplicas detrás de un load balancer (o con service discovery de Kubernetes) proporcionan notificaciones fiables sin almacenamiento compartido. El protocolo gestiona la deduplicación automáticamente, sin configuración adicional.

Puntos fuertes de Grafana Alerting

Reglas de alerta multi-datasource

Este es el diferenciador más potente de Grafana Alerting. Las reglas pueden consultar Loki para detectar picos de errores en logs, CloudWatch para la utilización de recursos AWS, Elasticsearch para errores de aplicación, o PostgreSQL para métricas de negocio — todo desde un único sistema de alertas centralizado.

# Ejemplo de provisionamiento de regla de alerta en Grafana
# Alerta basada en tasa de errores en Loki
apiVersion: 1
groups:
  - orgId: 1
    name: application-errors
    folder: Production
    interval: 1m
    rules:
      - uid: loki-error-spike
        title: "Alta tasa de errores en el servicio de pagos"
        condition: C
        data:
          - refId: A
            datasourceUid: loki-prod
            model:
              expr: 'sum(rate({app="payment-service"} |= "ERROR" [5m]))'
          - refId: B
            datasourceUid: "__expr__"
            model:
              type: reduce
              expression: A
              reducer: last
          - refId: C
            datasourceUid: "__expr__"
            model:
              type: threshold
              expression: B
              conditions:
                - evaluator:
                    type: gt
                    params: [10]
        for: 5m
        labels:
          severity: warning
          team: payments

Alertmanager no puede hacer esto — recibe únicamente alertas pre-evaluadas y no tiene concepto de datasource.

Interfaz unificada para la gestión de alertas

Una sola interfaz gestiona la creación de reglas de alerta, su visualización, la configuración de políticas de notificación, los contact points y la gestión de silencios. Para equipos que prefieren la configuración visual frente a editar YAML, esto reduce significativamente la barrera de entrada. Los ingenieros pueden ver el estado de las alertas activas, el historial de evaluación y los caminos de routing de notificaciones directamente en el navegador, sin necesidad de conocer la sintaxis de configuración.

Multi-tenancy nativo y RBAC

El modelo de organizaciones de Grafana y el control de acceso basado en roles se extienden de forma natural al sistema de alertas. Distintos equipos gestionan sus propias reglas de alerta, contact points y políticas de notificación dentro del ámbito de su organización o carpeta, con aislamiento completo y sin visibilidad cruzada entre equipos. Conseguir esto con Alertmanager autónomo requeriría instancias separadas por tenant o el Alertmanager multi-tenant de Mimir.

Mute timings y planificación más rica

Mientras que Alertmanager soporta silencios (supresiones ad hoc, limitadas en el tiempo), Grafana Alerting añade los mute timings: ventanas temporales recurrentes que suprimen notificaciones. Esto permite mantenimientos programados, alertas solo en horario laboral, o la supresión de alertas no críticas los fines de semana. Con Alertmanager, gestionar estos escenarios requiere herramientas externas o la creación manual de silencios recurrentes.

Grafana Cloud como opción gestionada

Para equipos que quieren evitar la gestión de infraestructura de alertas self-hosted, Grafana Cloud proporciona Grafana Alerting completamente gestionado con HA, persistencia de estado y entrega de notificaciones. El stack de Grafana Cloud incluye también Mimir Alertmanager gestionado, que permite alertas nativas de Prometheus mientras se aprovecha la infraestructura administrada.

Cuándo usar Prometheus Alertmanager

Alertmanager es la opción óptima cuando:

Tu stack de métricas es nativo de Prometheus. Todas las reglas de alerta usan expresiones PromQL evaluadas por Prometheus, Thanos Ruler o Mimir Ruler. No existe ningún valor añadido en enrutar las notificaciones a través de Grafana.
GitOps es innegociable. Cada cambio de infraestructura requiere revisión mediante pull request y configuración completamente declarativa. El modelo de fichero único de Alertmanager simplifica enormemente la gestión frente al estado respaldado por base de datos de Grafana. Herramientas como amtool permiten validar la configuración en los pipelines de CI.
Necesitas routing granular con inhibition. Árboles de routing complejos con múltiples niveles de agrupación, reglas de inhibition y flags continue se expresan de forma más natural en el formato YAML de Alertmanager. Esta lógica lleva años estable y documentada.
Ejecutas microservicios con routing por equipo. Cuando cada equipo es propietario de su subárbol de routing con lógica compleja, el modelo jerárquico de Alertmanager escala mejor que la configuración guiada por interfaz gráfica. Los equipos gestionan su sección de configuración mediante CODEOWNERS en Git.
Quieres mínima carga operativa. Alertmanager es un binario único con requisitos de recursos mínimos — sin backups de base de datos, migraciones ni actualizaciones de frameworks de interfaz.

Cuándo usar Grafana Alerting

Grafana Alerting es la opción óptima cuando:

Alertas sobre más que métricas Prometheus. Reglas de alerta basadas en logs de Loki, queries de Elasticsearch, métricas de CloudWatch o consultas a bases de datos requieren Grafana Alerting. La alternativa — ejecutar herramientas de alertas separadas por datasource — es peor en todos los sentidos.
Tu equipo prefiere configuración visual. No todos los ingenieros quieren editar árboles de routing en YAML. Si tu organización valora las interfaces visuales para la gestión de alertas y contact points, la interfaz de Grafana proporciona ventajas de productividad significativas.
Usas Grafana Cloud. Si ya estás en Grafana Cloud, usar el sistema de alertas integrado es el camino de menor resistencia: HA, entrega gestionada de notificaciones y experiencia unificada sin infraestructura adicional.
El multi-tenancy es un requisito. Varios equipos necesitan configuraciones de alertas aisladas con RBAC. El modelo nativo de organizaciones y carpetas de Grafana es significativamente más sencillo que ejecutar instancias Alertmanager por tenant.
Necesitas mute timings para ventanas de mantenimiento recurrentes. Equipos que suprimen alertas regularmente durante ventanas programadas (despliegues, procesamiento por lotes, supresión de no-críticos en fin de semana) encontrarán los mute timings de Grafana mucho más ergonómicos que gestionar silencios recurrentes manualmente.

Ejecutar ambos a la vez: el patrón híbrido

Muchos entornos de producción ejecutan deliberadamente ambos sistemas con límites de responsabilidad claramente definidos.

Arquitectura híbrida habitual

Prometheus Alertmanager gestiona todas las alertas basadas en métricas. Reglas PromQL evaluadas por Prometheus o rulers de almacenamiento a largo plazo (Thanos, Mimir). Alertmanager es propietario del routing, la agrupación y la notificación.
Grafana Alerting gestiona las alertas no-Prometheus: alertas basadas en logs de Loki, métricas de negocio desde datasources SQL, reglas de correlación multi-datasource.

Los límites de propiedad deben estar documentados y ser explícitos:

# Límites de propiedad para alertas híbridas

# Prometheus Alertmanager gestiona:
#   - Todas las reglas de alerta basadas en PromQL
#   - Alertas de infraestructura (node, kubelet, etcd, CoreDNS)
#   - Alertas SLO/SLI de aplicaciones basadas en métricas

# Grafana Alerting gestiona:
#   - Reglas de alerta basadas en logs (Loki, Elasticsearch)
#   - Alertas de métricas de negocio (datasources SQL)
#   - Reglas de correlación multi-datasource
#   - Alertas para equipos que prefieren gestión por interfaz

# Compartido:
#   - Contact points / receivers usan los mismos canales Slack y servicios PagerDuty
#   - Las rotaciones de guardia se gestionan externamente (PagerDuty, Grafana OnCall)

Ambos sistemas entregan a los mismos canales de notificación. La disciplina crítica: asegurarse de que los silencios y las ventanas de mantenimiento se aplican en los dos sistemas cuando sea necesario. Este es el principal coste operativo del enfoque híbrido — si silencias en uno, no olvides silenciar en el otro.

Grafana como visualizador de Alertmanager

Incluso usando Alertmanager en exclusiva para el routing, Grafana puede actuar como visualizador de solo lectura. Grafana soporta nativamente datasources externos de Alertmanager, lo que permite ver las alertas activas, los silencios vigentes y los grupos de alertas dentro de la interfaz de Grafana — visibilidad operativa completa sin mover la lógica de alertas.

# Provisionamiento de datasource de Grafana para Alertmanager externo
apiVersion: 1
datasources:
  - name: Alertmanager
    type: alertmanager
    url: http://alertmanager.monitoring.svc:9093
    access: proxy
    jsonData:
      implementation: prometheus

Este patrón es especialmente útil en equipos donde los SREs gestionan Alertmanager mediante GitOps, pero los desarrolladores prefieren consumir el estado de las alertas desde la interfaz de Grafana sin necesidad de acceso directo a Alertmanager.

Consideraciones de migración

Migrar de Alertmanager a Grafana Alerting

Conversión de reglas: las reglas de alerta y recording basadas en PromQL en los ficheros de reglas de Prometheus deben recrearse como reglas de alerta de Grafana. Grafana proporciona herramientas de migración para importar reglas en formato Prometheus, aunque las expresiones complejas requieren ajuste manual.
Traducción del árbol de routing: el árbol de routing jerárquico de Alertmanager se mapea a las políticas de notificación de Grafana, pero la semántica difiere. El comportamiento del flag continue y las rutas por defecto pueden comportarse de forma distinta — prueba el routing exhaustivamente antes de dar por buena la migración.
Migración de silencios e inhibition: los silencios activos son efímeros y no requieren migración. Las reglas de inhibition deben recrearse en el formato de Grafana. Las ventanas de mantenimiento recurrentes se convierten en mute timings.
Ejecuta ambos en paralelo primero: la estrategia de migración más segura consiste en ejecutar ambos sistemas durante dos a cuatro semanas, enviando notificaciones desde los dos, y cortando cuando haya confianza suficiente en Grafana. Acepta el ruido temporal de alertas duplicadas — es mucho menos costoso que perder páginas críticas durante la migración.

Migrar de Grafana Alerting a Alertmanager

Limitación de datasources: solo migran las alertas con datasources compatibles con Prometheus. Las alertas que consultan Loki, Elasticsearch o datasources SQL no tienen equivalente en Alertmanager — requieren soluciones alternativas o simplemente quedan fuera del alcance de la migración.
Exportación de reglas: exporta las reglas de alerta de Grafana y conviértelas a ficheros de reglas en formato Prometheus. La API de Grafana (GET /api/v1/provisioning/alert-rules) proporciona salida estructurada apta para transformación mediante scripts.
Mapeo de contact points: mapea los contact points de Grafana a receivers de Alertmanager — formatos distintos, conceptos equivalentes.
Pérdida de estado: Alertmanager no hereda el historial de evaluación de Grafana. Empiezas desde cero. Planifica un periodo breve en el que algunas alertas pueden re-dispararse mientras Prometheus evalúa reglas que antes gestionaba Grafana.

Marco de decisión

Árbol de decisión rápido:

Punto de partida:
│
├── ¿Alertas sobre datasources no-Prometheus (Loki, ES, SQL, CloudWatch)?
│   ├── SÍ → Grafana Alerting (al menos para esos datasources)
│   └── NO ↓
│
├── ¿GitOps / configuración declarativa es un requisito innegociable?
│   ├── SÍ → Alertmanager
│   └── NO ↓
│
├── ¿Necesitas multi-tenancy con RBAC?
│   ├── SÍ → Grafana Alerting (o Mimir Alertmanager)
│   └── NO ↓
│
├── ¿Estás en Grafana Cloud?
│   ├── SÍ → Grafana Alerting (camino de menor resistencia)
│   └── NO ↓
│
└── Por defecto → Alertmanager (más simple, más ligero, más probado)

La respuesta honesta de muchos equipos es “ambos”: Alertmanager para las métricas nativas de Prometheus, Grafana Alerting para todo lo demás. Es una arquitectura perfectamente válida siempre que los límites de propiedad estén documentados y el equipo de guardia sepa exactamente dónde buscar y, sobre todo, dónde silenciar.

Diferencias clave que a menudo se pasan por alto

Más allá de las características que aparecen en cualquier comparativa, hay diferencias operativas que solo se descubren trabajando con ambas herramientas en producción.

El estado de evaluación es radicalmente distinto

Con Alertmanager, el estado de evaluación de las reglas vive en Prometheus (o en Thanos/Mimir Ruler). Alertmanager solo ve alertas que ya han disparado — nunca las reglas en sí ni su historial de evaluación. Grafana Alerting, en cambio, expone el historial completo de evaluación de cada regla: cuántas veces ha disparado, cuándo ha entrado en estado pending, cuándo ha resuelto. Esta visibilidad es enormemente útil para depurar reglas que disparan de forma intermitente o con latencia.

El debugging del routing tiene complejidades distintas

Alertmanager proporciona amtool routing test para probar cómo se enrutaría una alerta hipotética. Es una herramienta poderosa para validar cambios de configuración antes de desplegarlos. Grafana Alerting ofrece una vista similar en la interfaz, pero la falta de herramienta CLI equivalente puede ser un obstáculo para equipos con workflows automatizados de validación.

La gestión de silencio en producción es distinta

Con Alertmanager, crear un silencio en producción durante un incidente requiere acceso a la interfaz web o a la API de Alertmanager. En entornos con acceso restringido, esto puede ser un cuello de botella. Grafana Alerting expone la gestión de silencios en la misma interfaz que los dashboards, lo que suele estar más accesible para desarrolladores que no tienen acceso directo a la infraestructura de monitorización.

Los templates de notificación tienen alcances distintos

Ambas herramientas usan Go templates, pero el contexto de datos disponible difiere. Alertmanager expone el conjunto completo de labels y annotations de la alerta, pero nada más. Grafana Alerting permite incluir imágenes de paneles en las notificaciones — un captura de pantalla del panel relevante adjunta a la alerta en Slack o PagerDuty. Esta funcionalidad, aunque secundaria, puede tener un impacto real en la velocidad de diagnosis durante incidentes.

Alertas en Kubernetes: el caso específico

Para monitoring de Kubernetes específicamente, el kube-prometheus-stack (que incluye Prometheus, Alertmanager y un conjunto comprehensivo de reglas de alerta pre-construidas) sigue siendo el estándar de la industria. Estas reglas usan PromQL y están diseñadas para Alertmanager.

Desplegar kube-prometheus-stack hace de Alertmanager la elección directa para alertas basadas en métricas. Las reglas del stack cubren nodos, kubelet, etcd, CoreDNS, recursos de Kubernetes y métricas de workloads. Recrear estas reglas en Grafana Alerting manualmente es trabajo sin valor añadido claro.

Si además necesitas alertas sobre logs (via Loki) o métricas de negocio desde otras fuentes, la arquitectura recomendada es:

Mantener kube-prometheus-stack con Alertmanager para todas las alertas de infraestructura y SLO/SLI basados en métricas.
Añadir Grafana Alerting únicamente para los datasources no-Prometheus.
Documentar explícitamente qué sistema es propietario de qué tipo de alerta.

Esta separación evita duplicaciones y mantiene la base de reglas de kube-prometheus-stack actualizada con el mínimo esfuerzo.

Preguntas frecuentes

¿Cuál es la diferencia entre Alertmanager y Grafana Alerting?

Prometheus Alertmanager es un motor independiente de routing de notificaciones que recibe alertas ya evaluadas desde Prometheus y las entrega a Slack, PagerDuty, email u otros receivers. No evalúa reglas de alerta. Grafana Alerting es una plataforma de alertas integrada dentro de Grafana que tanto evalúa reglas de alerta (consultando cualquier datasource compatible) como gestiona el routing de notificaciones. Alertmanager usa exclusivamente configuración YAML; Grafana Alerting ofrece UI, API y provisionamiento por ficheros. La diferencia fundamental: Alertmanager gestiona únicamente las fases de routing y notificación, mientras que Grafana Alerting gestiona el ciclo de vida completo desde la evaluación de la query hasta la notificación.

¿Puede Grafana Alerting reemplazar a Prometheus Alertmanager?

Sí, en muchos casos. Grafana Alerting evalúa reglas PromQL directamente contra datasources Prometheus, por lo que no es estrictamente necesaria una instancia separada de Alertmanager. Sin embargo, Alertmanager sigue siendo superior en ciertos escenarios: entornos muy orientados a GitOps, equipos que necesitan las reglas de inhibition maduras de Alertmanager, o arquitecturas donde la evaluación de reglas Prometheus ocurre externamente (Thanos Ruler, Mimir Ruler) con Alertmanager ya en el pipeline. Si tu único datasource es Prometheus y priorizas la configuración declarativa, Alertmanager sigue siendo más simple y ligero.

¿Es el Grafana Alertmanager lo mismo que el Prometheus Alertmanager?

No exactamente. Grafana Alerting usa internamente un fork del código de Prometheus Alertmanager para el routing de notificaciones, pero no son el mismo producto. El “Alertmanager” de Grafana visible en la interfaz es un componente embebido y gestionado con una interfaz de configuración diferente (políticas de notificación, contact points, mute timings) frente al Prometheus Alertmanager autónomo (árbol de routing, receivers, reglas de inhibition en YAML). Grafana también puede conectarse a un Prometheus Alertmanager externo como datasource, lo que crea confusión terminológica adicional. “Grafana Alertmanager” suele referirse al motor de routing embebido dentro de Grafana Alerting.

¿Cuáles son las mejores alternativas a Prometheus Alertmanager?

La alternativa más directa es Grafana Alerting, que recibe y enruta alertas de Prometheus mientras soporta otros datasources. Otras opciones: Grafana OnCall para gestión de guardias y escalación (usado habitualmente junto a Alertmanager, no en sustitución), PagerDuty u Opsgenie como plataformas gestionadas de respuesta a incidentes que reciben alertas directamente, Keep como plataforma open-source de gestión AIOps de alertas, y Mimir Alertmanager para entornos multi-tenant que ejecutan Grafana Mimir. La elección depende de si necesitas un reemplazo de Alertmanager (routing/notificación) o herramientas complementarias para escalación y respuesta a incidentes.

¿Debo usar alertas de Prometheus o de Grafana para monitoring de Kubernetes?

Para monitoring de Kubernetes específicamente, el kube-prometheus-stack (incluyendo Prometheus, Alertmanager y reglas de alerta pre-construidas y comprehensivas) sigue siendo el estándar de la industria. Estas reglas usan PromQL y están diseñadas para Alertmanager. Desplegar kube-prometheus-stack hace de Alertmanager la elección directa para alertas basadas en métricas. Añade Grafana Alerting si también necesitas alertas sobre logs (via Loki) o datasources no-métricos. Para monitoring de Kubernetes, combinar reglas Prometheus con routing Alertmanager es el enfoque más maduro y mejor soportado por la comunidad.

¿Qué ocurre si configuro mal el routing en Alertmanager y nadie recibe las páginas críticas?

Este es el riesgo real de la flexibilidad de Alertmanager. Un árbol de routing mal configurado puede hacer que alertas críticas caigan en un receiver que no notifica a nadie. La mitigación: usar amtool routing test en los pipelines de CI para validar que las alertas conocidas se enrutan correctamente antes de cada merge. Define un receiver de fallback explícito en la ruta por defecto que siempre notifique al canal correcto. Y prueba con alertas reales en staging antes de cortar a producción.

Reflexión final

El debate Alertmanager vs Grafana Alerting no es sobre qué herramienta es superior en abstracto — es sobre qué encaja mejor en tu contexto operativo concreto. Alertmanager es más simple, más ligero y más amigable para GitOps. Grafana Alerting es más versátil, más accesible para equipos orientados a la interfaz, y la única opción viable para alertas multi-datasource. Ejecutar ambos es perfectamente válido cuando los límites están claros.

El peor escenario no es elegir la herramienta “equivocada” — es acabar ejecutando ambas accidentalmente con cobertura solapada, notificaciones duplicadas y ninguna autoridad clara de propiedad. Sea cual sea tu elección: documenta la decisión, define los límites de propiedad, y asegúrate de que tu equipo de guardia sabe exactamente dónde silenciar alertas a las 3 de la madrugada. Eso es lo que marca la diferencia entre un sistema de alertas que funciona y uno que desgasta.