Prometheus Alertmanager vs Grafana Alerting (2026): Arquitectura, diferencias y cuándo usar cada uno
En entornos de observabilidad en producción es habitual acabar con dos sistemas de alertas corriendo en paralelo: Prometheus Alertmanager gestionando las alertas basadas en métricas, y Grafana Alerting cubriendo el resto de necesidades de notificación. El resultado es el problema clásico de consolidación de alertas: páginas duplicadas al equipo de guardia, reglas de silencio dispersas entre dos plataformas, y ningún sistema con autoridad clara sobre el ciclo de vida de las alertas.
La elección entre ambas herramientas depende de tu ecosistema de datasources, la madurez de tu flujo GitOps y el enfoque de gestión de guardias. Los dos son productos maduros en producción, pero abordan el problema desde ángulos fundamentalmente distintos.
Visión general de la arquitectura
Prometheus Alertmanager: el componente independiente
Alertmanager opera como un componente dedicado y desacoplado. No evalúa reglas de alerta — esa responsabilidad recae en sistemas externos (Prometheus, Thanos Ruler, Cortex, Mimir Ruler), que evalúan expresiones PromQL y envían las alertas activas a la API de Alertmanager mediante HTTP POST.
Modelo de configuración: un único fichero YAML (alertmanager.yml) que contiene el árbol de routing, las definiciones de receivers, las reglas de inhibition y las plantillas de silencio. Sin base de datos, sin estado gestionado por interfaz — configuración puramente declarativa, controlable por versiones, que facilita la reproducibilidad total y los flujos GitOps.
Modelo de alta disponibilidad: múltiples instancias de Alertmanager forman un clúster basado en gossip usando el protocolo mesh, compartiendo el estado de silencios y notificaciones entre nodos. El failover ocurre sin notificaciones duplicadas ni pérdidas.
Grafana Alerting: la plataforma integrada
Grafana Alerting embebe el ciclo de vida completo de las alertas — evaluación de reglas, gestión de estado, routing y notificación — dentro del propio proceso de Grafana. Internamente utiliza un fork del Alertmanager de Prometheus para el routing y la notificación, aunque este detalle de implementación resulta invisible para el usuario.
Capacidad diferencial: evalúa reglas de alerta directamente, consultando cualquier datasource compatible — Prometheus, Loki, Elasticsearch, CloudWatch, PostgreSQL y más de 100 plugins de datasource. Las reglas, contact points, políticas de notificación y mute timings se almacenan en la base de datos de Grafana o se provisionan mediante YAML o API.
Alta disponibilidad: en entornos self-hosted se utiliza base de datos compartida y peer-discovery entre instancias de Grafana. Grafana Cloud proporciona HA totalmente gestionada.
Comparativa de características
| Característica | Prometheus Alertmanager | Grafana Alerting |
|---|---|---|
| Datasources | Solo compatibles con Prometheus | Cualquier datasource de Grafana |
| Evaluación de reglas | Externa (Prometheus/Ruler) | Integrada |
| Árbol de routing | YAML jerárquico | Políticas de notificación con label matchers |
| Agrupación | group_by, group_wait, group_interval | Controles equivalentes mediante políticas |
| Inhibition | Reglas nativas de inhibition | Soportado desde v10.3, menos flexible |
| Silencios | Basados en labels, limitados en el tiempo | Mute timings + silencios ad hoc |
| Canales de notificación | Email, Slack, PagerDuty, OpsGenie, webhook, etc. | Los anteriores más Teams, Discord, Google Chat, LINE y más |
| Plantillas | Go templates | Go templates + variables de Grafana |
| Multi-tenancy | No integrado | Nativo mediante organizaciones + RBAC |
| Alta disponibilidad | Clúster basado en gossip | Respaldado por base de datos con peer discovery |
| Modelo de configuración | Fichero YAML único | UI + API + YAML de provisionamiento |
| Compatibilidad GitOps | Excelente | Requiere ficheros de provisionamiento o Terraform |
| Servicio gestionado | Grafana Cloud (Mimir), Amazon Managed Prometheus | Grafana Cloud |
Puntos fuertes de Alertmanager
Configuración declarativa, nativa para GitOps
Toda la configuración reside en un único fichero YAML sin estado oculto en ninguna base de datos. Los cambios pasan por pull requests, siguen el mismo proceso de revisión de código que el resto de la infraestructura, y se despliegan mediante pipelines CI/CD exactamente igual que cualquier otro componente de infraestructura como código.
# alertmanager.yml — todo en un único fichero
global:
resolve_timeout: 5m
slack_api_url: "https://hooks.slack.com/services/T00/B00/XXX"
route:
receiver: platform-team
group_by: [alertname, cluster, namespace]
group_wait: 30s
group_interval: 5m
repeat_interval: 4h
routes:
- match:
severity: critical
receiver: pagerduty-oncall
group_wait: 10s
- match_re:
team: "^(payments|checkout)$"
receiver: payments-slack
continue: true
receivers:
- name: platform-team
slack_configs:
- channel: "#platform-alerts"
- name: pagerduty-oncall
pagerduty_configs:
- service_key: ""
- name: payments-slack
slack_configs:
- channel: "#payments-oncall"
inhibit_rules:
- source_match:
severity: critical
target_match:
severity: warning
equal: [alertname, cluster]
Cada cambio es completamente auditable. Los rollbacks se reducen a un git revert. La herramienta amtool permite validar la configuración en los pipelines de CI antes de desplegar.
Ligero y con una única responsabilidad
Alertmanager hace una sola cosa: enrutar y entregar notificaciones. Sin dashboards, sin motor de consultas, sin plugins de datasource. Este diseño de responsabilidad única garantiza un consumo de recursos mínimo — una instancia modesta gestiona miles de alertas activas con pocos cientos de megabytes de memoria. El tiempo de arranque se mide en milisegundos; la carga operativa es prácticamente inexistente.
Inhibition y routing maduros
Las reglas de inhibition son elementos de primera clase en la configuración de Alertmanager. Suprimen warnings secundarios cuando ya hay alertas críticas activas, evitando las tormentas de alertas que tanto daño hacen a los equipos de guardia. El árbol de routing jerárquico con flags continue permite entregas matizadas: enviar simultáneamente al canal del equipo Y escalar a PagerDuty con agrupaciones distintas en cada nivel.
Alta disponibilidad probada en producción
El clúster HA basado en gossip lleva años demostrando su estabilidad. Tres réplicas detrás de un load balancer (o con service discovery de Kubernetes) proporcionan notificaciones fiables sin almacenamiento compartido. El protocolo gestiona la deduplicación automáticamente, sin configuración adicional.
Puntos fuertes de Grafana Alerting
Reglas de alerta multi-datasource
Este es el diferenciador más potente de Grafana Alerting. Las reglas pueden consultar Loki para detectar picos de errores en logs, CloudWatch para la utilización de recursos AWS, Elasticsearch para errores de aplicación, o PostgreSQL para métricas de negocio — todo desde un único sistema de alertas centralizado.
# Ejemplo de provisionamiento de regla de alerta en Grafana
# Alerta basada en tasa de errores en Loki
apiVersion: 1
groups:
- orgId: 1
name: application-errors
folder: Production
interval: 1m
rules:
- uid: loki-error-spike
title: "Alta tasa de errores en el servicio de pagos"
condition: C
data:
- refId: A
datasourceUid: loki-prod
model:
expr: 'sum(rate({app="payment-service"} |= "ERROR" [5m]))'
- refId: B
datasourceUid: "__expr__"
model:
type: reduce
expression: A
reducer: last
- refId: C
datasourceUid: "__expr__"
model:
type: threshold
expression: B
conditions:
- evaluator:
type: gt
params: [10]
for: 5m
labels:
severity: warning
team: payments
Alertmanager no puede hacer esto — recibe únicamente alertas pre-evaluadas y no tiene concepto de datasource.
Interfaz unificada para la gestión de alertas
Una sola interfaz gestiona la creación de reglas de alerta, su visualización, la configuración de políticas de notificación, los contact points y la gestión de silencios. Para equipos que prefieren la configuración visual frente a editar YAML, esto reduce significativamente la barrera de entrada. Los ingenieros pueden ver el estado de las alertas activas, el historial de evaluación y los caminos de routing de notificaciones directamente en el navegador, sin necesidad de conocer la sintaxis de configuración.
Multi-tenancy nativo y RBAC
El modelo de organizaciones de Grafana y el control de acceso basado en roles se extienden de forma natural al sistema de alertas. Distintos equipos gestionan sus propias reglas de alerta, contact points y políticas de notificación dentro del ámbito de su organización o carpeta, con aislamiento completo y sin visibilidad cruzada entre equipos. Conseguir esto con Alertmanager autónomo requeriría instancias separadas por tenant o el Alertmanager multi-tenant de Mimir.
Mute timings y planificación más rica
Mientras que Alertmanager soporta silencios (supresiones ad hoc, limitadas en el tiempo), Grafana Alerting añade los mute timings: ventanas temporales recurrentes que suprimen notificaciones. Esto permite mantenimientos programados, alertas solo en horario laboral, o la supresión de alertas no críticas los fines de semana. Con Alertmanager, gestionar estos escenarios requiere herramientas externas o la creación manual de silencios recurrentes.
Grafana Cloud como opción gestionada
Para equipos que quieren evitar la gestión de infraestructura de alertas self-hosted, Grafana Cloud proporciona Grafana Alerting completamente gestionado con HA, persistencia de estado y entrega de notificaciones. El stack de Grafana Cloud incluye también Mimir Alertmanager gestionado, que permite alertas nativas de Prometheus mientras se aprovecha la infraestructura administrada.
Cuándo usar Prometheus Alertmanager
Alertmanager es la opción óptima cuando:
- Tu stack de métricas es nativo de Prometheus. Todas las reglas de alerta usan expresiones PromQL evaluadas por Prometheus, Thanos Ruler o Mimir Ruler. No existe ningún valor añadido en enrutar las notificaciones a través de Grafana.
- GitOps es innegociable. Cada cambio de infraestructura requiere revisión mediante pull request y configuración completamente declarativa. El modelo de fichero único de Alertmanager simplifica enormemente la gestión frente al estado respaldado por base de datos de Grafana. Herramientas como
amtoolpermiten validar la configuración en los pipelines de CI. - Necesitas routing granular con inhibition. Árboles de routing complejos con múltiples niveles de agrupación, reglas de inhibition y flags
continuese expresan de forma más natural en el formato YAML de Alertmanager. Esta lógica lleva años estable y documentada. - Ejecutas microservicios con routing por equipo. Cuando cada equipo es propietario de su subárbol de routing con lógica compleja, el modelo jerárquico de Alertmanager escala mejor que la configuración guiada por interfaz gráfica. Los equipos gestionan su sección de configuración mediante CODEOWNERS en Git.
- Quieres mínima carga operativa. Alertmanager es un binario único con requisitos de recursos mínimos — sin backups de base de datos, migraciones ni actualizaciones de frameworks de interfaz.
Cuándo usar Grafana Alerting
Grafana Alerting es la opción óptima cuando:
- Alertas sobre más que métricas Prometheus. Reglas de alerta basadas en logs de Loki, queries de Elasticsearch, métricas de CloudWatch o consultas a bases de datos requieren Grafana Alerting. La alternativa — ejecutar herramientas de alertas separadas por datasource — es peor en todos los sentidos.
- Tu equipo prefiere configuración visual. No todos los ingenieros quieren editar árboles de routing en YAML. Si tu organización valora las interfaces visuales para la gestión de alertas y contact points, la interfaz de Grafana proporciona ventajas de productividad significativas.
- Usas Grafana Cloud. Si ya estás en Grafana Cloud, usar el sistema de alertas integrado es el camino de menor resistencia: HA, entrega gestionada de notificaciones y experiencia unificada sin infraestructura adicional.
- El multi-tenancy es un requisito. Varios equipos necesitan configuraciones de alertas aisladas con RBAC. El modelo nativo de organizaciones y carpetas de Grafana es significativamente más sencillo que ejecutar instancias Alertmanager por tenant.
- Necesitas mute timings para ventanas de mantenimiento recurrentes. Equipos que suprimen alertas regularmente durante ventanas programadas (despliegues, procesamiento por lotes, supresión de no-críticos en fin de semana) encontrarán los mute timings de Grafana mucho más ergonómicos que gestionar silencios recurrentes manualmente.
Ejecutar ambos a la vez: el patrón híbrido
Muchos entornos de producción ejecutan deliberadamente ambos sistemas con límites de responsabilidad claramente definidos.
Arquitectura híbrida habitual
- Prometheus Alertmanager gestiona todas las alertas basadas en métricas. Reglas PromQL evaluadas por Prometheus o rulers de almacenamiento a largo plazo (Thanos, Mimir). Alertmanager es propietario del routing, la agrupación y la notificación.
- Grafana Alerting gestiona las alertas no-Prometheus: alertas basadas en logs de Loki, métricas de negocio desde datasources SQL, reglas de correlación multi-datasource.
Los límites de propiedad deben estar documentados y ser explícitos:
# Límites de propiedad para alertas híbridas
# Prometheus Alertmanager gestiona:
# - Todas las reglas de alerta basadas en PromQL
# - Alertas de infraestructura (node, kubelet, etcd, CoreDNS)
# - Alertas SLO/SLI de aplicaciones basadas en métricas
# Grafana Alerting gestiona:
# - Reglas de alerta basadas en logs (Loki, Elasticsearch)
# - Alertas de métricas de negocio (datasources SQL)
# - Reglas de correlación multi-datasource
# - Alertas para equipos que prefieren gestión por interfaz
# Compartido:
# - Contact points / receivers usan los mismos canales Slack y servicios PagerDuty
# - Las rotaciones de guardia se gestionan externamente (PagerDuty, Grafana OnCall)
Ambos sistemas entregan a los mismos canales de notificación. La disciplina crítica: asegurarse de que los silencios y las ventanas de mantenimiento se aplican en los dos sistemas cuando sea necesario. Este es el principal coste operativo del enfoque híbrido — si silencias en uno, no olvides silenciar en el otro.
Grafana como visualizador de Alertmanager
Incluso usando Alertmanager en exclusiva para el routing, Grafana puede actuar como visualizador de solo lectura. Grafana soporta nativamente datasources externos de Alertmanager, lo que permite ver las alertas activas, los silencios vigentes y los grupos de alertas dentro de la interfaz de Grafana — visibilidad operativa completa sin mover la lógica de alertas.
# Provisionamiento de datasource de Grafana para Alertmanager externo
apiVersion: 1
datasources:
- name: Alertmanager
type: alertmanager
url: http://alertmanager.monitoring.svc:9093
access: proxy
jsonData:
implementation: prometheus
Este patrón es especialmente útil en equipos donde los SREs gestionan Alertmanager mediante GitOps, pero los desarrolladores prefieren consumir el estado de las alertas desde la interfaz de Grafana sin necesidad de acceso directo a Alertmanager.
Consideraciones de migración
Migrar de Alertmanager a Grafana Alerting
- Conversión de reglas: las reglas de alerta y recording basadas en PromQL en los ficheros de reglas de Prometheus deben recrearse como reglas de alerta de Grafana. Grafana proporciona herramientas de migración para importar reglas en formato Prometheus, aunque las expresiones complejas requieren ajuste manual.
- Traducción del árbol de routing: el árbol de routing jerárquico de Alertmanager se mapea a las políticas de notificación de Grafana, pero la semántica difiere. El comportamiento del flag
continuey las rutas por defecto pueden comportarse de forma distinta — prueba el routing exhaustivamente antes de dar por buena la migración. - Migración de silencios e inhibition: los silencios activos son efímeros y no requieren migración. Las reglas de inhibition deben recrearse en el formato de Grafana. Las ventanas de mantenimiento recurrentes se convierten en mute timings.
- Ejecuta ambos en paralelo primero: la estrategia de migración más segura consiste en ejecutar ambos sistemas durante dos a cuatro semanas, enviando notificaciones desde los dos, y cortando cuando haya confianza suficiente en Grafana. Acepta el ruido temporal de alertas duplicadas — es mucho menos costoso que perder páginas críticas durante la migración.
Migrar de Grafana Alerting a Alertmanager
- Limitación de datasources: solo migran las alertas con datasources compatibles con Prometheus. Las alertas que consultan Loki, Elasticsearch o datasources SQL no tienen equivalente en Alertmanager — requieren soluciones alternativas o simplemente quedan fuera del alcance de la migración.
- Exportación de reglas: exporta las reglas de alerta de Grafana y conviértelas a ficheros de reglas en formato Prometheus. La API de Grafana (
GET /api/v1/provisioning/alert-rules) proporciona salida estructurada apta para transformación mediante scripts. - Mapeo de contact points: mapea los contact points de Grafana a receivers de Alertmanager — formatos distintos, conceptos equivalentes.
- Pérdida de estado: Alertmanager no hereda el historial de evaluación de Grafana. Empiezas desde cero. Planifica un periodo breve en el que algunas alertas pueden re-dispararse mientras Prometheus evalúa reglas que antes gestionaba Grafana.
Marco de decisión
Árbol de decisión rápido:
Punto de partida:
│
├── ¿Alertas sobre datasources no-Prometheus (Loki, ES, SQL, CloudWatch)?
│ ├── SÍ → Grafana Alerting (al menos para esos datasources)
│ └── NO ↓
│
├── ¿GitOps / configuración declarativa es un requisito innegociable?
│ ├── SÍ → Alertmanager
│ └── NO ↓
│
├── ¿Necesitas multi-tenancy con RBAC?
│ ├── SÍ → Grafana Alerting (o Mimir Alertmanager)
│ └── NO ↓
│
├── ¿Estás en Grafana Cloud?
│ ├── SÍ → Grafana Alerting (camino de menor resistencia)
│ └── NO ↓
│
└── Por defecto → Alertmanager (más simple, más ligero, más probado)
La respuesta honesta de muchos equipos es «ambos»: Alertmanager para las métricas nativas de Prometheus, Grafana Alerting para todo lo demás. Es una arquitectura perfectamente válida siempre que los límites de propiedad estén documentados y el equipo de guardia sepa exactamente dónde buscar y, sobre todo, dónde silenciar.
Diferencias clave que a menudo se pasan por alto
Más allá de las características que aparecen en cualquier comparativa, hay diferencias operativas que solo se descubren trabajando con ambas herramientas en producción.
El estado de evaluación es radicalmente distinto
Con Alertmanager, el estado de evaluación de las reglas vive en Prometheus (o en Thanos/Mimir Ruler). Alertmanager solo ve alertas que ya han disparado — nunca las reglas en sí ni su historial de evaluación. Grafana Alerting, en cambio, expone el historial completo de evaluación de cada regla: cuántas veces ha disparado, cuándo ha entrado en estado pending, cuándo ha resuelto. Esta visibilidad es enormemente útil para depurar reglas que disparan de forma intermitente o con latencia.
El debugging del routing tiene complejidades distintas
Alertmanager proporciona amtool routing test para probar cómo se enrutaría una alerta hipotética. Es una herramienta poderosa para validar cambios de configuración antes de desplegarlos. Grafana Alerting ofrece una vista similar en la interfaz, pero la falta de herramienta CLI equivalente puede ser un obstáculo para equipos con workflows automatizados de validación.
La gestión de silencio en producción es distinta
Con Alertmanager, crear un silencio en producción durante un incidente requiere acceso a la interfaz web o a la API de Alertmanager. En entornos con acceso restringido, esto puede ser un cuello de botella. Grafana Alerting expone la gestión de silencios en la misma interfaz que los dashboards, lo que suele estar más accesible para desarrolladores que no tienen acceso directo a la infraestructura de monitorización.
Los templates de notificación tienen alcances distintos
Ambas herramientas usan Go templates, pero el contexto de datos disponible difiere. Alertmanager expone el conjunto completo de labels y annotations de la alerta, pero nada más. Grafana Alerting permite incluir imágenes de paneles en las notificaciones — un captura de pantalla del panel relevante adjunta a la alerta en Slack o PagerDuty. Esta funcionalidad, aunque secundaria, puede tener un impacto real en la velocidad de diagnosis durante incidentes.
Alertas en Kubernetes: el caso específico
Para monitoring de Kubernetes específicamente, el kube-prometheus-stack (que incluye Prometheus, Alertmanager y un conjunto comprehensivo de reglas de alerta pre-construidas) sigue siendo el estándar de la industria. Estas reglas usan PromQL y están diseñadas para Alertmanager.
Desplegar kube-prometheus-stack hace de Alertmanager la elección directa para alertas basadas en métricas. Las reglas del stack cubren nodos, kubelet, etcd, CoreDNS, recursos de Kubernetes y métricas de workloads. Recrear estas reglas en Grafana Alerting manualmente es trabajo sin valor añadido claro.
Si además necesitas alertas sobre logs (via Loki) o métricas de negocio desde otras fuentes, la arquitectura recomendada es:
- Mantener kube-prometheus-stack con Alertmanager para todas las alertas de infraestructura y SLO/SLI basados en métricas.
- Añadir Grafana Alerting únicamente para los datasources no-Prometheus.
- Documentar explícitamente qué sistema es propietario de qué tipo de alerta.
Esta separación evita duplicaciones y mantiene la base de reglas de kube-prometheus-stack actualizada con el mínimo esfuerzo.
Preguntas frecuentes
¿Cuál es la diferencia entre Alertmanager y Grafana Alerting?
Prometheus Alertmanager es un motor independiente de routing de notificaciones que recibe alertas ya evaluadas desde Prometheus y las entrega a Slack, PagerDuty, email u otros receivers. No evalúa reglas de alerta. Grafana Alerting es una plataforma de alertas integrada dentro de Grafana que tanto evalúa reglas de alerta (consultando cualquier datasource compatible) como gestiona el routing de notificaciones. Alertmanager usa exclusivamente configuración YAML; Grafana Alerting ofrece UI, API y provisionamiento por ficheros. La diferencia fundamental: Alertmanager gestiona únicamente las fases de routing y notificación, mientras que Grafana Alerting gestiona el ciclo de vida completo desde la evaluación de la query hasta la notificación.
¿Puede Grafana Alerting reemplazar a Prometheus Alertmanager?
Sí, en muchos casos. Grafana Alerting evalúa reglas PromQL directamente contra datasources Prometheus, por lo que no es estrictamente necesaria una instancia separada de Alertmanager. Sin embargo, Alertmanager sigue siendo superior en ciertos escenarios: entornos muy orientados a GitOps, equipos que necesitan las reglas de inhibition maduras de Alertmanager, o arquitecturas donde la evaluación de reglas Prometheus ocurre externamente (Thanos Ruler, Mimir Ruler) con Alertmanager ya en el pipeline. Si tu único datasource es Prometheus y priorizas la configuración declarativa, Alertmanager sigue siendo más simple y ligero.
¿Es el Grafana Alertmanager lo mismo que el Prometheus Alertmanager?
No exactamente. Grafana Alerting usa internamente un fork del código de Prometheus Alertmanager para el routing de notificaciones, pero no son el mismo producto. El «Alertmanager» de Grafana visible en la interfaz es un componente embebido y gestionado con una interfaz de configuración diferente (políticas de notificación, contact points, mute timings) frente al Prometheus Alertmanager autónomo (árbol de routing, receivers, reglas de inhibition en YAML). Grafana también puede conectarse a un Prometheus Alertmanager externo como datasource, lo que crea confusión terminológica adicional. «Grafana Alertmanager» suele referirse al motor de routing embebido dentro de Grafana Alerting.
¿Cuáles son las mejores alternativas a Prometheus Alertmanager?
La alternativa más directa es Grafana Alerting, que recibe y enruta alertas de Prometheus mientras soporta otros datasources. Otras opciones: Grafana OnCall para gestión de guardias y escalación (usado habitualmente junto a Alertmanager, no en sustitución), PagerDuty u Opsgenie como plataformas gestionadas de respuesta a incidentes que reciben alertas directamente, Keep como plataforma open-source de gestión AIOps de alertas, y Mimir Alertmanager para entornos multi-tenant que ejecutan Grafana Mimir. La elección depende de si necesitas un reemplazo de Alertmanager (routing/notificación) o herramientas complementarias para escalación y respuesta a incidentes.
¿Debo usar alertas de Prometheus o de Grafana para monitoring de Kubernetes?
Para monitoring de Kubernetes específicamente, el kube-prometheus-stack (incluyendo Prometheus, Alertmanager y reglas de alerta pre-construidas y comprehensivas) sigue siendo el estándar de la industria. Estas reglas usan PromQL y están diseñadas para Alertmanager. Desplegar kube-prometheus-stack hace de Alertmanager la elección directa para alertas basadas en métricas. Añade Grafana Alerting si también necesitas alertas sobre logs (via Loki) o datasources no-métricos. Para monitoring de Kubernetes, combinar reglas Prometheus con routing Alertmanager es el enfoque más maduro y mejor soportado por la comunidad.
¿Qué ocurre si configuro mal el routing en Alertmanager y nadie recibe las páginas críticas?
Este es el riesgo real de la flexibilidad de Alertmanager. Un árbol de routing mal configurado puede hacer que alertas críticas caigan en un receiver que no notifica a nadie. La mitigación: usar amtool routing test en los pipelines de CI para validar que las alertas conocidas se enrutan correctamente antes de cada merge. Define un receiver de fallback explícito en la ruta por defecto que siempre notifique al canal correcto. Y prueba con alertas reales en staging antes de cortar a producción.
Reflexión final
El debate Alertmanager vs Grafana Alerting no es sobre qué herramienta es superior en abstracto — es sobre qué encaja mejor en tu contexto operativo concreto. Alertmanager es más simple, más ligero y más amigable para GitOps. Grafana Alerting es más versátil, más accesible para equipos orientados a la interfaz, y la única opción viable para alertas multi-datasource. Ejecutar ambos es perfectamente válido cuando los límites están claros.
El peor escenario no es elegir la herramienta «equivocada» — es acabar ejecutando ambas accidentalmente con cobertura solapada, notificaciones duplicadas y ninguna autoridad clara de propiedad. Sea cual sea tu elección: documenta la decisión, define los límites de propiedad, y asegúrate de que tu equipo de guardia sabe exactamente dónde silenciar alertas a las 3 de la madrugada. Eso es lo que marca la diferencia entre un sistema de alertas que funciona y uno que desgasta.