Sistema de Monitoreo Proactivo

📋 Resumen del Proyecto

Sistema automatizado de monitoreo proactivo que detecta caídas en infraestructura de red, gestiona incidentes de manera inteligente y coordina múltiples sistemas empresariales para garantizar una respuesta rápida ante fallas. Desarrollado usando Python y Apache Airflow, integrando múltiples APIs y bases de datos.

Python Apache Airflow OpenSearch REST APIs Oracle DB Automation DevOps ITSM

🎯 Problema que Resuelve

Antes de esta automatización, la detección de fallas en sectores de radiobases era reactiva, dependiendo de reportes de usuarios o revisiones manuales. Esto generaba:

Tiempos de respuesta lentos ante incidentes
Pérdida de datos críticos de monitoreo
Gestión manual y propensa a errores de tickets
Falta de trazabilidad entre sistemas
Duplicación de esfuerzos y tickets

📊 Impacto Medible

100% Automatización

24/7 Monitoreo Continuo

< 15min Tiempo de Detección

0 Intervención Manual

🔧 Stack Tecnológico

🐍 Python 3

Lenguaje principal, manejo de APIs y lógica de negocio

🌊 Apache Airflow

Orquestación de workflows y DAGs programables

🔍 OpenSearch

Búsqueda y análisis de datos de monitoreo en tiempo real

🗄️ Oracle Database

Consultas a bases de datos empresariales

🔌 REST APIs

Integración con sistemas ITSM y ERP

📧 SMTP

Notificaciones automáticas por email

⚙️ Flujo del Proceso Automatizado

Consulta a OpenSearch

Búsqueda de eventos de falla en los últimos 15 minutos con validación de 3+ registros para confirmar caída real

Validación Inteligente

Verificación de incidentes existentes para evitar duplicados y control de actualizaciones cada 4 horas

Gestión de Incidentes

Creación automática en sistema ITSM con toda la información contextual o actualización de incidentes existentes

Integración ERP

Generación de incidentes de red en sistema SAP con referencia única y trazabilidad completa

Notificaciones

Envío de emails automáticos con resumen ejecutivo y enlaces directos a los tickets

Registro y Trazabilidad

Almacenamiento en inventario centralizado para análisis histórico y métricas

✨ Características Destacadas

🛡️ Prevención de Duplicados

Sistema inteligente que verifica incidentes existentes antes de crear nuevos, evitando duplicación de esfuerzos

🔄 Reintentos Automáticos

Manejo robusto de errores con reintentos configurables para operaciones críticas

📊 Logging Detallado

Trazabilidad completa de todas las operaciones para auditoría y debugging

⏰ Actualizaciones Inteligentes

Control de tiempo entre actualizaciones para evitar spam de notificaciones

🔗 Integración Multi-Sistema

Coordina ITSM, ERP, bases de datos y sistemas de monitoreo en un solo flujo

📈 Escalabilidad

Diseñado para procesar múltiples incidentes simultáneamente sin degradación

💻 Implementación Técnica

Código del Sistema Principal

Función que orquesta todo el proceso con manejo robusto de errores y coordinación multi-sistema:

def main(max_intentos=3, intervalo_actualizacion_horas=4):
    """
    Sistema de monitoreo proactivo con manejo robusto de errores
    y coordinación multi-sistema
    """
    ejecucion_id = generar_id_unico()
    incidentes_procesados = []
    
    # 1. CONSULTA OPENSEARCH con timeout y reintentos
    for intento in range(1, max_intentos + 1):
        try:
            resultado = verificar_sectores_rbs(timeout=30)
            if "error" not in resultado:
                break
            log.warning(f"Intento {intento} fallido, reintentando...")
            time.sleep(tiempo_entre_intentos * intento)
        except Exception as e:
            log.error(f"Error crítico en intento {intento}: {e}")
            if intento == max_intentos:
                return {"estado": "ERROR", "mensaje": str(e)}
    
    sectores_caidos = resultado.get("radio_bases_caidas", [])
    
    # 2. VALIDACIÓN y filtrado de datos
    sectores_confirmados = filtrar_sectores_con_multiple_fallas(sectores_caidos)
    
    # 3. PROCESAMIENTO con prevención de duplicados
    cache_procesados = {}
    
    for sector in sectores_confirmados:
        hostname = sector.get("hostname")
        
        # Evitar procesamiento duplicado en esta ejecución
        if hostname in cache_procesados:
            continue
        cache_procesados[hostname] = True
        
        # 4. VERIFICACIÓN de incidente existente (con reintentos)
        incidente_existente = None
        for intento in range(max_intentos):
            try:
                incidente_existente = verificar_incidente_existente(hostname)
                break
            except Exception as e:
                log.warning(f"Error verificando incidente: {e}")
                time.sleep(2)
        
        # 5. LÓGICA DE DECISIÓN inteligente
        if incidente_existente:
            # Verificar tiempo desde última actualización
            if debe_actualizar_incidente(incidente_existente, intervalo_actualizacion_horas):
                # ACTUALIZAR incidente con nueva información
                nota = generar_nota_actualizacion(sector, ejecucion_id)
                resultado = agregar_nota_con_reintentos(
                    incidente_existente['id'], 
                    nota, 
                    max_intentos
                )
                incidentes_procesados.append({
                    "hostname": hostname,
                    "accion": "actualizado",
                    "resultado": resultado
                })
            else:
                log.info(f"Incidente {incidente_existente['id']} actualizado recientemente")
        else:
            # CREAR nuevo incidente en sistema ITSM
            nuevo_id = crear_incidente_con_reintentos(
                hostname, 
                sector.get("timestamp"), 
                sector,
                max_intentos
            )
            
            if nuevo_id:
                # GENERAR incidente correlacionado en sistema ERP
                ticket_erp = crear_incidente_erp_con_validacion(
                    nuevo_id, 
                    hostname, 
                    ejecucion_id
                )
                
                incidentes_procesados.append({
                    "hostname": hostname,
                    "accion": "creado",
                    "itsm_id": nuevo_id,
                    "erp_id": ticket_erp,
                    "resultado": "exitoso"
                })
    
    # 6. NOTIFICACIONES y registro
    if incidentes_procesados:
        enviar_notificaciones_email(incidentes_procesados, ejecucion_id)
        registrar_en_inventario(incidentes_procesados)
    
    # 7. RETORNO con métricas completas
    return {
        "estado": "OK",
        "ejecucion_id": ejecucion_id,
        "total_detectados": len(sectores_caidos),
        "total_procesados": len(incidentes_procesados),
        "timestamp": datetime.now().isoformat()
    }

🔧 Complejidad Real del Sistema

El código mostrado arriba es una versión simplificada. El sistema completo implementa:

📦 Dimensiones del Proyecto

✓ 500+ líneas de código Python
✓ 15+ funciones especializadas
✓ 3 sistemas externos simultáneos
✓ 5+ librerías personalizadas

🛡️ Manejo de Errores Avanzado

✓ Reintentos con backoff exponencial
✓ Timeouts configurables por operación
✓ Validación multinivel de datos
✓ Recuperación ante fallos parciales

🔍 Logging y Trazabilidad

✓ IDs únicos por ejecución
✓ Logging estructurado JSON
✓ Niveles: INFO, WARNING, ERROR
✓ Trazabilidad end-to-end completa

🔄 Prevención de Duplicados

✓ Caché en memoria por ejecución
✓ Consulta a sistema ITSM existente
✓ Validación de timestamps
✓ Control de actualizaciones cada 4h

🔗 Integración Multi-Sistema

✓ OpenSearch (búsqueda de eventos)
✓ Sistema ITSM (gestión de tickets)
✓ ERP corporativo (incidentes de red)
✓ SMTP (notificaciones email)
✓ Oracle DB (inventario)

⚙️ Operaciones Complejas Internas

✓ Formateo específico por API
✓ Generación de referencias únicas
✓ Parseo de timestamps ISO 8601
✓ Validación de respuestas HTTP
✓ Transacciones distribuidas

💡 Ejemplo: La función "crear_incidente()" internamente ejecuta:

Validación de 10+ campos obligatorios según especificación API
Formateo de timestamps a formato ISO específico del sistema
Hasta 3 reintentos con espera progresiva (2s, 4s, 6s)
Logging detallado de cada intento con request ID único
Manejo de 5+ tipos de errores específicos (timeout, conexión, formato, autenticación, validación)
Verificación de respuesta con validación de estructura JSON
Extracción y validación del ID de ticket generado
Registro en sistema de inventario para trazabilidad histórica

🎓 Habilidades Demostradas

Desarrollo Backend: Python avanzado con manejo de APIs REST, bases de datos y servicios web
Orquestación de Workflows: Diseño e implementación de DAGs en Apache Airflow
Integración de Sistemas: Coordinación entre múltiples plataformas empresariales (ITSM, ERP, Monitoring)
Manejo de Errores: Implementación de reintentos, validaciones y recuperación ante fallos
Optimización: Consultas eficientes a bases de datos y minimización de llamadas a APIs
Logging y Monitoreo: Implementación de trazabilidad completa para auditoría y debugging
Documentación: Código bien documentado con docstrings y comentarios explicativos
DevOps: Automatización end-to-end con enfoque en confiabilidad y mantenibilidad

📈 Resultados y Beneficios

⚡ Reducción de Tiempo

De horas a minutos en la detección y creación de incidentes

✅ Mejora en Calidad

Eliminación de errores humanos en la creación de tickets

🔍 Mayor Visibilidad

Detección proactiva vs reactiva de problemas

💰 Ahorro de Recursos

Liberación de personal técnico para tareas de mayor valor

📊 Trazabilidad

Registro completo para análisis y mejora continua

🎯 Precisión

Validación de múltiples fuentes antes de generar alertas

🔮 Proyectos Relacionados

Este es uno de más de 15 automatismos desarrollados, incluyendo:

Sistemas de monitoreo de infraestructura de telecomunicaciones
Automatización de gestión de tickets y workflows ITSM
Integración de múltiples plataformas empresariales
Procesamiento y análisis de datos en tiempo real
Notificaciones y reportes automáticos