LAMBDA: Lambda com alta taxa de erro
Esta regra identifica funções AWS Lambda que apresentam taxa de erro superior a 50% no período configurado.
O objetivo é detectar funções com falhas recorrentes que podem impactar confiabilidade, experiência do usuário e gerar custo desnecessário por execuções malsucedidas.
Contexto da regra e impacto no negócio
O AWS Lambda é amplamente utilizado para:
APIs serverless
Processamento de eventos
Integrações assíncronas
Orquestração de workflows
Quando uma função apresenta alta taxa de erro:
Pode indicar falhas de código
Pode haver dependências indisponíveis
Pode ocorrer timeout recorrente
Retries automáticos podem amplificar o problema
O custo por invocação continua sendo cobrado, mesmo em caso de erro
Impactos diretos:
Instabilidade de sistemas críticos
Aumento de custo operacional
Crescimento de logs no CloudWatch
Risco de incidentes
Essa regra atua como mecanismo de governança operacional e confiabilidade.
Detalhamento técnico da regra
A regra executa análise regional das funções Lambda.
Como a regra é executada
Autentica na conta AWS por região.
Lista todas as funções via
list_functions.Aplica filtros de tag (inclusão/exclusão).
Para cada função:
Consulta métricas no CloudWatch:
InvocationsErrors
Período analisado: definido por
self.checker.period.daysAgregação diária (
Period = 86400)Estatística utilizada:
Sum
Calcula:
Se a taxa de erro for superior a 50%, a função é sinalizada.
Lógica aplicada
A função será considerada não aderente quando:
Se não houver invocações no período, a função não é analisada.
Campos analisados
Lambda:
FunctionNameFunctionArnRuntimeHandlerTags
CloudWatch (Namespace AWS/Lambda):
InvocationsErrors
Dimensão:
FunctionName
Parâmetros considerados na busca
APIs utilizadas:
lambda:ListFunctionscloudwatch:GetMetricStatistics
Condições técnicas:
Período configurável via
self.checker.period.daysThreshold fixo de 50%
Período Avaliado (Filtro Temporal)
Período Avaliado (Filtro Temporal): A regra avalia as métricas Invocations e Errors no intervalo correspondente aos dias definidos na configuração da regra.
Exemplo: Se configurado para 15 dias, serão analisadas todas as invocações e erros acumulados nos últimos 15 dias.
Esse parâmetro de avaliação pode ser ajustado nas configurações das regras.
Intervalo de Análise
Execução padrão: a cada 8 horas.
Aderência às melhores práticas
Não possui cálculo direto de savings, mas contribui para:
Redução de desperdício por execuções com falha
Aumento de confiabilidade
Melhoria de observabilidade
Aderência ao pilar de Confiabilidade do AWS Well-Architected Framework
Impacto financeiro indireto
Exemplo:
100.000 invocações/mês
60% de erro
Resultado:
Além disso, pode haver:
Retries automáticos
Execuções duplicadas
Maior volume de logs
Dicas de uso e boas práticas para o usuário
Revisar logs no CloudWatch Logs.
Validar dependências externas (RDS, APIs, Secrets).
Ajustar timeout e memória.
Implementar alarmes de erro no CloudWatch.
Utilizar DLQ (Dead Letter Queue).
Revisar políticas de retry.
Possíveis exceções:
Funções em ambiente de teste.
Funções com erro esperado como parte do fluxo.
Cargas experimentais.
Recomenda-se validar o contexto antes de qualquer ação corretiva.
Last updated