Seguir

Comunicado oficial

Na manhã da última terça-feira, dia 30 de Maio, parte dos serviços da Samba Tech foram afetados por uma indisponibilidade causada por falhas de hardware ocorridas em um dos nossos clusters de servidores de aplicação hospedados na nossa infraestrutura on-premise que fica na região de Chicago/IL nos EUA.

Tal situação desencadeou falhas em cadeia sobre diversos serviços que compõem a API, Player e plataformas Samba Vídeos e Samba Play, principalmente os relacionados ao upload, gestão e disponibilidade do conteúdo.

Às 10h10, assim que recebemos o alerta da falha, iniciamos imediatamente a investigação da causa raiz e os possíveis impactos. Cerca de menos de 1h depois identificamos que existia um problema nos nossos servidores com relação ao NFS (Network File System), um dos serviços utilizados pelas nossas aplicações. Dada esta situação, iniciaram as medidas cabíveis para que pudéssemos sanar o problema.

Às 11:13, todos os serviços que se encontravam indisponíveis tiveram seu funcionamento restaurado. Nesse período alocamos mais de 15 profissionais no Brasil e nos EUA para que continuassem monitorando nossa infraestrutura. Durante a investigação ainda tivemos mais alguns períodos de indisponibilidade que não passaram de minutos.

No início da noite identificamos que a causa raiz foi um problema nos nossos Load Balancers que estava causando uma situação de "flapping", e consequentemente, gerando uma intermitência nas conexões de nossos servidores. A medida imediata tomada foi a correção definitiva do equipamento através de uma janela de manutenção que foi realizada com sucesso.

Ao final de todas essas ações realizamos os testes necessários e verificamos que a API, o Player e todos os serviços de Samba Vídeos e Samba Play foram restabelecidos e que nossa infraestrutura estava estável.

Nosso compromisso é manter a estabilidade e restabelecer todos os serviços o mais rápido possível. Nossa equipe técnica e o time de tecnologia do nosso fornecedor estão em fase de avaliação e implementação de um novo processo que garanta ações pró-ativas de manutenção dos equipamentos para antecipar questões de instabilidade e garantir que os serviços vitais da plataforma estejam sempre funcionando corretamente.

Pedimos sinceras desculpas pelo transtorno e garantimos que ainda mais esforços e recursos serão alocados para que problemas similares não voltem a acontecer.

Esse artigo foi útil?
Usuários que acharam isso útil: 1 de 1
Tem mais dúvidas? Envie uma solicitação