Gisteren hadden wij een incident (human error) met de database van Blackboard, waardoor wij genoodzaakt waren om de database vanuit de backup te restoren. Gelukkig bleek dat onze backup en restore procedures goed werken. Want in 6 uur was het systeem weer online met exact dezelfde data als voordat het incident plaatsvond. Doordat onze database zo groot is, kost het helaas nog wel redelijk wat tijd voordat het systeem dan weer online is, namelijk ruim 2 uur voor het terugplaatsen van de backup en daarna nog 2 uur voor het verwerken van de archivelogs van het moment van de backup tot het moment van het incident. We hadden wel al eerder een tijdelijk systeem beschikbaar voor de studenten met de data van 2 weken geleden, zodat zij hun bestanden voor hun tentamens toch nog konden downloaden.
Conclusie
- De backup en restore procedure werkt, maar kan hier en daar worden aangescherpt.
- Als verwacht wordt dat we 24x7 support leveren is het wel noodzakelijk dat we 24x7 bij onze werkplekken kunnen.
- Maatregelen zijn nodig om human errors nog meer te voorkomen (onmogelijk maken kan vrijwel niet).