Простая опечатка вызвала сбой в работе Amazon S3
Совсем недавно мы писали о том, что в коцне февраля возники трудности в работе многих интернет ресурсов, перебои возникли у различных сайтов, приложений и сервисов. Многие пользователи начали жаловаться на доступ к таким сервисам как Quora, IFTTT, Medium, Slack и могие другие.
Через некоторое время выяснилось, что в произошедшем виновны Amazon Simple Storage Service, а в официальном Twitter компании появилось сообщение о каких-то проблемах, представители обещали как можно скорее исправить неполадки. В конечном итоге проблемная ситуация смогла решиться только ближе к часу ночи, представители Amazon заявили, что расскажут о причинах аварии.
Своё слово Amazon сдержал и 2 марта 2017 года предоставил подробный отчёт о всей аварийной ситуации. Как оказалось причина всей масштабной аварии - банальный человеческий фактор. Компания Amazon пишет, что один из сотрудников незадолго до аварии занималя рутнной деятельностью и правкой багов, данный сотрудник ввёл команды, которая должна была удалить небольшое количество серверов из S3. Однако, сотрудник допустил ошибку и ввёл некорректно команду, что привело к удалению большого количества серверов.
В результате сотрудники Amazon решили полносттью перезапустить пострадавшую систему, так как это было гораздо проще, чем восстановить всю работу серверов. Со всем отчётом можно ознакомиться здесь. Представители Amazon извинились перед клиентами и пообещали улучшить работу своих сотрудников и сервисов.