
구체적인 통계도 제시했는데, 각 클러스터에서 처음 1년 동안 '컴퓨터 1000대가 고장나고, 하드 디스크 수천 개가 고장나며, 배전 장치(PDU) 하나가 고장나면서 컴퓨터 500~1000대를 6시간 가량 중단시키고, 랙 20개가 고장나면서 각각 컴퓨터 40~80대를 네트워크에서 사라지게 하고, 랙 5개가 이상 동작을 일으키면서 담당하고 있던 네트워크 패킷의 절반 가량이 손실됩니다.' 또한 '배선 변경이 한 번 있는데, 전체 컴퓨터 중 5%가 어느 순간 2일 가량 멈출 수 있습니다.' 마지막으로 '50% 확률로 전체 클러스터가 과열되어 5분 내로 서버 대부분이 다운되고, 복구하는 데 1~2일 걸릴 수 있습니다.'
구글의 값싼 하드웨어 대량 살포 정책(?)에 대해서는 익히 알고 있었지만, 구체적인 이야기를 들으니 재미있군요. 데이터 안정성은 서비스의 안정성으로 직결되니, 집착할 수밖에 없겠지요.
Posted by 랜덤여신

