구글 "신뢰성 떨어지는 하드웨어라도, 2배 갖추는 게 낫다"
- Posted at 2008/06/03 23:09
- Filed under 소개
지난주 수요일에 있었던 구글 I/O 컨퍼런스에서, 구글 직원 제프리 딘(Jeffrey Dean)이 구글 데이터 센터(클러스터)의 운영 방식에 대해 간략히 설명했습니다. 구글 데이터 센터는 전 세계에 36개가 있는 것으로 알려져 있습니다.

딘에 따르면, '보다 신뢰할 수 있는 하드웨어를 일정 개수 배치하는 것보다, 신뢰성은 다소 떨어지더라도 그보다 2배 많은 하드웨어를 배치하는 것이 더 좋다'고 합니다. '컴퓨터를 1만 대 운영한다고 하면, 매일 무언가가 고장나기' 때문에, '신뢰성은 소프트웨어 수준에서 제공하는 것이 좋다'는군요.
구체적인 통계도 제시했는데, 각 클러스터에서 처음 1년 동안 '컴퓨터 1000대가 고장나고, 하드 디스크 수천 개가 고장나며, 배전 장치(PDU) 하나가 고장나면서 컴퓨터 500~1000대를 6시간 가량 중단시키고, 랙 20개가 고장나면서 각각 컴퓨터 40~80대를 네트워크에서 사라지게 하고, 랙 5개가 이상 동작을 일으키면서 담당하고 있던 네트워크 패킷의 절반 가량이 손실됩니다.' 또한 '배선 변경이 한 번 있는데, 전체 컴퓨터 중 5%가 어느 순간 2일 가량 멈출 수 있습니다.' 마지막으로 '50% 확률로 전체 클러스터가 과열되어 5분 내로 서버 대부분이 다운되고, 복구하는 데 1~2일 걸릴 수 있습니다.'
구글의 값싼 하드웨어 대량 살포 정책(?)에 대해서는 익히 알고 있었지만, 구체적인 이야기를 들으니 재미있군요. 데이터 안정성은 서비스의 안정성으로 직결되니, 집착할 수밖에 없겠지요.

구체적인 통계도 제시했는데, 각 클러스터에서 처음 1년 동안 '컴퓨터 1000대가 고장나고, 하드 디스크 수천 개가 고장나며, 배전 장치(PDU) 하나가 고장나면서 컴퓨터 500~1000대를 6시간 가량 중단시키고, 랙 20개가 고장나면서 각각 컴퓨터 40~80대를 네트워크에서 사라지게 하고, 랙 5개가 이상 동작을 일으키면서 담당하고 있던 네트워크 패킷의 절반 가량이 손실됩니다.' 또한 '배선 변경이 한 번 있는데, 전체 컴퓨터 중 5%가 어느 순간 2일 가량 멈출 수 있습니다.' 마지막으로 '50% 확률로 전체 클러스터가 과열되어 5분 내로 서버 대부분이 다운되고, 복구하는 데 1~2일 걸릴 수 있습니다.'
구글의 값싼 하드웨어 대량 살포 정책(?)에 대해서는 익히 알고 있었지만, 구체적인 이야기를 들으니 재미있군요. 데이터 안정성은 서비스의 안정성으로 직결되니, 집착할 수밖에 없겠지요.
Posted by 랜덤여신
- Tag
- Cluster, data, Data Center, Google, hardware, reliability, 구글, 데이터, 데이터 센터, 신뢰도, 신뢰성, 클러스터, 하드웨어
- Response
- No Trackback , 5 Comments
Trackback URL : http://barosl.com/blog/trackback/759
Comments List
-
완전 재밌습니다.
영어를 못해서 이런 정보를 얻기가 어려운데
이렇게 포스팅 해주시는 분을 보면 감사할 따름입니다. -
오잉~ 그럴싸 한데요. ㅋ
-
링크하신 글을 자세히 읽어보니 GFS의 경우 최소 3개의 서로 다른 머신에 64MB 단위의 데이터 블록을 분산 배치한다고 하는데, 확률적으로 그 3개가 동시에 고장나기는 힘들겠...지요?; 그런 경우는 어떻게 처리하려나 ...
마지막에 현재 구글의 목표는 한 데이터센터 내에서 머신끼리의 데이터 이동을 구현하는 수준이 아니라 데이터센터끼리 주고받는 걸 원한다고 하는군요. 오호;; -
저도 갔다왔는데, 여러모로 초보인 저로서는 정말 많은걸 배울기회가 될 수 있어 좋았던것같습니다 ^^
정말 유익하더군요! -
GFS의 3개 세트가 동시에 고장나서 gmail의 데이터를 잃어버리는 사고가 적어도 한번이상 발생했었습니다... 유료 또는 중요한 데이터는 더 많이 분산하겠죠...