SSD 및 SMART 데이터

SMART는 자체 모니터링, 분석 및 보고 기술(Self-Monitoring, Analysis and Reporting Technology)의 약자입니다. 이름이 암시하는 바와 같이, SMART는 하드 드라이브 디스크(HDD) 또는 솔리드 스테이트 드라이브(SSD) 상태의 정보를 기록하는 도구입니다. SMART 데이터는 드라이브에 문제가 있거나 사용 수명이 다 되어 고장이 발생하기 전에 교체해야 할 필요가 있을 때, 이를 미리 알려주는 중요한 도구가 될 수 있습니다.

드라이브 자체에는 데이터를 심층 분석하는 기능이 없기 때문에 사용자 또는 시스템 관리자에게 쉽게 보고하는 것이 중요합니다. 드라이브는 특정 속성이 사전에 정해진 임계값를 벗어났을 때만, 그리고 이 임계값이 펌웨어에 프로그램되어 있을 때만 보고할 수 있게 되어 있습니다.

SMART는 여러 해 동안 존재해 왔으며 SSD 탄생 이전에 출시되었습니다. SMART는 원래 HDD에 구현된 것이었으나, 회전식 하드 드라이브의 대체용으로 SSD라는 신기술이 나오면서 여기에도 적용하게 된 것입니다. 하지만 불행하게도, 저장 기술의 발달에 관계없이, SMART의 여러 속성 중 몇 번 속성이 드라이브의 어떤 물리적 성질을 나타낸다는 업계 표준은 없습니다. 속성 기술자(attribute descriptor)는 SSD와 HDD간에 서로 다르고, 심지어 SSD 벤더에 따라서도 다릅니다.

흔히 프리웨어나 셰어웨어로 이용할 수 있는 몇 개의 타사 유틸리티로 드라이브의 SMART 데이터를 검색해서 보고할 수 있습니다. 그러나 이들 타사 소프트웨어 벤더들이 정확한 SMART 속성에 대해 드라이브 벤더와 협의를 하지 않는 한, 이들이 정한 정의와 임계값(해당 시)은 속성 표기를 잘못함으로써 허위 긍정(false-positive) 또는 허위 부정(false-negative) 고장 보고로 이어질 가능성이 있습니다.

예를 들면, ‘전원이 켜져 있는 시간(Power-on Hours Count)’ 속성에서 유틸리티에 이 횟수를 보고할 때, 호환되지 않는 유틸리티는 보고 받은 횟수를 ‘프로그램 실패 횟수(Program Fail Count)’ 또는 ‘보고된 복구 불가 오류(Reported Uncorrectable Errors)’로 잘못 표기하는 경우가 있었습니다. 더 나아가서, 타사 유틸리티는 여기서 논하고 있는 SSD에는 적합하지 않은 고장 임계값을 갖고 있어서, 제조업체가 볼 때는 허용 가능한 동작인 경우에도 SMART 유틸리티가 고장으로 보고할 수도 있습니다.

이와 같은 잠재적 혼동 때문에, Crucial은 Crucial SSD에서 SMART 데이터를 정확하게 검색 및 분석하는 도구로는 오직 당사의 스토리지 이그제큐티브 소프트웨어만을 사용하도록 권장하고 있습니다. 스토리지 이그제큐티브 소프트웨어는 오래된 구형 Crucial SSD를 제외하고는 모든 SSD에 대해 항상 정확한 속성 기술 및 임계값(해당 시)을 이용하여 프로그램하게 되어 있습니다.

Crucial 지정 SMART 속성 설명

Crucial SSD에는 스토리지 이그제큐티브 소프트웨어에서 검색할 수 있는 몇 개의 상이한 속성이 기록됩니다. 일부 속성은 SSD에 관한 중요한 정보를 보고하지만, 다른 속성은 오직 정보사항만 보고하기도 합니다.

여기서 좀 더 중요한 사항에 대해 설명하겠지만, SATA와 PCle에 다른 속성 이름이 표시될 때는 두 가지 이름을 다 표시합니다.

속성 202: 사용한 수명 백분율(Percentage Lifetime)

이 속성은 이름이 암시하는 그대로입니다. 이는 특정 시점에 드라이브의 예상 수명을 어느 정도 사용했는지를 나타내는 척도입니다. SSD가 신제품일 때는 속성 202가 ‘0’을 보여주지만, 정해진 수명 끝에 도달하면 ‘100’으로 표시하여 수명을 100% 다 사용했다고 보고합니다.

그러나 예상 수명의 100퍼센트에 도달했다는 것이 무슨 의미인지 정확히 아는 것이 중요합니다. 즉, 이 숫자가 101퍼센트로 넘어가면 드라이브가 고장 난다는 의미는 아니고, 단지 가까운 시일 내에 SSD를 교체해야 할 수 있다는 것을 의미하는 것입니다.

NAND-플래시 기기의 수명은 다른 특성, 즉 ‘데이터보존기간’으로 정해집니다. 데이터보존기간은 특정 기기가 전원이 제거된 상태에서 사용자 데이터를 안전하게 저장했다가 성공적으로 검색할 수 있게 허용할 수 있는 시간을 말합니다. SSD 또는 다른 NAND-플래시 기기가 신제품일 때는 전원 제거 시 데이터보존기간이 수년이 될 것입니다. 하지만 인간의 기억력과 마찬가지로, 이 역시 데이터 기록이 반복되면서 마모에 따른 수명 단축이 있게 됩니다(데이터 읽기가 마모로 직접 이어지지는 않음).

국제반도체표준화기구(JEDEC: Joint Electron Device Engineering Council (JEDEC)는 반도체 기기와 어셈블리에 관한 표준과 규격을 정하는 업계 협의 기구입니다. Micron은 JEDEC의 주요 회원으로서, 데이터보존기간을 특별한 방법으로 정하고 있습니다. 고객 응용 분야(회사 또는 개인 컴퓨터)의 SSD에서 데이터보존기간은 전원 제거 상태로 30°C(86°F)에서 1년 이상이 되어야 합니다. 이는 대부분의 컴퓨터 사용자가 보관 후 상당 시간이 지나 사용하지 않은 드라이브에서 필요 시 모든 데이터를 가져올 수 있는 충분한 시간입니다.

SSD는 수명 계수 값이 100퍼센트에서 더 진전되더라도 동작은 잘 될 것으로 기대하셔도 됩니다. 그러나 데이터보존기간은 시간이 지나면서 계속 저하되어 1년에서 6개월로, 6개월에서 다시 3개월 등으로 줄어듭니다. 결국, 드라이브의 보장 수명이 한참 지난 뒤에는 새로 기록한 데이터는 전원이 없으면 전혀 보존할 수 없게 됩니다.

하지만 SSD 펌웨어에서 이 문제를 고려하였습니다. 펌웨어에는 오류 수정 코드(ECC), 읽기 재시도, 적응형 읽기 매개변수, 백그라운드 데이터 관리 및 기타 조정 기능 등이 있어서 SSD를 계속 사용함에 따라 데이터 보존 성능이 점점 저하되면서 발생하는 문제를 수정할 수 있습니다. NAND 데이터 블록의 성능이 저하되는 것은 온보드 예비 부품으로 교체하여 정상 동작을 계속 유지하게 할 수 있습니다. 물론, 이러한 모든 백그라운드 동작은 전원이 켜져 있을 때 수행되는 것이기 때문에, 데이터보존기간은 전원이 꺼진 상태를 전제로 정의된 것입니다.

속성 5: 중지된 NAND 블록

SMART 속성 5는 이렇게 NAND 블록의 품질을 지속적으로 평가하는 과정에서 중지된 블록의 수를 추적합니다. SSD 펌웨어는 앞에서 설명한 마모와 데이터보존 문제 외에도, 다른 몇 가지 이유로 NAND 블록을 중지시킵니다. 중지의 한 가지 이유는 가비지 수집 과정에서 데이터 제거 또는 이동 시 블록 삭제에 실패하는 경우입니다. 이런 종류의 실패는 해당 데이터를 삭제 중이거나, SSD의 새 장소로 복사를 이미 마친 상태이기 때문에 사용자의 정보에 미치는 위험은 낮습니다.

속성 180: 미사용 예비 블록 계수(PCIe SSD 내의 가용 예비 블록)

역시, 이름이 암시하는 바와 같이, 이는 불량 블록을 중지시켜야 할 때 이용 가능한 여분의 블록 수를 의미하는 것입니다. 이 숫자는 적용된 NAND 구조, 펌웨어 구조 및 드라이브의 사용자 용량에 따라 달라지지만, 통상 수천 개 단위로 시작됩니다.

그 수는 중지된 블록이 증가함에 따라 감소합니다. 속성 180이 0에 도달하면, 펌웨어에서 SSD를 읽기전용 모드로 전환합니다. 그러면 SSD는 정상 드라이브로 사용할 수 없게 되지만, 사용자는 저장된 데이터를 검색하여 새로운 기기로 이동시킬 수는 있습니다. 만일 이 숫자가 대략 100 이하로 떨어지면, 드라이브를 교체할 것을 강력히 권장합니다.

속성 210: RAIN 복구 성공 페이지 계수

복수 배열 독립 NAND(RAIN)은 드라이브 어레이에서 RAID를 이용하여 데이터 중복성을 확보하는 것과 매우 유사합니다. 하지만 RAIN 중복 기능은 사용자가 인식하지 못하는 상태에서 드라이브 안에서만 이뤄집니다. RAIN은 SSD가 사용자 데이터를 보호하고 드라이브의 수명을 연장하기 위해 사용하는 기능입니다.

RAIN 이벤트는 흔히 볼 수 있는 것은 아니며, 이 숫자가 커졌다면 위에서 설명한 일부 속성을 점검하여 드라이브 교체 시기가 되었는지 확인할 시간이 된 것입니다. RAIN 이벤트가 자주 발생하면 성능이 현저하게 저하될 수 있습니다. 데이터 복구를 위해 패리티 중복 기능을 사용하면 드라이브는 정상 동작을 계속할 수 있지만, I/O 대역폭을 일부 소모하게 됩니다. 성능 저하가 자주 발생하면, RAIN 재구축이 원인일 수 있으며, 문제가 될 수 있습니다.

속성 174: 예상치 못한 전력 손실 계수(PCIe SSD의 불안전한 종료 계수)

컴퓨터 시스템에서 전원이 정상적으로 차단되는 경우에는 호스트 컴퓨터에서 SSD에 전원이 차단될 것이라는 메시지를 먼저 보냅니다. 이 경고에 따라 SSD는 진행 중인 동작을 완료할 시간을 벌게 됩니다. SSD에서 이 작업을 마치면 호스트 컴퓨터에 ‘확인(acknowledge)’ 메시지를 보내고 호스트 컴퓨터가 전원을 차단합니다.

전원이 갑자기 차단되는 경우는 여러 가지가 있는데, 이는 SSD에 문제가 될 수 있습니다. SSD는 거의 모든 상황에서 이에 대응할 수 있어서, 다음번 부팅까지의 시간이 약간 길어지더라도(수백 밀리초가 아닌 수 초), 시스템을 시작할 수 있습니다.

속성 174는 일반적으로 정보용으로만 사용합니다. 그러나 이러한 이벤트 수가 많아지면, 사용자가 적절한 운영체제 종료 절차 교육을 받을 필요가 있거나, 전원 공급 장치 또는 연결부에 문제가 있음을 나타내는 것일 수 있습니다.

속성 194: 엔클로저 온도 (PCIe 기기 온도)

Crucial의 스토리지 이그제큐티브 소프트웨어는 현재 온도와 최고 수명 온도를 SSD에 있는 센서로 측정하여 섭씨 단위로 보고합니다. 대부분의 Crucial SSD에서 동작 범위는 0°C~70°C(또는 32°F~158°F)로 정해져 있습니다. 온도가 70°C 이상으로 기록된 경우에는 보증이 되지 않을 수 있으므로, 온도를 주기적으로 확인해야 합니다. 만일 온도가 주기적으로 65°C 이상으로 올라간다면, 환기 개선 또는 팬 장착 등의 보완 조치가 필요합니다.

마치는 말

SMART는 SSD의 상태를 감시할 수 있는 아주 유용한 도구가 될 수 있습니다. 하지만 SMART가 종합 진단 도구는 아닙니다. SMART 속성을 통해서 얻은 정보와 운영체제 진단 기능을 함께 이용하는 것은 표준 고장진단 관행으로 좋은 시작이 될 수 있습니다.

부정확하게 보고되거나 잘못 해석된 SMART 데이터는 그릇된 결론으로 이어져서 불행히도 완벽하게 동작하는 드라이브를 반송하게 될 수도 있습니다. 그러므로 Crucial SSD에서 SMART 데이터를 읽을 때는 오직 Crucial 스토리지 이그제큐티브 소프트웨어만을 사용하셔야 합니다.

©2019 Micron Technology, Inc. All rights reserved. 정보, 제품 및/또는 사양은 별도 고지 없이 변경될 수 있습니다. Crucial 및 Micron Technology, Inc.는 인쇄된 정보나 사진에 누락 또는 오류가 있더라도 이에 대해 어떠한 책임도 지지 않습니다. Micron, Micron 로고, Crucial 및 Crucial 로고는 Micron Technology, Inc.의 상표 또는 등록 상표입니다. PCI Express 및 PCIe는 PCI-SIG의 등록 상표입니다. 기타 모든 상표 및 서비스 마크는 해당 소유자의 재산입니다.