ubuntu
カテゴリ
smartmontools HDD診断
2026/03/04 22時maintenance
■smartmontool CPU・HDD温度の取得

smartmontool インストール
sudo apt update
sudo apt install lm-sensors smartmontools
sudo sensors-detect
CPUセンサーの検出(基本すべて 'yes' でOK)

内蔵SSDの情報取得
# 内蔵SSD(sda / SATA)
sudo smartctl -a /dev/sda
項目評価
健康状態PASSED
温度 (ID194)36°C (最大51°C)
稼働時間 (ID9)11,443時間(約1.3年分)ℹ️
電源投入回数 (ID12)1,449回
不良セクタ (ID5)0
書き込み総量 (ID241)17,493 × 32MB ≈ 約546TB
ウェアレベリング (ID173)93/100✅ 良好
突然電源断 (ID174)49回⚠️ 少し多め
突然電源断 (ID174)の少し多めは、Windows機での運用での傷

外付けHDD(sdb / USB)の情報取得
# 外付けHDD(sdb / USB)
sudo smartctl -d sat -a /dev/sdb
項目評価
健康状態PASSED(属性ベース)
温度 (ID194)56°C⚠️ やや高め
稼働時間 (ID9)897時間ℹ️
電源投入回数 (ID12)220回
修復不能エラー (ID198)0
CRCエラー (ID199)3⚠️ 軽微
寿命指標 (ID231)99/100✅ ほぼ新品同様
温度 (ID194) 56°C SSDはケースから外してアルミヒートシンクを付けたが、夏場を前にこの数値は高いので、USBファンを設置するか

CRCエラー (ID199) 3回は、一度SSDはが机から落ちてしまい、エンコードに4時間掛かった事があった時の傷跡か?念のために30cmケーブル交換して、上部の棚に落下しないように固定しよう

■NetdataにSMART監視を有効にする

smartctlモジュールを有効化する /etc/netdata/go.d.conf を作成
sudo nano /etc/netdata/go.d/smartctl.conf
jobs:
  - name: smartctl
    poll_devices_every: 300
    extra_devices:
      - name: /dev/sdb
        type: sat

デバイス設定の /etc/netdata/go.d/smartctl.conf を、デフォルト設定ファイルから複写して作成
sudo cp /usr/lib/netdata/conf.d/go.d.conf /etc/netdata/go.d.conf
sudo nano /etc/netdata/go.d.conf
# smartctl: yes ⇒コメントを削除⇒smartctl: yes
Netdata の、Hardware に、S.M.A.R.T.セクションが追加される

S.M.A.R.T.用のアラートルールを追加 smartctl.conf 作成
sudo nano /etc/netdata/health.d/smartctl.conf
# S.M.A.R.T. ヘルスチェック失敗
alarm: smart_device_status
on: smartctl.device_smart_status
lookup: min -5m
every: 1m
warn: $this < 2
crit: $this == 0
info: S.M.A.R.T. デバイスの健康状態に異常があります
to: sysadmin

# 温度警告(外付けSSD用)
alarm: smart_device_temperature
on: smartctl.device_temperature
lookup: max -5m
every: 5m
warn: $this > 55
crit: $this > 65
info: ストレージデバイスの温度が高すぎます
to: sysadmin

Netdataを再起動
sudo systemctl restart netdata
これで、S.M.A.R.T. デバイスの健康状態に異常があった場合と、SSD温度が55°C超で警告メール、65°C超で緊急メールが届く
記事一覧