プレゼンテーション

自己紹介

本日の発表内容

はてなにおける SSD の歴史

はてなにおける SSD のメリット

はてなにおける SSD の Master DB

はてなにおける SSD の用途

はてなにおける SSD の構成

S.M.A.R.T

Media Wearout Indicator

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
(snip)
  9 Power_On_Hours          0x0002   100   100   000    Old_age   Always       -       6871
(snip)
232 Unknown_Attribute       0x0003   100   100   010    Pre-fail  Always       -       0
233 Unknown_Attribute       0x0002   106   106   000    Old_age   Always       -       0

0xE8 232: Available Reserved Space

よく話題になるけど全然減らない。 99 より小さいホストが存在しなかった。


その他 ATTRIBUTE

IDDescription説明
04Start/Stop Count0のまま動かない
05Re-allocated Sector Count0〜13ぐらい
09Power-On Hours Countいくら何でも正しいと期待している
0CPower Cycle Count9〜131なので出荷時検査か嘘ついてるか
C0Power-off Retract Count謎。10台ぐらい FAILING_NOW だ
E1LBA's Written書き込み量に強い相関があるような気がしてきた
E8Available Reserved Spaceすべてのホストで 100 か 99 で謎
E9Media Wearout Indicator書き込み量に強く相関性がある
B8End-to-End Data Integrity Error Count全ホストで100

はてなにおける SSD の個体観察

障害などで戻ってきたホストから、 SSD をひっぺがして観察してみました。

INTEL SSDSA2MH080G1GC

G1 の 8ヵ月ほど酷使された SSD になります。

Device Model:     INTEL SSDSA2MH080G1GC
Serial Number:    CVEM847500W5080DGN
Firmware Version: 045C8820
User Capacity:    80,026,361,856 bytes

Media Wearout Indicator が 64% まで減っている。

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0002   100   100   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0002   100   100   000    Old_age   Always       -       6197
232 Unknown_Attribute       0x0003   100   100   010    Pre-fail  Always       -       0
233 Unknown_Attribute       0x0002   064   064   000    Old_age   Always       -       0
225 Load_Cycle_Count        0x0000   193   193   000    Old_age   Offline      -       939708

以下 dd の結果。上が read で下が write です。

シーケンシャル write は 超劣化する…。

80026361856 bytes (80 GB) copied, 466.157 seconds, 172 MB/s
80026361856 bytes (80 GB) copied, 6166.15 seconds, 13.0 MB/s

INTEL SSDSA2M080G2GC

G2 の 6ヵ月半ほどライト多めの DB に入れていた SSD です。

どれぐらい多いかというと単体の SATA HDD ではレプリが追いつかないぐらい。

DB のサイズが大きくなって 80GB だと厳しくなったので退役しました。

Device Model:     INTEL SSDSA2M080G2GC
Serial Number:    CVPO927600K0080BGN
Firmware Version: 2CV102G9
User Capacity:    80,026,361,856 bytes

Media Wearout Indicator は 83% になっている。

稼働期間 6ヵ月で 17% 減少とすると、3年ほどで Media Wearout Indicator が 0 となる。

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
(snip)
  5 Reallocated_Sector_Ct   0x0032   100   100   000    Old_age   Always       -       11
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       4940
(snip)
232 Unknown_Attribute       0x0033   099   099   010    Pre-fail  Always       -       0
233 Unknown_Attribute       0x0032   083   083   000    Old_age   Always       -       0

これは極端な個体ではないので、シーケンシャルアクセスで Read 188MB/s, Write 29MB/s は出ている。

80026361856 bytes (80 GB) copied, 426.367 seconds, 188 MB/s
80026361856 bytes (80 GB) copied, 2756.15 seconds, 29.0 MB/s

はてなにおける SSD の tip

trim とか

tokuhy: @muranet trimが使えない状況下でSSDの未使用領域(未フォーマット)を確保した場合のとしてない場合の寿命と劣化具合についてなど。未使用領域が多ければ寿命は長持ちするとintelの中の人も言ってますが、サーバ環境でその辺りの情報があれば是非。ガベージコレクトのお話とか

はてなにおける SSD のトラブル例

n0ts: @muranet SSDで実際に遭遇したトラブルとその対策方法を知りたいです!

はてなにおける SSD の結論