Raid 6 mit zwei fehlenden Platten nach crash nicht startbar ...

16/07/2011 - 09:56 von Pierre B. | Report spam
Hallo,

wàhrend der Einrichtung ist mir mein System ausgefallen. Dabei scheint das degraded Raid-6
nicht überlebt zu haben. Das Raid 6 wurde mit 2 missing Platten für die Vorbereitung von
mir eingerichtet so dass es die ganze Zeit degraded gewesen ist.
Nun habe wollte ich es wieder starten, da es ansonsten soweit in Ordnung aus sieht. Es
funktioniert leider nicht und ich sehe den Grund nicht.
Bevor ich nun also Versuche mittels Löschen der Superblöcke und Anlegen mittels assemble
das Teil wieder zum Rennen zu bewegen oder gar das ganze Raid Array neu anlege wollte ich
mal lesen, ob Ihr noch eine andere Möglichkeit seht oder ob Ihr das eigentliche Problem
erkennen könnt.

Hier mal ein paar Ausgaben:

root@newxen:~# mdadm --run /dev/md125
mdadm: failed to run array /dev/md125: Input/output error

root@newxen:~# mdadm --query --detail /dev/md125
/dev/md125:
Version : 1.2
Creation Time : Sat Mar 5 02:23:00 2011
Raid Level : raid6
Used Dev Size : 244138496 (232.83 GiB 250.00 GB)
Raid Devices : 4
Total Devices : 2
Persistence : Superblock is persistent

Update Time : Thu Jul 14 21:36:33 2011
State : active, degraded, Not Started
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0

Layout : left-symmetric
Chunk Size : 512K

Name : xen:datamd
UUID : 45d7a2d4:628276ee:28b1e996:c44bc3c6
Events : 1235

Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 8 19 1 active sync /dev/sdb3
2 0 0 2 removed
3 0 0 3 removed

root@newxen:~# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md125 : inactive sda3[0] sdb3[1]
488278016 blocks super 1.2

md126 : active raid1 sda2[0] sdb2[1]
19529656 blocks super 1.2 [3/2] [UU_]
bitmap: 1/1 pages [4KB], 65536KB chunk

md127 : active raid1 sda1[0] sdb1[1]
88345 blocks super 1.2 [3/2] [UU_]
bitmap: 1/1 pages [4KB], 65536KB chunk

unused devices: <none>


root@newxen:~# mdadm --examine /dev/sda3
/dev/sda3:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 45d7a2d4:628276ee:28b1e996:c44bc3c6
Name : xen:datamd
Creation Time : Sat Mar 5 02:23:00 2011
Raid Level : raid6
Raid Devices : 4

Avail Dev Size : 488278016 (232.83 GiB 250.00 GB)
Array Size : 976553984 (465.66 GiB 500.00 GB)
Used Dev Size : 488276992 (232.83 GiB 250.00 GB)
Data Offset : 2048 sectors
Super Offset : 8 sectors
State : active
Device UUID : b5f9456b:6b379c3f:0837a437:044b2aa8

Internal Bitmap : 8 sectors from superblock
Update Time : Thu Jul 14 21:36:33 2011
Checksum : c64c7830 - correct
Events : 1235

Layout : left-symmetric
Chunk Size : 512K

Device Role : Active device 0
Array State : AA.. ('A' == active, '.' == missing)

root@newxen:~# mdadm --examine /dev/sdb3
/dev/sdb3:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 45d7a2d4:628276ee:28b1e996:c44bc3c6
Name : xen:datamd
Creation Time : Sat Mar 5 02:23:00 2011
Raid Level : raid6
Raid Devices : 4

Avail Dev Size : 488278016 (232.83 GiB 250.00 GB)
Array Size : 976553984 (465.66 GiB 500.00 GB)
Used Dev Size : 488276992 (232.83 GiB 250.00 GB)
Data Offset : 2048 sectors
Super Offset : 8 sectors
State : active
Device UUID : b394b671:1c411beb:0f73bd65:6997de86

Internal Bitmap : 8 sectors from superblock
Update Time : Thu Jul 14 21:36:33 2011
Checksum : 8509a54d - correct
Events : 1235

Layout : left-symmetric
Chunk Size : 512K

Device Role : Active device 1
Array State : AA.. ('A' == active, '.' == missing)

aus dmesg:
[ 32.683455] md: md125 stopped.
[ 32.685223] md: bind<sdb3>
[ 32.685487] md: bind<sda3>
[ 32.688946] raid5: md125 is not clean -- starting background reconstruction
[ 32.689025] raid5: device sda3 operational as raid disk 0
[ 32.689085] raid5: device sdb3 operational as raid disk 1
[ 32.690061] raid5: allocated 4282kB for md125
[ 32.690204] 0: w=1 pa=0 pr=4 m=2 a=2 r=4 op1=0 op2=0
[ 32.690262] 1: w=2 pa=0 pr=4 m=2 a=2 r=4 op1=0 op2=0
[ 32.690320] raid5: cannot start dirty degraded array for md125
[ 32.690413] RAID5 conf printout:
[ 32.690469] rd:4 wd:2
[ 32.690525] disk 0, o:1, dev:sda3
[ 32.690582] disk 1, o:1, dev:sdb3
[ 32.691309] raid5: failed to run raid set md125
[ 32.691369] md: pers->run() failed ...

Hier dann noch mal ein Versuch:

root@newxen:~# mdadm --stop /dev/md125
mdadm: stopped /dev/md125
root@newxen:~# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md126 : active raid1 sda2[0] sdb2[1]
19529656 blocks super 1.2 [3/2] [UU_]
bitmap: 1/1 pages [4KB], 65536KB chunk

md127 : active raid1 sda1[0] sdb1[1]
88345 blocks super 1.2 [3/2] [UU_]
bitmap: 1/1 pages [4KB], 65536KB chunk

unused devices: <none>
root@newxen:~# mdadm --assemble /dev/md125 /dev/sda3 /dev/sdb3
mdadm: /dev/md125 assembled from 2 drives - not enough to start the array while not clean - consider --force.
root@newxen:~# mdadm --assemble --force /dev/md125 /dev/sda3 /dev/sdb3
mdadm: cannot open device /dev/sda3: Device or resource busy
mdadm: /dev/sda3 has no superblock - assembly aborted
root@newxen:~# mdadm --examine /dev/sda3
/dev/sda3:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 45d7a2d4:628276ee:28b1e996:c44bc3c6
Name : xen:datamd
Creation Time : Sat Mar 5 02:23:00 2011
Raid Level : raid6
Raid Devices : 4

Avail Dev Size : 488278016 (232.83 GiB 250.00 GB)
Array Size : 976553984 (465.66 GiB 500.00 GB)
Used Dev Size : 488276992 (232.83 GiB 250.00 GB)
Data Offset : 2048 sectors
Super Offset : 8 sectors
State : active
Device UUID : b5f9456b:6b379c3f:0837a437:044b2aa8

Internal Bitmap : 8 sectors from superblock
Update Time : Thu Jul 14 21:36:33 2011
Checksum : c64c7830 - correct
Events : 1235

Layout : left-symmetric
Chunk Size : 512K

Device Role : Active device 0
Array State : AA.. ('A' == active, '.' == missing)
root@newxen:~# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md125 : inactive sda3[0](S) sdb3[1](S)
488278016 blocks super 1.2
...

Irgendwie trotzdem schön, das weiterhin doch Superblöcke da sein sollen, oder?
Das (S) bekomme ich aber auch weg (trotz einer Fehlermeldung):

root@newxen:~# mdadm --run /dev/md125
mdadm: failed to run array /dev/md125: Input/output error
root@newxen:~# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md125 : inactive sda3[0] sdb3[1]
488278016 blocks super 1.2
...


MfG...
Pierre
 

Lesen sie die antworten

#1 Pierre B.
16/07/2011 - 10:15 | Warnen spam
Am 16.07.2011 09:56, schrieb Pierre B.:
Hallo,


Hallo,

wie das so ist, kurz nach dem ich diesen Post abgesendet habe konnte ich das Problem
erkennen.
Bevor ich nun also Versuche mittels Löschen der Superblöcke und Anlegen mittels assemble
das Teil wieder zum Rennen zu bewegen oder gar das ganze Raid Array neu anlege wollte ich
mal lesen, ob Ihr noch eine andere Möglichkeit seht oder ob Ihr das eigentliche Problem
erkennen könnt.



Der Grund für die Probleme waren wohl das interne bitmap. Offensichtlich war genau das nicht
"clean", wobei ich aber noch immer nicht weiss, woran ich das erkennen können soll. Fehler-
meldungen die das genauer Erlàutern existieren ja nicht.
Die Lösung war nun einfach das interne bitmap versuchen zu entfernen, was wegen Fehlermeldungen
aber nicht ersichtlich war, das das auch erfolgreich war:-(


Zustand:
:~# mdadm --run /dev/md125
mdadm: failed to run array /dev/md125: Input/output error
:~# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md125 : inactive sda3[0] sdb3[1]
488278016 blocks super 1.2

md126 : active raid1 sda2[0] sdb2[1]
19529656 blocks super 1.2 [3/2] [UU_]
bitmap: 1/1 pages [4KB], 65536KB chunk

md127 : active raid1 sda1[0] sdb1[1]
88345 blocks super 1.2 [3/2] [UU_]
bitmap: 1/1 pages [4KB], 65536KB chunk

unused devices: <none>
:~# mdadm --grow --bitmap=none /dev/md125
mdadm: no bitmap found on /dev/md125

Aber immer noch da:

:~# mdadm --misc -v --examine /dev/sda3
/dev/sda3:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 45d7a2d4:628276ee:28b1e996:c44bc3c6
Name : xen:datamd
Creation Time : Sat Mar 5 02:23:00 2011
Raid Level : raid6
Raid Devices : 4

Avail Dev Size : 488278016 (232.83 GiB 250.00 GB)
Array Size : 976553984 (465.66 GiB 500.00 GB)
Used Dev Size : 488276992 (232.83 GiB 250.00 GB)
Data Offset : 2048 sectors
Super Offset : 8 sectors
State : active
Device UUID : b5f9456b:6b379c3f:0837a437:044b2aa8

Internal Bitmap : 8 sectors from superblock
Update Time : Thu Jul 14 21:36:33 2011
Checksum : c64c7830 - correct
Events : 1235

Layout : left-symmetric
Chunk Size : 512K

Device Role : Active device 0
Array State : AA.. ('A' == active, '.' == missing)

Nochmal stoppen und assemblen:

:~# mdadm --stop /dev/md125
mdadm: stopped /dev/md125

:~/install/own# mdadm --assemble --force /dev/md125 /dev/sda3 /dev/sdb3
mdadm: /dev/md125 has been started with 2 drives (out of 4).

HUCH!!!

Wieder da, aber mit einem bitmap?


:~# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md125 : active (auto-read-only) raid6 sda3[0] sdb3[1]
488276992 blocks super 1.2 level 6, 512k chunk, algorithm 2 [4/2] [UU__]
bitmap: 2/2 pages [8KB], 65536KB chunk

md126 : active raid1 sda2[0] sdb2[1]
19529656 blocks super 1.2 [3/2] [UU_]
bitmap: 1/1 pages [4KB], 65536KB chunk

md127 : active raid1 sda1[0] sdb1[1]
88345 blocks super 1.2 [3/2] [UU_]
bitmap: 1/1 pages [4KB], 65536KB chunk

unused devices: <none>

Ja. Schon komisch!!!

Mal sehen was das darauf liegende luks sagt:

:~# cryptsetup isLuks --verbose /dev/md125
Befehl erfolgreich.

:~# cryptsetup luksOpen --verbose /dev/md125 md125_raid
Geben Sie den Passsatz für /dev/md125 ein:
Schlüsselfach 0 entsperrt.
Befehl erfolgreich.

Dann nochmal schauen, ob das lvm erkannt wird:


:~# lvmdiskscan -l
WARNING: only considering LVM devices
/dev/dm-0 [ 18,62 GiB] LVM physical volume
/dev/dm-9 [ 465,66 GiB] LVM physical volume
0 LVM physical volume whole disks
2 LVM physical volumes

Auch gut (dm-9).

:~# pvs
PV VG Fmt Attr PSize PFree
/dev/dm-0 xenrootdg lvm2 a- 18,62g 5,66g
/dev/dm-9 xendatadg lvm2 a- 465,65g 178,65g

:~# vgs
VG #PV #LV #SN Attr VSize VFree
xendatadg 1 26 0 wz--n- 465,65g 178,65g
xenrootdg 1 8 0 wz--n- 18,62g 5,66g

:~# lvs xendatadg
LV VG Attr LSize Origin Snap% Move Log Copy% Convert
backup-disk xendatadg -wi 2,00g
backup-disk-snap xendatadg -wi 2,00g
backup-swap xendatadg -wi 1,00g
backup-varlibbacula-disk xendatadg -wi 2,00g
backup-varlibpostgresql-disk xendatadg -wi 8,00g
basenet-disk xendatadg -wi 2,00g
basenet-swap xendatadg -wi 1,00g
bla-disk xendatadg -wi 2,00g
bla-swap xendatadg -wi 1,00g
file-disk xendatadg -wi 2,00g
file-disk-snap xendatadg -wi 2,00g
file-home-disk xendatadg -wi 100,00g
file-swap xendatadg -wi 1,00g
gateway-disk xendatadg -wi 2,00g
gateway-disk-snap xendatadg -wi 2,00g
gateway-swap xendatadg -wi 1,00g
mail-disk xendatadg -wi 2,00g
mail-home-disk xendatadg -wi 10,00g
mail-swap xendatadg -wi 1,00g
mediastore xendatadg -wi 115,00g
nfs-disk xendatadg -wi 2,00g
nfs-swap xendatadg -wi 1,00g
router-disk xendatadg -wi 2,00g
router-disk-snap xendatadg -wi 2,00g
router-swap xendatadg -wi 1,00g
sunjumpstart xendatadg -wi 20,00g

Scheinbar alles da. Ich werde dennoch alles nochmal anlegen. Die Fehlerbehebung làsst mir
hier zu viele Fragen offen, aber zumindestens scheint es so zu sein, das man dann hier hàtte
nun versuchen können eine Datensicherung zu erstellen.

MfG und entschuldigung für die vielen logs...
Pierre

Ähnliche fragen