SCSI Karte oder RAID defekt?

25/05/2009 - 19:51 von Till Wimmer | Report spam
Hallo allerseits,

bei unserem Server gibt's neuerdings Probleme mit einem angehàngten externen RAID. Es handelt sich hier um ein echtes RAID
(Hardware), welches via SCSI (dev/sda) am Server hàngt. Dazu wurde in den Server eine Adaptec 29160 Karte eingebaut.

Das Device /dev/sda wird direkt (ohne Partitionstabelle) als LVM Physical Volume verwendet.

dmesg zeigt Meldungen der Art:

[20305.861443] (scsi0:A:0:0): parity error detected in Data-in phase. SEQADDR(0x9f) SCSIRATE(0xc2)
[20305.861497] CRC Value Mismatch
[20305.863380] (scsi0:A:0:0): parity error detected in Data-in phase. SEQADDR(0x9f) SCSIRATE(0xc2)
[20305.863380] CRC Value Mismatch
[20305.863380] (scsi0:A:0:0): parity error detected in Data-in phase. SEQADDR(0x9f) SCSIRATE(0xc2)
[20305.863380] CRC Value Mismatch
[20305.864856] (scsi0:A:0:0): parity error detected in Data-in phase. SEQADDR(0x9f) SCSIRATE(0xc2)
[20305.864856] CRC Value Mismatch
[20305.864856] (scsi0:A:0:0): parity error detected in Data-in phase. SEQADDR(0x9f) SCSIRATE(0xc2)
[20305.864856] CRC Value Mismatch
[20305.866348] (scsi0:A:0:0): parity error detected in Data-in phase. SEQADDR(0x9f) SCSIRATE(0xc2)
[20305.866348] CRC Value Mismatch
[20305.866348] sd 0:0:0:0: [sda] Result: hostbyte=DID_PARITY driverbyte=DRIVER_OK,SUGGEST_OK
[20305.866348] end_request: I/O error, dev sda, sector 49025624
[20305.866348] Buffer I/O error on device dm-1, logical block 6128155
[20305.866348] Buffer I/O error on device dm-1, logical block 6128156
[20305.866348] Buffer I/O error on device dm-1, logical block 6128157
[20305.866348] Buffer I/O error on device dm-1, logical block 6128158
[20305.866348] Buffer I/O error on device dm-1, logical block 6128159
[20305.866348] Buffer I/O error on device dm-1, logical block 6128160

teilweise auch:
2826.355067] SCB_LUN[0xff]:(SCB_XFERLEN_ODD|LID) SCB_TAG[0xff]
[ 2826.355067] 29 SCB_CONTROL[0x0] SCB_SCSIID[0xff]:(TWIN_CHNLB|OID|TWIN_TID)
[ 2826.355067] SCB_LUN[0xff]:(SCB_XFERLEN_ODD|LID) SCB_TAG[0xff]
[ 2826.355067] 30 SCB_CONTROL[0x0] SCB_SCSIID[0xff]:(TWIN_CHNLB|OID|TWIN_TID)
[ 2826.355067] SCB_LUN[0xff]:(SCB_XFERLEN_ODD|LID) SCB_TAG[0xff]
[ 2826.355067] 31 SCB_CONTROL[0x0] SCB_SCSIID[0xff]:(TWIN_CHNLB|OID|TWIN_TID)
[ 2826.355067] SCB_LUN[0xff]:(SCB_XFERLEN_ODD|LID) SCB_TAG[0xff]
[ 2826.355067] Pending list:
[ 2826.355067] 0 SCB_CONTROL[0x60]:(TAG_ENB|DISCENB) SCB_SCSIID[0x7]
[ 2826.355067] SCB_LUN[0x0]
[ 2826.355067] 5 SCB_CONTROL[0x60]:(TAG_ENB|DISCENB) SCB_SCSIID[0x7]
[ 2826.355067] SCB_LUN[0x0]
[ 2826.355067] Kernel Free SCB list: 6 1 11 4 7 3 10 9 8
[ 2826.355067]
[ 2826.355067] <<<<<<<<<<<<<<<<< Dump Card State Ends >>>>>>>>>>>>>>>>>>
[ 2826.355067] scsi0:0:0:0: Cmd aborted from QINFIFO
[ 2826.387077] aic7xxx_abort returns 0x2002
[ 2837.269016] sd 0:0:0:0: [sda] Attempting to queue an ABORT message
[ 2837.269083] CDB: 0x0 0x0 0x0 0x0 0x0 0x0
[ 2837.269749] scsi0: At time of recovery, card was not paused
[ 2837.269814] >>>>>>>>>>>>>>>>>> Dump Card State Begins <<<<<<<<<<<<<<<<<
[ 2837.269816] scsi0: Dumping Card State in Data-out phase, at SEQADDR 0x9f
[ 2837.269935] Card was paused
[ 2837.269992] ACCUM = 0x0, SINDEX = 0x12, DINDEX = 0xe4, ARG_2 = 0x1
[ 2837.270052] HCNT = 0x0 SCBPTR = 0x7
[ 2837.270108] SCSIPHASE[0x0] SCSISIGI[0x14]:(BSYI|ATNI)
[ 2837.270410] ERROR[0x0] SCSIBUSL[0xe7] LASTPHASE[0x0]
[ 2837.270713] SCSISEQ[0x12]:(ENAUTOATNP|ENRSELI)
[ 2837.270932] SBLKCTL[0xa]:(SELWIDE|SELBUSB) SCSIRATE[0xc2]:(ENABLE_CRC|WIDEXFER)
[ 2837.271328] SEQCTL[0x10]:(FASTMODE) SEQ_FLAGS[0x20]:(DPHASE)
[ 2837.271630] SSTAT0[0x5]:(DMADONE|SDONE) SSTAT1[0x0]
[ 2837.271932] SSTAT2[0x0] SSTAT3[0x0] SIMODE0[0x8]:(ENSWRAP)
[ 2837.272275] SIMODE1[0xac]:(ENSCSIPERR|ENBUSFREE|ENSCSIRST|ENSELTIMO)
[ 2837.272578] SXFRCTL0[0x88]:(SPIOEN|DFON) DFCNTRL[0x4]:(DIRECTION)
[ 2837.272921] DFSTATUS[0x89]:(FIFOEMP|HDONE|PRELOAD_AVAIL)
[ 2837.273181] STACK: 0x0 0x164 0x62 0x83
[ 2837.273396] SCB count = 12
[ 2837.273396] Kernel NEXTQSCB = 0
[ 2837.273396] Card NEXTQSCB = 2
[ 2837.273396] QINFIFO entries: 2
[ 2837.273396] Waiting Queue entries:
[ 2837.273396] Disconnected Queue entries:
[ 2837.273396] QOUTFIFO entries:
[ 2837.273396] Sequencer Free SCB List: 6 0 3 4 2 5 1 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
[ 2837.273396] Sequencer SCB Info:
[ 2837.273396] 0 SCB_CONTROL[0x60]:(TAG_ENB|DISCENB) SCB_SCSIID[0x7]
[ 2837.273396] SCB_LUN[0x0] SCB_TAG[0xff]

usw.

Kann jemand daraus ersehen, ob das an der eingebauten SCSI-Karte liegt, oder ob das auch ein Problem des externen Hardware-RAIDs
sein könnte? Das externe RAID hat nur einen Fehler "Parity Error" gemeldet; die verbauten Festplatten sind laut Log alle OK und
aktiv.

Für schnelle Hilfe bin ich sehr dankbar!
TW
 

Lesen sie die antworten

#1 Jan-Benedict Glaw
25/05/2009 - 20:07 | Warnen spam
On Mon, 25 May 2009 19:51:46 +0200, Till Wimmer wrote:

Hallo allerseits,

bei unserem Server gibt's neuerdings Probleme mit einem angehàngten
externen RAID. Es handelt sich hier um ein echtes RAID (Hardware),
welches via SCSI (dev/sda) am Server hàngt. Dazu wurde in den Server
eine Adaptec 29160 Karte eingebaut.

Das Device /dev/sda wird direkt (ohne Partitionstabelle) als LVM
Physical Volume verwendet.

dmesg zeigt Meldungen der Art:

[20305.861443] (scsi0:A:0:0): parity error detected in Data-in phase.
SEQADDR(0x9f) SCSIRATE(0xc2) [20305.861497] CRC Value Mismatch



Beim Übertragen von Daten (RAID in Richtung Adapter) hats laut
SCSI-Treiber Parity-Fehler gegeben. Da würd' ich zuerst mal die
Verkabelung (und ggf. den guten Sitz des Terminators) überprüfen.

[20305.866348] sd 0:0:0:0: [sda] Result: hostbyte=DID_PARITY
driverbyte=DRIVER_OK,SUGGEST_OK [20305.866348] end_request: I/O error,
dev sda, sector 49025624 [20305.866348] Buffer I/O error on device dm-1,
logical block 6128155 [20305.866348] Buffer I/O error on device dm-1,
logical block 6128156 [20305.866348] Buffer I/O error on device dm-1,
logical block 6128157 [20305.866348] Buffer I/O error on device dm-1,
logical block 6128158 [20305.866348] Buffer I/O error on device dm-1,
logical block 6128159 [20305.866348] Buffer I/O error on device dm-1,
logical block 6128160



Das sind dann Folgefehler, weil Blöcke nicht (korrekt) gelesen werden
konnten.

2837.269814] >>>>>>>>>>>>>>>>>> Dump Card State Begins <<<<<<<<<<<<<<<<<
[ 2837.269816] scsi0: Dumping Card State in Data-out phase, at SEQADDR
0x9f [ 2837.269935] Card was paused



Karte versucht Daten an das externe RAID zu senden, was anscheinend
ebenfalls schiefgegangen ist.

[ 2837.269992] ACCUM = 0x0, SINDEX = 0x12, DINDEX = 0xe4, ARG_2 = 0x1
[ 2837.270052] HCNT = 0x0 SCBPTR = 0x7 [ 2837.270108] SCSIPHASE[0x0] SCSISIGI[0x14]:(BSYI|ATNI)
[ 2837.270410] ERROR[0x0] SCSIBUSL[0xe7] LASTPHASE[0x0]
[ 2837.270713] SCSISEQ[0x12]:(ENAUTOATNP|ENRSELI)
[ 2837.270932] SBLKCTL[0xa]:(SELWIDE|SELBUSB) SCSIRATE[0xc2]:(ENABLE_CRC|WIDEXFER)
[ 2837.271328] SEQCTL[0x10]:(FASTMODE) SEQ_FLAGS[0x20]:(DPHASE)
[ 2837.271630] SSTAT0[0x5]:(DMADONE|SDONE) SSTAT1[0x0]
[ 2837.271932] SSTAT2[0x0] SSTAT3[0x0] SIMODE0[0x8]:(ENSWRAP)
[ 2837.272275] SIMODE1[0xac]:(ENSCSIPERR|ENBUSFREE|ENSCSIRST|ENSELTIMO)
[ 2837.272578] SXFRCTL0[0x88]:(SPIOEN|DFON) DFCNTRL[0x4]:(DIRECTION)
[ 2837.272921] DFSTATUS[0x89]:(FIFOEMP|HDONE|PRELOAD_AVAIL)
[ 2837.273181] STACK: 0x0 0x164 0x62 0x83
[ 2837.273396] SCB count = 12
[ 2837.273396] Kernel NEXTQSCB = 0
[ 2837.273396] Card NEXTQSCB = 2
[ 2837.273396] QINFIFO entries: 2



[...]

Kann jemand daraus ersehen, ob das an der eingebauten SCSI-Karte liegt,
oder ob das auch ein Problem des externen Hardware-RAIDs sein könnte?
Das externe RAID hat nur einen Fehler "Parity Error" gemeldet; die
verbauten Festplatten sind laut Log alle OK und aktiv.



Ich würd' auf die Verkabelung tippen.

MfG, JBG

Ähnliche fragen