RAID i praksis

Udgivet d. 17. aug. 2001 af BKH

See lots more about  RAID (UK)

RAID systemer bliver i dag markedsført på en måde der er med til at forvirre begreberne. Der bliver talt om "redundancy" (sikkerhed), performance, pris osv. Langt de fleste RAID systemer der sælges lever ikke op til disse egenskaber, og burde ikke sælges under betegnelsen RAID.

Hovedparten af mindre RAID systemer er blot en enkelt kontroller, hvor samtlige diske med hver sin SCSI ID, er installeret. Et utroligt sårbart system der i bedste fald giver en lille performance forbedring i form af "disk striping". I andre tilfælde opnås en lidt større sikkerhed på bekostning af performance. I den lidt bedre ende af RAID kontroller markedet ødelægges helheden ved at benytte billige kabinetter og strømforsyninger, der ikke gør det muligt at skifte en disk eller strømforsyning på et kørende system. Endeligt har de fleste RAID systemer intet eller meget dårlige moniterings- og rapporterings faciliteter.

Mange er ikke opmærksomme på denne mangel, men et RAID system der kører i "degraded" mode (med en defekt disk) er et uhyre sårbart system. En yderligere fejl vil være katastrofal. Derfor er det vigtigt at den systemansvarlige automatisk påmindes om en fejl i systemet, så den nødvendige udbedring kan foretages.

Følgende er et forsøg på at forklare de elementære begreber der kræves af et RAID system, samt hvilke egenskaber der har betydning for såvel sikkerhed som performance.

De enkelte RAID levels bliver ikke gennemgået, her henvises til diverse litteratur om RAID. F.eks. har Heinex Data A/S også lavet en beskrivelse af de enkelte RAID levels på dansk.

Sikkerhed er af største betydning, idet RAID systemer ofte har en kapacitet fra 20 til 300 GB. - utrolig store data mængder at miste! Performance er dog lige så aktuel med stadig hurtigere CPU'er der tilbringer mere og mere tid med at vente på I/O fra almindelige diske.

Functional redundancy

RAID standarden blev udviklet på Berkeley og beskrev oprindeligt RAID levels 1 til 5. Formålet var at forbedre pålideligheden for disksystemer.

Standarderne gik alene på at sikre sig mod diskfejl.

Et RAID system skal dog medtage samtlige komponenter for at opnå et pålideligt disk array der virker efter hensigten og giver den ønskede sikkerhed. De komponenter der omgiver diskene har ofte en langt mindre pålidelighed end selve diskene, og er derfor ofte fejlkilden.

Endvidere er det utroligt vigtigt at system administratoren får besked ved en eventuel fejl. RAID er pr. definition i stand til at reetablere data og ingen opdager en evt. diskfejl. En yderligere fejl i denne situation vil dog være katastrofal. Derfor er automatisk overvågning et krav til et RAID system.

Sikkerhed er imidlertid ikke længere nok for at tilfredsstille kravene til et moderne RAID system. Kravene er også høj performance som kan opnås med de nye 2. Generations RAID kontrollere.

Komponenter i et RAID system

Diske

SCSI diske i dag bliver stadigt mere pålidelige med MTBF på op til 800.000 timer. ECC tjek redder mange data ved fejl på disken. Problemet bliver dog ikke mindre når en disk fejler. Det giver i bedste fald en længere periode, hvor data’ene ikke kan benyttes, oftest betyder det tab af mere eller mindre vitale data som ikke kan genetableres. Det er derfor vigtigt at et RAID systems tidsperiode i "degraded mode" minimeres. Den bedste måde er ved at benytte hot eller warm spare, som straks bringes on-line ved fejl, for derefter at overtage den defekte disks funktion. Er dette ikke muligt er det nødvendigt med et effektivt varslings system der henleder system administratoren på problemet. Sidst nævnte kræver dog konstant overvågning af systemet.

Hot spare - ved en disk fejl bringes en "hot spare" disk on-line, og data fra den defekte disk opbygges automatisk på "spare" disken, uden indgriben udefra. Hermed bliver den kritiske periode, hvor et RAID system kører i degraded mode minimeret.

Hot swap - den defekte disk kan udskiftes mens systemet er kørende og uden at det bemærkes. Såvel diske som strømforsyning bør kunne udskiftes uden værktøj og med systemet kørende. Det bør endvidere kunne ske uden eller med et minimum af værktøj.

Mange RAID systemer benytter "warm swap" som ikke må forveksles med "Hot swap". Ved "warm swap" skal systemet stoppes for at udskifte en disk. Dette er derfor langt fra det optimale, idet perioden i "degraded mode" forlænges betydeligt.

En anden detalje er sammensætningen af diske. Det bør være muligt at mixe diske af forskellig størrelse og fabrikat i et RAID system. Hvis ikke - kan en diskfejl betyde udskiftning af samtlige diske i RAID sættet. De fleste RAID systemer har desværre ikke denne facilitet og mange er ikke opmærksom på betydningen heraf. Med den udvikling der foregår på disksiden idag er det ofte umuligt at erstatte en defekt disk med en disk af eksakt samme fabrikat og størrelse. Mange fabrikanter af diske yder 5 års garanti, men allerede efter et par år foregår ombytningen til en "lignende" disk, som mange RAID systemer ikke kan benytte sammen med de eksisterende diske.

RAID Controler

RAID control'eren er selvsagt en vital del af et RAID system. Det er derfor vigtigt at kunne dublere denne enhed. Dual controlere bør være en mulighed og de kan i et professionelt RAID system benyttes på forskellige måder.

Hver enkelt disk streng skal have sin egen CPU og SCSI kontroller. En fælles SCSI bus hvor diskene har hver sin SCSI ID er langt fra en sikker løsning. Én enkelt disk kan få SCSI bussen til at "hænge".

RAID levels og justering af "chunksize" inden for disse er ligeledes en vigtig faktor. Det er næsten umuligt, på forhånd, at sige hvilket RAID level der er bedst til den enkelte applikation. Der er selvfølgelig generelle regler som RAID 3/4 til overførsel af store datamængder og RAID 5 ved mange I/

2. Generation RAID kontrollere kan som minimum benytte op til 7 diske pr. modul, hvilket giver et meget lille overhead. Muligheden for at benytte én enkelt "hot spare" pr. RAID kontroller er ligeledes med til at begrænse "spild" af diske.

Flere host tilslutninger pr. RAID system bør ligeledes være muligt, idet det giver mulighed for at udnytte det enkelte RAID system bedre. Det bliver så også muligt at benytte samme RAID system, samtidigt på forskellige platforme.

Kabinetter

Kabinettet i sig selv, kan selvsagt ikke dubleres. Det er dog stadig en særdeles vigtig komponent. Ud over det ydre kabinet indeholder den også modulerne med plads til strømforsyninger og de enkelte diskenheder.

For at opnå ægte "hot replacement" - d.v.s. muligheden for at fjerne og installere diske på en aktiv SCSI-bus er der visse regler som skal overholdes som bedst forklares ved virkemåden for el-RAIDPlus.

For at fjerne en disk benyttes en nøgle. Når nøglen drejes frigives et håndtag og hermed fjernes strømmen fra disken som "spinner ned". Når disken fjernes frigøres først SCSI forbindelserne og derefter stel forbindelserne. Når en ny disk isættes er der 3 sekunders forsinkelse af strømtilslutningen. Disse egenskaber er afgørende for at skifte en disk på en aktiv SCSI-bus uden problemer - hver gang.

Såvel diske som strømforsyninger kan skiftes fra fronten af kabinettet af brugeren selv, uden brug af værktøj.

AC power tilslutning - 220 Volt

For at sikre RAID systemet skal det være muligt at tilslutte 220 Volt fra mere end én kilde. Heraf skal den ene være tilsluttet en UPS. Hver af tilslutningerne skal forsyne hver sin DC strømforsyning for de enkelte moduler.

DC strømforsyninger

Strømforsyninger er den hyppigste årsag til fejl på elektronisk udstyr. Derfor er det vigtigt at et RAID system har special designede strømforsyninger, der under normal drift kører i "tomgang".

Ved start af et RAID system skal alle diske "spinne op", hvilket kræver meget mere strøm end under normal drift.

Der skal være 2 strømforsyninger pr. modul som bør dele belastningen imellem sig. Herved opnås en høj MTBF.

Én strømforsyning skal være istand til at klare opstart af RAID systemet.

Hot swap af strømforsyninger er et krav til et RAID system.

Ligesom ved disk fejl skal fejl på en strømforsyning straks, automatisk meddeles til system administratoren.

Køling

Køling af systemet er essentielt for fortsat sikker drift. En defekt blæser kan (men bør ikke) forårsage skade på samtlige dele af et RAID system.Derfor skal der benyttes høj kvalitets blæsere som bør være dubleret. Det er ligeledes ønskværdigt at fejl på en blæser alarmeres til system administratoren.

En fejl på en enkelt blæser må ikke påvirke systemet.

Udskiftning af blæsere skal kunne ske med systemet kørende.

Host tilslutninger

Flere host tilslutninger der benytter uafhængige SCSI kanaler for at sikre minimal "down time"

Host tilslutninger af forskellige typer på samme RAID system.

Ved flere host tilslutninger kan belastningen deles mellem flere host adaptere for at opnå bedre performance.

Med flere host tilslutninger skal det være muligt at benytte forskellige host’s med samme RAID kontroller. VMS, OSF, SUN-OS, Solaris, HP-UX, AIX, Iris, NT, Novell m.v.

Enhedstilslutninger

Hver enkelt disk i et RAID modul skal have sin egen SCSI kontroller og CPU. Ellers kan en enkelt enhed få hele SCSI-bussen til at "hænge". Med separat SCSI kontroller til hver diskstreng fortsætter systemet med at køre, selv ved en fejl på selve SCSI kontrolleren.

Indikatorer/monitorer

RAID er pr. definition istand til at rekonstruere data transparent for brugerne. Brugerne er derfor ikke istand til at konstatere en evt. fejl i systemet, og RAID systemet kan køre i "degraded mode" i meget lang tid uden indgriben.

Et RAID system skal derfor indikere fejl i systemet og det er ikke nok at der lyder en alarm i computer rummet, hvor der aldrig kommer nogen.

System administratoren skal alarmeres via:

eller lignende funktion...

Overvågning af systemet gælder såvel diske som strømforsyninger, Blæsere, kontrollere, temperatur og spændings niveauer.

Endvidere bør overvågning kunne foregå "remote" og helst med en brugervenlig interface der hurtigt giver overblik over situationen.

See lots more about  RAID (UK)

Warning: mysql_connect() [function.mysql-connect]: Access denied for user 'root'@'localhost' (using password: YES) in D:\tekweb.dk\nimda\stats.php on line 16
Der kunne ikke forbindes