/ Forside / Teknologi / Operativsystemer / Linux / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
Linux
#NavnPoint
o.v.n. 11177
peque 7911
dk 4814
e.c 2359
Uranus 1334
emesen 1334
stone47 1307
linuxrules 1214
Octon 1100
10  BjarneD 875
server spontan booter
Fra : Kim Emax


Dato : 14-01-05 23:01

Hey

Jeg har et irriterende problem med min (test)server, der spontant
booter. Jeg har tidligere spurgt til det her og man pegede i retning af
RAM faillure. Jeg har siden da memtestet rammen, jeg har pillet
klodserne ud på skift (2 x 512), så den kun kørte med den ene. Med begge
klodser i, kunne den holde sig gående op til 14 dage, med en af dem i
var det max 7 dage, med den anden 2-3 dage.

Her er en top, som den så ud, da serveren bootede:

CPU states: 0.4% user 0.0% system 0.0% nice 0.0% iowait 99.5% idle
Mem: 513600k av, 124052k used, 389548k free, 0k shrd, 25204k
buff
101296k actv, 2564k in_d, 2512k in_c
Swap: 2040244k av, 0k used, 2040244k free 48360k
cached

PID USER PRI NI SIZE RSS SHARE STAT %CPU %MEM TIME CPU COMMAND
3252 mysql 18 0 14504 14M 1992 S 0.4 2.8 0:00 0 mysqld
1 root 15 0 476 476 424 S 0.0 0.0 0:01 0 init
2 root 15 0 0 0 0 SW 0.0 0.0 0:00 0 keventd
3 root 34 19 0 0 0 SWN 0.0 0.0 0:02 0
ksoftirqd_CPU0
8 root 25 0 0 0 0 SW 0.0 0.0 0:00 0 bdflush
4 root 15 0 0 0 0 SW 0.0 0.0 0:00 0 kswapd
5 root 15 0 0 0 0 SW 0.0 0.0 0:00 0
kscand/DMA
6 root 15 0 0 0 0 SW 0.0 0.0 0:00 0
kscand/Normal
7 root 15 0 0 0 0 SW 0.0 0.0 0:00 0
kscand/HighMem
9 root 15 0 0 0 0 SW 0.0 0.0 0:00 0 kupdated
10 root 24 0 0 0 0 SW 0.0 0.0 0:00 0
mdrecoveryd
18 root 15 0 0 0 0 SW 0.0 0.0 0:00 0 kjournald
72 root 25 0 0 0 0 SW 0.0 0.0 0:00 0 khubd
1689 root 21 0 0 0 0 SW 0.0 0.0 0:00 0 kjournald
2008 root 15 0 544 544 468 S 0.0 0.1 0:00 0 syslogd
2012 root 15 0 428 428 376 S 0.0 0.0 0:00 0 klogd
2104 root 15 0 1064 1064 920 S 0.0 0.2 0:00 0 sshd
2118 root 24 0 784 784 668 S 0.0 0.1 0:00 0 xinetd
2130 root 15 0 6852 6852 3384 S 0.0 1.3 0:00 0 httpd
2194 root 25 0 444 444 392 S 0.0 0.0 0:01 0 gpm
2204 root 15 0 628 628 520 S 0.0 0.1 0:00 0
authdaemond.mys
2214 root 25 0 496 496 436 S 0.0 0.0 0:00 0
couriertcpd
2217 root 25 0 260 260 220 S 0.0 0.0 0:00 0
courierlogger
2229 root 15 0 496 496 440 S 0.0 0.0 0:00 0
couriertcpd
2232 root 15 0 400 400 352 S 0.0 0.0 0:00 0
courierlogger
2236 nobody 15 0 1240 1240 844 S 0.0 0.2 0:00 0
S85proftpd
2243 root 15 0 572 572 508 S 0.0 0.1 0:00 0 crond
2244 nobody 15 0 7724 7720 3868 S 0.0 1.5 0:00 0 httpd
2245 nobody 15 0 7788 7784 3884 S 0.0 1.5 0:00 0 httpd
2246 nobody 15 0 7688 7684 3908 S 0.0 1.4 0:00 0 httpd
2247 nobody 15 0 7736 7732 3900 S 0.0 1.5 0:00 0 httpd
2248 nobody 15 0 7696 7692 3840 S 0.0 1.4 0:00 0 httpd
2263 root 25 0 1144 1144 976 S 0.0 0.2 0:00 0
mysqld_safe
2312 nobody 15 0 7788 7784 3896 S 0.0 1.5 0:00 0 httpd
2323 root 15 0 976 976 796 S 0.0 0.1 0:00 0 master
2325 daemon 15 0 528 528 472 S 0.0 0.1 0:00 0 atd

Jeg syns ikke lige umiddelbart jeg ser noget odiøst her. En ide til,
hvordan jeg kan testede yderligere og evt. om jeg på en eller anden måde
kan logge, hvad pokker, der går galt? Den lukker pænt ned som ved en
reboot kommando, dvs. der laves ikke fsck check, når den starter op
igen. I serverrummet (hos Jaynet) konstaterede jeg idag at der var
23grader, hvilket måske er lige i overkanten, når man hører om folk, der
har server hos webpartner og som får lungebetændelse af at arbejde i
serverrummet et par timer

Alle ideer er velkomne.

--
Take Care
Kim Emax - master|minds - Vi tænker IT for dig...
Konsulentbistand, programmering, design & hosting.
http://www.masterminds.dk

 
 
Kent Friis (15-01-2005)
Kommentar
Fra : Kent Friis


Dato : 15-01-05 00:34

Den Fri, 14 Jan 2005 23:01:28 +0100 skrev Kim Emax:
> Hey
>
> Jeg har et irriterende problem med min (test)server, der spontant
> booter. Jeg har tidligere spurgt til det her og man pegede i retning af
> RAM faillure. Jeg har siden da memtestet rammen, jeg har pillet
> klodserne ud på skift (2 x 512), så den kun kørte med den ene. Med begge
> klodser i, kunne den holde sig gående op til 14 dage, med en af dem i
> var det max 7 dage, med den anden 2-3 dage.

Og memtest86 meldte ingen fejl efter 14 dage?

Jeg ved godt det er en lang test, men hvis fejlen tager så lang tid om
at opstå, er det nok den eneste måde at finde ud af om det er RAMen
eller ej.

Mvh
Kent
--
Help test this great MMORPG game - http://www.eternal-lands.com/

Kasper Dupont (15-01-2005)
Kommentar
Fra : Kasper Dupont


Dato : 15-01-05 03:19

Kim Emax wrote:
>
> Den lukker pænt ned som ved en
> reboot kommando, dvs. der laves ikke fsck check, når den starter op
> igen.

Hvis den lukker pænt ned burde du kunne læse noget
i loggen fra nedlukningen. Men der kan jo være andre
grunde til, at du ikke ser noget om fsck ved opstart.
F.eks. kan det være journaled filsystemer, som ikke
har brug for fsck. Det kan også være din distribution
ikke logger noget fra fsck ved opstart. Det har jeg
i hvert fald konstateret at RHL og FC ikke altid gør.

--
Kasper Dupont

Kim Emax (15-01-2005)
Kommentar
Fra : Kim Emax


Dato : 15-01-05 22:56

Kasper Dupont wrote:

> Hvis den lukker pænt ned burde du kunne læse noget
> i loggen fra nedlukningen. Men der kan jo være andre
> grunde til, at du ikke ser noget om fsck ved opstart.

Det er mere hastigheden på opstarten, der indikerer at den ikke laver
fcsk, der er max. 2 minutters nedetid, før den er klar igen.

Hvilken log skal jeg tjekke?

Jeg kan se i mysqld.log at mysql ikke bliver lukket pænt som det sker,
hvis jeg laver halt eller reboot

> F.eks. kan det være journaled filsystemer, som ikke
> har brug for fsck. Det kan også være din distribution
> ikke logger noget fra fsck ved opstart. Det har jeg
> i hvert fald konstateret at RHL og FC ikke altid gør.

Ja, jeg fik ikke skrevet at det er en RH9 jeg har på serveren.

--
Take Care
Kim Emax - master|minds - Vi tænker IT for dig...
Konsulentbistand, programmering, design & hosting.
http://www.masterminds.dk

Kasper Dupont (16-01-2005)
Kommentar
Fra : Kasper Dupont


Dato : 16-01-05 00:56

Kim Emax wrote:
>
> Det er mere hastigheden på opstarten, der indikerer at den ikke laver
> fcsk, der er max. 2 minutters nedetid, før den er klar igen.

Jeg går ud fra du kører med ext3. Så vil den
som udgangspunkt bare replaye sin journal og
springe fsck over. (Den spørger ved opstart
om der skal gennemtvinges total check af
filsystemerne, men hvis man ikke svarer ja
inden fem sekunder kører den videre og springer
over check af journaled filsystemer).

>
> Hvilken log skal jeg tjekke?

/var/log/messages

>
> Jeg kan se i mysqld.log at mysql ikke bliver lukket pænt som det sker,
> hvis jeg laver halt eller reboot

Jeg tror ikke den lukke pænt ned. Jeg tror den
et eller andet får den til at reboote uden der
er nogen som helst chance for at lukke noget
pænt ned. Måske crasher kernen på en sådan måde,
at der sker et reboot. Måske sker rebootet som
følge af en hardware fejl. Måske svigter
strømforsyningen kortvarrigt.

--
Kasper Dupont

Nikolaj Hansen (15-01-2005)
Kommentar
Fra : Nikolaj Hansen


Dato : 15-01-05 10:39

Kim Emax wrote:
> Hey
>
> Jeg har et irriterende problem med min (test)server, der spontant
> booter. Jeg har tidligere spurgt til det her og man pegede i retning af
> RAM faillure. Jeg har siden da memtestet rammen, jeg har pillet
> klodserne ud på skift (2 x 512), så den kun kørte med den ene. Med begge
> klodser i, kunne den holde sig gående op til 14 dage, med en af dem i
> var det max 7 dage, med den anden 2-3 dage.
>

Hej Kim,

Nu skriver du ikke hvilken server det er, men på FreeBSD kan du sætte
dumpdev til at pege på et swap drev. Derefter vil savecore blive kørt
efter boot, og du vil have en dump fil, som du kan analysere med et af
de værktøjer, som er lavet til det.

Det kan være meget hjælpsomt i et tilfælde som du nævner. Især hvis du
har compilet din kernel med debug symbols, så kan du linke til sourcen,
og få at vide præcis hvilken linje i din kernel, der var den sidste der
blev eksekveret.

mvh

Nikolaj Hansen

Kim Emax (15-01-2005)
Kommentar
Fra : Kim Emax


Dato : 15-01-05 22:42

Nikolaj Hansen wrote:

> Nu skriver du ikke hvilken server det er, men på FreeBSD kan du sætte
> dumpdev til at pege på et swap drev. Derefter vil savecore blive kørt
> efter boot, og du vil have en dump fil, som du kan analysere med et af
> de værktøjer, som er lavet til det.

Doh! Det sad jeg og tænkte på at skulle på, men den smuttede åbenbart i
skyndingen... Det er et RH9 system, som blev komplieret med en masse IDE
parametre for at snakke med en fasttrax tx100 raidcontroller.

Der er ikke noget, der hedder dumpdev på mit system

--
Take Care
Kim Emax - master|minds - Vi tænker IT for dig...
Konsulentbistand, programmering, design & hosting.
http://www.masterminds.dk

Nikolaj Hansen (19-01-2005)
Kommentar
Fra : Nikolaj Hansen


Dato : 19-01-05 19:22

Kim Emax wrote:

> Der er ikke noget, der hedder dumpdev på mit system
>

Jeg er ikke linux ekspert, men mon ikke der er noget parallelt? Andet
ville undre mig.

mvh

Nikolaj Hansen

Kent Friis (19-01-2005)
Kommentar
Fra : Kent Friis


Dato : 19-01-05 22:14

Den Wed, 19 Jan 2005 19:22:18 +0100 skrev Nikolaj Hansen:
> Kim Emax wrote:
>
>> Der er ikke noget, der hedder dumpdev på mit system
>>
>
> Jeg er ikke linux ekspert, men mon ikke der er noget parallelt? Andet
> ville undre mig.

Det er der ikke af den simple grund at når der er brug for et
dumpdrev, er det fordi systemet er f**ked up - fx nogle pointere
der ikke længere peger hvor de skal.

Og når dumpdev pointeren så peger på hda i stedet for hdc7, så har
man et problem.

Når man ikke længere har styr på sine pointere, er det dumt at begynde
at skrive til en device man ikke længere ved om er den rigtige.

Mvh
Kent
--
Help test this great MMORPG game - http://www.eternal-lands.com/

Dennis Jørgensen (20-01-2005)
Kommentar
Fra : Dennis Jørgensen


Dato : 20-01-05 18:41

Kent Friis <nospam@nospam.invalid> writes:

> Den Wed, 19 Jan 2005 19:22:18 +0100 skrev Nikolaj Hansen:
>> Kim Emax wrote:
>>
>>> Der er ikke noget, der hedder dumpdev på mit system
>>>
>>
>> Jeg er ikke linux ekspert, men mon ikke der er noget parallelt? Andet
>> ville undre mig.
>
> Det er der ikke af den simple grund at når der er brug for et
> dumpdrev, er det fordi systemet er f**ked up - fx nogle pointere
> der ikke længere peger hvor de skal.
>
> Og når dumpdev pointeren så peger på hda i stedet for hdc7, så har
> man et problem.

Ja den slags kan nemt gå galt. Men der er måske noget på vej alligevel:

http://lwn.net/Articles/108595/


Mvh.


Dennis Jørgensen

Kent Friis (20-01-2005)
Kommentar
Fra : Kent Friis


Dato : 20-01-05 19:09

Den Thu, 20 Jan 2005 18:41:20 +0100 skrev Dennis Jørgensen:
> Kent Friis <nospam@nospam.invalid> writes:
>
>> Den Wed, 19 Jan 2005 19:22:18 +0100 skrev Nikolaj Hansen:
>>> Kim Emax wrote:
>>>
>>>> Der er ikke noget, der hedder dumpdev på mit system
>>>>
>>>
>>> Jeg er ikke linux ekspert, men mon ikke der er noget parallelt? Andet
>>> ville undre mig.
>>
>> Det er der ikke af den simple grund at når der er brug for et
>> dumpdrev, er det fordi systemet er f**ked up - fx nogle pointere
>> der ikke længere peger hvor de skal.
>>
>> Og når dumpdev pointeren så peger på hda i stedet for hdc7, så har
>> man et problem.
>
> Ja den slags kan nemt gå galt. Men der er måske noget på vej alligevel:
>
> http://lwn.net/Articles/108595/

Ikke dårligt. Hvis jeg ikke husker helt galt, efterlader HP/UX også
blot kernen i memory, og venter til næste boot med at skrive den
til disk, netop for at undgå problemet. Det har bare ikke været
muligt på PC'er, fordi BIOS overskriver RAM'en. Men med kexec er
der ingen BIOS i vejen, og dermed er problemet løst.

Mvh
Kent
--
Help test this great MMORPG game - http://www.eternal-lands.com/

Kasper Dupont (20-01-2005)
Kommentar
Fra : Kasper Dupont


Dato : 20-01-05 22:44

Kent Friis wrote:
>
> Det har bare ikke været
> muligt på PC'er, fordi BIOS overskriver RAM'en. Men med kexec er
> der ingen BIOS i vejen, og dermed er problemet løst.

Man kan faktisk fortælle BIOS, at den ikke skal overskrive
RAMen. Men det er vist langtfra alle, der respekterer det.

--
Kasper Dupont

Kim Emax (08-03-2005)
Kommentar
Fra : Kim Emax


Dato : 08-03-05 17:51

Kim Emax wrote:
> Hey
>
> Jeg har et irriterende problem med min (test)server, der spontant
> booter. Jeg har tidligere spurgt til det her og man pegede i retning af
> RAM faillure. Jeg har siden da memtestet rammen, jeg har pillet
> klodserne ud på skift (2 x 512), så den kun kørte med den ene. Med begge
> klodser i, kunne den holde sig gående op til 14 dage, med en af dem i
> var det max 7 dage, med den anden 2-3 dage.

Nu er jeg ved at være sikker på at motherboardet er synderen! Svinet
taber nogle gange mere end 40 sekunder på en time! Det er nok der hunden
ligger begravet...

/Kim

Kasper Dupont (14-03-2005)
Kommentar
Fra : Kasper Dupont


Dato : 14-03-05 14:50

Kim Emax wrote:
>
> Svinet taber nogle gange mere end 40 sekunder på en time!

De gange jeg har oplevet en maskine tabe meget tid har
årsagen vist sig at være en IDE CD-ROM, som kørte uden
DMA og IRQ unmasking.

--
Kasper Dupont

Kim Emax (15-03-2005)
Kommentar
Fra : Kim Emax


Dato : 15-03-05 18:00

Kasper Dupont wrote:

> De gange jeg har oplevet en maskine tabe meget tid har
> årsagen vist sig at være en IDE CD-ROM, som kørte uden
> DMA og IRQ unmasking.

ehhh, hvor tjekker jeg lige det?

--
Take Care
Kim Emax - master|minds - Vi tænker IT for dig...
Konsulentbistand, programmering, design & hosting.
http://www.masterminds.dk

Søg
Reklame
Statistik
Spørgsmål : 177552
Tips : 31968
Nyheder : 719565
Indlæg : 6408847
Brugere : 218887

Månedens bedste
Årets bedste
Sidste års bedste