Ivar Madsen <spam.usenet.im@milli.dk> writes:
>OK, men det er som andre også har nævnt, baseret på at min server kun
>servicere mig selv, mens en ISP server skal servicere mange hundere, kunder
>på samme tid, og for en del af dem, også binære grupper som vi begge ved er
>hårde ved serverens CPU.
Snarere diskene (jaja, jeg ved godt, at det var hele setuppet,
du mente).
Men her er lidt info at more sig med at tænke over: et fuldt
feed i dag er på knap 1 TB (1.024 GB) om dagen. Der leveres
over 3,2 millioner artikler om dagen.
Der er 86.400 sekunder på et døgn. Det betyder, at man modtager
37 artikler i sekundet. Har man fem peers, får man 185 artikler
tilbudt i sekundet. Og det er ikke engang sandheden, for feedet
er ikke perfekt udjævnet over døgnet.
Samtidig skal de artikler jo også sendes videre. Man når derfor
hurtigt op på 250 artikeloperationer i sekundet. Mange af dem
foregår naturligvis i cache (især videresendelse til realtime-
peers), og man har optimeringsalgoritmer såsom "wipcheck", så
man i praksis ikke behøver lave alle de 250 operationer/sekund.
Men det er stadig pokkers mange operationer.
Det værste er, at det kun er feederen. Den har sådan set det
nemmeste job: det, der kommer ind, skal direkte videre igen.
Bevares, der er delayed feeds og midlertidigt døde feeds, men
hovedparten er bare "store and forward" og mest fra memory.
Readerne[1] har det endnu hårdere. Det er dem, der servicerer
kunderne. For det første vil kunderne ikke ha' en pæn liste
over alle artikler i alle grupper i den rækkefølge, de ankom.
Næ, de vil ha' en specifik gruppe, og de vil kun have dele af
headerne (kaldet "overview").
Når de så endelig beslutter sig for at ville ha' lidt indhold,
er det også spredt for alle vinde (typisk en tråd i stedet for
en kronologisk rækkefølge i gruppen - eller en binær fil i 117
ikke-kronologiske dele). De vil også ha' dem NU. Ikke om bare
et halvt sekund. Nej, nu.
Og ikke nok med det. Hvor en feeder nemt kan klare sig med en
lille terabyte diskplads, vil kunderne ha' 30 dage gamle ting.
Med et feed på én TB om dagen, 30 dages retention og alle de
ekstradata ved siden af (specielt overview), som endda ofte er
distribueret ud på flere readere, er det uhyggelige mængder
diskplads.
Samtidig vil hundredvis af kunder (okay, ikke altid den mængde
hos de danske ISPer) kunne downloade med 2 Mbps. Allesammen på
samme tid. 2.000 kunder * 2 Mbps = 4 Gbps.
Det er deroppe, hvor netfolket begynder at løbe skrigende væk.
Løsningen er heller ikke lige at hælde 4 Gigabit-netkort i én
reader, for uanset maskinens størrelse vil den aldrig kunne få
den mængde data ud på en økonomisk måde. Næ, der skal flere til.
Og det er ikke små hyggelige hjemme-pc'ere i den billige ende.
Ikke nok med det. Readerne skal også have fat i data, og meget
af overview'et ligger på hver eneste reader (læs: mange hurtige
og dyre diske i hver reader). Centralt har man et SAN (storage
area network), der gemmer artiklerne. De fleste SAN-systemer kan
kun levere 2 Gbps pr. kanal, og det er, hvad der står på papiret.
Ikke hvad de leverer i praksis. Selv diskene har bøvl med dether:
på papiret kan de ofte klare 40+ MB/s (320 Mbps), men det kræver,
at de læser fra én ende til den anden i én uafbrudt strøm. Not
so with news: kunderne læser 100 KB ét sted, 200 KB et andet sted
og 10 andre brugere prøver at læse tekst- beskeder på 3 KB fra
samme disk.
Samtidig med al den læseaktivitet kommer der nye artikler ind,
der skal skrives. Skriveoperationer er oftest relativt "dyre",
så det koster også en masse kostbar tid for diskene. Hovederne
på de diske fræser frem og tilbage, og disken leverer alt i alt
ikke noget, der er bare i nærheden af reklamens 40 MB/s.
Også her har man dog optimeringer - både i den måde man gemmer
artikler på, og den måde man deler spoolet op på. Men det er
stadig noget grummer noget. News-folk synes generelt, at de
store, state-of-the-art FC-AL-diske på 15.000 rpm med meget
små accesstider og uhyrligt høje prismærker på op mod 75 kr/GB
eksklusiv RAID-teknologi, er noget sløvt kræmmerværk
Ovenstående er ikke en whine-whine-whine. Godtnok driver jeg
fire news-servere (to af dem professionelt), men det er ikke
nogen, der er den vilde belastning på. Så det er bare "FYI".
Eller snarere, "FYE".
Mvh.
Klaus.
[1] En reader er en news-SERVER. Den dims, man har derhjemme
til at læse news med, hedder en KLIENT i news-verdenen.