/ Forside / Teknologi / Operativsystemer / Linux / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
Linux
#NavnPoint
o.v.n. 11177
peque 7911
dk 4814
e.c 2359
Uranus 1334
emesen 1334
stone47 1307
linuxrules 1214
Octon 1100
10  BjarneD 875
[win32/Apache server] charset
Fra : Poul Erik Jensen


Dato : 13-07-02 22:34

Opgradering fra Apache 1.3 til 2.0.39 har medført et ikke tidligere
kendt problem med det danske karaktersæt, som blev gengivet korrekt i
den tidligere version, men nu benytter UTF-8 til at præsenterer sig med i
browseren - i stedet for Windows(ISO).

Se problemet uddybet og visualiseret på http://80.63.229.6/test

PS. Problemet med UNIX og nationalkarakterer i URL er kendt - men det er
ikke problemets genstand, selv om det er i mappe- og filnavne det her
præsenteres. Den nemme løsning blot at undlade nationale karakterer kendes
naturligvis også.
--
Med venlig hilsen Poul Erik Jensen
genealogi@kulturel.dk [2100]
http://www.image.dk/~jep
http://www.sundbyoester.igroups.dk











 
 
Poul Erik Jensen (16-07-2002)
Kommentar
Fra : Poul Erik Jensen


Dato : 16-07-02 02:40


"Poul Erik Jensen" <jep@image.dk> skrev i en meddelelse
news:pC1Y8.2686$Yf1.198297@news010.worldonline.dk...
> Opgradering fra Apache 1.3 til 2.0.39 har medført et ikke tidligere
> kendt problem med det danske karaktersæt,
[cut]

> Se problemet uddybet og visualiseret på http://80.63.229.6/test

Mange har kikket forbi - men ingen har svaret ;-(

Det kan så skyldes

1. Spørgmålet anses for at være for dumt eller tilhører ikke gruppen.
2. Seriøse Apache-brugere bruger ikke Win98 platform.
3. Spørgsmålet er forkert formuleret.
4. Der er ingen der er i stand til at besvare det
5. Der findes ganske enkelt ingen løsning.
6. Man glemte at se http://80.63.229.6/test/_Testdoc/tekst.txt
- måske i kombination eller noget helt andet?
--
Med venlig hilsen Poul Erik Jensen
genealogi@kulturel.dk [2100]
http://www.image.dk/~jep
http://www.sundbyoester.igroups.dk



Rasmus Bøg Hansen (16-07-2002)
Kommentar
Fra : Rasmus Bøg Hansen


Dato : 16-07-02 08:55

Poul Erik Jensen wrote:

>
> "Poul Erik Jensen" <jep@image.dk> skrev i en meddelelse
> news:pC1Y8.2686$Yf1.198297@news010.worldonline.dk...
>> Opgradering fra Apache 1.3 til 2.0.39 har medført et ikke tidligere
>> kendt problem med det danske karaktersæt,
> [cut]
>
>> Se problemet uddybet og visualiseret på http://80.63.229.6/test

> 1. Spørgmålet anses for at være for dumt eller tilhører ikke gruppen.

Hvis du - som jeg gætter ud fra nedenstående - kører Windows 98 må man nok
sige ja her...

> 2. Seriøse Apache-brugere bruger ikke Win98 platform.

Så vidt jeg ved er det ganske korrekt.

> 4. Der er ingen der er i stand til at besvare det

Chancen for at du finder nogen med et svar er muligvis større i en
windows-gruppe.

> 6. Man glemte at se http://80.63.229.6/test/_Testdoc/tekst.txt
> - måske i kombination eller noget helt andet?

Har du kontrolleret, at Windows 98 overhovedet kan snakke UTF-8?

/Rasmus

--
-- [ Rasmus "Møffe" Bøg Hansen ] ---------------------------------------
There's no point in being grown up if you can't be childish sometimes.
-- Dr. Who
----------------------------------[ moffe at amagerkollegiet dot dk ] --

Poul Erik Jensen (16-07-2002)
Kommentar
Fra : Poul Erik Jensen


Dato : 16-07-02 16:43


"Rasmus Bøg Hansen" <moffe47@hotmail.com> skrev i en meddelelse
news:ah0jgk$9bq$2@carlsberg.amagerkollegiet.dk...
> Hvis du - som jeg gætter ud fra nedenstående - kører
> Windows 98 må man nok sige ja her...
Det anede mig )

> Chancen for at du finder nogen med et svar er muligvis
> større i en windows-gruppe.
Min erfaring i den forbindelse er ikke positiv. Mange er sikkert på samme
niveau som jeg - aner stort set ikke noget om serverdrift og har derfor ikke
den nødvendige baggrund for at lærer fra sig - og de der kan orker ikke
svare på det evigt gentagne.
Problemet er, at man som nybegynder ikke er i stand til egenhændig at
oversætte og forstå de manualer, der oftest er skrevet på et fremmetsprog og
med forudsætning for en teknisk indsigt, som de fleste ikke kan præstere.
Derfor kræves, trods velvillig manuallæsning, nogen verbal indlæring fra
folk med større erfaring.

> Har du kontrolleret, at Windows 98 overhovedet kan snakke UTF-8?
Jo, da. Men man ved jo aldrig rigtig om Bill har lavet sin egen definition
))

Under alle omstændigheder oplever jeg problemet som værende
Apache-serverens, der jo generere fillisten som en HTML-fil uden at definere
sprog/tegnsæt. Min egentlige grund til at spørge her var håbet om at nogen
konkret vidste hvor og ikke mindst hvordan man kunne ændre opsætningen af
denne generator, så den indbefattede disse manglende elementer i HTMLen -
der er stort set udefineret.
--
Med venlig hilsen Poul Erik Jensen
genealogi@kulturel.dk [2100]
http://www.image.dk/~jep
http://www.sundbyoester.igroups.dk




Rasmus Bøg Hansen (16-07-2002)
Kommentar
Fra : Rasmus Bøg Hansen


Dato : 16-07-02 23:44

Poul Erik Jensen wrote:

>> Chancen for at du finder nogen med et svar er muligvis
>> større i en windows-gruppe.
> Min erfaring i den forbindelse er ikke positiv. Mange er sikkert på samme
> niveau som jeg - aner stort set ikke noget om serverdrift og har derfor
> ikke den nødvendige baggrund for at lærer fra sig - og de der kan orker
> ikke svare på det evigt gentagne.

Nej, det er rigtigt, når vi snakker almindelig drift og konfiguration af
Apache. Men spørgsmålet om hvordan du får tegnsæt til at fungere mellem
filsystem og programmel på Windows er nok bedre egnet i en Windows-gruppe.

> Under alle omstændigheder oplever jeg problemet som værende
> Apache-serverens, der jo generere fillisten som en HTML-fil uden at
> definere sprog/tegnsæt. Min egentlige grund til at spørge her var håbet om
> at nogen konkret vidste hvor og ikke mindst hvordan man kunne ændre
> opsætningen af denne generator, så den indbefattede disse manglende
> elementer i HTMLen - der er stort set udefineret.

Jeg må ganske vist melde fortabt.

Jeg undrer mig nu lidt over, hvorfor du har tænkt dig at køre en webserver
på verdens mest ustabile spillekonsol. Hvorfor benytter du ikke Windows
2000/NT eller - IMHO endnu bedre - Linux eller *BSD?

/Rasmus

--
-- [ Rasmus "Møffe" Bøg Hansen ] ---------------------------------------
I'm gonna wear some fake disguise.
-- Mick Jagger
----------------------------------[ moffe at amagerkollegiet dot dk ] --

Kent Friis (17-07-2002)
Kommentar
Fra : Kent Friis


Dato : 17-07-02 09:20

Den Wed, 17 Jul 2002 00:43:37 +0200 skrev Rasmus Bøg Hansen:
>
>Jeg undrer mig nu lidt over, hvorfor du har tænkt dig at køre en webserver
>på verdens mest ustabile spillekonsol. Hvorfor benytter du ikke Windows
>2000/NT

Arrrgh, ikke det ustabile l*rt, der skal genstartes engang om dagen (ok,
når jeg kommer tilbage fra ferie får den en reinstall, men det burde
altså heller ikke være nødvendigt).

Indtil videre har jeg ikke haft nær så mange problemer med Win98, som
med Win2k - men ok, Win98 bliver kun brugt til de spil jeg ikke kan
få til at køre under Linux.

Mvh
Kent
--
8:16pm up 2:37, 1 user, load average: 101.21, 95.46, 55.85
164 processes: 62 sleeping, 102 running, 0 zombie, 0 stopped

With XMMS tugging along nicely, playing Vivaldi...

Rasmus Bøg Hansen (17-07-2002)
Kommentar
Fra : Rasmus Bøg Hansen


Dato : 17-07-02 11:52

Kent Friis wrote:

> Den Wed, 17 Jul 2002 00:43:37 +0200 skrev Rasmus Bøg Hansen:
>>
>>Jeg undrer mig nu lidt over, hvorfor du har tænkt dig at køre en webserver
>>på verdens mest ustabile spillekonsol. Hvorfor benytter du ikke Windows
>>2000/NT
>
> Arrrgh, ikke det ustabile l*rt, der skal genstartes engang om dagen (ok,
> når jeg kommer tilbage fra ferie får den en reinstall, men det burde
> altså heller ikke være nødvendigt).

Vores erfaringer er åbenbart forskellige her. På den anden side har jeg
aldrig forsøgt at have en Windows-maskine kørende i mere end en dags tid ad
gangen

Det ændrer dog ikke på det faktum, at jeg aldrig kunne drømme om at køre en
webserver på Windows overhovedet!

/Rasmus

--
-- [ Rasmus "Møffe" Bøg Hansen ] ---------------------------------------
A wizard is never late, nor is he too early.
He arrives precisely when he wants to
-- Gandalf
----------------------------------[ moffe at amagerkollegiet dot dk ] --

Kent Friis (17-07-2002)
Kommentar
Fra : Kent Friis


Dato : 17-07-02 12:14

Den Wed, 17 Jul 2002 12:52:20 +0200 skrev Rasmus Bøg Hansen:
>Kent Friis wrote:
>
>> Den Wed, 17 Jul 2002 00:43:37 +0200 skrev Rasmus Bøg Hansen:
>>>
>>>Jeg undrer mig nu lidt over, hvorfor du har tænkt dig at køre en webserver
>>>på verdens mest ustabile spillekonsol. Hvorfor benytter du ikke Windows
>>>2000/NT
>>
>> Arrrgh, ikke det ustabile l*rt, der skal genstartes engang om dagen (ok,
>> når jeg kommer tilbage fra ferie får den en reinstall, men det burde
>> altså heller ikke være nødvendigt).
>
>Vores erfaringer er åbenbart forskellige her. På den anden side har jeg
>aldrig forsøgt at have en Windows-maskine kørende i mere end en dags tid ad
>gangen

Min win2k på arbejdet ville sikkert også fungere fint, hvis jeg slukkede
den når jeg går hjem. Men jeg bruger den som Terminal Server, hvis jeg
skal lave noget hjemmefra, og derfor er den tændt konstant. Otte timer
kan den som regel klare, men to dage i træk uden genstart imellem, så
begynder den altså at blive underlig. IE går i baglås, Visual Studio
crasher,... Og starter man Visual Studio op igen, så crasher den igen
kort efter.

>Det ændrer dog ikke på det faktum, at jeg aldrig kunne drømme om at køre en
>webserver på Windows overhovedet!

Hørt!!!

Mvh
Kent
--
IE is the only thing capable of making Netscape look good
- D. Spider in comp.os.linux.advocacy

Rasmus Bøg Hansen (17-07-2002)
Kommentar
Fra : Rasmus Bøg Hansen


Dato : 17-07-02 12:37

Kent Friis wrote:

>>Vores erfaringer er åbenbart forskellige her. På den anden side har jeg
>>aldrig forsøgt at have en Windows-maskine kørende i mere end en dags tid
>>ad gangen
>
> Min win2k på arbejdet ville sikkert også fungere fint, hvis jeg slukkede
> den når jeg går hjem. Men jeg bruger den som Terminal Server, hvis jeg
> skal lave noget hjemmefra, og derfor er den tændt konstant. Otte timer
> kan den som regel klare, men to dage i træk uden genstart imellem, så
> begynder den altså at blive underlig. IE går i baglås, Visual Studio
> crasher,... Og starter man Visual Studio op igen, så crasher den igen
> kort efter.

Tja, jeg bruger den også kun som spillekonsol - men det plejer den nu godt
at kunne klare en hel dag uden problemer (i modsætning til Windows 98).

Men vi har vist bevæget os ud i noget OT nu

/Rasmus

--
-- [ Rasmus "Møffe" Bøg Hansen ] ---------------------------------------
The Internet is full. Go away.
-- Joel Furr
----------------------------------[ moffe at amagerkollegiet dot dk ] --

Thorbjoern Ravn Ande~ (17-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 17-07-02 13:04

leeloo@phreaker.net (Kent Friis) writes:

> Min win2k på arbejdet ville sikkert også fungere fint, hvis jeg slukkede
> den når jeg går hjem. Men jeg bruger den som Terminal Server, hvis jeg
> skal lave noget hjemmefra, og derfor er den tændt konstant. Otte timer
> kan den som regel klare, men to dage i træk uden genstart imellem, så
> begynder den altså at blive underlig. IE går i baglås, Visual Studio
> crasher,... Og starter man Visual Studio op igen, så crasher den igen
> kort efter.



Kent Friis (17-07-2002)
Kommentar
Fra : Kent Friis


Dato : 17-07-02 13:51

Den 17 Jul 2002 14:03:40 +0200 skrev Thorbjoern Ravn Andersen:
>leeloo@phreaker.net (Kent Friis) writes:
>
>> Min win2k på arbejdet ville sikkert også fungere fint, hvis jeg slukkede
>> den når jeg går hjem. Men jeg bruger den som Terminal Server, hvis jeg
>> skal lave noget hjemmefra, og derfor er den tændt konstant. Otte timer
>> kan den som regel klare, men to dage i træk uden genstart imellem, så
>> begynder den altså at blive underlig. IE går i baglås, Visual Studio
>> crasher,... Og starter man Visual Studio op igen, så crasher den igen
>> kort efter.
>
>Prop MASSER af RAM i.

I modsætning til hvad Microsoft support er berømte for at påstå, så er
RAM ikke en resource der (som benzin) lige så stille bliver brugt op,
bare fordi maskinen er tændt.

Den burde altså have RAM nok om tirsdagen, hvis den har RAM nok om
mandagen.

Mvh
Kent
--
The revolution has just begun.

Thorbjoern Ravn Ande~ (17-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 17-07-02 22:50

leeloo@phreaker.net (Kent Friis) writes:

> I modsætning til hvad Microsoft support er berømte for at påstå, så er
> RAM ikke en resource der (som benzin) lige så stille bliver brugt op,
> bare fordi maskinen er tændt.
>
> Den burde altså have RAM nok om tirsdagen, hvis den har RAM nok om
> mandagen.

Teori er et, praksis andet. Put mere ram i.



Kent Friis (17-07-2002)
Kommentar
Fra : Kent Friis


Dato : 17-07-02 22:59

Den 17 Jul 2002 23:49:48 +0200 skrev Thorbjoern Ravn Andersen:
>leeloo@phreaker.net (Kent Friis) writes:
>
>> I modsætning til hvad Microsoft support er berømte for at påstå, så er
>> RAM ikke en resource der (som benzin) lige så stille bliver brugt op,
>> bare fordi maskinen er tændt.
>>
>> Den burde altså have RAM nok om tirsdagen, hvis den har RAM nok om
>> mandagen.
>
>Teori er et, praksis andet. Put mere ram i.

Er du RAM-sælger?

Vi taler om en defekt windows, der efter et års brug har smadret sig
selv så grundigt at den ikke kan klare at være tændt i to dage i
træk.

Hvis den får den reinstall, jeg har truet med et stykke tid, så kan den
(med lidt held) holde et års tid igen, inden den har smadret sig selv.

Mvh
Kent
--
IE is the only thing capable of making Netscape look good
- D. Spider in comp.os.linux.advocacy

Thorbjoern Ravn Ande~ (17-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 17-07-02 23:33

leeloo@phreaker.net (Kent Friis) writes:

> Vi taler om en defekt windows, der efter et års brug har smadret sig
> selv så grundigt at den ikke kan klare at være tændt i to dage i
> træk.

Brug? Hvilket skrammel har du installeret ud over hvad IT-afdelingen
blev tvunget til?

Min erfaring er at det er klytinstallationer der har den slags
problemer.

> Hvis den får den reinstall, jeg har truet med et stykke tid, så kan den
> (med lidt held) holde et års tid igen, inden den har smadret sig selv.



Kent Friis (18-07-2002)
Kommentar
Fra : Kent Friis


Dato : 18-07-02 00:26

Den 18 Jul 2002 00:33:16 +0200 skrev Thorbjoern Ravn Andersen:
>--=-=-=
>Content-Type: text/plain; charset=iso-8859-15
>Content-Transfer-Encoding: 8bit
>
>leeloo@phreaker.net (Kent Friis) writes:
>
>> Vi taler om en defekt windows, der efter et års brug har smadret sig
>> selv så grundigt at den ikke kan klare at være tændt i to dage i
>> træk.
>
>Brug? Hvilket skrammel har du installeret ud over hvad IT-afdelingen
>blev tvunget til?
>
>Min erfaring er at det er klytinstallationer der har den slags
>problemer.

Jeg har efterhånden haft meget lort installeret, hver gang chefen finder
noget nyt "smart", så skal alle i IT-afdelingen have det installeret,
men et par dage efter har han fundet noget nyt, der er endnu smartere.

Mvh
Kent
--
Running Windows on a Pentium is like having a brand new Porsche but only
be able to drive backwards with the handbrake on.
(Unknown source)

Thorbjoern Ravn Ande~ (18-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 18-07-02 09:25

leeloo@phreaker.net (Kent Friis) writes:

> >Min erfaring er at det er klytinstallationer der har den slags
> >problemer.
>
> Jeg har efterhånden haft meget lort installeret, hver gang chefen finder
> noget nyt "smart", så skal alle i IT-afdelingen have det installeret,
> men et par dage efter har han fundet noget nyt, der er endnu smartere.



Kent Friis (17-07-2002)
Kommentar
Fra : Kent Friis


Dato : 17-07-02 23:01

Den 17 Jul 2002 23:49:48 +0200 skrev Thorbjoern Ravn Andersen:
>
>Hvorfor har jeg problemer med dit tegnsæt?

Fordi din newsreader ikke har hørt om iso8859-15, den nye europæiske
standard der har afløst iso8859-1, fordi man har indført et nyt
symbol til Euro'en "¤" (Skal være et C med to streger over).

Mvh
Kent
--
Which one is faster - Lotus Notes or Lotus Esprit?

Lars Kongshøj (18-07-2002)
Kommentar
Fra : Lars Kongshøj


Dato : 18-07-02 11:35

Kent Friis wrote:
>
> Den 17 Jul 2002 23:49:48 +0200 skrev Thorbjoern Ravn Andersen:
> >
> >Hvorfor har jeg problemer med dit tegnsæt?
>
> Fordi din newsreader ikke har hørt om iso8859-15, den nye europæiske
> standard der har afløst iso8859-1, fordi man har indført et nyt
> symbol til Euro'en "¤" (Skal være et C med to streger over).

Ikke standard i Danmark, tjek:

http://www.usenet.dk/ord/lokal.html#iso-8859-1

--
Lars Kongshøj

Kent Friis (18-07-2002)
Kommentar
Fra : Kent Friis


Dato : 18-07-02 11:57

Den Thu, 18 Jul 2002 12:35:18 +0200 skrev Lars Kongshøj:
>Kent Friis wrote:
>>
>> Den 17 Jul 2002 23:49:48 +0200 skrev Thorbjoern Ravn Andersen:
>> >
>> >Hvorfor har jeg problemer med dit tegnsæt?
>>
>> Fordi din newsreader ikke har hørt om iso8859-15, den nye europæiske
>> standard der har afløst iso8859-1, fordi man har indført et nyt
>> symbol til Euro'en "¤" (Skal være et C med to streger over).
>
>Ikke standard i Danmark, tjek:
>
>http://www.usenet.dk/ord/lokal.html#iso-8859-1

Der står defacto standard på den danske del af usenet.

1. Danmark er større end blot den danske del af usenet.

2. Når noget skal ændres, skal der være noget der går forrest. "Defacto
standard" betyder blot at det er det der er mest brugt. Noget nyt kan
ikke blive det der er mest brugt, før der er nogen flere der bruger det.
Altså er man nødt til at starte et sted.

Mvh
Kent
--
"Handlingen blev afbrudt pga. computerens begrænsede effekt"
- Windows NT på en Pentium III 550 MHz

Lars Kongshøj (18-07-2002)
Kommentar
Fra : Lars Kongshøj


Dato : 18-07-02 12:00

Kent Friis wrote:
> Den Thu, 18 Jul 2002 12:35:18 +0200 skrev Lars Kongshøj:
> >Ikke standard i Danmark, tjek:
> >http://www.usenet.dk/ord/lokal.html#iso-8859-1
....
> 2. Når noget skal ændres, skal der være noget der går forrest. "Defacto
> standard" betyder blot at det er det der er mest brugt. Noget nyt kan
> ikke blive det der er mest brugt, før der er nogen flere der bruger det.
> Altså er man nødt til at starte et sted.

Så lad da euro-landende gå forrest. Det er da fuldstændigt overflødigt
med et ekstra tegn for en møntfod. Det er jo kun gennemført ud fra
devisen 'So ein Ding müssen wir auch haben'.

--
Lars Kongshøj

Kent Friis (18-07-2002)
Kommentar
Fra : Kent Friis


Dato : 18-07-02 12:19

Den Thu, 18 Jul 2002 13:00:02 +0200 skrev Lars Kongshøj:
>Kent Friis wrote:
>> Den Thu, 18 Jul 2002 12:35:18 +0200 skrev Lars Kongshøj:
>> >Ikke standard i Danmark, tjek:
>> >http://www.usenet.dk/ord/lokal.html#iso-8859-1
>...
>> 2. Når noget skal ændres, skal der være noget der går forrest. "Defacto
>> standard" betyder blot at det er det der er mest brugt. Noget nyt kan
>> ikke blive det der er mest brugt, før der er nogen flere der bruger det.
>> Altså er man nødt til at starte et sted.
>
>Så lad da euro-landende gå forrest.

Hvor mange skriver på "den danske del af usenet" fra de lande?

>Det er da fuldstændigt overflødigt
>med et ekstra tegn for en møntfod. Det er jo kun gennemført ud fra
>devisen 'So ein Ding müssen wir auch haben'.

Enig, men der er faktisk også ændret andre ting i 8859-15, vist nogle
islandske tegn eller noget i den retning.

Men uanset så skal vi ikke ende med at gøre den danske del af nettet
så specielt at vi ikke kan kommunikere med nogen. Vi har haft specielle
danske tegnsæt, med deraf følgende problemer. I det gamle 7-bit tegnsæt
var det faktisk umuligt at skrive {|}[\], da disse var skiftet ud med
æøåÆØÅ. Programmører havde så valget mellem at bruge amerikansk tegnsæt,
eller lade deres programmer være ulæselige.

Mvh
Kent
--
The frozen north will hatch a flightless bird,
who will spread his wings and dominate the earth
And cause an empire by the sea to fall
To the astonishment, and delight of all.

Jesper Harder (18-07-2002)
Kommentar
Fra : Jesper Harder


Dato : 18-07-02 16:55

leeloo@phreaker.net (Kent Friis) writes:

[latin-9]

> 2. Når noget skal ændres, skal der være noget der går forrest. "Defacto
> standard" betyder blot at det er det der er mest brugt. Noget nyt kan
> ikke blive det der er mest brugt, før der er nogen flere der bruger det.
> Altså er man nødt til at starte et sted.

Hvorfor er vi nødt til at starte med det? Hvor tit har du brug for at
skrive ¤? Hvis ens meddelelse ikke indeholder euro-tegnet, hvad er så
formålet med at bruge latin-9?

--
We have just the place for ISO 8859-15 here in London. It is called
the Science Museum and is full of charming historical relics, like
Babagge's difference engine [..] What a relief that we now have
Unicode and won't have to implement this amusing piece of history.
-- Misha Wolf


Kent Friis (18-07-2002)
Kommentar
Fra : Kent Friis


Dato : 18-07-02 17:07

Den Thu, 18 Jul 2002 17:55:10 +0200 skrev Jesper Harder:
>leeloo@phreaker.net (Kent Friis) writes:
>
>[latin-9]
>
>> 2. Når noget skal ændres, skal der være noget der går forrest. "Defacto
>> standard" betyder blot at det er det der er mest brugt. Noget nyt kan
>> ikke blive det der er mest brugt, før der er nogen flere der bruger det.
>> Altså er man nødt til at starte et sted.
>
>Hvorfor er vi nødt til at starte med det? Hvor tit har du brug for at
>skrive ¤? Hvis ens meddelelse ikke indeholder euro-tegnet, hvad er så
>formålet med at bruge latin-9?

At have et tegnsæt i hele vesteuropa, og ikke to forskellige, alt efter
om man skriver euro-regninger eller ej.

Mvh
Kent
--
Object orientation: the idea, that humans find it easier to understand
"you.car.engine.start" than "start your car engine".

Thorbjoern Ravn Ande~ (18-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 18-07-02 18:35

Jesper Harder <harder@myrealbox.com> writes:

> We have just the place for ISO 8859-15 here in London. It is called
> the Science Museum and is full of charming historical relics, like
> Babagge's difference engine [..] What a relief that we now have
> Unicode and won't have to implement this amusing piece of history.

Charmant. Problemet er endnu blot at hovedparten af software kører
med 8-bits tegn, istedet for 16 bit. År 2000 problemet på en lidt
anden måde...
--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Kent Friis (18-07-2002)
Kommentar
Fra : Kent Friis


Dato : 18-07-02 19:45

Den 18 Jul 2002 19:35:02 +0200 skrev Thorbjoern Ravn Andersen:
>Jesper Harder <harder@myrealbox.com> writes:
>
>> We have just the place for ISO 8859-15 here in London. It is called
>> the Science Museum and is full of charming historical relics, like
>> Babagge's difference engine [..] What a relief that we now have
>> Unicode and won't have to implement this amusing piece of history.
>
>Charmant. Problemet er endnu blot at hovedparten af software kører
>med 8-bits tegn, istedet for 16 bit. År 2000 problemet på en lidt
>anden måde...

Lad os kalde det for år-3000 problemet så. Før den tid, er det alligevel
kun kineserne der har problemer.

Mvh
Kent
--
You haven't seen _multitasking_ until you've seen Doom and
Quake run side by side

Lars Kongshøj (18-07-2002)
Kommentar
Fra : Lars Kongshøj


Dato : 18-07-02 19:52

Thorbjoern Ravn Andersen wrote:
>
> Jesper Harder <harder@myrealbox.com> writes:
>
> > We have just the place for ISO 8859-15 here in London. It is called
> > the Science Museum and is full of charming historical relics, like
> > Babagge's difference engine [..] What a relief that we now have
> > Unicode and won't have to implement this amusing piece of history.
>
> Charmant. Problemet er endnu blot at hovedparten af software kører
> med 8-bits tegn, istedet for 16 bit. År 2000 problemet på en lidt
> anden måde...

16 bits er vist heller ikke nok til at lave en ikke-komprimeret kodning
af UTF. Mon ikke UTF-8 vil være den mest udbredte kodning i lang tid
fremover. Det er også sundere for båndbredden.

Men ellers er jeg da helt enig i at UTF er fremtiden, ISO 8859-15 vil
næppe vinde udbredelse udenfor euroland.

--
Lars Kongshøj

Thorbjoern Ravn Ande~ (19-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 19-07-02 10:28

Lars Kongshøj <lars_kongshoj@hotmail.com> writes:

> 16 bits er vist heller ikke nok til at lave en ikke-komprimeret kodning
> af UTF. Mon ikke UTF-8 vil være den mest udbredte kodning i lang tid
> fremover. Det er også sundere for båndbredden.

Unicode er 16 bit.

Fordelen ved UTF-8 kodemetoden er at for tegnværdier < 128 er det
uskelneligt fra ASCII.

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Lars Kongshøj (19-07-2002)
Kommentar
Fra : Lars Kongshøj


Dato : 19-07-02 14:03

Thorbjoern Ravn Andersen wrote:
> Unicode er 16 bit.

Så vidt jeg har forstået det er der 16 bits i hver plan, og fra Unicode
3.1 er der indført flere planer.

--
Lars Kongshøj

Thorbjoern Ravn Ande~ (19-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 19-07-02 23:02

Lars Kongshøj <lars_kongshoj@hotmail.com> writes:

> > Unicode er 16 bit.
>
> Så vidt jeg har forstået det er der 16 bits i hver plan, og fra Unicode
> 3.1 er der indført flere planer.

Taget ad notam. Jeg har ikke studeret Unicode rigtigt grundigt det
sidste 1.5 aar.
--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Byrial Jensen (19-07-2002)
Kommentar
Fra : Byrial Jensen


Dato : 19-07-02 21:11

Thorbjoern Ravn Andersen <thunderbear@bigfoot.com> skrev:

> Unicode er 16 bit.

Nej, ISO 10646 og Unicode definerer i princippet et 31-bits tegnsæt,
Universal Character Set (UCS) der jævnligt udbygges med flere
tegn-allokeringer

De fleste tegn ligger i området med tegnkodeværdier på op til 2 i 16.
(kaldet Basic Multilingual Plane (BMP)), men der findes i øjeblikket
tegn med koder på 20 bit. Man forventer vist aldrig at komme over 21
bit.

En god introduktion til emnet er Markus Kuhns "UTF-8 and Unicode FAQ
for Unix/Linux" på <http://www.cl.cam.ac.uk/~mgk25/unicode.html>.

Thorbjoern Ravn Ande~ (19-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 19-07-02 23:07

Byrial Jensen <bjensen@nospam.dk> writes:

> > Unicode er 16 bit.
>
> Nej, ISO 10646 og Unicode definerer i princippet et 31-bits tegnsæt,
> Universal Character Set (UCS) der jævnligt udbygges med flere
> tegn-allokeringer
>
> De fleste tegn ligger i området med tegnkodeværdier på op til 2 i 16.
> (kaldet Basic Multilingual Plane (BMP)), men der findes i øjeblikket
> tegn med koder på 20 bit. Man forventer vist aldrig at komme over 21
> bit.

Jeg betvivler ikke dit udsagn, men jeg vil godt hoere om du har et bud
paa hvorfor Java saa har tegn paa 16 bit?

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Lars Kongshøj (19-07-2002)
Kommentar
Fra : Lars Kongshøj


Dato : 19-07-02 23:22

Thorbjoern Ravn Andersen wrote:
> Byrial Jensen <bjensen@nospam.dk> writes:
> > De fleste tegn ligger i området med tegnkodeværdier på op til 2 i 16.
> > (kaldet Basic Multilingual Plane (BMP)), men der findes i øjeblikket
> > tegn med koder på 20 bit. Man forventer vist aldrig at komme over 21
> > bit.
> Jeg betvivler ikke dit udsagn, men jeg vil godt hoere om du har et bud
> paa hvorfor Java saa har tegn paa 16 bit?

Vel en parallel til år-2000-problemet. Da java blev designet var unicode
vel kun nået til version 3.0, og omfattede kun et tegnsæt, der kunne
rummes i 16 bits. Det er bare et gæt.

--
Lars Kongshøj

Soeren Sandmann (19-07-2002)
Kommentar
Fra : Soeren Sandmann


Dato : 19-07-02 23:35

Thorbjoern Ravn Andersen <thunderbear@bigfoot.com> writes:

> > De fleste tegn ligger i området med tegnkodeværdier på op til 2 i 16.
> > (kaldet Basic Multilingual Plane (BMP)), men der findes i øjeblikket
> > tegn med koder på 20 bit. Man forventer vist aldrig at komme over 21
> > bit.
>
> Jeg betvivler ikke dit udsagn, men jeg vil godt hoere om du har et bud
> paa hvorfor Java saa har tegn paa 16 bit?

For at kunne BMP effektivt? En streng i UTF-8 format har den uheldige
egenskab at det at finde det n'te tegn er en operation som tager tid
O(n).

Thorbjoern Ravn Ande~ (17-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 17-07-02 13:03

Rasmus Bøg Hansen <moffe47@hotmail.com> writes:

> Det ændrer dog ikke på det faktum, at jeg aldrig kunne drømme om at køre en
> webserver på Windows overhovedet!

Jeg ville ikke være afvisende overfor at køre en Java webserver under
Windows. Hvis det var en Windows non-NT ville jeg dog insistere på at
det var en versino der ikke frøs efter 49.2 dage.

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

frank damgaard (16-07-2002)
Kommentar
Fra : frank damgaard


Dato : 16-07-02 10:24

Poul Erik Jensen <jep@image.dk> wrote:


>> Se problemet uddybet og visualiseret på http://80.63.229.6/test

> Mange har kikket forbi - men ingen har svaret ;-(

Jeg kan faktisk ikke se problemet.
Jeg har brugt w3m til at browse med.
Lynx har et problem.

katalogerne Sjælland og Sjaelland vises på denne måde:
[DIR] Parent Directory -
[DIR] Fyn/ 13-Jul-2002 15:49 -
[DIR] Jylland/ 13-Jul-2002 15:48 -
[DIR] Sjælland/ 13-Jul-2002 15:49 -
[DIR] Sjaelland/ 13-Jul-2002 15:49 -
[DIR] _Testdoc/ 13-Jul-2002 15:50 -


I den gamle lynx kan den ikke vise "æ" i det første sjælland, hvorimod
Den næste vises som "Sjælland" !?
[DIR] [5]Parent Directory -
[DIR] [6]Fyn/ 13-Jul-2002 15:49 -
[DIR] [7]Jylland/ 13-Jul-2002 15:48 -
[DIR] [8]Sjlland/ 13-Jul-2002 15:49 -
[DIR] [9]Sjaelland/ 13-Jul-2002 15:49 -
[DIR] [10]_Testdoc/ 13-Jul-2002 15:50 -



> Det kan så skyldes

> 1. Spørgmålet anses for at være for dumt eller tilhører ikke gruppen.
> 2. Seriøse Apache-brugere bruger ikke Win98 platform.

De fleste er sikkert med unix&Co.
Og jeg ville nok anbefale en bedre windows hvis man vil anvende apache på
windows, men til at eksperimentere kan det vel anvendes.

> 4. Der er ingen der er i stand til at besvare det

Det er ikke nemt, specielt hvis det ikke kan reproduceres på en
unix/linux box.
Men jeg bruger selv også Cygwin og win98, og filnavnes tegnmsæt i windows
er et helt kapitel for sig, og forskellige windows 9x/nt/2k/... opfører
sig lidt forskelligt i kombination med hvilket windows filsystem der anvendes.

> 5. Der findes ganske enkelt ingen løsning.
> 6. Man glemte at se http://80.63.229.6/test/_Testdoc/tekst.txt
> - måske i kombination eller noget helt andet?

Problemet er vel måske at der slet ikke er angivet et tegnsæt i den HTML
der udsendes?
kun i Content-Type er utf-8 angivet. (men ikke i HTML dokument)

Så det er måske en kombination af browsertype ?
(Prøv også forskellige browsere for at se om der er forskelle,
download evt. Opera og Mozilla, det kan være rart med flere alternativer
når man eksperimenterer med sin egen webserver)

<img src="/icons/folder.gif" alt="[DIR]" /> <a href="Sj%e6lland/">Sjælland/</a>
<img src="/icons/folder.gif" alt="[DIR]" /> <a href="Sjaelland/">Sjaelland/</a>

Det det undrer mig er at du siger utf-8, men jeg syntes de tegn jeg får er Latin-1/15
(eller er "æ" det samme tegn i utf-8 og latin1?)

Et forslag kunne være at se om du ikke kan angive et ønsket tegnsæt for index i opsætnigen
et sted. (jeg ved ikke om AddCharset eller AddDefaultCharset kan anvendes på index.html)


--
Frank Damgaard |


Poul Erik Jensen (16-07-2002)
Kommentar
Fra : Poul Erik Jensen


Dato : 16-07-02 15:50


"frank damgaard" <frank_tmp4@post.cybercity.dk> skrev i en meddelelse
news:gzc4s7.nzb@mkb84.ftn...

> Jeg kan faktisk ikke se problemet.
Problemet er ganske enkelt at få Apache til at bruge / fortælle at det
bruger det danske karaktersæt når det genererer en filliste. At bruge andre
browsere til formålet kan kun bruges eksperimentelt, da indholdet på
serveren hovedsageligt henvender sig til almindelige IE-brugere - som jo alt
andet lige er i kraftigt overtal.

> De fleste er sikkert med unix&Co.
Jamen, det behøver vel ikke betyde de er ensporede.

> Og jeg ville nok anbefale en bedre windows hvis man vil
> anvende apache på windows, men til at eksperimentere
> kan det vel anvendes.
Hvad definerer du som "bedre"?

> Problemet er vel måske at der slet ikke er angivet et tegnsæt
> i den HTML der udsendes?
Ja, det er vel netop problemet.

> Det det undrer mig er at du siger utf-8, ....
Det er jo den respons, som IE6 giver på den pågældende HTML - men uden at
vise listen med UTF-8 koder. Derimod har jeg fundet ud af, at man
konfigurere IE6 til at reagere på de viste invaliderede mappe/filnavne med
nationale karaktere ved at sætte flueben i "Internetindstillinger /Avanceret
/Gennemsyn: Send altid URL-adresser som UTF-8"
(http://80.63.229.6/test/_Testdoc/fig6.gif).
--
Med venlig hilsen Poul Erik Jensen
genealogi@kulturel.dk [2100]
http://www.image.dk/~jep
http://www.sundbyoester.igroups.dk




Rasmus Bøg Hansen (17-07-2002)
Kommentar
Fra : Rasmus Bøg Hansen


Dato : 17-07-02 00:11

Poul Erik Jensen wrote:

>
> "frank damgaard" <frank_tmp4@post.cybercity.dk> skrev i en meddelelse
> news:gzc4s7.nzb@mkb84.ftn...
>
>> Jeg kan faktisk ikke se problemet.
> Problemet er ganske enkelt at få Apache til at bruge / fortælle at det
> bruger det danske karaktersæt når det genererer en filliste. At bruge
> andre browsere til formålet kan kun bruges eksperimentelt, da indholdet på
> serveren hovedsageligt henvender sig til almindelige IE-brugere - som jo
> alt andet lige er i kraftigt overtal.

Derfor kan de da sagtens bruge andre browsere end IE. Jeg har endnu ikke set
en grund til at acceptere en løsning, som kun fungerer i IE og dermed tabe
resten af brugerne på gulvet.

Det fungerer ikke for mig i Konqueror. I Lynx og Mozilla fungerer det -- de
viser blot tegnene forkert (hhv. slet ikke og som spørgsmålstegn).

Mon ikke du kan bruge "AddDefaultCharset" og "AddDefaultCharsetName" til
noget?

>> De fleste er sikkert med unix&Co.
> Jamen, det behøver vel ikke betyde de er ensporede.

Jeg tror -- ud fra egne erfaringer og andres udtalelser her i gruppen -- at
folk her *aldrig* kunne drømme om at køre en webserver på Windows 9X.

>> Og jeg ville nok anbefale en bedre windows hvis man vil
>> anvende apache på windows, men til at eksperimentere
>> kan det vel anvendes.
> Hvad definerer du som "bedre"?

Stort set alt andet end WIndows 95, 98 og ME. De er simpelthen for ustabile
til serverdrift.

>> Problemet er vel måske at der slet ikke er angivet et tegnsæt
>> i den HTML der udsendes?
> Ja, det er vel netop problemet.

Ja, men din Apache fortæller, det er UTF-8. Hvorfor den gør det ved jeg
ikke, men jeg vil gætte på at Windows fortæller den det eller at din Apache
er konfigureret til at bruge UTF-8 (måske mime.types, magic el. lign.).

>> Det det undrer mig er at du siger utf-8, ....
> Det er jo den respons, som IE6 giver på den pågældende HTML - men uden at
> vise listen med UTF-8 koder. Derimod har jeg fundet ud af, at man

Måske fordi Apache fortæller, det er UTF-8:

moffe@grignard# echo -e "GET /test/ HTTP/1.0\nhost: 80.63.229.6\n" | nc
80.63.229.6 80
HTTP/1.1 200 OK
Date: Tue, 16 Jul 2002 22:45:16 GMT
Server: Apache/2.0.39 (Win32)
Content-Length: 1320
Connection: close
Content-Type: text/html;charset=utf-8

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">
[...]

/Rasmus

--
-- [ Rasmus "Møffe" Bøg Hansen ] ---------------------------------------
Vampires are not visible in mirrors, which explains why they are often
backed over in parking lots.
----------------------------------[ moffe at amagerkollegiet dot dk ] --

Poul Erik Jensen (17-07-2002)
Kommentar
Fra : Poul Erik Jensen


Dato : 17-07-02 13:26


"Rasmus Bøg Hansen" <moffe47@hotmail.com> skrev i en meddelelse
news:ah295v$drb$1@carlsberg.amagerkollegiet.dk...

> Derfor kan de da sagtens bruge andre browsere end IE.
Naturligvis kan JEG - men da de (få) jeg henvender mig direkte til med min
server ikke kan forventes at forstå en pind af det tekniske og at
skifte til "bedre programmer" er det et i dette specielle tilfælde
derfor uinteressant.

> Mon ikke du kan bruge "AddDefaultCharset" og "AddDefaultCharsetName" til
> noget?
Nej, det gør ingen forskel.

> Jeg tror -- ud fra egne erfaringer og andres udtalelser her i
> gruppen -- at folk her *aldrig* kunne drømme om at køre en
> webserver på Windows 9X.
Det er nu ikke stabilliteten jeg kan klage over - det virker når vi ser bort
fra karakterproblemet udmærket.

> Stort set alt andet end WIndows 95, 98 og ME. De er
> simpelthen for ustabile til serverdrift.
Det er nok generelt rigtigt.

> >> Problemet er vel måske at der slet ikke er angivet
> >> et tegnsæt i den HTML der udsendes?
> > Ja, det er vel netop problemet.
>
> Måske fordi Apache fortæller, det er UTF-8:
Ja, det kan jeg se og forstå nu, når jeg ser nedenstående

> moffe@grignard# echo -e "GET /test/ HTTP/1.0\nhost: 80.63.229.6\n"
> | nc 80.63.229.6 80
> HTTP/1.1 200 OK
> Date: Tue, 16 Jul 2002 22:45:16 GMT
> Server: Apache/2.0.39 (Win32)
> Content-Length: 1320
> Connection: close
> Content-Type: text/html;charset=utf-8
>
> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//EN">
> [...]

Men hvor henter du disse oplysninger og med hvad?
Og ikke mindst - hvor ændre man det på serverside?
--
Med venlig hilsen Poul Erik Jensen
genealogi@kulturel.dk [2100]
http://www.image.dk/~jep
http://www.sundbyoester.igroups.dk







Rasmus Bøg Hansen (17-07-2002)
Kommentar
Fra : Rasmus Bøg Hansen


Dato : 17-07-02 17:28

Poul Erik Jensen wrote:

>
> "Rasmus Bøg Hansen" <moffe47@hotmail.com> skrev i en meddelelse
> news:ah295v$drb$1@carlsberg.amagerkollegiet.dk...
>
>> Derfor kan de da sagtens bruge andre browsere end IE.
> Naturligvis kan JEG - men da de (få) jeg henvender mig direkte til med min
> server ikke kan forventes at forstå en pind af det tekniske og at
> skifte til "bedre programmer" er det et i dette specielle tilfælde
> derfor uinteressant.

Ok, jeg misforstod dig. Jeg troede du mente "det er lige meget, om det
fungerer i andre browsere end IE" fremfor "jeg vil ikke tvinge folk til at
skifte browser". Min fejl.

>> moffe@grignard# echo -e "GET /test/ HTTP/1.0\nhost: 80.63.229.6\n"
>> | nc 80.63.229.6 80

> Men hvor henter du disse oplysninger og med hvad?

Med en ganske almindelig HTML-forespørgsel til din Apache foretaget med
netcat i en kommandolinje (på min Linux-maskine - jeg er ikke lige klar
over, hvordan man på simpel vis gør det i command.com).

> Og ikke mindst - hvor ændre man det på serverside?

Æh, Når AddDefaultCharset ikke fungerer, er jeg lidt blank.

/Rasmus

--
-- [ Rasmus "Møffe" Bøg Hansen ] ---------------------------------------
While Linux is larger than Emacs,
at least Linux has the excuse that it has to be.
--Linus Torvalds
----------------------------------[ moffe at amagerkollegiet dot dk ] --

Jesper Harder (18-07-2002)
Kommentar
Fra : Jesper Harder


Dato : 18-07-02 17:39

leeloo@phreaker.net (Kent Friis) writes:

> Den Thu, 18 Jul 2002 17:55:10 +0200 skrev Jesper Harder:
>
>>Hvorfor er vi nødt til at starte med det? Hvor tit har du brug for at
>>skrive ¤? Hvis ens meddelelse ikke indeholder euro-tegnet, hvad er så
>>formålet med at bruge latin-9?
>
> At have et tegnsæt i hele vesteuropa, og ikke to forskellige, alt efter
> om man skriver euro-regninger eller ej.

Dårligt argument, for latin-9 dækker ikke hele Vesteuropa alligevel.
Til gælisk og walisisk skal man bruge latin-8. Der er også latin-6 som
dækker det nordiske område, med tegn der skal bruges i samisk og
grøndlandsk.

Latin-9 kan heller ikke bruges som et fremtidigt "eu-tegnsæt", fordi det
ikke understøtter de baltiske lande (latin-7) eller Mellemeuropa
(latin-2).

Latin-9 er bare et unødvendigt og midlertidigt appendiks til
iso-8859-familien, når alle nu alligevel er på vej til at gå over til
Unicode, som dækker alle tegn.

Kent Friis (18-07-2002)
Kommentar
Fra : Kent Friis


Dato : 18-07-02 18:14

Den Thu, 18 Jul 2002 18:39:06 +0200 skrev Jesper Harder:
>
>Latin-9 er bare et unødvendigt og midlertidigt appendiks til
>iso-8859-familien, når alle nu alligevel er på vej til at gå over til
>Unicode, som dækker alle tegn.

Alle? Det er da kun folk med for meget RAM der er ved at skifte til
unicode.
--
Which one is faster - Lotus Notes or Lotus Esprit?

Thorbjoern Ravn Ande~ (18-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 18-07-02 18:36

leeloo@phreaker.net (Kent Friis) writes:

> Alle? Det er da kun folk med for meget RAM der er ved at skifte til
> unicode.

Eller folk som skal bruge XML eller Java.
--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Kent Friis (18-07-2002)
Kommentar
Fra : Kent Friis


Dato : 18-07-02 19:47

Den 18 Jul 2002 19:36:26 +0200 skrev Thorbjoern Ravn Andersen:
>leeloo@phreaker.net (Kent Friis) writes:
>
>> Alle? Det er da kun folk med for meget RAM der er ved at skifte til
>> unicode.
>
>Eller folk som skal bruge XML eller Java.

Java er for folk med for meget CPU-kraft. Den gruppe har en del
tilfælles med gruppen med for meget RAM, nemlig dem der har for mange
penge at bruge på computeren.

XML har jeg svært ved at sige noget positivt om overhovedet. Det er et
helvede at parse, og det er nærmest ulæseligt for mennesker.

Mvh
Kent
--
8:16pm up 2:37, 1 user, load average: 101.21, 95.46, 55.85
164 processes: 62 sleeping, 102 running, 0 zombie, 0 stopped

With XMMS tugging along nicely, playing Vivaldi...

Thorbjoern Ravn Ande~ (19-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 19-07-02 10:27

leeloo@phreaker.net (Kent Friis) writes:

> Java er for folk med for meget CPU-kraft. Den gruppe har en del
> tilfælles med gruppen med for meget RAM, nemlig dem der har for mange
> penge at bruge på computeren.



Kent Friis (19-07-2002)
Kommentar
Fra : Kent Friis


Dato : 19-07-02 10:43

Den 19 Jul 2002 11:27:02 +0200 skrev Thorbjoern Ravn Andersen:
>leeloo@phreaker.net (Kent Friis) writes:
>
>> Java er for folk med for meget CPU-kraft. Den gruppe har en del
>> tilfælles med gruppen med for meget RAM, nemlig dem der har for mange
>> penge at bruge på computeren.
>
>Tjah. Smag og behag. Java har for os den meget store fordel at vi
>hver især kan bruge den platform vi bedst kan lide, og afvikle på en
>helt tredie platform.
>
>Moderne Java-fortolkere kører hurtigt nok til os.

Med "nok" CPU-kraft kører selv XP hurtigt nok. Men hvorfor hele tiden
opgradere? En 3GHz maskine burde altså ikke være nødvendig, når 30 MHz
var nok for få år siden.

>> XML har jeg svært ved at sige noget positivt om overhovedet. Det er et
>> helvede at parse, og det er nærmest ulæseligt for mennesker.
>
>Nejda. Du bruger en XML-parser til formålet - dem er der MASSER af.

Og de er opstået ud af den blå luft? Jeg lærer mere af at skrive koden
selv, og i dette tilfælde lærte jeg at XML er et helvede at parse -
det bliver ikke mindre kompleks af at man lader andre skrive koden, og
mængden af kode der er nødvendig (for meget) bliver heller ikke mindre.

>Herudover er XML beregnet til maskiner og ikke til mennesker.

Der røg argumentet for at bruge XML fremfor et eller andet maskinvenligt
(men ikke særlig menneskevenligt) format, der er meget nemmere at parse.

>XML er det bedste der er sket non-Windows verdenen i mange mange år.

Huh? MS er da næsten de eneste der råber op om XML hele tiden.

Mvh
Kent
--
Desuden kan jeg ikke se nogen grund til at springe over hvor gærdet er
lavest, når man kan vente på at det alligevel bliver revet ned fordi
der skal bygges en omfartsvej...
- Claus Frørup og Asbjørn Christensen i dk.snak.

Thorbjoern Ravn Ande~ (19-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 19-07-02 11:03

leeloo@phreaker.net (Kent Friis) writes:

> Med "nok" CPU-kraft kører selv XP hurtigt nok. Men hvorfor hele tiden
> opgradere? En 3GHz maskine burde altså ikke være nødvendig, når 30 MHz
> var nok for få år siden.



DUdsen (19-07-2002)
Kommentar
Fra : DUdsen


Dato : 19-07-02 11:22

Thorbjoern Ravn Andersen wrote:

for lige at blande mig dit indlag er skevet i multipart hvilket
gør er det ser yders grimt ud i knode.
derdover gør det at auto indent ikke virker ordentligt.
Noget andet er at udover at kunne håndtere binær data hvad er
det så der adskiller xml fra sgml og lign.
--
Daniel Udsen <dudsen@gjk.dk>
Køer er gudommlige www.koen.dk

Thorbjoern Ravn Ande~ (19-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 19-07-02 11:57

DUdsen <dudsen@gjk.dk> writes:

> for lige at blande mig dit indlag er skevet i multipart hvilket
> gør er det ser yders grimt ud i knode.

Problemet er desværre at der _etellerandetsted_ sker en bøvs med Kents
ISO-Latin-9 og Gnus her hos mig. Jeg er ved at undersøge hvordan det
kan løses. Ville det være bedre hvis jeg brugte UTF-8?

> derdover gør det at auto indent ikke virker ordentligt.
> Noget andet er at udover at kunne håndtere binær data hvad er
> det så der adskiller xml fra sgml og lign.

Stringens og enkelthed. XML-data skal overholde et meget strengt format, og
parseren må bundvende hvis ikke det overholdes. SGML er meget
avanceret, og indeholder en masse genveje og andre smarte ting, som
gør parserne unødigt komplicerede.

En XML-parser er derfor betydeligt mindre end en tilsvarende
SGML-parser.

XML kan iøvrigt ikke håndtere binære data, men Unicode. Binære data
skal beskyttes ligesom indlæg i dk.binaer.


--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

DUdsen (19-07-2002)
Kommentar
Fra : DUdsen


Dato : 19-07-02 13:46

Thorbjoern Ravn Andersen wrote:

> DUdsen <dudsen@gjk.dk> writes:
>
>> for lige at blande mig dit indlag er skevet i multipart
>> hvilket gør er det ser yders grimt ud i knode.
>
> Problemet er desværre at der _etellerandetsted_ sker en bøvs
> med Kents
> ISO-Latin-9 og Gnus her hos mig. Jeg er ved at undersøge
> hvordan det
> kan løses. Ville det være bedre hvis jeg brugte UTF-8?

Ja så lenge du bare bruger samme tegnsæt i hele indlæget.
prblemet er at knode sætter nogle rammer op for at vise mig hvad
der er hvad således at teksten inklapslet i noge indformationer

>> derdover gør det at auto indent ikke virker ordentligt.
>> Noget andet er at udover at kunne håndtere binær data hvad er
>> det så der adskiller xml fra sgml og lign.
>
> Stringens og enkelthed. XML-data skal overholde et meget
> strengt format, og parseren må bundvende hvis ikke det
> overholdes. SGML er meget avanceret, og indeholder en masse
> genveje og andre smarte ting, som gør parserne unødigt
> komplicerede.

Men tilgængæld gør formatet nemmere at håndtere samt har en
række andre fordlele.

> En XML-parser er derfor betydeligt mindre end en tilsvarende
> SGML-parser.

Men det er vel også dens eneste fortrin. hvis dens brug af
unicode samtidigt gør at den bliver mere ram tung tjaa så er
fordelen til at overskue.

> XML kan iøvrigt ikke håndtere binære data, men Unicode. Binære
> data skal beskyttes ligesom indlæg i dk.binaer.

XML kan så vidt jeg er indformere bruges til at sammensætter og
beskrive binære klumper.
--
Daniel Udsen <dudsen@gjk.dk>
Køer er gudommlige www.koen.dk

Thorbjoern Ravn Ande~ (19-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 19-07-02 23:01

DUdsen <dudsen@gjk.dk> writes:

> > overholdes. SGML er meget avanceret, og indeholder en masse
> > genveje og andre smarte ting, som gør parserne unødigt
> > komplicerede.
>
> Men tilgængæld gør formatet nemmere at håndtere samt har en
> række andre fordlele.

Som fx? Jeg har arbejdet med begge dele og vil da gerne vide hvad du
taenker paa.

>
> > En XML-parser er derfor betydeligt mindre end en tilsvarende
> > SGML-parser.
>
> Men det er vel også dens eneste fortrin. hvis dens brug af
> unicode samtidigt gør at den bliver mere ram tung tjaa så er
> fordelen til at overskue.

Det skal jeg ikke kunne udtale mig om. Har du praktiske
maaleresultater du vil delagtiggoere om fordele og ulemper ved de to
systemer?

> > XML kan iøvrigt ikke håndtere binære data, men Unicode. Binære
> > data skal beskyttes ligesom indlæg i dk.binaer.
>
> XML kan så vidt jeg er indformere bruges til at sammensætter og
> beskrive binære klumper.

Beskriv gerne hvordan du mener dette skal goeres. Der er visse
grundlaeggende designting som goer det umuligt at placere et
vilkaarligt binaer klump direkte i en XML-fil.

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

DUdsen (20-07-2002)
Kommentar
Fra : DUdsen


Dato : 20-07-02 18:42

Thorbjoern Ravn Andersen wrote:

> DUdsen <dudsen@gjk.dk> writes:
>
>> > overholdes. SGML er meget avanceret, og indeholder en masse
>> > genveje og andre smarte ting, som gør parserne unødigt
>> > komplicerede.
>>
>> Men tilgængæld gør formatet nemmere at håndtere samt har en
>> række andre fordlele.
>
> Som fx? Jeg har arbejdet med begge dele og vil da gerne vide
> hvad du taenker paa.

xml er case sensitive hvilker gør det game trik med at skrve
tags med stort umugligt.
Derudover gør det at alle tags skal afsluttes det mere
besværligt at editere. et eksmepel på det er xhtml's <br />
istedet for <BR> to mere tegn jeg skal skrive osv.

>>
>> > En XML-parser er derfor betydeligt mindre end en tilsvarende
>> > SGML-parser.
>>
>> Men det er vel også dens eneste fortrin. hvis dens brug af
>> unicode samtidigt gør at den bliver mere ram tung tjaa så er
>> fordelen til at overskue.
>
> Det skal jeg ikke kunne udtale mig om. Har du praktiske
> maaleresultater du vil delagtiggoere om fordele og ulemper ved
> de to systemer?

Nej men det har du sikkert heller ikke i praksis er det
formenteligt ikke.
Men jeg har ikke set noget der antyder at xml er så meget bedre
end sgml at jeg vil ofre resourcer på at skifte.

>> > XML kan iøvrigt ikke håndtere binære data, men Unicode.
>> > Binære data skal beskyttes ligesom indlæg i dk.binaer.
>>
>> XML kan så vidt jeg er indformere bruges til at sammensætter
>> og beskrive binære klumper.
>
> Beskriv gerne hvordan du mener dette skal goeres. Der er visse
> grundlaeggende designting som goer det umuligt at placere et
> vilkaarligt binaer klump direkte i en XML-fil.

men pleger vist at bruge base 64 encodning.
Det skal lige siges at jeg ike rigtigt har læst om xml fra andet
end slutbrugerens synspunkt.

--
Daniel Udsen <dudsen@gjk.dk>
Køer er gudommlige www.koen.dk

Peter Brodersen (20-07-2002)
Kommentar
Fra : Peter Brodersen


Dato : 20-07-02 18:48

On Sat, 20 Jul 2002 19:41:31 +0200, DUdsen <dudsen@gjk.dk> wrote:

>Derudover gør det at alle tags skal afsluttes det mere
>besværligt at editere. et eksmepel på det er xhtml's <br />
>istedet for <BR> to mere tegn jeg skal skrive osv.

<br /> er altså også en sgml-syntaks. Det betyder blot <br></br>.

(at Opera, Mozilla og IE er fuldstændig hjernedøde i deres tag-parsing
på det område, er så en anden sag, og har ikke noget med denne tråd at
gøre, men nøj, det føles godt at få lukket det ud nu og da)

--
- Peter Brodersen

Thorbjoern Ravn Ande~ (20-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 20-07-02 23:34

DUdsen <dudsen@gjk.dk> writes:

> Derudover gør det at alle tags skal afsluttes det mere
> besværligt at editere. et eksmepel på det er xhtml's <br />
> istedet for <BR> to mere tegn jeg skal skrive osv.

Part of the game. Stringensen gør XML-parseren meget simplere, og
betyder at man ikke _behøver_ en DTD.

Det kan seriøst anbefales at bruge en editor som forstår XML. Herved
lettes processen meget.

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

DUdsen (21-07-2002)
Kommentar
Fra : DUdsen


Dato : 21-07-02 00:55

Thorbjoern Ravn Andersen wrote:

> DUdsen <dudsen@gjk.dk> writes:
>
>> Derudover gør det at alle tags skal afsluttes det mere
>> besværligt at editere. et eksmepel på det er xhtml's <br />
>> istedet for <BR> to mere tegn jeg skal skrive osv.
>
> Part of the game. Stringensen gør XML-parseren meget simplere,
> og betyder at man ikke _behøver_ en DTD.
>
> Det kan seriøst anbefales at bruge en editor som forstår XML.
> Herved lettes processen meget.

hvad gør jeg så når jeg sider ved min gamle trofaste dos maskine
der ikke har den slags instaleret.

Jo strengere en syntaks bliver mht til den slags jo mere
afhængig bliver brugern også af special værktøjer.

--
Daniel Udsen <dudsen@gjk.dk>
Køer er gudommlige www.koen.dk

Thorbjoern Ravn Ande~ (21-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 21-07-02 01:05

DUdsen <dudsen@gjk.dk> writes:

> hvad gør jeg så når jeg sider ved min gamle trofaste dos maskine
> der ikke har den slags instaleret.

Telnetter til en der har? MS-Kermit med en packetdriver.

> Jo strengere en syntaks bliver mht til den slags jo mere
> afhængig bliver brugern også af special værktøjer.

XML er en delmængde af SGML. Der er intet der forhindrer dig at
skrive SGML og konvertere det til XML, med fx "sx" fra jclark.com

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Kent Friis (19-07-2002)
Kommentar
Fra : Kent Friis


Dato : 19-07-02 11:40

Den 19 Jul 2002 12:03:22 +0200 skrev Thorbjoern Ravn Andersen:
>
>leeloo@phreaker.net (Kent Friis) writes:
>
>> Med "nok" CPU-kraft kører selv XP hurtigt nok. Men hvorfor hele tiden
>> opgradere? En 3GHz maskine burde altså ikke være nødvendig, når 30 MHz
>> var nok for få år siden.
>
>Fordi sådan er udviklingen. Folk stiller større og større krav til
>systemerne - kun de færreste er tilfredsse med Linux i textmode eller
>rå DOS.

Jeg skrev 30 MHz, ikke 30 KHz. 7 MHz var nok til at trække en grafisk
brugergrænseflade.

Men det er jo (bortset fra spil) ikke reel udvikling - der skal bare
3GHz til at få en XP til at være lige så brugbar som en Win98 på en
600MHz maskine. Processoren bliver hurtigere, men softwaren bliver
langsommere om at lave *det samme arbejde*.

>> >Nejda. Du bruger en XML-parser til formålet - dem er der MASSER af.
>>
>> Og de er opstået ud af den blå luft? Jeg lærer mere af at skrive koden
>> selv, og i dette tilfælde lærte jeg at XML er et helvede at parse -
>> det bliver ikke mindre kompleks af at man lader andre skrive koden, og
>> mængden af kode der er nødvendig (for meget) bliver heller ikke
>> mindre.
>
>XML er meget, meget nemt at skrive en parser til hvis man benytter
>traditionel compilerteknologi, og følger W3C-spekken slavisk. Hvis du
>forsøger at løse det med regexp's og lignende, kan jeg godt forstå du
>har problemer.

Ingen regexp's eller lignende avancerede ting.

swich(c) {
case '<':
    ...
   case '>':
    ...
   case '/':
    ...
default:
    ...
}

Altså helt fra bunden.

>Med hensyn til at bruge andres parsere, så er det et softwarebibliotek
>ligesom alle andre, og man bliver hurtigere færdig ved at bruge andres
>kode.

Ja, men det ændrer ikke på at XML er uegnet til maskinlæsning.

Mvh
Kent
--
Is windows userfriendly? Nah, more like optimized for idiots.

Thorbjoern Ravn Ande~ (19-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 19-07-02 11:59

leeloo@phreaker.net (Kent Friis) writes:

> >Fordi sådan er udviklingen. Folk stiller større og større krav til
> >systemerne - kun de færreste er tilfredsse med Linux i textmode eller
> >rå DOS.
>
> Jeg skrev 30 MHz, ikke 30 KHz. 7 MHz var nok til at trække en grafisk
> brugergrænseflade.

Men hvem har lyst til at bruge den?

> Men det er jo (bortset fra spil) ikke reel udvikling - der skal bare
> 3GHz til at få en XP til at være lige så brugbar som en Win98 på en
> 600MHz maskine. Processoren bliver hurtigere, men softwaren bliver
> langsommere om at lave *det samme arbejde*.



Kent Friis (19-07-2002)
Kommentar
Fra : Kent Friis


Dato : 19-07-02 13:41

Den 19 Jul 2002 12:58:57 +0200 skrev Thorbjoern Ravn Andersen:
>leeloo@phreaker.net (Kent Friis) writes:
>
>> >Fordi sådan er udviklingen. Folk stiller større og større krav til
>> >systemerne - kun de færreste er tilfredsse med Linux i textmode eller
>> >rå DOS.
>>
>> Jeg skrev 30 MHz, ikke 30 KHz. 7 MHz var nok til at trække en grafisk
>> brugergrænseflade.
>
>Men hvem har lyst til at bruge den?

Jeg siger ikke at man nødvendigvis skal nøjes med 7 MHz, kun at GUI ikke
er noget argument for at have 3GHz. Grunden til at man efterhånden er
nødt til at have en 3GHz maskine, er bloat. Det kommer overalt, bl.a.
i form af XML.

>> Men det er jo (bortset fra spil) ikke reel udvikling - der skal bare
>> 3GHz til at få en XP til at være lige så brugbar som en Win98 på en
>> 600MHz maskine. Processoren bliver hurtigere, men softwaren bliver
>> langsommere om at lave *det samme arbejde*.
>
>Jeg vil ikke diskutere XP versus Win98 er. Gå over i en Windowsgruppe
>hvis du har den slags lyster.

Min Linux tæver også XP'en, hvis du synes bedre om den sammenligning

>> >XML er meget, meget nemt at skrive en parser til hvis man benytter
>> >traditionel compilerteknologi, og følger W3C-spekken slavisk. Hvis du
>> >forsøger at løse det med regexp's og lignende, kan jeg godt forstå du
>> >har problemer.
>>
>> Ingen regexp's eller lignende avancerede ting.
>>
>> swich(c) {
>> case '<':
>>     ...
>>    case '>':
>>     ...
>>    case '/':
>>     ...
>> default:
>>     ...
>> }
>>
>> Altså helt fra bunden.
>
>Hvis du kører på et tegn-for-tegn-plan er du endnu lavere end med
>regexps. Du bliver nødt til at bygge nogen abstraktionsniveauer
>ovenfor. Har du nogensinde sat dig ind i hvordan en parser virker?

Eh, sandsynligvis ikke, jeg er allerede lidt lost...

>> >Med hensyn til at bruge andres parsere, så er det et softwarebibliotek
>> >ligesom alle andre, og man bliver hurtigere færdig ved at bruge andres
>> >kode.
>>
>> Ja, men det ændrer ikke på at XML er uegnet til maskinlæsning.
>
>Beklager. Du tager fejl. XML er ekstremt egnet til maskinlæsning.

Ikke sammenlignet med alle andre filformater. En simpel fastlængde-fil
er nok det absolut nemmeste (field7 = start+35;), efterfulgt af fx.
kolonsepareret (strchr(start,':");)

Der skal mange gange mere kode til at parse XML, og dertil kommer at
formatet er enormt bloatet, pga. dets "selvdokumenterende" features -
i en vareliste, står der <vare><pris> enormt mange gange, selvom det
reelt slet ikke ville være nødvendigt (sammenlignet med de andre
formater).

Mvh
Kent
--
Mails skrevet før 12:00 skal læses med det forbehold, at hjernen først
forventes at være færdig med at boote på det tidspunkt, og indholdet
derfor kan indeholde random data der tilfældigvis lå i den
uinitializerede cache.

Thorbjoern Ravn Ande~ (19-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 19-07-02 22:55

leeloo@phreaker.net (Kent Friis) writes:

> >Jeg vil ikke diskutere XP versus Win98 er. Gå over i en Windowsgruppe
> >hvis du har den slags lyster.
>
> Min Linux tæver også XP'en, hvis du synes bedre om den sammenligning

Nej. Hold venligst mig ude fra Windows og sammenligninger med samme.
Det kan du goere i mudderkastningsgruppen. Her er det off/topic.

> >Hvis du kører på et tegn-for-tegn-plan er du endnu lavere end med
> >regexps. Du bliver nødt til at bygge nogen abstraktionsniveauer
> >ovenfor. Har du nogensinde sat dig ind i hvordan en parser virker?
>
> Eh, sandsynligvis ikke, jeg er allerede lidt lost...

Se se. Du er altsaa gaaet i gang med at kode en XML-parser for at
laere hvordan man goer, og du vil ikke kigge paa andres kode?

Prisvaerdigt, men jeg vil anbefale dig at kigge lidt paa noget
compilerkonstruktion for at faa nogen teknikker.


> >Beklager. Du tager fejl. XML er ekstremt egnet til maskinlæsning.
>
> Ikke sammenlignet med alle andre filformater. En simpel fastlængde-fil
> er nok det absolut nemmeste (field7 = start+35;), efterfulgt af fx.
> kolonsepareret (strchr(start,':");)

Jada. For 8-bit tegnsaet. Hvilket tegnsaet ioevrigt? ISO-Latin-1
eller 9? Hvad skal der ske hvis programmet saelges til Japanere der
oensker at skrive japansk i konfigurationsfilen?



Kent Friis (20-07-2002)
Kommentar
Fra : Kent Friis


Dato : 20-07-02 00:12

Den 19 Jul 2002 23:55:05 +0200 skrev Thorbjoern Ravn Andersen:
>> >Hvis du kører på et tegn-for-tegn-plan er du endnu lavere end med
>> >regexps. Du bliver nødt til at bygge nogen abstraktionsniveauer
>> >ovenfor. Har du nogensinde sat dig ind i hvordan en parser virker?
>>
>> Eh, sandsynligvis ikke, jeg er allerede lidt lost...
>
>Se se. Du er altsaa gaaet i gang med at kode en XML-parser for at
>laere hvordan man goer, og du vil ikke kigge paa andres kode?

Kigge på? Lige før var der da tale om at bruge eksisterende parsere.

>Prisvaerdigt, men jeg vil anbefale dig at kigge lidt paa noget
>compilerkonstruktion for at faa nogen teknikker.

Alt for avanceret. Jeg har ikke brug for en compiler, kun at læse en
simpel fil.

>> >Beklager. Du tager fejl. XML er ekstremt egnet til maskinlæsning.
>>
>> Ikke sammenlignet med alle andre filformater. En simpel fastlængde-fil
>> er nok det absolut nemmeste (field7 = start+35;), efterfulgt af fx.
>> kolonsepareret (strchr(start,':");)
>
>Jada. For 8-bit tegnsaet. Hvilket tegnsaet ioevrigt? ISO-Latin-1
>eller 9? Hvad skal der ske hvis programmet saelges til Japanere der
>oensker at skrive japansk i konfigurationsfilen?

Det bliver ikke sværere af at bruge 32bit unicode.

Mvh
Kent
--
Gilthoniel, A Elbereth
Aiya elenion ancalima!
- Tolkien, "The Lord of the Rings"

Thorbjoern Ravn Ande~ (20-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 20-07-02 10:41

leeloo@phreaker.net (Kent Friis) writes:

> >Prisvaerdigt, men jeg vil anbefale dig at kigge lidt paa noget
> >compilerkonstruktion for at faa nogen teknikker.
>
> Alt for avanceret. Jeg har ikke brug for en compiler, kun at læse en
> simpel fil.



Kent Friis (20-07-2002)
Kommentar
Fra : Kent Friis


Dato : 20-07-02 19:30

Den 20 Jul 2002 11:40:30 +0200 skrev Thorbjoern Ravn Andersen:
>--=-=-=
>Content-Type: text/plain; charset=iso-8859-15
>Content-Transfer-Encoding: 8bit
>
>leeloo@phreaker.net (Kent Friis) writes:
>
>> >Prisvaerdigt, men jeg vil anbefale dig at kigge lidt paa noget
>> >compilerkonstruktion for at faa nogen teknikker.
>>
>> Alt for avanceret. Jeg har ikke brug for en compiler, kun at læse en
>> simpel fil.
>
>Alle compilere skal bruge parsere for at læse kildeteksterne. Der er
>velgennemprøvede, standard måder at løse problemerne på - jeg vil
>anbefale dig at læse lidt på lektien for at lave en korrekt
>XML-parser.

Det ændrer da ikke på at det er totalt overkill at definere et filformat
så der skal en halv compiler til for at læse formatet.

Mvh
Kent
--
Linux 0.12 is out
Windows XP is now obsolete!!!

Lars Kongshøj (19-07-2002)
Kommentar
Fra : Lars Kongshøj


Dato : 19-07-02 13:52

Kent Friis wrote:
> >> Og de er opstået ud af den blå luft? Jeg lærer mere af at skrive koden
> >> selv, og i dette tilfælde lærte jeg at XML er et helvede at parse -
>
> Ingen regexp's eller lignende avancerede ting.
>
> swich(c) {
> case '<':
> ...
> case '>':
> ...
> case '/':
> ...
> default:
> ...
> }

Det er nu heller ikke den rigtige måde at gøre det på. Brug yacc. Så har
du skrevet den parser på en halv time.

--
Lars Kongshøj

Kent Friis (19-07-2002)
Kommentar
Fra : Kent Friis


Dato : 19-07-02 14:19

Den Fri, 19 Jul 2002 14:51:54 +0200 skrev Lars Kongshøj:
>Kent Friis wrote:
>> >> Og de er opstået ud af den blå luft? Jeg lærer mere af at skrive koden
>> >> selv, og i dette tilfælde lærte jeg at XML er et helvede at parse -
>>
>> Ingen regexp's eller lignende avancerede ting.
>>
>> swich(c) {
>> case '<':
>> ...
>> case '>':
>> ...
>> case '/':
>> ...
>> default:
>> ...
>> }
>
>Det er nu heller ikke den rigtige måde at gøre det på. Brug yacc. Så har
>du skrevet den parser på en halv time.

Det er ikke nødvendigt for alle andre formater, hvorfor skal det så være
det for XML? Det er da netop ekstra (unødig) kompleksitet.

Mvh
Kent
--
Desuden kan jeg ikke se nogen grund til at springe over hvor gærdet er
lavest, når man kan vente på at det alligevel bliver revet ned fordi
der skal bygges en omfartsvej...
- Claus Frørup og Asbjørn Christensen i dk.snak.

Lars Kongshøj (19-07-2002)
Kommentar
Fra : Lars Kongshøj


Dato : 19-07-02 14:42

Kent Friis wrote:
> >Det er nu heller ikke den rigtige måde at gøre det på. Brug yacc. Så har
> >du skrevet den parser på en halv time.
>
> Det er ikke nødvendigt for alle andre formater, hvorfor skal det så være
> det for XML? Det er da netop ekstra (unødig) kompleksitet.

Er det nemmere at skrive en parser til C eller HTML eller Perl i C end i
yacc?

--
Lars Kongshøj

Kent Friis (19-07-2002)
Kommentar
Fra : Kent Friis


Dato : 19-07-02 14:58

Den Fri, 19 Jul 2002 15:41:32 +0200 skrev Lars Kongshøj:
>Kent Friis wrote:
>> >Det er nu heller ikke den rigtige måde at gøre det på. Brug yacc. Så har
>> >du skrevet den parser på en halv time.
>>
>> Det er ikke nødvendigt for alle andre formater, hvorfor skal det så være
>> det for XML? Det er da netop ekstra (unødig) kompleksitet.
>
>Er det nemmere at skrive en parser til C eller HTML eller Perl i C end i
>yacc?

Sikkert ikke, men det ændrer ikke på at XML er unødig bloatet.

Mvh
Kent
--
8:16pm up 2:37, 1 user, load average: 101.21, 95.46, 55.85
164 processes: 62 sleeping, 102 running, 0 zombie, 0 stopped

With XMMS tugging along nicely, playing Vivaldi...

Lars Kongshøj (19-07-2002)
Kommentar
Fra : Lars Kongshøj


Dato : 19-07-02 13:58

Kent Friis wrote:
> XML har jeg svært ved at sige noget positivt om overhovedet. Det er et
> helvede at parse, og det er nærmest ulæseligt for mennesker.

Det samme kan man sige om maskinkode. Jeg fatter ikke, at man ikke
skrotter maskinkode som dataformat for programmer

--
Lars Kongshøj

Jesper Harder (19-07-2002)
Kommentar
Fra : Jesper Harder


Dato : 19-07-02 17:51

Thorbjoern Ravn Andersen <thunderbear@bigfoot.com> writes:

> DUdsen <dudsen@gjk.dk> writes:
>
>> for lige at blande mig dit indlag er skevet i multipart hvilket
>> gør er det ser yders grimt ud i knode.
>
> Problemet er desværre at der _etellerandetsted_ sker en bøvs med Kents
> ISO-Latin-9 og Gnus her hos mig. Jeg er ved at undersøge hvordan det
> kan løses.

Èn måde at løse det på er at bruge udviklingsversionen af Gnus, hvor
problemet er løst.

Thorbjoern Ravn Ande~ (19-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 19-07-02 23:06

Jesper Harder <harder@myrealbox.com> writes:

> > Problemet er desværre at der _etellerandetsted_ sker en bøvs med Kents
> > ISO-Latin-9 og Gnus her hos mig. Jeg er ved at undersøge hvordan det
> > kan løses.
>
> Èn måde at løse det på er at bruge udviklingsversionen af Gnus, hvor
> problemet er løst.

Bah. Nu er der lige blevet opgraderet til Emacs 21, med tilhoerende
GNus og soereme om ikke dne ikke er tilfredsstillende.



Jesper Harder (20-07-2002)
Kommentar
Fra : Jesper Harder


Dato : 20-07-02 18:33

Thorbjoern Ravn Andersen <thunderbear@bigfoot.com> writes:

> Jesper Harder <harder@myrealbox.com> writes:
>
>> Èn måde at løse det på er at bruge udviklingsversionen af Gnus, hvor
>> problemet er løst.
>
> Bah. Nu er der lige blevet opgraderet til Emacs 21, med tilhoerende
> GNus og soereme om ikke dne ikke er tilfredsstillende.
> Oh well. Jeg maa kigge paa det :(

En anden løsning er at bruge Dave Love's ucs-tables.el:

,----
| This package provides tables and a little code to `unify' equivalent
| characters from Emacs's internal charsets.
|
| For example, ?\xf69 ?\x8e9 are both 'Latin small letter e with acute',
| which you might type with Latin-9 and Latin-1 input methods
| respectively. They are distinct because of the unfortunate 8-bit
| European character set standards (ISO 8859) and the use of the
| appropriate international standard (ISO 2022) that Emacs follows to
| `multiplex' them together. [Mule follows the relevant
| European-originated standards, and predates a useful definition of
| Unicode.]
|
| Normally a buffer containing both of those Emacs characters can only
| be encoded (saved) in a general -- more-or-less Emacs-specific --
| encoding: iso-2022-{7,8}bit or emacs-mule. With unification enabled,
| and, say, preferred coding system Latin-9, a buffer containing only
| those two non-ASCII characters will be saved as Latin-9. [This sort
| of situation is probably most relevant when responding to mail in a
| different encoding to what you normally use for input.] If the buffer
| contains characters which aren't common to a single supported 8859
| set, it should probably be saved as utf-8 (see below).
`----



Jesper Harder (18-07-2002)
Kommentar
Fra : Jesper Harder


Dato : 18-07-02 20:00


leeloo@phreaker.net (Kent Friis) writes:

> Den Thu, 18 Jul 2002 18:39:06 +0200 skrev Jesper Harder:
>>
>>Latin-9 er bare et unødvendigt og midlertidigt appendiks til
>>iso-8859-familien, når alle nu alligevel er på vej til at gå over til
>>Unicode, som dækker alle tegn.
>
> Alle?

Se fx RFC 2277, "IETF Policy on Character Sets and Languages":

Protocols MUST be able to use the UTF-8 charset, which consists of
the ISO 10646 coded character set combined with the UTF-8 character
encoding scheme, as defined in [10646] Annex R (published in
Amendment 2), for all text. [..]

Negotiating a charset may be regarded as an interim mechanism that is
to be supported until support for interchange of UTF-8 is prevalent;
however, the timeframe of "interim" may be at least 50 years, so
there is every reason to think of it as permanent in practice.

Så der er vist ikke nogen tvivl om at fremtiden hedder UTF-8 for alle
Internetprotokoller.

> Det er da kun folk med for meget RAM der er ved at skifte til unicode.

Det kommer an på, hvilken kodning man bruger. Hvis man bruger UTF-8,
fylder alle ASCII-tegn stadig én byte og (Latin-1 \ ASCII) fylder to
bytes. Pladsforbruget for en typisk tekst vil altså kun være
ubetydeligt større med UTF-8.

frank damgaard (18-07-2002)
Kommentar
Fra : frank damgaard


Dato : 18-07-02 21:57

Jesper Harder <harder@myrealbox.com> wrote:

> Se fx RFC 2277, "IETF Policy on Character Sets and Languages":

> Negotiating a charset may be regarded as an interim mechanism that is
> to be supported until support for interchange of UTF-8 is prevalent;
> however, the timeframe of "interim" may be at least 50 years, so
> there is every reason to think of it as permanent in practice.

> Så der er vist ikke nogen tvivl om at fremtiden hedder UTF-8 for alle
> Internetprotokoller.

Men vel med en ca. 50 års overgangsperiode ?
Det er jo "Negotiating a charset" det drejer sig om, dvs.
at forhandling af tegnsæt der er "...permanent in practice." ?

Så laver man nyt så bør man tænke på UTF-8, men gamle protokoller
og standarder bør statdig kunne klare de "gamle" tegnsæt,
dvs. det bør være muligt at anvende ASCII, iso-8859-*,....



--
Frank Damgaard |


Thorbjoern Ravn Ande~ (19-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 19-07-02 10:30

frank damgaard <frank_tmp4@post.cybercity.dk> writes:

> Så laver man nyt så bør man tænke på UTF-8, men gamle protokoller
> og standarder bør statdig kunne klare de "gamle" tegnsæt,
> dvs. det bør være muligt at anvende ASCII, iso-8859-*,....

ASCII og ISO-Latin-1 er ægte delmængder af Unicode. Disse er det
derfor meget let at bruge - det er "bare" et spørgsmål om en anden
tegnvekslingsrutine.

For at bruge Unicode skal programmerne bruge 16-bit tegn. Dette er
standard i Java, men en anelse mere bøvlet i C.

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Soeren Sandmann (19-07-2002)
Kommentar
Fra : Soeren Sandmann


Dato : 19-07-02 23:33

Thorbjoern Ravn Andersen <thunderbear@bigfoot.com> writes:

> For at bruge Unicode skal programmerne bruge 16-bit tegn. Dette er
> standard i Java, men en anelse mere bøvlet i C.

UTF-8's store fordel er netop at gamle C-programmer ikke går helt i
ged når de bliver udsat for det. Hvad mener du med at man for at bruge
unicode skal bruge 16-bit-tegn? UTF-8 er en indkodning af unicode.

Thorbjoern Ravn Ande~ (19-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 19-07-02 23:51

Soeren Sandmann <sandmann@daimi.au.dk> writes:

> UTF-8's store fordel er netop at gamle C-programmer ikke går helt i
> ged når de bliver udsat for det. Hvad mener du med at man for at bruge
> unicode skal bruge 16-bit-tegn? UTF-8 er en indkodning af unicode.

Saedvaenligvis er du interesseret i at behandle tegn som netop eet
tegn, og du vil derfor konvertere UTF-8 tilbage til enkelte tegn
istedet for sammensaette.

Naar de skal ud igen, vil du kode i UTF-8 igen.
--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Soeren Sandmann (20-07-2002)
Kommentar
Fra : Soeren Sandmann


Dato : 20-07-02 15:01

Thorbjoern Ravn Andersen <thunderbear@bigfoot.com> writes:

> Soeren Sandmann <sandmann@daimi.au.dk> writes:
>
> > UTF-8's store fordel er netop at gamle C-programmer ikke går helt i
> > ged når de bliver udsat for det. Hvad mener du med at man for at bruge
> > unicode skal bruge 16-bit-tegn? UTF-8 er en indkodning af unicode.
>
> Saedvaenligvis er du interesseret i at behandle tegn som netop eet
> tegn, og du vil derfor konvertere UTF-8 tilbage til enkelte tegn
> istedet for sammensaette.

Ja, *hvis* man har nem adgang til 16-bits tegn, så vil man konvertere
fra UTF-8 til sekvenser af 16-bits-tal, men hvis man ikke har, fx i C,
og man vil behandle unicode-tekst, så fungerer UTF-8 fint.

Jeg kan ikke se at 16-bits-tegn skulle være nødvendige, og i hvert
fald gtk+ og Gnome, men vistnok også QT+KDE, benytter UTF-8 overalt,
fordi de skal fungere i omgivelser med en stærk C-tradition.

Thorbjoern Ravn Ande~ (20-07-2002)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 20-07-02 23:39

Soeren Sandmann <sandmann@daimi.au.dk> writes:

> Ja, *hvis* man har nem adgang til 16-bits tegn, så vil man konvertere
> fra UTF-8 til sekvenser af 16-bits-tal, men hvis man ikke har, fx i C,
> og man vil behandle unicode-tekst, så fungerer UTF-8 fint.

Da kun hvis du ikke skal behandle dem tegn for tegn.

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Soeren Sandmann (21-07-2002)
Kommentar
Fra : Soeren Sandmann


Dato : 21-07-02 11:42

Thorbjoern Ravn Andersen <thunderbear@bigfoot.com> writes:

> Soeren Sandmann <sandmann@daimi.au.dk> writes:
>
> > Ja, *hvis* man har nem adgang til 16-bits tegn, så vil man konvertere
> > fra UTF-8 til sekvenser af 16-bits-tal, men hvis man ikke har, fx i C,
> > og man vil behandle unicode-tekst, så fungerer UTF-8 fint.
>
> Da kun hvis du ikke skal behandle dem tegn for tegn.

Det er rigtigt at tegn for tegn-behandling af utf8-tekst er
besværligere end af fastbredde-indkodninger, som fx ucs-16, men i
forhold til alternativet jeg skriver om i opfølgningen til Byrial,
mener jeg at utf8 er at foretrække.

Og så er tegn for tegn-behandling heller ikke værre. GLib 2.0
indeholder denne makro:

#define g_utf8_next_char(p) (char *)((p) + g_utf8_skip[*(guchar *)(p)])

(g_utf8_skip er en tabel som for hvert tegn c angiver hvor lang en
utf8-sekvens som starter med c, er), som sammen med

typedef gunichar guint32;

og funktionen

gunichar g_utf8_get_char (const gchar *p);

kan bruges fx sådan:

for (char *s = utf8_text; *s; s = g_utf8_next_char (s))
{
gunichar c = g_utf8_get_char (s);
/* behandl c */
}

I forhold til et typisk strenggennemløb:

for (s = str; *s; s++)
/* behandl *s */

fylder det en anelse mere. I forhold til et gennemløb af et array af
16-bits-tegn:

for (int i = 0; i < ucs_16_len; ++i)
/* behandl ucs_16_text[i] */

er det ikke specielt slemt, især ikke når man tager højde for at det i
dette tilfælde for hver tekst er nødvendigt at vedligeholde
information både om dens længde og af hvilke tegn den består.

Byrial Jensen (21-07-2002)
Kommentar
Fra : Byrial Jensen


Dato : 21-07-02 00:01

Soeren Sandmann <sandmann@daimi.au.dk> skrev:
> Ja, *hvis* man har nem adgang til 16-bits tegn, så vil man konvertere
> fra UTF-8 til sekvenser af 16-bits-tal, men hvis man ikke har, fx i C,
> og man vil behandle unicode-tekst, så fungerer UTF-8 fint.

Mener du at der er noget i vejen med C-typen wchar_t?

Soeren Sandmann (21-07-2002)
Kommentar
Fra : Soeren Sandmann


Dato : 21-07-02 11:20

Byrial Jensen <bjensen@nospam.dk> writes:

> Mener du at der er noget i vejen med C-typen wchar_t?

Ja, et C-programs omgivelser er ikke gearet til 16-bits-tegn
overhovedet.

Der findes tonsvis af biblioteker som man afskærer sig fra hvis man
baserer et programs teksthåndtering på wchar_t. Disse biblioteker
indeholder masser af funktioner som tager en char * og forventer at
den peger på en nul-termineret streng, også selv om de er ligeglade
med hvad de enkelte tegn egentlig er.

Hvis man har brug for at skrive tekster ud på stdout, fx for at kalde
et eksternt program, vil man skulle konvertere, for det eksterne
program vil sandsynligvis ikke se med milde øjne på input med
indlejrede nuller.

Jeg mener ikke det er realistisk at basere et større program på
wchar_t.

Søg
Reklame
Statistik
Spørgsmål : 177593
Tips : 31968
Nyheder : 719565
Indlæg : 6409176
Brugere : 218889

Månedens bedste
Årets bedste
Sidste års bedste