|
| parse for links Fra : Lars Hoffmann |
Dato : 19-12-01 16:02 |
| | |
Carsten Suurland (19-12-2001)
| Kommentar Fra : Carsten Suurland |
Dato : 19-12-01 16:37 |
|
Har ikke testet det, men skriver direkte, så test lige selv...
enum URLType
urlInvalid = 0
urlFile = 1
urlDir = 2
end enum
function FindURLType(byval URL as string) as URLType
dim parts as variant
if len(url) <= 1 then
FindURLType = urlInvalid
elseif instr(1, url, "/") = 0 then
FindURLType = urlInvalid
else
parts = split(URL, "/")
if instr(1, parts(ubound(parts)), ".") then
FindURLType = urlFile
else
FindURLType = urlDir
end if
end if
end function
functionen tager udgangspunkt i at der altid er en skråstreg i url'en... en
url så som www.microsoft.com vil altså være "ugyldig", men det er småting du
selv kan bygge på.
/Carsten Suurland
| |
Lars Hoffmann (19-12-2001)
| Kommentar Fra : Lars Hoffmann |
Dato : 19-12-01 17:01 |
|
Carsten Suurland <carsten@suurland.dk> escribió en el mensaje de
noticias Xu2U7.512$aS.79701@news010.worldonline.dk...
> functionen tager udgangspunkt i at der altid er en skråstreg i
url'en... en
> url så som www.microsoft.com vil altså være "ugyldig", men det er
småting du
> selv kan bygge på.
idéen er slet ikke saa tosset, men et bibliotek kan jo ogsaa indeholde
punktummer, hvad med f.eks denne adresse:
http://www.usenet.dk/oss/dk.forbruger
| |
Harald Staff (20-12-2001)
| Kommentar Fra : Harald Staff |
Dato : 20-12-01 14:40 |
|
Ender ikke sider stort sett med
..htm , .html , .asp , .cfm
samt evt filene
..txt, .gif , .jpg , .zip
?
Beste hilsen Harald
Lars Hoffmann <lars@hoffmann.ac> skrev i
news:9vqdh7$rlj$1@newsreader.mailgate.org...
> Carsten Suurland <carsten@suurland.dk> escribió en el mensaje de
> noticias Xu2U7.512$aS.79701@news010.worldonline.dk...
>
> > functionen tager udgangspunkt i at der altid er en skråstreg i
> url'en... en
> > url så som www.microsoft.com vil altså være "ugyldig", men det er
> småting du
> > selv kan bygge på.
>
> idéen er slet ikke saa tosset, men et bibliotek kan jo ogsaa indeholde
> punktummer, hvad med f.eks denne adresse:
> http://www.usenet.dk/oss/dk.forbruger
>
>
| |
Lars Hoffmann (20-12-2001)
| Kommentar Fra : Lars Hoffmann |
Dato : 20-12-01 15:30 |
|
Harald Staff <harald.staff@nrk.no> escribió en el mensaje de noticias
9vspnl$lh8$1@oslo-nntp.eunet.no...
> Ender ikke sider stort sett med
> .htm , .html , .asp , .cfm
jo, eller .php3, .php4, .js, .pl, .css, eller .asp?id=90273 osv.
Jeg tror det ville vaere umuligt at blot kigge efter filtype
Det eneste jeg er kommet paa indtil videre er foerst at hente den url
der bliver peget paa, derefter at skaere den ned til naermeste "/",
hente den igen og se om det er den samme fil, men det er voldsomt
omstaendigt. Browsere kan finde rundt i det, saa det kan da ikke vaere
saa svaert igen )
> samt evt filene
> .txt, .gif , .jpg , .zip
..txt filerne laeser mit program ogsaa ind, men gif, jpg osv betyder ikke
noget.
Med venlig hilsen
Lars Hoffmann
| |
Harald Staff (21-12-2001)
| Kommentar Fra : Harald Staff |
Dato : 21-12-01 01:15 |
|
OK. Men det er ikke så enkelt å gi et klokt svar når du ikke melder hva
programmet ditt tenkes å gjøre og hvorfor... plutselig er ".php3 osv." et
problem og ".gif betyder ikke noget" ...
Beste hilsen Harald
"Lars Hoffmann" <lars@hoffmann.ac> wrote in message
news:9vssj8$la9$1@newsreader.mailgate.org...
>
> Harald Staff <harald.staff@nrk.no> escribió en el mensaje de noticias
> 9vspnl$lh8$1@oslo-nntp.eunet.no...
> > Ender ikke sider stort sett med
> > .htm , .html , .asp , .cfm
>
> jo, eller .php3, .php4, .js, .pl, .css, eller .asp?id=90273 osv.
>
> Jeg tror det ville vaere umuligt at blot kigge efter filtype
>
> Det eneste jeg er kommet paa indtil videre er foerst at hente den url
> der bliver peget paa, derefter at skaere den ned til naermeste "/",
> hente den igen og se om det er den samme fil, men det er voldsomt
> omstaendigt. Browsere kan finde rundt i det, saa det kan da ikke vaere
> saa svaert igen )
>
>
> > samt evt filene
> > .txt, .gif , .jpg , .zip
>
> .txt filerne laeser mit program ogsaa ind, men gif, jpg osv betyder ikke
> noget.
> Med venlig hilsen
> Lars Hoffmann
>
>
| |
Lars Hoffmann (21-12-2001)
| Kommentar Fra : Lars Hoffmann |
Dato : 21-12-01 09:35 |
|
Harald Staff <harald.staff@eunet.no> escribió en el mensaje de noticias
9vtum9$9al$1@oslo-nntp.eunet.no...
> OK. Men det er ikke så enkelt å gi et klokt svar når du ikke melder
hva
> programmet ditt tenkes å gjøre og hvorfor... plutselig er ".php3 osv."
et
> problem og ".gif betyder ikke noget" ...
Jamen det fortaeller jeg glaedeligt:
Mit program er til at hente sourcekoden paa en fil paa nettet, det kan
vaere en hvilken som helst fil i tekstformat. Hvis det er en fil der
indeholder links, kan det parse og finde links (hvilket virker fint),
hvorefter man skal kunne vaelge et link og foelge det (hvilket volder
lidt problemer), saaledes at man faar sourcekoden til den fil linket
peger paa. Lidt groft sagt kan man sige at det er en browser der ikke
fortolker (giver et grafisk output). Man kan dog ogsaa hente .txt, .css
..js filer med det. Da det ikke fortolker paa nogen maade henter det ikke
billedfiler, derfor betyder .gif .jpg osv ikke noget.
Med venlig hilsen
Lars Hoffmann
| |
Harald Staff (21-12-2001)
| Kommentar Fra : Harald Staff |
Dato : 21-12-01 11:09 |
|
Aha. Forstår.
Det er jo en litt omstendelig operasjon siden det blir en del downloads. Men
jeg ville gjort følgende som utgangspunkt (for trolig senere å finne en
bedre løsning...):
Laste hovedsiden i en browser eller dhtmledit. Opprette adressen som
hovednode i et treeview.
Loop alle lenker (hvis der) og lage child-nodes for hver lenke.
Gå til hver child-node, loop lenker og lag ytterligere childs.
Et kriterium for å ikke få childnode kan være om adressen peger "udenfor"
domenet til hovednode.
css-filer er jeg ikke så kjent med. Det lar seg sikkert løse tilsvarende...
HTH. Beste hilsen Harald
Lars Hoffmann <lars@hoffmann.ac> skrev i
news:9vus64$4d2$1@newsreader.mailgate.org...
> Harald Staff <harald.staff@eunet.no> escribió en el mensaje de noticias
> 9vtum9$9al$1@oslo-nntp.eunet.no...
> > OK. Men det er ikke så enkelt å gi et klokt svar når du ikke melder
> hva
> > programmet ditt tenkes å gjøre og hvorfor... plutselig er ".php3 osv."
> et
> > problem og ".gif betyder ikke noget" ...
>
> Jamen det fortaeller jeg glaedeligt:
>
> Mit program er til at hente sourcekoden paa en fil paa nettet, det kan
> vaere en hvilken som helst fil i tekstformat. Hvis det er en fil der
> indeholder links, kan det parse og finde links (hvilket virker fint),
> hvorefter man skal kunne vaelge et link og foelge det (hvilket volder
> lidt problemer), saaledes at man faar sourcekoden til den fil linket
> peger paa. Lidt groft sagt kan man sige at det er en browser der ikke
> fortolker (giver et grafisk output). Man kan dog ogsaa hente .txt, .css
> .js filer med det. Da det ikke fortolker paa nogen maade henter det ikke
> billedfiler, derfor betyder .gif .jpg osv ikke noget.
> Med venlig hilsen
> Lars Hoffmann
>
>
| |
Andrew Engels Rump (~ (21-12-2001)
| Kommentar Fra : Andrew Engels Rump (~ |
Dato : 21-12-01 16:49 |
|
After drinking 3 Pan Galactic Gargle Blasters, "Lars Hoffmann"
<lars@hoffmann.ac> mumbled in news:9vssj8$la9$1@newsreader.mailgate.org:
> Harald Staff <harald.staff@nrk.no> escribió en el mensaje de noticias
> 9vspnl$lh8$1@oslo-nntp.eunet.no...
>> Ender ikke sider stort sett med .htm , .html , .asp , .cfm
> jo, eller .php3, .php4, .js, .pl, .css, eller .asp?id=90273 osv.
> Jeg tror det ville vaere umuligt at blot kigge efter filtype
Det er det. Man kan ikke se om en URL peger på en fil eller et katalog.
> Det eneste jeg er kommet paa indtil videre er foerst at hente den url
> der bliver peget paa, derefter at skaere den ned til naermeste "/",
> hente den igen og se om det er den samme fil, men det er voldsomt
> omstaendigt. Browsere kan finde rundt i det, saa det kan da ikke vaere
> saa svaert igen )
Øh! Hvad mener du med "henter"? Hvis du alligevel snakker med serveren
direkte, så fortæller den dig, hvis du ikke har givet den korrekte
adresse! Der skal altid være en / sidst i en URL hvis det er default
filen du have fat i, så hvis du glemmer den vil serveren svare tilbage:
HTTP/1.1 301 Moved Permanently
Location: http://rump.dk/homepage/andrew/
hvis du f.eks. har bedt om www.rump.dk/homepage/andrew. Det er
fulstændig det samme der sker med browserne - derfor er det ret
irriterende når "alle" kun skriver www.rump.dk, når der egentlig
skulle stå http://www.rump.dk/ for at undgå misforståelser og
roundtrips mellem browser og server. "Men det virker jo" - og jo
det går det. Browseren prøver igen med den nye adresse og vupti!
Andrew
--
*** The opinions expressed are not necessarily those of my employer. ***
* Software Engineer Andrew Engels Rump * BLIK og ROERarbejderforbundet *
* Immerkaer 42, 2650 Hvidovre * Tlf: +45 3638 3638, Fax: +45 3638 3639 *
Home: N55°41'38.9" E12°29'08.6" (WGS 84) Work: N55°39'50.9" E12°27'47.4"
E-mail: mailto:newandrew@rump.dk WWW http://www.rump.dk/homepage/andrew/
| |
Lars Hoffmann (09-01-2002)
| Kommentar Fra : Lars Hoffmann |
Dato : 09-01-02 22:45 |
|
Andrew Engels Rump (formerly Leif Andrew Rump) wrote in
dk.edb.programmering.basic.visual-basic
> Der skal altid være en / sidst i en URL hvis det er default
> filen du have fat i, så hvis du glemmer den vil serveren svare
> tilbage:
>
> HTTP/1.1 301 Moved Permanently
> Location: http://rump.dk/homepage/andrew/
oh yeah, det er deri tricket ligger. Jeg takker og bukker.
MEd venlig hilsen
Lars Hoffmann
| |
|
|