/ Forside / Teknologi / Udvikling / VB/Basic / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
VB/Basic
#NavnPoint
berpox 2425
pete 1435
CADmageren 1251
gibson 1230
Phylock 887
gandalf 836
AntonV 790
strarup 750
Benjamin... 700
10  tom.kise 610
Links uden browser [VB6]
Fra : Jens Vestergaard


Dato : 15-02-02 10:01

Hej Venner,

Kan man få adgang til en html-sides links-collection
(document.all.tags("A")) *uden* at læse den ind i en browser?

Jeg har kredset om emnet før her i gruppen... jeg vil gerne læse en række
websider og kigge dem igennem for bestemte links, men jeg er træt af alle de
scripts, popupvinduer m.v., der afvikles, hvis jeg bruger
browser-kontrollen.

Det hjælper - men er ikke nok - at sætte Browser.Silent = True.

Jeg kan naturligvis hente siderne som tekst med en Inet-kontrol, men så er
det, spørgsmålet kommer: Hvordan får jeg adgang til links-collecetion'en?

--
mvh
Jens Vestergaard
www.railsoft.dk



 
 
Morten Holdflod (15-02-2002)
Kommentar
Fra : Morten Holdflod


Dato : 15-02-02 11:41


> Jeg kan naturligvis hente siderne som tekst med en Inet-kontrol, men så er
> det, spørgsmålet kommer: Hvordan får jeg adgang til links-collecetion'en?

Du kan jo selv parse html'en og sellv bygge din links-collection...
Du skal jo bare kigge efter <A> og </A> så ved du jo hvor dine links står...


MVH
Morten Møller



Jens Vestergaard (15-02-2002)
Kommentar
Fra : Jens Vestergaard


Dato : 15-02-02 12:04

"Morten Holdflod" <u000646@daimi.au.dk> skrev i en meddelelse
news:a4ioci$h7i$1@sunsite.dk...
>
> > Jeg kan naturligvis hente siderne som tekst med en Inet-kontrol, men så
er
> > det, spørgsmålet kommer: Hvordan får jeg adgang til
links-collecetion'en?
>
> Du kan jo selv parse html'en og sellv bygge din links-collection...
> Du skal jo bare kigge efter <A> og </A> så ved du jo hvor dine links
står...

Naturligvis. Det gør jeg også, men du drømmer ikke om, hvad folk finder på
at skrive mellem <A href =....> og </A>. Hvis jeg skal have det 'rå' link og
den 'rå' linktekst, så er der *virkelig* mange elementer, der skal tjekkes
for. Et blandt flere banale problemer i den forbindelse er den inkonsekvente
brug af enkelt- eller dobbelt-citationstegn.

Desuden er de fleste links relative, så man skal 'gætte' det absolutte. Det
undgår man i den egentlige links-collention fra document.objektet.

--
mvh
Jens Vestergaard
www.railsoft.dk




Erlend Klakegg Bergh~ (15-02-2002)
Kommentar
Fra : Erlend Klakegg Bergh~


Dato : 15-02-02 17:58

"Jens Vestergaard" <j@railsoft.dk> skrev i melding
news:3c6ccde0$0$89096$edfadb0f@dspool01.news.tele.dk...
> Hej Venner,
>
> Kan man få adgang til en html-sides links-collection
> (document.all.tags("A")) *uden* at læse den ind i en browser?
>
> Jeg har kredset om emnet før her i gruppen... jeg vil gerne læse en
række
> websider og kigge dem igennem for bestemte links, men jeg er træt af
alle de
> scripts, popupvinduer m.v., der afvikles, hvis jeg bruger
> browser-kontrollen.
>
> Det hjælper - men er ikke nok - at sætte Browser.Silent = True.
>
> Jeg kan naturligvis hente siderne som tekst med en Inet-kontrol, men
så er
> det, spørgsmålet kommer: Hvordan får jeg adgang til
links-collecetion'en?

Hva med å bruke Winsock til å koble til serveren, sende HTTP-headeren.
Da mottar du kun ren HTML som ikke skal innom noen leser, ingen popup,
ingen bilder, ingen script, rett og slett kun det du ønsker ...

Så søker du etter "<a ", finder den, finner "</a>" som kommer etterpå
.... Siden du må skrive HTTP-headeren så vet du også nøyaktig hvor på
serveren du er, og når så webmaster skriver ../index.php så vet du at
det er index.php-filen i mappen under, ./ blir den gjeldende mappen osv
....

Siden du mottar så lite informasjon fra server, så går også hastigheten
opp. Da kan du hente frem siden du kommer til og snappe med deg det som
står mellom <title> og </title> ... Hvorfor velge den vanskeligste måten
?

Lykke til ... =)

--

Vennlig hilsen Erlend
erlendkb@online.no
ICQ 42053660
http://www.kleggen.com/



Jens Vestergaard (15-02-2002)
Kommentar
Fra : Jens Vestergaard


Dato : 15-02-02 18:59

"Erlend Klakegg Bergheim" <erlendkb@online.noNOSPAM> skrev i en meddelelse
news:B6bb8.6674$HL2.142741@news2.ulv.nextra.no...
> "Jens Vestergaard" <j@railsoft.dk> skrev i melding
> news:3c6ccde0$0$89096$edfadb0f@dspool01.news.tele.dk...
> > Kan man få adgang til en html-sides links-collection
> > (document.all.tags("A")) *uden* at læse den ind i en browser?

> Hva med å bruke Winsock til å koble til serveren, sende HTTP-headeren.
> Da mottar du kun ren HTML som ikke skal innom noen leser, ingen popup,
> ingen bilder, ingen script, rett og slett kun det du ønsker ...

Jep - det gør jeg også nu, men der er en række vanskeligheder...

> Så søker du etter "<a ", finder den, finner "</a>" som kommer etterpå

Let nok, men hvad står der ind imellem? Der står lidt <font>, lidt <div>,
lidt class=, lidt <b> og meget andet, som jeg skal have sorteret fra, hvis
jeg manuelt parser HTLM'en. Det *gør* jeg rent faktisk nu, men det er ikke
let at ramme rigtigt hver gang.

> Siden du mottar så lite informasjon fra server, så går også hastigheten
> opp. Da kan du hente frem siden du kommer til og snappe med deg det som
> står mellom <title> og </title> ... Hvorfor velge den vanskeligste måten

Det er præcis derfor jeg gerne vil udenom browseren - og altså gør det nu -
men det bliver for tit upræcist med de mange 'mærkelige' ting, webmastere
gør på deres sider nuomdage...

> Lykke til ... =)

Tak!


--
mvh
Jens Vestergaard
www.railsoft.dk



Erlend Klakegg Bergh~ (15-02-2002)
Kommentar
Fra : Erlend Klakegg Bergh~


Dato : 15-02-02 19:04

"Jens Vestergaard" <j@railsoft.dk> skrev i melding
news:3c6d4be7$0$89068$edfadb0f@dspool01.news.tele.dk...
> "Erlend Klakegg Bergheim" <erlendkb@online.noNOSPAM> skrev i en
meddelelse
> news:B6bb8.6674$HL2.142741@news2.ulv.nextra.no...
> > "Jens Vestergaard" <j@railsoft.dk> skrev i melding
> > news:3c6ccde0$0$89096$edfadb0f@dspool01.news.tele.dk...

> > Så søker du etter "<a ", finder den, finner "</a>" som kommer
etterpå
>
> Let nok, men hvad står der ind imellem? Der står lidt <font>, lidt
<div>,
> lidt class=, lidt <b> og meget andet, som jeg skal have sorteret fra,
hvis
> jeg manuelt parser HTLM'en. Det *gør* jeg rent faktisk nu, men det er
ikke
> let at ramme rigtigt hver gang.
>
> > Siden du mottar så lite informasjon fra server, så går også
hastigheten
> > opp. Da kan du hente frem siden du kommer til og snappe med deg det
som
> > står mellom <title> og </title> ... Hvorfor velge den vanskeligste
måten
>
> Det er præcis derfor jeg gerne vil udenom browseren - og altså gør det
nu -
> men det bliver for tit upræcist med de mange 'mærkelige' ting,
webmastere
> gør på deres sider nuomdage...

Det som står mellom <title> og </title> er det ingen mining å putte noen
flere tagger i, siden det ikke er noen vits i det ... Det som står
mellom <a> og </a> kan være slike ting som "Har du en ide til hvordan
hoste opp en tiøring du spiste for to dager siden, så trykk her" eller
bare "her" ... Jeg tror du bør åpne neste side og finne tittelen ....



Søg
Reklame
Statistik
Spørgsmål : 177558
Tips : 31968
Nyheder : 719565
Indlæg : 6408926
Brugere : 218888

Månedens bedste
Årets bedste
Sidste års bedste