Kandu.dk - Links uden browser [VB6]


/ Forside / Teknologi / Udvikling / VB/Basic / Nyhedsindlæg

Brugernavn*

Kodeord *

Husk mig

Brugerservice

Kom godt i gang

Bliv medlem

Seneste indlæg

Stil et spørgsmål

Skriv et tip

Pointsystemet

Kontakt Kandu.dk

Emnevisning

Kategorier

Alfabetisk

Karriere

Interesser

Teknologi

Reklame

Top 10 brugere

VB/Basic

#	Navn	Point
1	berpox	2425
2	pete	1435
3	CADmageren	1251
4	gibson	1230
5	Phylock	887
6	AntonV	790
7	strarup	750
8	Benjamin...	700
9	tom.kise	610
10	EXTERMINA..	600

Links uden browser [VB6]
Fra : Jens Vestergaard

Dato : 15-02-02 10:01

Hej Venner,

Kan man få adgang til en html-sides links-collection
(document.all.tags("A")) *uden* at læse den ind i en browser?

Jeg har kredset om emnet før her i gruppen... jeg vil gerne læse en række
websider og kigge dem igennem for bestemte links, men jeg er træt af alle de
scripts, popupvinduer m.v., der afvikles, hvis jeg bruger
browser-kontrollen.

Det hjælper - men er ikke nok - at sætte Browser.Silent = True.

Jeg kan naturligvis hente siderne som tekst med en Inet-kontrol, men så er
det, spørgsmålet kommer: Hvordan får jeg adgang til links-collecetion'en?

--
mvh
Jens Vestergaard
www.railsoft.dk

Morten Holdflod (15-02-2002)

Kommentar
Fra : Morten Holdflod

Dato : 15-02-02 11:41

> Jeg kan naturligvis hente siderne som tekst med en Inet-kontrol, men så er
> det, spørgsmålet kommer: Hvordan får jeg adgang til links-collecetion'en?

Du kan jo selv parse html'en og sellv bygge din links-collection...
Du skal jo bare kigge efter <A> og </A> så ved du jo hvor dine links står...

MVH
Morten Møller

Jens Vestergaard (15-02-2002)

Kommentar
Fra : Jens Vestergaard

Dato : 15-02-02 12:04

"Morten Holdflod" <u000646@daimi.au.dk> skrev i en meddelelse
news:a4ioci$h7i$1@sunsite.dk...
>
> > Jeg kan naturligvis hente siderne som tekst med en Inet-kontrol, men så
er
> > det, spørgsmålet kommer: Hvordan får jeg adgang til
links-collecetion'en?
>
> Du kan jo selv parse html'en og sellv bygge din links-collection...
> Du skal jo bare kigge efter <A> og </A> så ved du jo hvor dine links
står...

Naturligvis. Det gør jeg også, men du drømmer ikke om, hvad folk finder på
at skrive mellem <A href =....> og </A>. Hvis jeg skal have det 'rå' link og
den 'rå' linktekst, så er der *virkelig* mange elementer, der skal tjekkes
for. Et blandt flere banale problemer i den forbindelse er den inkonsekvente
brug af enkelt- eller dobbelt-citationstegn.

Desuden er de fleste links relative, så man skal 'gætte' det absolutte. Det
undgår man i den egentlige links-collention fra document.objektet.

--
mvh
Jens Vestergaard
www.railsoft.dk

Erlend Klakegg Bergh~ (15-02-2002)

Kommentar
Fra : Erlend Klakegg Bergh~

Dato : 15-02-02 17:58

"Jens Vestergaard" <j@railsoft.dk> skrev i melding
news:3c6ccde0$0$89096$edfadb0f@dspool01.news.tele.dk...
> Hej Venner,
>
> Kan man få adgang til en html-sides links-collection
> (document.all.tags("A")) *uden* at læse den ind i en browser?
>
> Jeg har kredset om emnet før her i gruppen... jeg vil gerne læse en
række
> websider og kigge dem igennem for bestemte links, men jeg er træt af
alle de
> scripts, popupvinduer m.v., der afvikles, hvis jeg bruger
> browser-kontrollen.
>
> Det hjælper - men er ikke nok - at sætte Browser.Silent = True.
>
> Jeg kan naturligvis hente siderne som tekst med en Inet-kontrol, men
så er
> det, spørgsmålet kommer: Hvordan får jeg adgang til
links-collecetion'en?

Hva med å bruke Winsock til å koble til serveren, sende HTTP-headeren.
Da mottar du kun ren HTML som ikke skal innom noen leser, ingen popup,
ingen bilder, ingen script, rett og slett kun det du ønsker ...

Så søker du etter "<a ", finder den, finner "</a>" som kommer etterpå
.... Siden du må skrive HTTP-headeren så vet du også nøyaktig hvor på
serveren du er, og når så webmaster skriver ../index.php så vet du at
det er index.php-filen i mappen under, ./ blir den gjeldende mappen osv
....

Siden du mottar så lite informasjon fra server, så går også hastigheten
opp. Da kan du hente frem siden du kommer til og snappe med deg det som
står mellom <title> og </title> ... Hvorfor velge den vanskeligste måten
?

Lykke til ... =)

--

Vennlig hilsen Erlend
erlendkb@online.no
ICQ 42053660
http://www.kleggen.com/

Jens Vestergaard (15-02-2002)

Kommentar
Fra : Jens Vestergaard

Dato : 15-02-02 18:59

"Erlend Klakegg Bergheim" <erlendkb@online.noNOSPAM> skrev i en meddelelse
news:B6bb8.6674$HL2.142741@news2.ulv.nextra.no...
> "Jens Vestergaard" <j@railsoft.dk> skrev i melding
> news:3c6ccde0$0$89096$edfadb0f@dspool01.news.tele.dk...
> > Kan man få adgang til en html-sides links-collection
> > (document.all.tags("A")) *uden* at læse den ind i en browser?

> Hva med å bruke Winsock til å koble til serveren, sende HTTP-headeren.
> Da mottar du kun ren HTML som ikke skal innom noen leser, ingen popup,
> ingen bilder, ingen script, rett og slett kun det du ønsker ...

Jep - det gør jeg også nu, men der er en række vanskeligheder...

> Så søker du etter "<a ", finder den, finner "</a>" som kommer etterpå

Let nok, men hvad står der ind imellem? Der står lidt <font>, lidt <div>,
lidt class=, lidt <b> og meget andet, som jeg skal have sorteret fra, hvis
jeg manuelt parser HTLM'en. Det *gør* jeg rent faktisk nu, men det er ikke
let at ramme rigtigt hver gang.

> Siden du mottar så lite informasjon fra server, så går også hastigheten
> opp. Da kan du hente frem siden du kommer til og snappe med deg det som
> står mellom <title> og </title> ... Hvorfor velge den vanskeligste måten

Det er præcis derfor jeg gerne vil udenom browseren - og altså gør det nu -
men det bliver for tit upræcist med de mange 'mærkelige' ting, webmastere
gør på deres sider nuomdage...

> Lykke til ... =)

Tak! Glad

--
mvh
Jens Vestergaard
www.railsoft.dk

Erlend Klakegg Bergh~ (15-02-2002)

Kommentar
Fra : Erlend Klakegg Bergh~

Dato : 15-02-02 19:04

"Jens Vestergaard" <j@railsoft.dk> skrev i melding
news:3c6d4be7$0$89068$edfadb0f@dspool01.news.tele.dk...
> "Erlend Klakegg Bergheim" <erlendkb@online.noNOSPAM> skrev i en
meddelelse
> news:B6bb8.6674$HL2.142741@news2.ulv.nextra.no...
> > "Jens Vestergaard" <j@railsoft.dk> skrev i melding
> > news:3c6ccde0$0$89096$edfadb0f@dspool01.news.tele.dk...

> > Så søker du etter "<a ", finder den, finner "</a>" som kommer
etterpå
>
> Let nok, men hvad står der ind imellem? Der står lidt <font>, lidt
<div>,
> lidt class=, lidt <b> og meget andet, som jeg skal have sorteret fra,
hvis
> jeg manuelt parser HTLM'en. Det *gør* jeg rent faktisk nu, men det er
ikke
> let at ramme rigtigt hver gang.
>
> > Siden du mottar så lite informasjon fra server, så går også
hastigheten
> > opp. Da kan du hente frem siden du kommer til og snappe med deg det
som
> > står mellom <title> og </title> ... Hvorfor velge den vanskeligste
måten
>
> Det er præcis derfor jeg gerne vil udenom browseren - og altså gør det
nu -
> men det bliver for tit upræcist med de mange 'mærkelige' ting,
webmastere
> gør på deres sider nuomdage...

Det som står mellom <title> og </title> er det ingen mining å putte noen
flere tagger i, siden det ikke er noen vits i det ... Det som står
mellom <a> og </a> kan være slike ting som "Har du en ide til hvordan
hoste opp en tiøring du spiste for to dager siden, så trykk her" eller
bare "her" ... Jeg tror du bør åpne neste side og finne tittelen ....

Søg

Reklame

Statistik

Spørgsmål :	177827
Tips :	31982
Nyheder :	719565
Indlæg :	6411018
Brugere :	218912

Månedens bedste

Årets bedste

Sidste års bedste