/ Forside/ Teknologi / Udvikling / ASP / Spørgsmål
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
ASP
#NavnPoint
smorch 9259
Harlekin 1866
molokyle 1040
Steffanst.. 758
gandalf 657
smilly 564
gibson 560
cumano 530
MouseKeep.. 480
10  Random 410
Hente HTML dokumenter til bearbejdning i~
Fra : urban
Vist : 1170 gange
20 point
Dato : 29-06-01 12:12

Hej

Hvordan kan jeg få min ASP til at hente andre dokumenter på nettet, så jeg får mulighed for, at min ASP kan manipulere eller søge i HTML-koderne? Jeg skal f.eks. bruge det til at lave en ASP-routine, der kan indekserer udvalgte sider på nettet og lægge relevante keywords i en Database, så jeg på den måde kan lave en søgemaskine.

Mvh
Urban

 
 
Kommentar
Fra : Nyhedsbruger


Dato : 29-06-01 11:30

"urban" <urban.news@kandu.dk> wrote in news:9vY_6.394$DJ5.44018
@news010.worldonline.dk:

> Hej
>
> Hvordan kan jeg få min ASP til at hente andre dokumenter på nettet, så
> jeg får mulighed for, at min ASP kan manipulere eller søge i
> HTML-koderne? Jeg skal f.eks. bruge det til at lave en ASP-routine, der
> kan indekserer udvalgte sider på nettet og lægge relevante keywords i en
> Database, så jeg på den måde kan lave en søgemaskine.
>

som udgangspunkt skal du have en måde at etablere en forbindelse til en
anden webserver med. Dette kan enten ske vha en 3.part komponent som
W3Sockets [1] (hvis det skal være avanceret) eller du kan anvende den
feature, der ligger i MSXML3 [2], der hedder ServerXMLHTTP til at hente
informationerne fra et andet website [3].

[1] http://tech.dimac.net
[2] http://msdn.microsoft.com/downloads/sample.asp?url=/msdn-
files/027/001/591/msdncompositedoc.xml&frame=true
[3] Den er godt nok lavet til at hente XML-data direkte ind i DOM, men den
kan sagtens bruges til det andet.

.... og så er det bare at gå i gang.



--
I wrote to George W. Bush - see why at
http://stocholm.dk/emailgeorgewbush.asp

- Jesper Stocholm - http://stocholm.dk

Kommentar
Fra : Nyhedsbruger


Dato : 29-06-01 11:57

Jesper Stocholm <spam@stocholm.dk> wrote in
news:Xns90CF7F44B84D5spamstocholmdk@192.38.208.81:

> "urban" <urban.news@kandu.dk> wrote in news:9vY_6.394$DJ5.44018
> @news010.worldonline.dk:
>
> [1] http://tech.dimac.net
> [2] http://msdn.microsoft.com/downloads/sample.asp?url=/msdn-
> files/027/001/591/msdncompositedoc.xml&frame=true
> [3] Den er godt nok lavet til at hente XML-data direkte ind i DOM, men
> den kan sagtens bruges til det andet.
>
> ... og så er det bare at gå i gang.
>

jeg spurgte om hjælp til W3sockets i marts, og prøv at kigge i den tråd :
http://groups.google.com/groups?hl=en&safe=off&ic=1&th=d9be238cf73c359f,14
&seekm=Xns9076A99BA1FAFspamstocholmdk%40192.38.208.81#p



--
I wrote to George W. Bush - see why at
http://stocholm.dk/emailgeorgewbush.asp

- Jesper Stocholm - http://stocholm.dk

Kommentar
Fra : Nyhedsbruger


Dato : 29-06-01 12:28

Jesper Stocholm <spam@stocholm.dk> wrote in
news:Xns90CF7F44B84D5spamstocholmdk@192.38.208.81:

> "urban" <urban.news@kandu.dk> wrote in news:9vY_6.394$DJ5.44018
> @news010.worldonline.dk:
>
>> Hej
>>
>> Hvordan kan jeg få min ASP til at hente andre dokumenter på nettet, så
>> jeg får mulighed for, at min ASP kan manipulere eller søge i
>> HTML-koderne? Jeg skal f.eks. bruge det til at lave en ASP-routine,
>> der kan indekserer udvalgte sider på nettet og lægge relevante
>> keywords i en Database, så jeg på den måde kan lave en søgemaskine.
>>
>
> [3] Den er godt nok lavet til at hente XML-data direkte ind i DOM, men
> den kan sagtens bruges til det andet.
>

Og lidt kode til dig:

<%
dim xmlServerHttp,str_url, str_bodyhtml
set xmlServerHttp = createobject("Msxml2.serverXmlHttp")
str_url = "<den URL du vil hente HTML fra>"
xmlServerHttp.open "GET", str_url, False
xmlServerHttp.send
str_bodyhtml = xmlServerHttp.responsetext
%>

--
I wrote to George W. Bush - see why at
http://stocholm.dk/emailgeorgewbush.asp

- Jesper Stocholm - http://stocholm.dk

Kommentar
Fra : Nyhedsbruger


Dato : 02-07-01 12:57

> >> Hvordan kan jeg få min ASP til at hente andre dokumenter på nettet, så
> >> jeg får mulighed for, at min ASP kan manipulere eller søge i
> >> HTML-koderne? Jeg skal f.eks. bruge det til at lave en ASP-routine,
> >> der kan indekserer udvalgte sider på nettet og lægge relevante
> >> keywords i en Database, så jeg på den måde kan lave en søgemaskine.
> >>
> Og lidt kode til dig:
>
> <%
> dim xmlServerHttp,str_url, str_bodyhtml
> set xmlServerHttp = createobject("Msxml2.serverXmlHttp")
> str_url = "<den URL du vil hente HTML fra>"
> xmlServerHttp.open "GET", str_url, False
> xmlServerHttp.send
> str_bodyhtml = xmlServerHttp.responsetext
> %>
>

Denne fungerer utmerket - men hvordan kan en få lest danske/norske tegn?
Prøv f.eks å sette inn http://www.jp.dk som str_url-variabel, og en ser at
de danske tegn blir gjengitt som spørsmålstegn. Det samme skjer med f.eks
www.dagbladet.no og www.vg.no. Men om en forsøker www.aftenposten.no blir de
norske tegnene riktige. Det går frem av kildekoden at æøå hos Aftenposten er
skrevet som html-eniteter, (&aelig; osv) og på de øvrige sidene som ren
tekst. Er det f.eks mulig å tvinge xml-komponenten til å lese æøå som
html-entiteter ved å bruke Replace(), eller finnes det andre løsninger på
dette?

(På siter der en selv har kontrollen er det selvfølgelig ikke noe problem å
kode siden med html-entiteter, men om en ønsker å hente inn stoff fra andre
steder for f.eks å lage en søkemotor, blir disse spørsmålstegnene
irriterende...)

Mvh
Svein




Kommentar
Fra : Nyhedsbruger


Dato : 05-07-01 21:44

urban wrote in dk.edb.internet.webdesign.serverside.asp:
> Hvordan kan jeg få min ASP til at hente andre dokumenter
> på nettet, så jeg får mulighed for, at min ASP kan manipulere
> eller søge i HTML-koderne?

Ud over de svar du allerede har fået kan du også prøve at kigge her:
http://www.html.dk/scripts/asp/00008/

Mvh
Jonas

--
Brug Validator service: http://www.html.dk/validator
- Tast din URL én gang, og validér dokumentet hos 12 validatorer
- Understøtter HTML, CSS og søgemaskineoptimering

Kommentar
Fra : Nyhedsbruger


Dato : 05-07-01 23:12

"Svein Høvik" <svein@(spamfilter)hovik.com> wrote in
news:3b405de6$1@rnsv-1.ringnett.no:

>> >> Hvordan kan jeg få min ASP til at hente andre dokumenter på nettet,
>> >> så jeg får mulighed for, at min ASP kan manipulere eller søge i
>> >> HTML-koderne? Jeg skal f.eks. bruge det til at lave en ASP-routine,
>> >> der kan indekserer udvalgte sider på nettet og lægge relevante
>> >> keywords i en Database, så jeg på den måde kan lave en søgemaskine.
>> >>
>> Og lidt kode til dig:
>>
>> <%
>> dim xmlServerHttp,str_url, str_bodyhtml
>> set xmlServerHttp = createobject("Msxml2.serverXmlHttp")
>> str_url = "<den URL du vil hente HTML fra>"
>> xmlServerHttp.open "GET", str_url, False xmlServerHttp.send
>> str_bodyhtml = xmlServerHttp.responsetext %>
>>
>
> Denne fungerer utmerket - men hvordan kan en få lest danske/norske
> tegn? Prøv f.eks å sette inn http://www.jp.dk som str_url-variabel, og
> en ser at de danske tegn blir gjengitt som spørsmålstegn. Det samme
> skjer med f.eks www.dagbladet.no og www.vg.no. Men om en forsøker
> www.aftenposten.no blir de norske tegnene riktige. Det går frem av
> kildekoden at æøå hos Aftenposten er skrevet som html-eniteter,
> (&aelig; osv) og på de øvrige sidene som ren tekst. Er det f.eks mulig
> å tvinge xml-komponenten til å lese æøå som html-entiteter ved å bruke
> Replace(), eller finnes det andre løsninger på dette?
>
> (På siter der en selv har kontrollen er det selvfølgelig ikke noe
> problem å kode siden med html-entiteter, men om en ønsker å hente inn
> stoff fra andre steder for f.eks å lage en søkemotor, blir disse
> spørsmålstegnene irriterende...)
>

serverXMLHTTP kigger på det charset, som siden er skrevet i. Derfor kan du
løse dit problem ved at sikre dig, at siden medgiver charset i headeren - og
det skal i dette tilfælde være ISO-8859-1

Hvis du ikke har adgang til dette, så kan du udskifte META-linien i den HTML
der hentes med en, der angiver, at det er en ISO-side. Hvis du kigger i
kildekoden (HTML-koden) i de data, der hentes, så er de så vidt jeg kan
huske intakte - det er blot browseren, der viser den "forkert".

Ellers synes jeg du skal kigge på W3 Sockets fra Dimac - det er ikke så
svært at bruge.




--
I wrote to George W. Bush - see why at
http://stocholm.dk/emailgeorgewbush.asp

- Jesper Stocholm - http://stocholm.dk

Kommentar
Fra : Nyhedsbruger


Dato : 06-07-01 12:30


> serverXMLHTTP kigger på det charset, som siden er skrevet i. Derfor kan du
> løse dit problem ved at sikre dig, at siden medgiver charset i headeren -
og
> det skal i dette tilfælde være ISO-8859-1
>
Dette går fint på de sider jeg selv har kontroll over, problemet oppstår når
jeg henter sider fra andre steder.


> Hvis du ikke har adgang til dette, så kan du udskifte META-linien i den
HTML
> der hentes med en, der angiver, at det er en ISO-side. Hvis du kigger i
> kildekoden (HTML-koden) i de data, der hentes, så er de så vidt jeg kan
> huske intakte - det er blot browseren, der viser den "forkert".

Takk for rådet, men jeg har allerede forsøkt dette. I kildekoden står det
også feil, slik at det er under selve forespørselen til ekstern server noe
går galt.

Svein




Kommentar
Fra : urban


Dato : 16-01-02 15:11

Hej

Tak for alle svarene, men når jeg nu ikke har min egen server, og bruger et webhotel hos http://www.a0.dk , hvordan kan jeg så få adgang til dokument-kilden - det er umiddelbart ikke muligt at bruge W3 Sockets fra Dimac hos A-Zero

Mvh
Urban

Accepteret svar
Fra : stevnhoved

Modtaget 20 point
Dato : 16-01-02 16:59

Hej Urban

Den komponent jeg beskriver har AZero liggende.
Jeg bruger det i hvert fald hos dem på www.dsukbh.dk

Så prøv den kode jeg skrev i mit sidste indlæg.

Mvh
Martin


Godkendelse af svar
Fra : urban


Dato : 17-01-02 01:06

Tak for svaret stevnhoved.

Det svar har jeg ledt efter i over et år, det er lidt af en revolution for mig.
Du har fået en stor stjerne i min bog!

Mvh
Urban

Du har følgende muligheder
Eftersom du ikke er logget ind i systemet, kan du ikke skrive et indlæg til dette spørgsmål.

Hvis du ikke allerede er registreret, kan du gratis blive medlem, ved at trykke på "Bliv medlem" ude i menuen.
Søg
Reklame
Statistik
Spørgsmål : 177558
Tips : 31968
Nyheder : 719565
Indlæg : 6408914
Brugere : 218888

Månedens bedste
Årets bedste
Sidste års bedste