/ Forside / Teknologi / Operativsystemer / Linux / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
Linux
#NavnPoint
o.v.n. 11177
peque 7911
dk 4814
e.c 2359
Uranus 1334
emesen 1334
stone47 1307
linuxrules 1214
Octon 1100
10  BjarneD 875
Hurtigste wget?
Fra : Jimmy


Dato : 13-11-04 08:09

Hej

Jeg skal jævnligt hitte en større mængde URL's og forestillede mig, at man
kunne placere dem i en textfil og lade wget tage sig af det, men bare 500
URL's tager 41 sekunder, og det er endda med en test-URL, som kun har
begrænset output.

Jeg har forsøgt at angive --quota=1, men den hentede alligevel hele filen,
så der sparede jeg ikke noget tid.

Har I et forslag til hvordan jeg få hittet en stor mængde sider hurtigst
muligt, gerne med mulighed for at man ikke downloader deres output?

Mvh
Jimmy



 
 
Jesper Louis Anderse~ (13-11-2004)
Kommentar
Fra : Jesper Louis Anderse~


Dato : 13-11-04 08:31

Jimmy <bla@bla.bla> wrote:
> Hej
>
> Jeg skal j?vnligt hitte en st?rre m?ngde URL's og forestillede mig, at man
> kunne placere dem i en textfil og lade wget tage sig af det, men bare 500
> URL's tager 41 sekunder, og det er endda med en test-URL, som kun har
> begr?nset output.

Noget andet end wget, med nogle threads.

--
jlouis

Leif Neland (13-11-2004)
Kommentar
Fra : Leif Neland


Dato : 13-11-04 10:13

Jimmy wrote:
> Hej
>
> Jeg skal jævnligt hitte en større mængde URL's og forestillede mig,
> at man kunne placere dem i en textfil og lade wget tage sig af det,
> men bare 500 URL's tager 41 sekunder, og det er endda med en
> test-URL, som kun har begrænset output.

Du skal vel ikke fuske med at hitte bannerreklamer ?

> Jeg har forsøgt at angive --quota=1, men den hentede alligevel hele
> filen, så der sparede jeg ikke noget tid.
>
> Har I et forslag til hvordan jeg få hittet en stor mængde sider
> hurtigst muligt, gerne med mulighed for at man ikke downloader deres
> output?

wget --spider --force-html -i bookmarks.html

bookmarks.html skal så indeholde url'erne som <a href="....>...</a>, men det
er jo en one-liner at konvertere en liste af url'er til det.

Skal det speedes op, kan du jo dele tekstfilen op i f.ex. 10 dele og køre
dem parallelt, ved at backgrounde-processen
poll_url liste.del1 &
poll_url liste.del2 &
osv

Hvis du virkelig skal fuske med at hitte bannerreklamer, så skal du nok
kigge på --referer og --user-agent, for mere at ligne en human-operated
browser, og ikke en robot..



Kristian Thy (13-11-2004)
Kommentar
Fra : Kristian Thy


Dato : 13-11-04 11:35

Jimmy uttered:
> Har I et forslag til hvordan jeg få hittet en stor mængde sider hurtigst
> muligt, gerne med mulighed for at man ikke downloader deres output?

curl har mulighed for bare at hente HTTP-headers, så man sparer
nedlastningen af hele siden.

--
-- [ kristian ] --------------------------------------------------------
--------------- [if( you->toppost() ) { killfilter->append( you ); }] --
--

Thorbjoern Ravn Ande~ (13-11-2004)
Kommentar
Fra : Thorbjoern Ravn Ande~


Dato : 13-11-04 11:58

"Jimmy" <bla@bla.bla> writes:

> Har I et forslag til hvordan jeg få hittet en stor mængde sider hurtigst
> muligt, gerne med mulighed for at man ikke downloader deres output?

Lynx har et flag til kun at hente http-headeren

--
Thorbjørn Ravn Andersen
http://unixsnedkeren.dk - Unix, Java, Web, Netværk, Århus

Søg
Reklame
Statistik
Spørgsmål : 177552
Tips : 31968
Nyheder : 719565
Indlæg : 6408849
Brugere : 218887

Månedens bedste
Årets bedste
Sidste års bedste