/ Forside / Teknologi / Internet / E-Mail / Nyhedsindlæg
Login
Glemt dit kodeord?
Brugernavn

Kodeord


Reklame
Top 10 brugere
E-Mail
#NavnPoint
o.v.n. 20481
miritdk 16341
Klaudi 15149
refi 14168
dk 5555
tedd 5322
webnoob 5265
BjarneD 5014
emesen 4154
10  bentjuul 3460
[Spampal] Bayesian plugin
Fra : Jesper Stocholm


Dato : 16-05-03 17:46

Jeg tester i øjeblikket plugin til Bayesian spamspotting i min spampal. Den
er pt. "kun" sat til at lære, så jeg holder lidt øje med headers i mine
indkommende emails.

Men der er noget jeg ikke forstår. I nogle af de spammails jeg modtager, er
der linien

X-Bayesian-Result: Clean (0)

Hvilket jeg regner med betyder, at plugin har accepteret emailen som
værende "valid". Men når jeg så skal "oplære" plugin, så går jeg ind i
menuen, hvor jeg kan se alle de emails jeg har modtaget. Men her står denne
email markeret med et rødt kryds (faktisk er selve krydset hvidt) - hvilket
må betyde, at den _her_ opfatter emailen som spam.

Hvordan skal jeg tolke denne opførsel ?



--
Jesper Stocholm - http://stocholm.dk - http://asp-faq.dk
Skriv venligst under det du svarer på og skær det overflødige væk.
Se evt hvorfor på http://www.usenet.dk/netikette/citatteknik.html
Svar venligt til gruppen og ikke til mig privat !

 
 
Peter G (17-05-2003)
Kommentar
Fra : Peter G


Dato : 17-05-03 10:40

Jesper Stocholm skrev:

> Hvordan skal jeg tolke denne opførsel ?

Du har sat Bayesian til (også) at lære fra de andre plugins og DNS-opslag
(nederst i "Options").

I dette tilfælde betyder det at Bayesian er "nybegynder" nok til først at
opfatte mailen som ren, har skrevet dette som en header, men har så bagefter
korrigeret sin opfattelse på grundlag af andre plugins/DNS-opslag
vurdering.

--
M.v.h. Peter. Email adresse er gyldig.
Korrigér endelig mit sprog, stavefejl, grammatik, kommatering m.m.
Jeg vil hellere tage ved lære end forblive uvidende om uvaner.

Jesper Stocholm (17-05-2003)
Kommentar
Fra : Jesper Stocholm


Dato : 17-05-03 18:57

Peter G wrote :

> Jesper Stocholm skrev:
>
>> Hvordan skal jeg tolke denne opførsel ?
>
> Du har sat Bayesian til (også) at lære fra de andre plugins og
> DNS-opslag (nederst i "Options").
>
> I dette tilfælde betyder det at Bayesian er "nybegynder" nok til først
> at opfatte mailen som ren, har skrevet dette som en header, men har så
> bagefter korrigeret sin opfattelse på grundlag af andre
> plugins/DNS-opslag vurdering.

aah ... det er korrekt. Den er nu fjernet - men hvordan kan jeg
"nulstille" mit Bayesian filter ? Jeg kunne godt tænke mig at se, hvor godt
det kan blive - uden at lære fra spampal og andre - men kun via dets
regler.

Og i øvrigt ... sådan et Bayesian filter - det kan ikke lære "af sig selv",
vel ? Det er vel nødt til at have nogle ord til at begynde med - så som
"porn", "pr0n" etc ? Er det nok at indlæse en ny kopi af wordlist.dat (hvor
finder jeg sådan en ny en ) ?



--
Jesper Stocholm - http://stocholm.dk
if you are competing with the darknet, you must compete on the darknet's
own terms: that is convenience and low cost rather than additional
security. ( http://crypto.stanford.edu/DRM2002/darknet5.doc )

Anders Lund (17-05-2003)
Kommentar
Fra : Anders Lund


Dato : 17-05-03 19:27

Jesper Stocholm <j@stocholm.invalid> wrote in
news:Xns937ECAE4FA7F7spamstocholmdk@130.226.1.34:

> Og i øvrigt ... sådan et Bayesian filter - det kan ikke lære "af sig
> selv", vel ? Det er vel nødt til at have nogle ord til at begynde med
> - så som "porn", "pr0n" etc ? Er det nok at indlæse en ny kopi af
> wordlist.dat (hvor finder jeg sådan en ny en ) ?

Nu ved jeg ikke lige hvordan filteret fungere i Spampal, men i POPFile
(hvor konceptet burde være det samme) fortæller mand ikke filteret hvilke
ord som er spam, men derimod fortæller man hvilke mails som er spam.

Så lægger den alle de ord som den har lært i forskellige "kasser" (en kasse
med spam ord og en kasse med reele ord) og giver dem point. Når du så
modtager den næste mail, kigger filteret mailen igennem og sammenligner de
ord som er i mailen, med de ord som den har i de forskellige "kasser". Ud
fra de ord beregner den hvad sandsynligheden er for at mailen er spam eller
ej.

Dette betyder at filteret i starten laver en del fejl, men det bliver dog
hurtig klog på tingene. Mit filter ligger med en træfsikkerhed på 99,73%
lige nu. Dette er dog ikke medtalt de først par uger hvor filteret skulle
læres op.

Så hver gang filteret tager fejl ved en mail, retter du fejlen og filteret
har nu lært det til næste gang. Filteret lære selvfølgelig også af de
mails, som det gætter korrekt.

--
Anders Lund - spam2003@andersonline.dk
"The real question is this: If no human being can ever
hope to check a proof, is it really a proof?" - Ron Graham

Peter G (17-05-2003)
Kommentar
Fra : Peter G


Dato : 17-05-03 21:52

Jesper Stocholm skrev:

> aah ... det er korrekt. Den er nu fjernet - men hvordan kan jeg
> "nulstille" mit Bayesian filter ? Jeg kunne godt tænke mig at se, hvor
> godt det kan blive - uden at lære fra spampal og andre - men kun via
> dets regler.

Du renser/sletter "wordlist.dat" som indeholder listen af ord.

> Og i øvrigt ... sådan et Bayesian filter - det kan ikke lære "af sig
> selv", vel ? Det er vel nødt til at have nogle ord til at begynde med
> - så som "porn", "pr0n" etc ? Er det nok at indlæse en ny kopi af
> wordlist.dat (hvor finder jeg sådan en ny en ) ?

Både og. Betragt det som en hundehvalp, der skal fortælles hvad er korrekt
og forkert. Dernæst begynder den at genkende mønstre.
De første par spammails skal du fortælle den er spam. Dernæst kan den med
større sandsynlighed genkende fremtidige spammails.

På et tidspunkt vil "genkendte" spamord overlappe fra genkendt spam til
ukendt spam i sådan en grad, at den vil genkende ukendt spam med
tilstrækkelig sikkerhed. Nye, ukendte spamord vil så også blive
klassificeret som overvejende spamord og så fremdeles.

--
M.v.h. Peter. Email adresse er gyldig.
Korrigér endelig mit sprog, stavefejl, grammatik, kommatering m.m.
Jeg vil hellere tage ved lære end forblive uvidende om uvaner.

Jacob Bunk Nielsen (17-05-2003)
Kommentar
Fra : Jacob Bunk Nielsen


Dato : 17-05-03 20:08

Jesper Stocholm <j@stocholm.invalid> writes:

> Og i øvrigt ... sådan et Bayesian filter - det kan ikke lære "af sig selv",
> vel ?

Nej, det kan det ikke. Man skal hjælpe det igang.

Paul Grahams "A plan for spam" er i øvrigt interessant læsning, hvis
man vil rode med Bayesian filtre. Den finder du på
<http://www.paulgraham.com/spam.html>

Der er også eksempler på hvordan de forskellige dele kan implementeres
(i LISP).

--
Jacob - www.bunk.cc
Interference between the keyboard and the chair.

Søg
Reklame
Statistik
Spørgsmål : 177552
Tips : 31968
Nyheder : 719565
Indlæg : 6408848
Brugere : 218887

Månedens bedste
Årets bedste
Sidste års bedste