Kandu.dk - [Spampal] Bayesian plugin


/ Forside / Teknologi / Internet / E-Mail / Nyhedsindlæg

Glemt dit kodeord?

Brugernavn*

Kodeord *

Husk mig

Brugerservice

Kom godt i gang

Bliv medlem

Seneste indlæg

Find en bruger

Stil et spørgsmål

Skriv et tip

Fortæl en ven

Pointsystemet

Kontakt Kandu.dk

Emnevisning

Kategorier

Alfabetisk

Karriere

Interesser

Teknologi

Reklame

Top 10 brugere

E-Mail

#	Navn	Point
1	o.v.n.	20481
2	miritdk	16341
3	Klaudi	15149
4	refi	14168
5	dk	5555
6	tedd	5322
7	webnoob	5265
8	BjarneD	5014
9	emesen	4154
10	bentjuul	3460

[Spampal] Bayesian plugin
Fra : Jesper Stocholm

Dato : 16-05-03 17:46

Jeg tester i øjeblikket plugin til Bayesian spamspotting i min spampal. Den
er pt. "kun" sat til at lære, så jeg holder lidt øje med headers i mine
indkommende emails.

Men der er noget jeg ikke forstår. I nogle af de spammails jeg modtager, er
der linien

X-Bayesian-Result: Clean (0)

Hvilket jeg regner med betyder, at plugin har accepteret emailen som
værende "valid". Men når jeg så skal "oplære" plugin, så går jeg ind i
menuen, hvor jeg kan se alle de emails jeg har modtaget. Men her står denne
email markeret med et rødt kryds (faktisk er selve krydset hvidt) - hvilket
må betyde, at den _her_ opfatter emailen som spam.

Hvordan skal jeg tolke denne opførsel ?

Glad

--
Jesper Stocholm - http://stocholm.dk - http://asp-faq.dk
Skriv venligst under det du svarer på og skær det overflødige væk.
Se evt hvorfor på http://www.usenet.dk/netikette/citatteknik.html
Svar venligt til gruppen og ikke til mig privat !

Peter G (17-05-2003)

Kommentar
Fra : Peter G

Dato : 17-05-03 10:40

Jesper Stocholm skrev:

> Hvordan skal jeg tolke denne opførsel ?

Du har sat Bayesian til (også) at lære fra de andre plugins og DNS-opslag
(nederst i "Options").

I dette tilfælde betyder det at Bayesian er "nybegynder" nok til først at
opfatte mailen som ren, har skrevet dette som en header, men har så bagefter
korrigeret sin opfattelse på grundlag af andre plugins/DNS-opslag
vurdering.

--
M.v.h. Peter. Email adresse er gyldig.
Korrigér endelig mit sprog, stavefejl, grammatik, kommatering m.m.
Jeg vil hellere tage ved lære end forblive uvidende om uvaner.

Jesper Stocholm (17-05-2003)

Kommentar
Fra : Jesper Stocholm

Dato : 17-05-03 18:57

Peter G wrote :

> Jesper Stocholm skrev:
>
>> Hvordan skal jeg tolke denne opførsel ?
>
> Du har sat Bayesian til (også) at lære fra de andre plugins og
> DNS-opslag (nederst i "Options").
>
> I dette tilfælde betyder det at Bayesian er "nybegynder" nok til først
> at opfatte mailen som ren, har skrevet dette som en header, men har så
> bagefter korrigeret sin opfattelse på grundlag af andre
> plugins/DNS-opslag vurdering.

aah ... det er korrekt. Den er nu fjernet - men hvordan kan jeg
"nulstille" mit Bayesian filter ? Jeg kunne godt tænke mig at se, hvor godt
det kan blive - uden at lære fra spampal og andre - men kun via dets
regler.

Og i øvrigt ... sådan et Bayesian filter - det kan ikke lære "af sig selv",
vel ? Det er vel nødt til at have nogle ord til at begynde med - så som
"porn", "pr0n" etc ? Er det nok at indlæse en ny kopi af wordlist.dat (hvor
finder jeg sådan en ny en ) ?

Glad

--
Jesper Stocholm - http://stocholm.dk
if you are competing with the darknet, you must compete on the darknet's
own terms: that is convenience and low cost rather than additional
security. ( http://crypto.stanford.edu/DRM2002/darknet5.doc )

Anders Lund (17-05-2003)

Kommentar
Fra : Anders Lund

Dato : 17-05-03 19:27

Jesper Stocholm <j@stocholm.invalid> wrote in
news:Xns937ECAE4FA7F7spamstocholmdk@130.226.1.34:

> Og i øvrigt ... sådan et Bayesian filter - det kan ikke lære "af sig
> selv", vel ? Det er vel nødt til at have nogle ord til at begynde med
> - så som "porn", "pr0n" etc ? Er det nok at indlæse en ny kopi af
> wordlist.dat (hvor finder jeg sådan en ny en ) ?

Nu ved jeg ikke lige hvordan filteret fungere i Spampal, men i POPFile
(hvor konceptet burde være det samme) fortæller mand ikke filteret hvilke
ord som er spam, men derimod fortæller man hvilke mails som er spam.

Så lægger den alle de ord som den har lært i forskellige "kasser" (en kasse
med spam ord og en kasse med reele ord) og giver dem point. Når du så
modtager den næste mail, kigger filteret mailen igennem og sammenligner de
ord som er i mailen, med de ord som den har i de forskellige "kasser". Ud
fra de ord beregner den hvad sandsynligheden er for at mailen er spam eller
ej.

Dette betyder at filteret i starten laver en del fejl, men det bliver dog
hurtig klog på tingene. Mit filter ligger med en træfsikkerhed på 99,73%
lige nu. Dette er dog ikke medtalt de først par uger hvor filteret skulle
læres op.

Så hver gang filteret tager fejl ved en mail, retter du fejlen og filteret
har nu lært det til næste gang. Filteret lære selvfølgelig også af de
mails, som det gætter korrekt.

--
Anders Lund - spam2003@andersonline.dk
"The real question is this: If no human being can ever
hope to check a proof, is it really a proof?" - Ron Graham

Peter G (17-05-2003)

Kommentar
Fra : Peter G

Dato : 17-05-03 21:52

Jesper Stocholm skrev:

> aah ... det er korrekt. Den er nu fjernet - men hvordan kan jeg
> "nulstille" mit Bayesian filter ? Jeg kunne godt tænke mig at se, hvor
> godt det kan blive - uden at lære fra spampal og andre - men kun via
> dets regler.

Du renser/sletter "wordlist.dat" som indeholder listen af ord.

> Og i øvrigt ... sådan et Bayesian filter - det kan ikke lære "af sig
> selv", vel ? Det er vel nødt til at have nogle ord til at begynde med
> - så som "porn", "pr0n" etc ? Er det nok at indlæse en ny kopi af
> wordlist.dat (hvor finder jeg sådan en ny en ) ?

Både og. Betragt det som en hundehvalp, der skal fortælles hvad er korrekt
og forkert. Dernæst begynder den at genkende mønstre.
De første par spammails skal du fortælle den er spam. Dernæst kan den med
større sandsynlighed genkende fremtidige spammails.

På et tidspunkt vil "genkendte" spamord overlappe fra genkendt spam til
ukendt spam i sådan en grad, at den vil genkende ukendt spam med
tilstrækkelig sikkerhed. Nye, ukendte spamord vil så også blive
klassificeret som overvejende spamord og så fremdeles.

--
M.v.h. Peter. Email adresse er gyldig.
Korrigér endelig mit sprog, stavefejl, grammatik, kommatering m.m.
Jeg vil hellere tage ved lære end forblive uvidende om uvaner.

Jacob Bunk Nielsen (17-05-2003)

Kommentar
Fra : Jacob Bunk Nielsen

Dato : 17-05-03 20:08

Jesper Stocholm <j@stocholm.invalid> writes:

> Og i øvrigt ... sådan et Bayesian filter - det kan ikke lære "af sig selv",
> vel ?

Nej, det kan det ikke. Man skal hjælpe det igang.

Paul Grahams "A plan for spam" er i øvrigt interessant læsning, hvis
man vil rode med Bayesian filtre. Den finder du på
<http://www.paulgraham.com/spam.html>

Der er også eksempler på hvordan de forskellige dele kan implementeres
(i LISP).

--
Jacob - www.bunk.cc
Interference between the keyboard and the chair.

Søg

Reklame

Statistik

Spørgsmål :	177754
Tips :	31970
Nyheder :	719565
Indlæg :	6410431
Brugere :	218905

Månedens bedste

Årets bedste

Sidste års bedste