|
| Ordliste ? [?off-topic?] Fra : rofe |
Dato : 07-04-03 12:21 |
|
Hejsa NG
Jeg ved ikke hvor jeg ellers skal stille dette spørgsmål, så jeg stiller det
her, i "den tro"/håb om, at andre har haft en ligende problemstilling, og
derfor har brugt en sådanne ordliste.
Jeg skal udvikle et system der benytter en form for datamining, ud fra nogle
nøgleord i en artikel. Det vil sige, ud fra nogle nøgleord. finde nogle
relationer mellem dem.
Før jeg har nøgleordene skal alle andre ord fjernes, og i den forbindelse
skal jeg bruge en ordliste der indeholder "stop-ord" på engelsk. Det vil
sige ord som this, one, me, him, go, count, sleep, eat, live osv. Kan ikke
huske hvad den type ord hedder (udsagnsord?), men den type ord jeg ønsker at
stå tilbage med som nøgleord er navneord/begreber som computer, c++,
network, database etc.
Er der nogle herinde der ligger inde med en ordliste af den type, eller ved
hvor jeg kan finde en sådanne ?
Hvis det er off-topic, hvilket jeg lidt frygter :o|
Så fut mig til den korrekte gruppe.
Med venlig hilsen
Ronni
rofe@FJERNDETTEmailme.dk
| |
allan (08-04-2003)
| Kommentar Fra : allan |
Dato : 08-04-03 17:26 |
|
rofe wrote:
> Hejsa NG
>
> Jeg ved ikke hvor jeg ellers skal stille dette spørgsmål, så jeg stiller det
> her, i "den tro"/håb om, at andre har haft en ligende problemstilling, og
> derfor har brugt en sådanne ordliste.
>
> Jeg skal udvikle et system der benytter en form for datamining, ud fra nogle
> nøgleord i en artikel. Det vil sige, ud fra nogle nøgleord. finde nogle
> relationer mellem dem.
> Før jeg har nøgleordene skal alle andre ord fjernes, og i den forbindelse
> skal jeg bruge en ordliste der indeholder "stop-ord" på engelsk. Det vil
> sige ord som this, one, me, him, go, count, sleep, eat, live osv. Kan ikke
> huske hvad den type ord hedder (udsagnsord?), men den type ord jeg ønsker at
> stå tilbage med som nøgleord er navneord/begreber som computer, c++,
> network, database etc.
>
> Er der nogle herinde der ligger inde med en ordliste af den type, eller ved
> hvor jeg kan finde en sådanne ?
>
> Hvis det er off-topic, hvilket jeg lidt frygter :o|
> Så fut mig til den korrekte gruppe.
>
>
> Med venlig hilsen
> Ronni
> rofe@FJERNDETTEmailme.dk
>
>
>
For at fjerne stopordene kan jeg lige komme i tanke om to løsninger. Den
ene er at finde en stopords liste på nettet. Jeg ved der findes en på
engelsk. Det er dog ikke en særlig fleksibel løsning da den kun kan
bruges til engelske tekster. En anden løsning er at lave en statistisk
analyse af ord forekomster. De ord der bliver brugt meget har en tendens
til at miste deres betydning. Det kræver dog nogle flere beregninger.
Det er dog ikke uproblematisk at fjerne stopord. Hvis du skal søge efter
Shakespeare og tekst strengen "to be or not to be" så vil man formentlig
ikke kunne finde noget da de alle er stopord
Til at finde ud af om et ord er et navne ord vil jeg tro du kan bruge en
thesaurus eller en ontologi. Jeg har dog ikke selv prøvet det men du
kunne prøve at kigge på noget der hedder wordnet. En anden ting du kunne
overveje er at gruppere navneord. For eksempel er mange enkelt ord på
engelsk ikke sammensatte som de er på dansk.(system administrator og
computer science)
Håber det kan bruges eller må du skrive tilbage
mvh. Allan
| |
|
|