Kandu.dk - Stikprøve igen igen.


/ Forside / Karriere / Uddannelse / Højere uddannelser / Nyhedsindlæg

Brugernavn*

Kodeord *

Husk mig

Brugerservice

Kom godt i gang

Bliv medlem

Seneste indlæg

Stil et spørgsmål

Skriv et tip

Pointsystemet

Kontakt Kandu.dk

Emnevisning

Kategorier

Alfabetisk

Karriere

Interesser

Teknologi

Reklame

Top 10 brugere

Højere uddannelser

#	Navn	Point
1	Nordsted1	1588
2	erling_l	1224
3	ans	1150
4	dova	895
5	gert_h	800
6	molokyle	661
7	berpox	610
8	creamygirl	610
9	3773	570
10	jomfruane	570

Stikprøve igen igen.
Fra : Carsten Riis

Dato : 29-04-02 18:31

Hej stat-hajer og talknusere.

Jeg fik ikke rigtig svar sidste gang jeg spurgte og det var sikkert
fordi jeg ikke lavede benarbejdet godt nok. Nu har jeg så holdt lidt
pause med det der stikprøve-halløj og mener da også, at jeg kommet et
stykke videre:

Jeg har flere populationer som hver har en begrænset antal observationer
i sig. Fx en jobdatabase indeholder 1984 stillingsopslag.
Jeg har besluttet jeg vil udtage en stikprøve som med 95% sikkerhed kan
sige noget om totalpopulationen.
Det jeg vil finde er antal stilingsopslag med aldersprofil. Og hvorledes
disse profiler ser ud.

Nu er der i min tykke statistikbog har følgende formel for
stikprøveudtagning (jeg tilpasser den lige til ren tekst).

N * pstreg*(1 - pstreg)
n = -----------------------------------
N * (B^2 / 4) + pstreg*(1 - pstreg)

pstreg er sandsynligheden for en bestemt observation
n er stikprøvestørrelse
N er populationen
B er hvad er i bogen kaldes sampling error.

Den bestemte observation skal være at en observation indeholder en
aldersprofil. Jeg har ved undersøgelse af stillingsopslag fundet ud af,
at 15% af stillingsopslagene i aviserne indeholder en aldersprofil.
Disse 15% kan jeg bruge som udgangspunkt for stillingsopslag i
jobdatabaserne.

Det er jeg ikke forstår er hvad der menes med sampling error. Jeg har
fået fingre i en norsk statistikbog som kalder for sikkerhedsniveau.

I forklaringen i den engelske bog omkring sampling error, så skriver de
noget om, at det de fejl som man ikke kan undgåes, når man udtager en
stikprøve dvs. der ville ingen sampling error være, hvis man udtog hele
populationen.
Det er jo ret logisk.
Og der er da også en formel som kan udregne sampling error.
Men der hvor jeg syntes det bliver kryptisk er, at man skal kende
stikprøvestørrelsen for kunne beregne sampling error. Det er sikkert
også helt rigtig.
Det kryptiste er hvorledes kan jeg beregne n, som er afhængig af B, som
igen er afhængig af n.
Sådan som jeg ser det er det hønen og ægget om igen.

Back to reality:

Jeg har jo besluttet, at jeg vil vide noget med 95% sikkerhed om
populationen dvs. at der er 5% usikkerhed.
Derudover ved jeg at der i aviser er i 15% af stillingsopslagene som
indeholder en aldersprofil.
Populationen er på 1984 stillingsopslag.
Stikprøven udtages simpel tilfældig.

N = 1984
B = 0,05
pstreg = 0,15

Når jeg så putter disse tal i formlen, så får jeg en stikprøvestørrelse
på 49,72 observationer.
Oprundet vil det sige 50 tilfældigt udtrukne observationer kan sige
noget om populationen med 95% sikkerhed.

Er det rigtig forstået?
Hvis ikke, så forklar mig venligst lige hvad jeg så skal gøre for at
udtage en stikprøve som med 95% sikkerhed kan sige noget om
populationens aldersprofil i omfang og struktur.

Jeg er ved at gå Chiquita over alle de formler.

Med desperate hilsner

Carsten Riis

Nospam (29-04-2002)

Kommentar
Fra : Nospam

Dato : 29-04-02 21:31

Så vidt jeg husker, kan du ikke bare tage en stikprøve, der med 95%
konfidensinterval kan fortælle noget om totalpopulationen.
Det du skal gøre, er at bruge en normalforselingsmodel og opstille hypotesen
om, at den udtagne stikprøve kan antages at stamme fra samme population...
Hvis hypotesen Ho kan antages at være korrekt, skal du lave en t-test på
data, for at undersøge om data er forenelige med den opstillede hypotese.
Det er i den forbindelse at 95% konfidensintervallet kommer ind i
sammenhængen...

Jeg klipper lige fra en tidligere opgave
Test / signifikans

En statistisk test, giver mulighed for at undersøge om data er forenelige
med den opstillede hypotese. Formålet med den statistiske test er at
undersøge om data understøtter eller modsiger nulhypotesen. I statistik
benytter man normalt de såkaldte signifikansgrænser 95%, 99% og 99,9%. Med
disse grænser menes, at hvis udfaldet af et forsøg tilhører de yderste
grænser af mulige udfald, må nulhypotesen man har opstillet ikke kunne
accepteres.

Teststørrelsen beregnes på baggrund af observationerne og beregningen af
teststørrelsen afhænger af, hvilken sandsynlighedsfordeling der beregnes ud
fra.. Det er vigtigt, at det er muligt at bestemme hvilken fordeling
test-størrelsen stammer fra, under forudsætning af at H0 er sand.

Eksempel

[http://www.psychstat.smsu.edu/introbook/sbk23.htm]

Hvis signifikansgrænsen er 95% ( det gule skraverede område i billedet) og
der er 14 observationer i en tosidet variansanalyse slås der op i en tabel
under tosidede P-værdier på 0.05 og bruger rækken med 13 frihedsgrader. Den
tilsvarende fraktil er fundet til 2.160. Altså vil værdier af
test-størrelsen t der under -2,160 og over 2.160 blive betragtet som værende
i modstrid med H0 hypotesen, hvilket medfører at nulhypotesen forkastes, da
kun 5 ud af 100 stikprøver rammer i det gule område

[http://www.statdem.sdu.dk/undervis/basal/oversigt3.html]

Selvom, at det er almindeligt at lægge et signifikansgrænsen omkring 95 %,
er det muligt at lægge hvilket som helst signifikansniveau, alt efter hvor
sikker man er på den statistiske model og de antagelser der er forbundet med
denne model. Hvis man i stedet lægger signifikansgrænsen på 10 % vil dette
medføre, at man forkaster flere nulhypoteser, samtidig med, at hvis
signifikansgrænsen lægges under 95% vil flere nulhypoteser blive godtaget

jo mindre signifikansniveau, man vælger jo mere skal stikprøvens middelværdi
afvige fra den teoretiske middelværdi før nulhypotesen forkastes.

/Martin

"Carsten Riis" <carsten.riis@privat.dk> wrote in message
news:3CCD833A.582AFE77@privat.dk...
> Hej stat-hajer og talknusere.
>
> Jeg fik ikke rigtig svar sidste gang jeg spurgte og det var sikkert
> fordi jeg ikke lavede benarbejdet godt nok. Nu har jeg så holdt lidt
> pause med det der stikprøve-halløj og mener da også, at jeg kommet et
> stykke videre:
>
> Jeg har flere populationer som hver har en begrænset antal observationer
> i sig. Fx en jobdatabase indeholder 1984 stillingsopslag.
> Jeg har besluttet jeg vil udtage en stikprøve som med 95% sikkerhed kan
> sige noget om totalpopulationen.
> Det jeg vil finde er antal stilingsopslag med aldersprofil. Og hvorledes
> disse profiler ser ud.
>
>
> Nu er der i min tykke statistikbog har følgende formel for
> stikprøveudtagning (jeg tilpasser den lige til ren tekst).
>
>
> N * pstreg*(1 - pstreg)
> n = -----------------------------------
> N * (B^2 / 4) + pstreg*(1 - pstreg)
>
>
> pstreg er sandsynligheden for en bestemt observation
> n er stikprøvestørrelse
> N er populationen
> B er hvad er i bogen kaldes sampling error.
>
> Den bestemte observation skal være at en observation indeholder en
> aldersprofil. Jeg har ved undersøgelse af stillingsopslag fundet ud af,
> at 15% af stillingsopslagene i aviserne indeholder en aldersprofil.
> Disse 15% kan jeg bruge som udgangspunkt for stillingsopslag i
> jobdatabaserne.
>
>
>
> Det er jeg ikke forstår er hvad der menes med sampling error. Jeg har
> fået fingre i en norsk statistikbog som kalder for sikkerhedsniveau.
>
> I forklaringen i den engelske bog omkring sampling error, så skriver de
> noget om, at det de fejl som man ikke kan undgåes, når man udtager en
> stikprøve dvs. der ville ingen sampling error være, hvis man udtog hele
> populationen.
> Det er jo ret logisk.
> Og der er da også en formel som kan udregne sampling error.
> Men der hvor jeg syntes det bliver kryptisk er, at man skal kende
> stikprøvestørrelsen for kunne beregne sampling error. Det er sikkert
> også helt rigtig.
> Det kryptiste er hvorledes kan jeg beregne n, som er afhængig af B, som
> igen er afhængig af n.
> Sådan som jeg ser det er det hønen og ægget om igen.
>
> Back to reality:
>
> Jeg har jo besluttet, at jeg vil vide noget med 95% sikkerhed om
> populationen dvs. at der er 5% usikkerhed.
> Derudover ved jeg at der i aviser er i 15% af stillingsopslagene som
> indeholder en aldersprofil.
> Populationen er på 1984 stillingsopslag.
> Stikprøven udtages simpel tilfældig.
>
> N = 1984
> B = 0,05
> pstreg = 0,15
>
> Når jeg så putter disse tal i formlen, så får jeg en stikprøvestørrelse
> på 49,72 observationer.
> Oprundet vil det sige 50 tilfældigt udtrukne observationer kan sige
> noget om populationen med 95% sikkerhed.
>
> Er det rigtig forstået?
> Hvis ikke, så forklar mig venligst lige hvad jeg så skal gøre for at
> udtage en stikprøve som med 95% sikkerhed kan sige noget om
> populationens aldersprofil i omfang og struktur.
>
> Jeg er ved at gå Chiquita over alle de formler.
>
> Med desperate hilsner
>
> Carsten Riis

Carsten Riis (29-04-2002)

Kommentar
Fra : Carsten Riis

Dato : 29-04-02 22:35

Nospam wrote:
>
> Så vidt jeg husker, kan du ikke bare tage en stikprøve, der med 95%
> konfidensinterval kan fortælle noget om totalpopulationen.
......

Tak for svaret og jeg kunne selvfølgelig også lige selv gøre lidt
internetsøgning-benarbejde, så det gjorde jeg så.

Jeg fandt http://www.surveysystem.com/sscalc.htm som måske kan hjælpe
mig videre.

Det eneste jeg mangler er, at finde ud af hvilke formler deres "Sample
Size Calculator" bruger.
Nogen der kan gennemskue det?

Der er en kasse cyber-øl på højkant Glad

Med venlig hilsen

Carsten Riis

Nospam (30-04-2002)

Kommentar
Fra : Nospam

Dato : 30-04-02 08:57

hvilken test størrelse du skal bruge, afhænger af hvor mange observationer
der er i stikprøven, forudsat at du benytter en normalfordeling...

Jeg kan ikke huske formlen, men den kan du sikkert finde den et eller andet
sted på internettet...

Martin

"Carsten Riis" <carsten.riis@privat.dk> wrote in message
news:3CCDBC8B.11386006@privat.dk...
> Nospam wrote:
> >
> > Så vidt jeg husker, kan du ikke bare tage en stikprøve, der med 95%
> > konfidensinterval kan fortælle noget om totalpopulationen.
> .....
>
> Tak for svaret og jeg kunne selvfølgelig også lige selv gøre lidt
> internetsøgning-benarbejde, så det gjorde jeg så.
>
> Jeg fandt http://www.surveysystem.com/sscalc.htm som måske kan hjælpe
> mig videre.
>
> Det eneste jeg mangler er, at finde ud af hvilke formler deres "Sample
> Size Calculator" bruger.
> Nogen der kan gennemskue det?
>
> Der er en kasse cyber-øl på højkant Glad

>
> Med venlig hilsen
>
> Carsten Riis

Carsten Riis (30-04-2002)

Kommentar
Fra : Carsten Riis

Dato : 30-04-02 13:38

Nospam wrote:
>
> hvilken test størrelse du skal bruge, afhænger af hvor mange observationer
> der er i stikprøven, forudsat at du benytter en normalfordeling...

Hvordan kommer teststørrelse og normalfordeling ind i de formler som de
bruger på http://www.surveysystem.com/sscalc.htm

Sådan som jeg ser det, så har består deres formler af: Totalpopulation,
sikkerhedsniveau/confidence level og konfidensinterval. Hvordan de tre
faktorer står i forhold til hinanden er jeg så i tvivl om.

Med venlig hilsen

Carsten Riis

Nospam (30-04-2002)

Kommentar
Fra : Nospam

Dato : 30-04-02 17:11

Jeg må ærligt indrømme, at jeg aldrig har hørt, at en andel af en population
skal have en vis størrelse til en undersøgelse, som man derefter kan
beregne!!!

Du kan principielt have en stikprøve af hvilken som helst størrelse, men det
er klart, at jo større din stikprøve er, jo mere repræsentativ må den
være...

Men hvis vi nu skal bevæge sig længere ind i statistikken, er der en række
bias'er i forbindelse med stikprøvetagningen, før den statistisk kan antages
at være repræsentativ

Martin
"Carsten Riis" <carsten.riis@privat.dk> wrote in message
news:3CCE900E.74DBE79A@privat.dk...
> Nospam wrote:
> >
> > hvilken test størrelse du skal bruge, afhænger af hvor mange
observationer
> > der er i stikprøven, forudsat at du benytter en normalfordeling...
>
> Hvordan kommer teststørrelse og normalfordeling ind i de formler som de
> bruger på http://www.surveysystem.com/sscalc.htm
>
> Sådan som jeg ser det, så har består deres formler af: Totalpopulation,
> sikkerhedsniveau/confidence level og konfidensinterval. Hvordan de tre
> faktorer står i forhold til hinanden er jeg så i tvivl om.
>
> Med venlig hilsen
>
> Carsten Riis

Carsten Riis (30-04-2002)

Kommentar
Fra : Carsten Riis

Dato : 30-04-02 20:13

Nospam wrote:
>
> Jeg må ærligt indrømme, at jeg aldrig har hørt, at en andel af en population
> skal have en vis størrelse til en undersøgelse, som man derefter kan
> beregne!!!

Ikke for at være smålig eller indiskret, men må jeg lige havel lov til
at spørge om din baggrund?

>
> Du kan principielt have en stikprøve af hvilken som helst størrelse, men det
> er klart, at jo større din stikprøve er, jo mere repræsentativ må den
> være...
>

netop. eller bedre sagt: så meget ved jeg også.

Men hvor stor skal stikprøvestørrelsen være, hvis jeg med 95% sikkerhed
skal kunne sige noget om populationen (stillingsopslag i en
jobdatabase).

Det jeg vil sige noget om er: antal observationer (det enkelte
stillingsopslag) med og uden aldersprofil. strukturen i
aldersprofilerne.

Fx en stikprøve på 100 stillingsopslag, hvor 30 af dem indeholder en
aldersprofil. Strukturen i aldersprofilen viser så, at man ikke søger
nogen under 25 og personer over 55 heller ikke er omfatte personkredsen
som kan finde et job i databasen.

> Men hvis vi nu skal bevæge sig længere ind i statistikken, er der en række
> bias'er i forbindelse med stikprøvetagningen, før den statistisk kan antages
> at være repræsentativ
>

Bias'erne har jeg taget højde for. Det er selve omfanget af stikprøven
som jeg søger afklaret her i gruppen. Fx har jeg redegjort for, hvorfor
jeg vælger jobline.dk istedet for jobzonen.dk.
Det simpel tilfældige vil være Excel's evne til at generere tilfældige
tal, som vil være de ID-numre som databaserne bruger som "kviknumre"
eller hvad de nu kalder dem.

Med venlig hilsen

Carsten Riis

Nospam (30-04-2002)

Kommentar
Fra : Nospam

Dato : 30-04-02 22:24

Selvfølgelig
Jeg læser natbas på RUC..
I øjeblikket er jeg igang med at skrive et projekt der omhandler brug af
statistik i cancer forskning....
/martin
"Carsten Riis" <carsten.riis@privat.dk> wrote in message
news:3CCEECC5.34E2818B@privat.dk...
> Nospam wrote:
> >
> > Jeg må ærligt indrømme, at jeg aldrig har hørt, at en andel af en
population
> > skal have en vis størrelse til en undersøgelse, som man derefter kan
> > beregne!!!
>
> Ikke for at være smålig eller indiskret, men må jeg lige havel lov til
> at spørge om din baggrund?
>
>
> >
> > Du kan principielt have en stikprøve af hvilken som helst størrelse, men
det
> > er klart, at jo større din stikprøve er, jo mere repræsentativ må den
> > være...
> >
>
> netop. eller bedre sagt: så meget ved jeg også.
>
> Men hvor stor skal stikprøvestørrelsen være, hvis jeg med 95% sikkerhed
> skal kunne sige noget om populationen (stillingsopslag i en
> jobdatabase).
>
> Det jeg vil sige noget om er: antal observationer (det enkelte
> stillingsopslag) med og uden aldersprofil. strukturen i
> aldersprofilerne.
>
> Fx en stikprøve på 100 stillingsopslag, hvor 30 af dem indeholder en
> aldersprofil. Strukturen i aldersprofilen viser så, at man ikke søger
> nogen under 25 og personer over 55 heller ikke er omfatte personkredsen
> som kan finde et job i databasen.
>
> > Men hvis vi nu skal bevæge sig længere ind i statistikken, er der en
række
> > bias'er i forbindelse med stikprøvetagningen, før den statistisk kan
antages
> > at være repræsentativ
> >
>
> Bias'erne har jeg taget højde for. Det er selve omfanget af stikprøven
> som jeg søger afklaret her i gruppen. Fx har jeg redegjort for, hvorfor
> jeg vælger jobline.dk istedet for jobzonen.dk.
> Det simpel tilfældige vil være Excel's evne til at generere tilfældige
> tal, som vil være de ID-numre som databaserne bruger som "kviknumre"
> eller hvad de nu kalder dem.
>
> Med venlig hilsen
>
> Carsten Riis
>
>

Nospam (01-05-2002)

Kommentar
Fra : Nospam

Dato : 01-05-02 10:16

Citat:
Men hvor stor skal stikprøvestørrelsen være, hvis jeg med 95% sikkerhed skal
kunne sige noget om populationen (stillingsopslag i en jobdatabase).

Denne formulering giver netop anledning til bias, da du forventer at din
stikprøve repræsenterer populationen. Hvis din statistiske metode skal være
bias fri, opstiller du hypotesen om, det kan antages at denne stikprøve kan
antages at komme fra populationen.
-Først udregner du en t-test størrelse på baggrund af din stikprøve
-slår op i en fraktiltabel med en X2 fordeling
- Dermed får du bekræftet eller forkastet din hypotese
/MAritn

Søg

Reklame

Statistik

Spørgsmål :	177827
Tips :	31982
Nyheder :	719565
Indlæg :	6411018
Brugere :	218912

Månedens bedste

Årets bedste

Sidste års bedste