Sturges Rule Forklaring, applikasjoner og eksempler



den Sturges regel er et kriterium som brukes til å bestemme antall klasser eller intervaller som er nødvendige for å grafisk representere et sett med statistiske data. Denne regelen ble uttalt i 1926 av den tyske matematikeren Herbert Sturges.

Sturges foreslo en enkel metode, basert på antall prøver x som tillot å finne antall klasser og deres rekkevidde amplitude. Sturges-regelen er mye brukt spesielt innen statistikk, spesielt for å bygge frekvenshistogrammer.

index

  • 1 Forklaring
  • 2 applikasjoner
  • 3 Eksempel
  • 4 referanser

forklaring

Sturges-regelen er en empirisk metode som er mye brukt i beskrivende statistikk for å bestemme antall klasser som må eksistere i et frekvenshistogram, for å klassifisere et sett med data som representerer en prøve eller populasjon.

I utgangspunktet bestemmer denne regelen bredden på de grafiske beholderne, frekvenshistogrammene.

For å etablere sin regel, så Herbert Sturges et ideelt frekvensdiagram, som består av K-intervaller, hvor ithintervallet inneholder et visst antall prøver (i = 0, ... k - 1), representert som:

Det antall eksempler er gitt ved antall måter der en delmengde av et sett kan hentes ut; det vil si ved binomialkoeffisienten, uttrykt som følger:

For å forenkle uttrykket brukte han egenskapene til logaritmene i begge deler av ligningen:

Dermed fastslår Sturges at det optimale antall intervaller k er gitt ved uttrykket:

Det kan også uttrykkes som:

I dette uttrykket:

- k er antall klasser.

- N er det totale antall observasjoner av prøven.

- Log er den vanlige logaritmen til base 10.

For eksempel, for å lage et frekvenshistogram som uttrykker en tilfeldig prøve av høyden på 142 barn, vil antall intervaller eller klasser som fordelingen har, være:

k = 1 + 3,322 * logg10 (N)

k = 1 + 3,322* logg (142)

k = 1 + 3,322* 2,1523

k = 8,14 ≈ 8

Dermed vil fordelingen være i 8 intervaller.

Antall intervaller skal alltid representeres av heltall. I tilfeller der verdien er desimalt, må det angis en tilnærming til nærmeste hele tall.

søknader

Sturges-regelen brukes hovedsakelig i statistikk, siden det gjør det mulig å foreta en fordeling av frekvenser ved beregning av antall klasser (k), samt lengden av hver av disse, også kjent som amplitude.

Amplituden er forskjellen mellom klassens øvre og nedre grenser, dividert med antall klasser, og uttrykkes:

Det er mange empiriske regler som gjør det mulig å foreta en frekvensfordeling. Sturges-regelen brukes imidlertid vanligvis fordi den tilnærmer antall klasser, som vanligvis varierer fra 5 til 15.

På denne måten vurderer du en verdi som tilstrekkelig representerer et utvalg eller en befolkning; det vil si at tilnærmingen ikke representerer ekstreme grupperinger, og det virker heller ikke med et overdreven antall klasser som ikke tillater oppsummering av prøven.

eksempel

Det er nødvendig å utføre et frekvenshistogram i henhold til de oppgitte dataene, svarende til aldre oppnådd i en undersøkelse av menn som trener i et lokalt treningsstudio.

For å bestemme intervaller må du vite hva som er størrelsen på prøven eller antall observasjoner; i dette tilfellet har du 30.

Deretter gjelder Sturges-regelen:

k = 1 + 3,322 * logg10 (N)

k = 1 + 3,322* logg (30)

k = 1 + 3,322* 1,4771

k = 5,90 ≈ 6 intervaller.

Fra antall intervaller, kan amplitude som disse har, beregnes; det vil si bredden på hver stolpe representert i frekvenshistogrammet:

Den nedre grensen betraktes som den laveste verdien av dataene, og den øvre grensen er den høyeste verdien. Forskjellen mellom øvre og nedre grense kalles rekkevidden eller banen til variabelen (R).

Fra bordet har vi at den øvre grensen er 46 og den nederste grensen 13; På den måten vil amplituden til hver klasse være:

Intervallene vil bestå av en øvre og nedre grense. For å bestemme disse intervaller, begynner å telle fra den nedre grensen, og legger til den amplitude som bestemmes av regel (6), som følger:

Deretter beregnes den absolutte frekvensen for å bestemme antall menn som svarer til hvert intervall; i dette tilfellet er det:

- Intervall 1: 13 - 18 = 9

- Intervall 2: 19 - 24 = 9

- Intervall 3: 25 - 30 = 5

- Intervall 4: 31 - 36 = 2

- Intervall 5: 37 - 42 = 2

- Intervall 6: 43 - 48 = 3

Når du legger til den absolutte frekvensen for hver klasse, må dette være lik det totale antallet av prøven. i dette tilfellet 30.

Deretter beregnes den relative frekvensen av hvert intervall, og deler den absolutte frekvensen av dette intervallet med det totale antall observasjoner:

- Intervall 1: fi = 9 ÷ 30 = 0,30

- Intervall 2: fi = 9 ÷ 30 = 0.30

- Intervall 3: fi = 5 ÷ 30 = 0,1666

- Intervall 4: fi = 2 ÷ 30 = 0,0666

- Intervall 5: fi = 2 ÷ 30 = 0,0666

- Intervall 4: fi = 3 ÷ 30 = 0,10

Deretter kan du lage et bord som reflekterer dataene, og også diagrammet fra den relative frekvensen i forhold til de oppnådde intervaller, slik det kan ses i følgende bilder:

Således kan regelen Sturges bestemme antall klasser eller områder hvor en prøve kan deles opp, for å kunne sammenfatte et datasampel gjennom utvikling av diagrammer.

referanser

  1. Alfonso Urquía, M. V. (2013). Modellering og simulering av diskrete hendelser. UNED,.
  2. Altman Naomi, M. K. (2015). "Enkel lineær regresjon." Naturmetoder .
  3. Antúnez, R.J. (2014). Statistikk i utdanning. Digital UNID.
  4. Fox, J. (1997.). Anvendt regresjonsanalyse, lineære modeller og tilhørende metoder. SAGE Publikasjoner.
  5. Humberto Llinás Solano, C.R. (2005). Beskrivende statistikk og sannsynlighetsfordeling. University of the North.
  6. Panteleeva, O. V. (2005). Grunnlag for sannsynlighet og statistikk.
  7. O. Kuehl, M. O. (2001). Utforming av eksperimenter: Statistiske prinsipper for design og forskningsanalyse. Thomson redaktører.