Monday 13 November 2017

Proc Arima Moving Average


Introduksjon til ARIMA nonseasonal modeller. ARIMA p, d, q prognose ligning ARIMA modeller er i teorien den mest generelle klassen av modeller for å prognose en tidsserie som kan gjøres for å være stasjonær ved differensiering om nødvendig, kanskje sammen med ikke-lineære transformasjoner for eksempel logging eller deflating hvis nødvendig En tilfeldig variabel som er en tidsserie er stasjonær hvis dens statistiske egenskaper er konstant over tid En stasjonær serie har ingen trend, dens variasjoner rundt sin gjennomsnitt har en konstant amplitude og den vri på en konsistent måte dvs. at kortsiktige tilfeldige tidsmønstre alltid ser like ut i statistisk forstand. Den sistnevnte tilstanden betyr at dets autokorrelasjonskorrelasjoner med sine egne tidligere avvik fra middelværdien forblir konstant over tid, eller tilsvarende, at dets effektspektrum forblir konstant over tid En tilfeldig variabel i dette skjemaet kan sees som vanlig som en kombinasjon av signal og støy, og signalet hvis det er tydelig kan være en patt ern med rask eller langsom gjennomsnittlig reversering eller sinusformet svingning eller rask veksling i tegn, og det kan også ha en sesongkomponent. En ARIMA-modell kan sees som et filter som forsøker å skille signalet fra støyen, og signalet er da ekstrapolert inn i fremtiden for å oppnå prognoser. ARIMA-prognose-ligningen for en stasjonær tidsserie er en lineær ie-regresjonstypekvasjon der prediktorene består av lag av den avhengige variabelen og eller lagrer prognosefeilene som er. Forutsatt verdi av Y en konstant og eller vektet sum av en eller flere nylige verdier av Y og eller en vektet sum av en eller flere nylige verdier av feilene. Hvis prediktorene bare består av forsinkede verdier av Y, er det en ren autoregressiv selvregressert modell, som bare er et spesielt tilfelle av en regresjonsmodell, og som kan forsynes med standard regresjonsprogramvare. For eksempel er en første-ordens autoregressiv AR 1-modell for Y en enkel regresjonsmodell der den uavhengige variabelen i s bare Y forsinket med en periode LAG Y, 1 i Statgraphics eller YLAG1 i RegressIt Hvis noen av prediktorene lags av feilene, er en ARIMA-modell det IKKE en lineær regresjonsmodell, fordi det ikke er mulig å spesifisere siste periode s feil Som en uavhengig variabel må feilene beregnes fra tid til annen når modellen er montert på dataene. Fra et teknisk synspunkt er problemet med å bruke forsinkede feil som prediktorer at modellens spådommer ikke er lineære funksjoner av koeffisienter, selv om de er lineære funksjoner i fortidens data. Således skal koeffisienter i ARIMA-modeller som inneholder forsinkede feil estimeres ved ikke-lineære optimaliseringsmetoder bakkeklatring i stedet for bare å løse et system av ligninger. Akronym ARIMA står for automatisk regressiv integrert Flytte gjennomsnittlig Lags av den stationære serien i prognosen ligningen kalles autoregressive vilkår, lags av prognosen feilene kalles glidende gjennomsnittlige vilkår og en tidsserie som trenger å bli differensiert for å bli gjort stasjonære, sies å være en integrert versjon av en stasjonær serie Tilfeldige gange og tilfeldige trendmodeller, autoregressive modeller og eksponentielle utjevningsmodeller er alle spesielle tilfeller av ARIMA-modeller. En ikke-sasonlig ARIMA-modell er klassifisert som en ARIMA p, d, q modell, hvor. p er antall autoregressive termer. d er antall ikke-soneforskjeller som trengs for stasjonar, og. q er antall forsinkede prognosefeil i prediksjonsligningen. Forutsigelsesligningen er konstruert som følger Først, la y betegne den forskjellen på Y som betyr. Merk at den andre forskjellen på Y d2-tilfellet ikke er forskjellen fra 2 perioder siden. Det er først den forskjellen som er den første forskjellen som er den diskrete analogen til et andre derivat, det vil si den lokale akselerasjonen av serien i stedet for den lokale trenden. Med hensyn til y er den generelle prognosekvasjonen her. De bevegelige gjennomsnittsparametrene s er definert slik at deres tegn er negative i ekv. Uasjon, etter konvensjonen som ble innført av Box og Jenkins. Noen forfattere og programvare, inkludert R-programmeringsspråket, definerer dem slik at de har pluss tegn i stedet. Når faktiske tall er plugget i ligningen, er det ingen tvetydighet, men det er viktig å vite hvilken konvensjon programvaren din bruker når du leser utdata Ofte er parameterne angitt der med AR 1, AR 2, og MA 1, MA 2 osv. For å identifisere riktig ARIMA-modell for Y begynner du ved å bestemme rekkefølgen av differensiering d som trenger å stasjonærisere serien og fjerne bruttoegenskapene til sesongmessigheten, kanskje i forbindelse med en variansstabiliserende transformasjon som logging eller deflating Hvis du stopper på dette punktet og forutser at differensierte serier er konstante, har du bare montert en tilfeldig tur eller tilfeldig Trendsmodell Den stasjonære serien kan imidlertid fortsatt ha autokorrelerte feil, noe som tyder på at noen AR-vilkår p 1 og eller noen nummer MA-termer q 1 også trengs i prognosekvasjonen. Prosessen med å bestemme verdiene p, d og q som er best for en gitt tidsserie, vil bli diskutert i senere avsnitt i notatene hvis koblinger er øverst på denne siden, men en forhåndsvisning av noen av de typer ikke-sasonlige ARIMA-modellene som ofte oppstår, er gitt nedenfor. ARIMA 1,0,0 førsteordens autoregressive modell hvis serien er stasjonær og autokorrelert, kanskje den kan forutsies som et flertall av sin egen tidligere verdi, pluss en konstant Forutsigelsesligningen i dette tilfellet er. som er Y regressert i seg selv forsinket av en periode Dette er en ARIMA 1,0,0 konstant modell Hvis gjennomsnittet av Y er null, vil ikke det konstante begrepet bli inkludert. Hvis skråningen er koeffisient 1 er positiv og mindre enn 1 i størrelsesorden skal den være mindre enn 1 i størrelsesorden hvis Y er stasjonær, beskriver modellen gjennomsnittsreferanseadferd, der neste periode s-verdi skal anslås å være 1 ganger så langt unna gjennomsnittlig som denne perioden s verdi Hvis 1 er negativ, det forutser gjennombruddsadferd med skifting av tegn, dvs. det forutsier også at Y vil være under gjennomsnittlig neste periode hvis den er over gjennomsnittet i denne perioden. I en andreordens autoregressiv modell ARIMA 2,0,0 ville det være en Y t-2 termen til høyre også, og så videre. Avhengig av tegn og størrelser av koeffisientene, kunne en ARIMA 2,0,0 modell beskrive et system hvis gjennomsnitts reversering foregår i sinusformet oscillerende mote, som bevegelsen av en masse på en fjær som er utsatt for tilfeldige støt. ARIMA 0,1,0 tilfeldig tur Hvis serien Y ikke er stasjonær, er den enkleste mulige modellen for en tilfeldig turmodell, som kan betraktes som et begrensende tilfelle av en AR 1-modell hvor den autoregressive koeffisienten er lik 1, dvs. en serie med uendelig sakte, gjennomsnittlig reversering. Forutsigelsesligningen for denne modellen kan skrives som. hvor konstant sikt er den gjennomsnittlige perioden til periode-endringen, dvs. langsiktig Drift i Y Denne modellen kan monteres som en ikke-avskjæringsrekkefølge gryningsmodell hvor den første forskjellen i Y er den avhengige variabelen Siden den bare inneholder en ikke-soneforskjell og en konstant periode, er den klassifisert som en ARIMA 0,1,0-modell med konstant. Den tilfeldige-walk-uten-drift-modellen ville være en ARIMA 0,1,0-modell uten konstant. ARIMA 1,1,0 differensiert førsteordens autoregressiv modell Hvis feilene i en tilfeldig turmodell er autokorrelert, kan problemet løses ved å legge til et lag av den avhengige variabelen til prediksjonsligning - dvs. ved å regresse den første forskjellen på Y i seg selv forsinket av en periode. Dette ville gi følgende prediksjonsligning. Det kan omarrangeres til. Dette er en førsteordens autoregressiv modell med en rekkefølge av ikke-soneforskjeller og en konstant term - en ARIMA 1,1,0 modell. ARIMA 0,1,1 uten konstant enkel eksponensiell utjevning En annen strategi for å korrigere autokorrelerte feil i en tilfeldig gangmodell er foreslått av den enkle eksponensielle utjevningsmodellen. Husk at for noen ikke-stationære tidsserier, for eksempel de som har støyende fluktuasjoner rundt et sakte varierende middel, utfører ikke den tilfeldige turmodellen så vel som et glidende gjennomsnitt av tidligere verdier. Med andre ord, i stedet for å ta den nyeste observasjonen som prognosen for neste observasjon , er det bedre å bruke et gjennomsnitt av de siste observasjonene for å filtrere ut støy og mer nøyaktig estimere det lokale gjennomsnittet. Den enkle eksponensielle utjevningsmodellen bruker et eksponentielt vektet glidende gjennomsnitt av tidligere verdier for å oppnå denne effekten. Forutsigelsesligningen for Enkel eksponensiell utjevningsmodell kan skrives i en rekke matematisk ekvivalente former, hvorav en er den såkalte feilkorreksjonsformen, der den forrige prognosen er justert i retning av feilen som den gjorde. Fordi e t-1 Y t - 1 - t-1 per definisjon, dette kan omskrives som. som er en ARIMA 0,1,1-uten konstant prognosekvasjon med 1 1 - Dette betyr at du kan passe en enkel eksponentiell smoo ting ved å spesifisere det som en ARIMA 0,1,1 modell uten konstant, og den estimerte MA 1-koeffisienten tilsvarer 1-minus-alfa i SES-formelen. Husk at i SES-modellen er gjennomsnittsalderen for dataene i 1- Forutgående prognoser er 1, noe som betyr at de vil ha en tendens til å ligge bak trender eller vendepunkter med ca. 1 perioder. Det følger at gjennomsnittsalderen for dataene i de 1-årige prognosene for en ARIMA 0,1,1-uten - konstant modell er 1 1 - 1 For eksempel hvis 1 0 8 er gjennomsnittsalderen 5 Når 1 nærmer seg 1, blir ARIMA 0,1,1-uten-konstant modell et veldig langsiktig glidende gjennomsnitt, og som 1 nærmer seg 0 blir det en tilfeldig walk-without-drift-modell. Hva er den beste måten å korrigere for autokorrelasjon, legge til AR-vilkår eller legge til MA-termer I de to foregående modeller diskutert problemet med autokorrelerte feil i en tilfeldig walk-modell ble løst på to forskjellige måter ved å legge til en forsinket verdi av differensierte serier til ligningen eller legge til en forsinket verdi av forecaen st feil Hvilken tilnærming er best En tommelfingerregel for denne situasjonen, som vil bli nærmere omtalt senere, er at positiv autokorrelasjon vanligvis behandles best ved å legge til et AR-uttrykk for modellen og negativ autokorrelasjon vanligvis behandles best av legge til en MA-term I forretnings - og økonomiske tidsserier oppstår negativ autokorrelasjon ofte som en artefakt av differensiering. Generelt reduserer differensiering positiv autokorrelasjon og kan til og med forårsake en bytte fra positiv til negativ autokorrelasjon. Så, ARIMA 0,1,1-modellen, i hvilke differensier er ledsaget av en MA-term, brukes hyppigere enn en ARIMA 1,1,0-modell. ARIMA 0,1,1 med konstant enkel eksponensiell utjevning med vekst Ved å implementere SES-modellen som en ARIMA-modell, får du faktisk noen fleksibilitet Først og fremst kan den estimerte MA 1-koeffisienten være negativ, dette tilsvarer en utjevningsfaktor som er større enn 1 i en SES-modell, som vanligvis ikke er tillatt i SES-modellprosedyren Sec ond, du har muligheten til å inkludere en konstant periode i ARIMA-modellen hvis du ønsker det, for å estimere en gjennomsnittlig ikke-null trend. ARIMA 0,1,1-modellen med konstant har prediksjonsligningen. En-tiden fremover prognosene fra denne modellen er kvalitativt lik SES-modellen, bortsett fra at bane av de langsiktige prognosene typisk er en skrånende linje hvis skråning er lik mu i stedet for en horisontal linje. ARIMA 0,2,1 eller 0, 2,2 uten konstant lineær eksponensiell utjevning Linjære eksponensielle utjevningsmodeller er ARIMA-modeller som bruker to ikke-sekundære forskjeller i sammenheng med MA-termer. Den andre forskjellen i en serie Y er ikke bare forskjellen mellom Y og seg selv forsinket med to perioder, men heller er det den første forskjellen i den første forskjellen - Y-endringen av Y ved periode t Således er den andre forskjellen på Y ved periode t lik Y t-Y t-1 - Y t-1 - Y T-2 Y t - 2Y t-1 Y t-2 En annen forskjell på en diskret funksjon er analog s til et andre derivat av en kontinuerlig funksjon, måles akselerasjonen eller krumningen i funksjonen på et gitt tidspunkt. ARIMA 0,2,2-modellen uten konstant forutser at den andre forskjellen i serien er lik en lineær funksjon av den siste to prognosefeil. som kan omarrangeres som. hvor 1 og 2 er MA 1 og MA 2-koeffisientene Dette er en generell lineær eksponensiell utjevningsmodell som i det vesentlige er den samme som Holt s-modellen, og Brown s-modellen er et spesielt tilfelle. Det bruker eksponentielt vektet Flytte gjennomsnitt for å anslå både et lokalt nivå og en lokal trend i serien. De langsiktige prognosene fra denne modellen konvergerer til en rett linje hvis skråning avhenger av den gjennomsnittlige trenden observert mot slutten av serien. ARIMA 1,1,2 uten konstant fuktet trend lineær eksponensiell utjevning. Denne modellen er illustrert i de tilhørende lysbildene på ARIMA-modeller. Det ekstrapolerer den lokale trenden i slutten av serien, men flater ut på lengre prognoshorisont for å introdusere en Conservatism, en praksis som har empirisk støtte. Se artikkelen om Hvorfor Damped Trend fungerer av Gardner og McKenzie og Golden Rule-artikkelen av Armstrong et al for detaljer. Det er generelt tilrådelig å holde fast i modeller der minst en av p og q er ikke større enn 1, det vil si ikke å passe på en modell som ARIMA 2,1,2, da dette sannsynligvis vil føre til overfitting og fellesfaktorproblemer som blir nærmere omtalt i notatene om matematisk struktur av ARIMA modeller. Spreadsheet implementering ARIMA modeller som de som er beskrevet ovenfor er enkle å implementere på et regneark. Prediksjonsligningen er bare en lineær ligning som refererer til tidligere verdier av originale tidsserier og tidligere verdier av feilene. Dermed kan du sette opp et ARIMA prognose regneark ved å lagre dataene i kolonne A, prognoseformelen i kolonne B og feildataene minus prognosene i kolonne C Forutsigelsesformelen i en typisk celle i kolonne B ville rett og slett være en lineær ekspresjon n refererer til verdier i forrige rad av kolonner A og C, multiplisert med de relevante AR - eller MA-koeffisientene lagret i celler andre steder på regnearket. Eksempel 7 2 sesongmodell for flyselskapsserien. Flyselskapets passasjerdata, gitt som serie G i boks og Jenkins 1976, har blitt brukt i tidsserieanalyselitteratur som et eksempel på en ikke-stationær sesongmessig tidsserie. Dette eksempelet bruker PROC ARIMA til å passe flymodellen ARIMA 0,1,1 0,1,1 til Box og Jenkins Series G Følgende utsagn leser dataene og logger transformer serien. Følgende PROC TIMESERIES-trinn tegner serien, som vist i Utgang 7 2 1. Utgang 7 2 1 Tidsserier Plot av flyselskapets passasjer-serie. Følgende uttalelser angir en ARIMA 0 , 1,1 0,1,1 modell uten et middels uttrykk til logaritmen til flypassasjereserien, xlog Modellen er prognosen, og resultatene lagres i datasettet B. Utgangen fra IDENTIFY-setningen vises i Output 7 2 2 De viste autokorrelasjonsplottene er f eller den to ganger forskjellige serien Merk at autokorrelasjonsfunksjonene har mønsteregenskapen til en første-ordende, flytende gjennomsnittsprosess kombinert med en sesongmessig bevegelsesmiddelprosess med lag 12.Output 7 2 2 IDENTIFY Statement Output. International Airline Passengers. Introduction to SAS Proc Arima. Analyse av tidsseriedata i tidsdomenet er gjort med denne prosedyren Box-Jenkins metodikk monteringen av ARIMA-modeller til tidsseriedata og også overføringsfunksjonen inngangstype modeller kan brukes Frekvensdomenalyse av tidsserier kan gjøres ved å bruke Proc Spectra. Rammen for analysen er at den observerte tidsserien X t er stasjonær og tilfredsstiller en ARMA-ligning av formen. Der Z t er en hvit støyprosess. Konstantene phi 1 phi p kalles de autoregressive koeffisientene og tallet p kalles rekkefølgen til den autoregressive komponenten. Konstantene theta 1 theta q kalles de bevegelige gjennomsnittlige koeffisientene, og tallet q kalles rekkefølgen av m oving gjennomsnittlig komponent Det er mulig for enten p eller q å være null. Bruk av proc arima til å passe ARMA-modeller består av 3 trinn. Det første trinnet er modellidentifikasjon, hvor den observerte serien er transformert til å være stasjonær. Den eneste transformasjonen er tilgjengelig i pros arima er differensiering Det andre trinnet er modellestimering, der ordrene p og q velges og de tilsvarende parametrene estimeres. Det tredje trinnet er prognose, hvor den estimerte modellen brukes til å prognostisere fremtidige verdier av observable tidsserier. Som en For eksempel vil datafilen som inneholder data om melkeproduksjonen tatt fra Cryer bli analysert. Her er kommandoene som kan brukes for hver av de tre trinnene. OPPLYSNINGER FOR IDENTIFISERING AV STATEMENT. Var-setningen er nødvendig og angir variabelen s i dataene satt til å bli analysert De valgfrie tallene i parentes spesifiserer LAGet ved hvilke forskjeller som skal beregnes En erklæring hvor melk ville analysere melkeserien uten noen forskjeller v armelk 1 ville analysere den første forskjellen i melk varmelk 1,1 den andre forskjellen i melk. Var-setningen produserer 3 tomter for den angitte variabelen prøveautokorrelasjonsfunksjonen, prøven omvendt autokorrelasjonsfunksjonen og prøven delvis autokorrelasjonsfunksjonen. Disse råolje plott og tabeller av verdiene deres skrives ut i utgangsvinduet. Høyere kvalitetskort kan produseres ved bruk av andre alternativer som er beskrevet nedenfor og proc gplot. Nlag-alternativet får de tre tomter til å skrive ut verdier opptil lag 30. Hvis ikke angitt, vil standard er nlag 24 eller 25 av antall observasjoner, avhengig av hvilket som er mindre. Senteralternativet subtraherer gjennomsnittet av serien angitt av var-setningen. Gjennomsnittet legges tilbake automatisk i prognostrinnet. Outcov-alternativet plasserer verdiene av prøven korrelasjonsfunksjoner i et SAS datasett Disse verdiene kan brukes til å produsere høykvalitets plott av disse funksjonene ved hjelp av proc gplot. Utgangene for variabler er LAG VAR navn av varibelen spesifisert i var-alternativet, CROSSVAR navn på variabelen spesifisert i krysscorr-alternativet, N antall observasjoner som brukes til å beregne gjeldende verdi av kovariansen eller krysskovariansen, COV-verdien av krysskovariansene, CORR-verdien av prøveautokorrelasjonsfunksjonen , STDERR standardfeil for autokorrelasjonene, INVCORR-verdier for prøveinversjonen autokorrelasjonsfunksjonen og PARTCORR-verdier av prøven delvis autokorrelasjonsfunksjonen. Noprint-alternativet undertrykker utgangen av lavkvalitetsgrafene som normalt opprettes av var-setningen. Dette alternativet brukes primært med alternativet outcov. OPTIONS FOR ESTIMATE STATEMENT. P p 1 q 3 alternativer angir de automatisk regressive og bevegelige gjennomsnittlige ordrene som passer. Andre former for disse spesifikasjonene er q 3 for å angi at BARE parameteren theta 3 er tillatt å være ikke - null p 12 3 for en sesongmodell 1-phi 12 B 12 1-phi 3 B 3 hvor B er backshift operatøren p 3,12 for en modell hvor bare phi 3 og ph jeg 12 får lov til å være null. Nippf-alternativet bruker prøvestørrelsen i stedet for graden av frihet som divisoren når den estimerer den hvite støyvarianen. Metodealternativet velger estimeringsmetoden for parametrene. Valgene er ml for maksimal gauss sannsynlighet estimering, uls for ubetingede minste kvadrater, og cls for betinget minste kvadrater. Plot-alternativet produserer de samme 3 plottene som i identifikasjonserklæringen for RESIDUALS etter at modellparametrene er estimert. Dette er en annen nyttig kontroll på hvithet av resterne. OPTIONS FOR FORSIKRINGSOPPLYSNINGEN. Hovedalternativet angir antall tidsintervaller i fremtiden for hvilke prognoser som skal foretas. Ved å bruke ut - og printall-opsjonene i prognoseoppstillingen, vil det bli opprettet et SAS datasett som vil inneholde verdiene til originale serier og de forventede verdiene til serien ved hjelp av modellen til enhver tid Dette kan være nyttig for en analyse av modellens tidligere ytelse. I praksis, seve ral forskjellige estimat uttalelser blir prøvd i rekkefølge for å se hvilken modell som passer best til dataene Proc arima er interaktiv, i den forstand kan disse sekvensielle forsøkene gjøres uten å starte prosessen Bare send inn de påfølgende estimatopplysningene vil den opprinnelige identifikasjonserklæringen bli beholdt. Transferansefunksjonsmodeller kan passe ved å bruke krysscorr-alternativet til identifikasjonserklæringen og inntastingsalternativet til estimeringsoppgaven. Mekanikken i denne prosedyren er illustrert for en datasettfake som inneholder to tidsserier som er relatert til en overføringsfunksjonsmodell I dette tilfellet avhenger Y på X Først blir prosessen X modellert ved å identifisere og anslå utsagnene. Deretter identifiseres Y, og krysskorrelasjonen mellom de prewhitened prosessene X og Y er estimert. Programmet kan se slik ut. Fra krysskorrelasjonsinformasjonen blir lagene der Inngangsprosessen X påvirker Y kan tentativt identifiseres. Merk at bare årsaksmodeller tillates ikke-null-cr us-korrelasjoner på negative lag kan ikke modelleres i proc arima For å illustrere, si at null-lags er 2 og 4 Prosessen Y kan estimeres som følger. Innspillet er av skjemaet cB 2 dB 4 B 2 c dB 2 Det er sistnevnte skjema som gir formen til inngangsoppgaven. Legg merke til at estimatoppstillingen alltid refererer til den siste identifiseringsoppstillingen for å bestemme hvilken variabel s som skal inkluderes i modellen. Derfor blir differensiering og sentrering håndtert automatisk dersom det brukes, med unntak av at differensieringen må eksplisitt spesifisert i crosscorr-setningen. For ytterligere detaljer, se den elektroniske hjelpen under SAS SYSTEM HELP - MODELLER ANALYSERØKER - ØKONOMETRIKTID SERIER - ARIMA eller SAS ETS Guide. Copyright 2016 Jerry Alan Veeh Alle rettigheter reservert.

No comments:

Post a Comment