Wednesday 29 November 2017

Modello Di Var Nel Forex Stata


AVVISO: Il gruppo di consulenza Idre statistica sarà la migrazione del sito web per il CMS WordPress nel mese di febbraio per facilitare la manutenzione e la creazione di nuovi contenuti. Alcune delle nostre pagine più vecchie verranno rimossi o archiviati in modo tale che essi non saranno più mantenuti. Cercheremo di mantenere i reindirizzamenti in modo che i vecchi URL continueranno a lavorare nel miglior modo possibile. Benvenuti al Istituto per la ricerca digitale e l'istruzione Aiuto Consulting Group Stat dando un regressione regalo con Stata Capitolo 1 - semplice e multipla Regressione Capitolo Outline 1.0 Introduzione 1.1 Un dati prima analisi di regressione 1.2 Esaminando 1.3 Semplice regressione lineare 1.4 regressione multipla 1.5 variabili Trasformare 1.6 Sintesi della valutazione 1.7 Auto 1.8 per ulteriori informazioni Questo libro si compone di quattro capitoli che coprono una varietà di argomenti sull'utilizzo Stata per la regressione. Dobbiamo sottolineare che questo libro è di circa analysisquot quotdata e che dimostra come Stata può essere utilizzato per l'analisi di regressione, al contrario di un libro che copre la base statistica di regressione multipla. Partiamo dal presupposto che hai avuto almeno un corso statistiche che coprono l'analisi di regressione e che si dispone di un libro di regressione che è possibile utilizzare come riferimento (vedere la regressione con la pagina Stata e le nostre statistiche Libri per Loan pagina per i libri di analisi di regressione consigliati). Questo libro è stato progettato per applicare le tue conoscenze di regressione, si combinano con le istruzioni su Stata, per eseguire, comprendere e interpretare le analisi di regressione. Questo primo capitolo coprirà argomenti in regressione semplice e multipla, così come le attività di sostegno che sono importanti nella preparazione per analizzare i dati, per esempio il controllo dei dati, familiarizzare con il file di dati, ed esaminando la distribuzione delle variabili. Illustreremo le basi della regressione semplice e multipla e dimostrare l'importanza di ispezionare, controllare e verificare i dati prima di accettare i risultati delle analisi. In generale, speriamo di dimostrare che i risultati della vostra analisi di regressione possono essere fuorvianti senza ulteriori sondare dei dati, che potrebbero rivelare relazioni che un'analisi casuale potrebbe trascurare. In questo capitolo, e nei capitoli successivi, useremo un file di dati che è stato creato da campionando in modo casuale 400 scuole elementari dal California Department of Educations API 2.000 set di dati. Questo file di dati contiene una misura di scuola di rendimento scolastico, così come altri attributi delle scuole elementari, come ad esempio, la dimensione delle classi, l'iscrizione, la povertà, ecc Si può accedere a questo file di dati sul web dall'interno Stata con il comando Stata utilizzare come illustrato di seguito. Nota: Non digitare il punto iniziale nel comando - il punto è una convenzione per indicare che l'istruzione è un comando Stata. Dopo aver letto il file, probabilmente si desidera memorizzare una copia di esso sul vostro computer (in modo da non aver bisogno di leggerlo attraverso il web ogni volta). Diciamo si utilizza Windows e si desidera memorizzare il file in una cartella denominata C: regstata (è possibile scegliere un nome diverso, se volete). In primo luogo, è possibile effettuare questa cartella all'interno Stata usando il comando mkdir. Possiamo quindi passare a quella directory usando il comando cd. E poi se si salva il file verrà salvato nella cartella c: regstata. Consente di salvare il file come elemapi. Ora il file di dati viene salvato come C: regstataelemapi. dta e si potrebbe chiudere Stata e il file di dati sarebbe ancora lì. Quando si desidera utilizzare il file in futuro, si sarebbe solo utilizzare il comando cd per passare alla directory C: regstata (o come si chiama) e quindi utilizzare il file elemapi. 1.1 Una prima analisi di regressione Consente destra in immersione ed eseguire un'analisi di regressione utilizzando il api00 variabili. acsk3. pasti e pieno. Esse misurano il rendimento scolastico della scuola (api00), la dimensione media della classe alla scuola materna attraverso 3 ° grado (acsk3), la percentuale di studenti che ricevono pasti gratuiti (pasti) - che è un indicatore della povertà, e la percentuale di insegnanti che hanno le credenziali di insegnamento completo (completo). Ci aspettiamo che migliori il rendimento scolastico sarebbe associato con dimensioni inferiori di classe, un minor numero di studenti che ricevono pasti gratuiti, e una più alta percentuale di insegnanti con credenziali di insegnamento completo. Qui di seguito, vi mostriamo il comando Stata per testare questo modello di regressione, seguito dall'uscita Stata. Consente di concentrarsi sui tre predittori, se sono statisticamente significativi e, in caso affermativo, la direzione della relazione. La dimensione media della classe (acsk3. B-2.68), non è statisticamente significativo al livello 0,05 (p0.055), ma solo così. Il coefficiente è negativo che indicherebbe che più grande dimensione della classe è legata ad abbassare il rendimento scolastico - che è quello che ci si aspetterebbe. Successivamente, l'effetto di pasti (B-3,70, P.000) è significativo e il suo coefficiente è negativo indica che maggiore è la percentuale degli studenti che riceve pasti gratuiti, minore è il rendimento scolastico. Si prega di notare che non stiamo dicendo che i pasti liberi stanno causando rendimento scolastico più basso. La variabile pasti è altamente correlata al livello di reddito e più funzioni come proxy per la povertà. Così, più elevati livelli di povertà sono associati a più basso rendimento scolastico. Questo risultato ha anche senso. Infine, la percentuale di insegnanti con credenziali complete (. B0.11 pieni, P.232) sembra essere in rapporto con il rendimento scolastico. Questo sembra indicare che la percentuale di docenti con credenziali complete non è un fattore importante nel predire rendimento scolastico - questo risultato era piuttosto inaspettato. Dovremmo prendere questi risultati e scrivere per la pubblicazione Da questi risultati, dovremmo concludere che le dimensioni delle classi inferiori sono relative a prestazioni più elevate, che un minor numero di studenti che ricevono pasti gratuiti è associata a prestazioni più elevate, e che la percentuale di insegnanti con credenziali complete era non relative a rendimento scolastico nelle scuole. Prima di scrivere questo per la pubblicazione, dobbiamo fare una serie di controlli per assicurarsi che possiamo fermamente stare dietro questi risultati. Iniziamo da ottenere più familiarità con il file di dati, facendo verifica preliminare dei dati, alla ricerca di errori nei dati. 1.2 L'esame dei dati In primo luogo, permette di utilizzare il comando descrivere per saperne di più su questo file di dati. Siamo in grado di verificare il numero di osservazioni che ha e vedere i nomi delle variabili in esso contenuti. Per fare questo, ci è sufficiente digitare Noi non entreremo in tutti i dettagli di questa uscita. Si noti che ci sono 400 osservazioni e 21 variabili. Abbiamo variabili circa rendimento scolastico nel 2000 e nel 1999 e il cambiamento nelle prestazioni, api00. rispettivamente api99 e la crescita. Abbiamo anche diverse caratteristiche delle scuole, ad esempio dimensione della classe, l'educazione dei genitori, per cento degli insegnanti con credenziali complete e di emergenza, e il numero di studenti. Si noti che quando abbiamo fatto la nostra analisi di regressione originale ha detto che ci sono stati 313 osservazioni, ma il comando descrivere indica che abbiamo 400 osservazioni nel file di dati. Se vuoi saperne di più sul file di dati, è possibile elencare tutte o alcune delle osservazioni. Ad esempio, di seguito elenchiamo i primi cinque osservazioni. Questo richiede un sacco di spazio sulla pagina, ma non ci dà un sacco di informazioni. Listing i nostri dati può essere molto utile, ma è più utile se si elencano solo le variabili a cui è interessato. Consente di elencare i primi 10 osservazioni per le variabili che abbiamo esaminato nella nostra prima analisi di regressione. Vediamo che tra le prime 10 osservazioni, abbiamo quattro valori mancanti per i pasti. E 'probabile che i dati mancanti per i pasti avevano qualcosa a che fare con il fatto che il numero di osservazioni in nostra prima analisi di regressione era 313 e non 400. Un altro strumento utile per conoscere le variabili è il comando codebook. Consente di fare codebook per le variabili che abbiamo incluso nell'analisi di regressione, così come la yrrnd variabile. Abbiamo intervallati alcuni commenti su questa uscita tra parentesi quadre e in grassetto. Il comando codebook ha scoperto una serie di peculiarità degne di un ulteriore esame. Consente di utilizzare il comando riassumere per saperne di più su queste variabili. Come mostrato di seguito, il comando summarize rivela anche il gran numero di valori mancanti per i pasti (400 - 315 85) e vediamo il minimo insolito per acsk3 di -21. Consente di ottenere una sintesi più dettagliata per acsk3. In Stata, la virgola dopo l'elenco variabile indica che le opzioni di seguire, in questo caso, l'opzione è dettaglio. Come potete vedere qui sotto, l'opzione detail ti dà i percentili, i quattro valori più grandi e più piccole, misure di tendenza centrale e varianza, ecc Nota che riassumono. e altri comandi, possono essere abbreviati: avremmo potuto digitato somma acsk3, d. Sembra come se alcune delle dimensioni delle classi in qualche modo è diventato negativo, come se un segno negativo è stato erroneamente digitato di fronte a loro. Consente di fare un tabulate di dimensione della classe per vedere se questo sembra plausibile. In effetti, sembra che alcune delle dimensioni delle classi in qualche modo ha ottenuto segni negativi messi di fronte a loro. Consente di guardare il numero di scuole e di distretto per queste osservazioni per vedere se provengono dallo stesso distretto. Infatti, vengono tutti dal quartiere 140. consente di guardare tutte le osservazioni per il quartiere 140. Tutte le osservazioni dal quartiere 140 sembrano avere questo problema. Quando si trova un tale problema, si vuole tornare alla fonte originale dei dati per verificare i valori. Dobbiamo rivelare che fabbricato questo errore per scopi illustrativi, e che i dati effettivi avuto nessun problema. Consente finta che abbiamo controllato con il distretto 140 e c'era un problema con i dati lì, un trattino è stato accidentalmente messo di fronte alle dimensioni delle classi che li rende negativo. Faremo una nota a risolvere il problema Consente di continuare a controllare i nostri dati. Diamo un'occhiata ad alcuni metodi grafici per l'ispezione dei dati. Per ogni variabile, è utile per ispezionare utilizzando un istogramma, boxplot, e stelo-foglia trama. Questi grafici in grado di mostrare le informazioni sulla forma delle variabili meglio di semplici statistiche numeriche può. Sappiamo già circa il problema con acsk3. ma permette di vedere come questi metodi grafici avrebbe rivelato il problema con questa variabile. In primo luogo, ci mostra un istogramma per acsk3. Questo ci mostra le osservazioni in cui la dimensione media della classe è negativo. Allo stesso modo, un grafico a scatole avrebbe chiamato queste osservazioni alla nostra attenzione pure. Si può vedere il modo in cui le osservazioni negative periferico nella parte inferiore del grafico a scatole. Infine, una trama ramo-foglia avrebbe anche aiutato a identificare queste osservazioni. Questo grafico mostra i valori esatti delle osservazioni, che indica che ci sono stati tre -21s, due -20s, e un -19. Si consiglia di tracciare tutti questi grafici per le variabili sarete analisi. Noi omettere, per motivi di spazio, mostrando questi grafici per tutte le variabili. Tuttavia, esaminando le variabili, la trama ramo-foglia per la piena sembrava piuttosto insolito. Fino ad ora, non abbiamo visto nulla di problematico con questa variabile, ma guardare la trama stelo e foglia per la piena di seguito. Essa mostra 104 osservazioni dove la percentuale con credenziali completa è inferiore a uno. Si tratta di oltre 25 delle scuole, e sembra molto insolito. Consente di guardare la distribuzione di frequenza della piena per vedere se siamo in grado di capire meglio. I valori vanno 0,42-1,0, poi saltate a 37 e salire da lì. Sembra come se alcune delle percentuali sono effettivamente iscritti nelle proporzioni, per esempio 0.42 è stato inserito al posto di 42 o 0,96 che in realtà avrebbe dovuto essere 96. Vediamo che quartiere (s) questi dati provengono da. Notiamo che tutti i 104 osservazioni in cui piena era inferiore o uguale a uno venuto dal quartiere 401. Consente di contare quante osservazioni ci sono nel quartiere 401 utilizzando il comando conteggio e vediamo quartiere 401 dispone di 104 osservazioni. Tutte le osservazioni di questo quartiere sembra essere registrato come proporzioni, invece di percentuali. Anche in questo caso, dobbiamo affermare che questo è un problema finta che abbiamo inserito nei dati per scopi illustrativi. Se questo fosse un vero e proprio problema di vita, abbiamo fatto il check con la fonte dei dati e verificare il problema. Faremo una nota per risolvere questo problema nei dati pure. Un'altra tecnica grafica utile per lo screening dei dati è una matrice a dispersione. Mentre questo è probabilmente più rilevante come strumento diagnostico alla ricerca di non-linearità e valori anomali nei dati, ma può anche essere uno strumento di screening dei dati utili, possibilmente informazioni rivelatrice nelle distribuzioni congiunte delle variabili che non sarebbe evidente dall'esame distribuzioni univariate . Vediamo la matrice a dispersione per le variabili nel nostro modello di regressione. Questo rivela i problemi che abbiamo già individuati, vale a dire le dimensioni delle classi negativi e la percentuale totale delle credenziali di essere inserito come proporzioni. Abbiamo identificato tre problemi attualmente in vendita. Ci sono numerosi valori mancanti per i pasti. ci sono stati negativi accidentalmente inseriti prima di alcune delle dimensioni delle classi (acsk3) e più di un quarto dei valori per la piena erano proporzioni invece di percentuali. La versione corretta dei dati è chiamato elemapi2. Consente di utilizzare il file di dati e ripetere la nostra analisi e vedere se i risultati sono gli stessi che la nostra analisi originale. In primo luogo, permette di ripetere la nostra analisi di regressione originale di seguito. Ora, consente di utilizzare il file di dati corretti e ripetere l'analisi di regressione. Vediamo una certa differenza nei risultati Nell'analisi originale (sopra), acsk3 era quasi significativo, ma nell'analisi corretta (sotto) i risultati mostrano questa variabile non significativa, forse per i casi in cui è stato dato dimensione della classe a valore negativo. Analogamente, la percentuale di docenti con credenziali complete non era significativa nell'analisi originale, ma è significativo nell'analisi corretto, forse a causa di casi in cui il valore è stato dato come la proporzione con tutti credenziali anziché la percentuale. Si noti inoltre che l'analisi corretta si basa su 398 osservazioni invece di 313 osservazioni, a causa di ottenere i dati completi per la variabile pasti che aveva un sacco di valori mancanti. Da questo punto in avanti, useremo il corretto, elemapi2. file di dati. Si potrebbe desiderare di salvare questo sul vostro computer in modo da poter utilizzare nelle analisi future. Finora abbiamo coperto alcuni argomenti in checkingverification dei dati, ma non abbiamo davvero discusso l'analisi di regressione in sé. Consente ora comunicare di più circa l'esecuzione di analisi di regressione in Stata. 1.3 regressione lineare semplice Iniziamo mostrando alcuni esempi di semplice regressione lineare utilizzando Stata. In questo tipo di regressione, abbiamo una sola variabile predittiva. Questa variabile può essere continuo, nel senso che essa può assumere tutti i valori in un intervallo, per esempio, l'età o altezza, o può essere dicotomico, che significa che la variabile può assumere solo due valori, ad esempio, 0 o 1. Il uso di variabili categoriali con più di due livelli verrà trattato nel Capitolo 3. C'è solo una risposta o variabile dipendente, ed è continua. In Stata, la variabile dipendente è elencato immediatamente dopo il comando regresso seguito da una o più variabili predittive. Consente di esaminare il rapporto tra la dimensione della scuola e rendimento scolastico per vedere se la dimensione della scuola è legata al rendimento scolastico. Per questo esempio, api00 è la variabile dipendente e iscriversi è il predittore. Consente di rivedere questa uscita un po 'più attentamente. Innanzitutto, vediamo che l'F-test è statisticamente significativo, il che significa che il modello è statisticamente significativa. L'R-squared di .1012 mezzi che circa il 10 della varianza di api00 si spiega con il modello, in questo caso, iscriversi. Il t-test per iscriversi uguale -6,70, ed è statisticamente significativo, il che significa che il coefficiente di regressione per iscriversi è significativamente diverso da zero. Si noti che (-6,70) 2 44.89, che è la stessa come la statistica F (con qualche errore di arrotondamento). Il coefficiente per iscriversi è -.1998674, pari a circa -.2, il che significa che per un aumento di una unità di iscriversi. ci aspettiamo una diminuzione del 0,2 unità in api00. In altre parole, una scuola con 1100 studenti ci si aspetterebbe di avere una API punteggio di 20 unità inferiori a una scuola con 1000 studenti. La costante è 744,2514, e questo è il valore previsto quando iscriversi uguale a zero. Nella maggior parte dei casi, la costante non è molto interessante. Abbiamo preparato una uscita annotato che mostra l'output di questa regressione insieme con una spiegazione di ciascuno degli elementi in essa contenuti. Oltre a ottenere la tabella di regressione, può essere utile per visualizzare un grafico a dispersione delle variabili previste e risultati con la regressione tracciata. Dopo aver eseguito una regressione, è possibile creare una variabile che contiene i valori previsti utilizzando il comando prevedere. È possibile ottenere questi valori in qualsiasi momento dopo l'esecuzione di un comando regresso, ma ricordate che una volta che si esegue una nuova regressione, i valori previsti saranno basati sulla più recente regressione. Per creare valori previsti è sufficiente digitare prevedere e il nome di una variabile nuova Stata vi darà i valori adattati. Per questo esempio, il nuovo nome variabile sarà fv. quindi dovremo digitare Se usiamo il comando list, vediamo che un valore a muro è stato generato per ogni osservazione. Qui di seguito possiamo mostrare un grafico a dispersione della variabile esito, api00 e il predittore, iscriversi. Possiamo combinare dispersione con lfit per mostrare un grafico a dispersione con valori stimati. Come potete vedere, alcuni dei punti sembrano essere valori anomali. Se si utilizza l'opzione mlabel (SNUM) sul comando a dispersione, si può vedere il numero di scuole per ogni punto. Questo ci permette di vedere, per esempio, che uno dei valori anomali è la scuola 2910. Come abbiamo visto in precedenza, il comando prevedere può essere utilizzato per generare i valori previsti (in dotazione) dopo l'esecuzione regresso. È inoltre possibile ottenere i residui utilizzando il comando prevedere seguito da un nome di variabile, in questo caso e. con l'opzione residuo. Questo comando può essere abbreviato per prevedere e, resid o anche prevedere e, r. La tabella seguente mostra alcuni degli altri valori possono che essere creati con l'opzione prevedere. 1.4 regressione multipla Ora, consente di guardare un esempio di regressione multipla, in cui abbiamo un risultato variabile (dipendente) e più predittori. Prima di iniziare con il nostro prossimo esempio, abbiamo bisogno di prendere una decisione per quanto riguarda le variabili che abbiamo creato, perché creeremo variabili simili con la nostra regressione multipla, e noi non vogliamo ottenere le variabili confusi. Ad esempio, nella regressione semplice abbiamo creato una fv variabile per i nostri valori previsti (in dotazione) e di e per i residui. Se vogliamo creare valori previsti per il nostro prossimo esempio potremmo definire il valore previsto qualcosa di diverso, per esempio FVMR. ma questo potrebbe iniziare a ricevere confusione. Potremmo eliminare le variabili che abbiamo creato, utilizzando goccia fv e. Invece, lascia chiaro i dati in memoria e utilizzare nuovamente il file di dati elemapi2. Quando iniziamo nuovi esempi nei capitoli futuri, ci sarà cancellare il file di dati esistente e utilizzare nuovamente il file per ricominciare da capo. Per questo esempio di regressione multipla, ci sarà regredire la variabile dipendente, api00. su tutte le variabili predittive nel set di dati. Consente di esaminare l'output di questa analisi di regressione. Come per la regressione semplice, guardiamo al p-value del F-test per vedere se il modello generale è significativo. Con un p-valore pari a zero a quattro cifre decimali, il modello è statisticamente significativo. L'R-squared è 0,8446, il che significa che circa il 84 della variabilità dei api00 è costituito dalle variabili nel modello. In questo caso, il R-quadrati indica che circa 84 della variabilità api00 è rappresentato dal modello, anche tenendo conto del numero di variabili predittive nel modello. I coefficienti per ciascuna delle variabili indica la quantità di cambiamento si potrebbe aspettare in api00 in un cambiamento una unità il valore di tale variabile, dato che tutte le altre variabili del modello sono mantenuti costanti. Ad esempio, si consideri il ell variabile. Ci si aspetterebbe una diminuzione di 0,86 nel punteggio api00 per ogni incremento unitario di ell. presupponendo che tutte le altre variabili del modello sono mantenuti costanti. L'interpretazione di gran parte dell'uscita dalla regressione multipla è la stessa come per il semplice regressione. Abbiamo preparato una potenza ragionata che spiega più a fondo l'output di questa analisi di regressione multipla. Ci si potrebbe chiedere che cosa un cambiamento 0.86 in ell significa realmente, e come si potrebbe confrontare la forza di tale coefficiente per il coefficiente per un'altra variabile, dicono i pasti. Per affrontare questo problema, possiamo aggiungere un'opzione per il comando regresso chiamato beta. che ci darà i coefficienti di regressione standardizzati. I coefficienti beta sono utilizzati da alcuni ricercatori per confrontare la forza relativa dei vari predittori all'interno del modello. Poiché i coefficienti beta sono tutti misurati in deviazioni standard, anziché le unità delle variabili, possono essere confrontati uno con l'altro. In altre parole, i coefficienti beta sono i coefficienti che si otterrebbe se le variabili di outcome e predittive sono stati tutti trasformati punteggi standard, chiamato anche z-score, prima di eseguire la regressione. Poiché i coefficienti della colonna Beta sono tutti nella stessa unità standardizzate è possibile confrontare questi coefficienti per valutare la forza relativa di ciascuno dei predittori. In questo esempio, i pasti ha il grande coefficiente Beta, -0.66 (in valore assoluto), e acsk3 ha la più piccola Beta, 0.013. Pertanto, un aumento scarto uno standard pasti porta ad una diminuzione 0,66 deviazione standard in api00 previsto. con le altre variabili. E, un aumento di una deviazione standard in acsk3. a sua volta, porta ad un aumento di 0.013 deviazione standard a api00 previsto con le altre variabili nel modello mantenute costanti. Nell'interpretare questa uscita, si ricordi che la differenza tra i numeri elencati nella Coef. colonna e la colonna Beta è nelle unità di misura. Ad esempio, per descrivere il coefficiente di prima per ell si direbbe diminuzione delle quote di un unità in ell produrrebbe un aumento di 0,86 unità nel. quot api00 predetto Tuttavia, per il coefficiente standardizzato (Beta) si potrebbe dire, di quote quello standard diminuzione deviazione ell produrrebbe un aumento di deviazione standard nel .15 api00 previsto. quot il comando listcoef dà più ampia di uscita per quanto riguarda i coefficienti standardizzati. Non fa parte di Stata, ma è possibile scaricarlo su internet come questo. e quindi seguire le istruzioni (vedi anche Come posso utilizzare il comando findit per la ricerca di programmi e ottenere ulteriore assistenza per ulteriori informazioni sull'uso findit). Ora che abbiamo scaricato listcoef. siamo in grado di farlo funzionare in questo modo. Confrontiamo l'uscita regresso con l'uscita listcoef. Si noterà che i valori elencati nel Coef. t, e PGTT valori sono gli stessi nelle due uscite. I valori elencati nella colonna Beta dell'uscita regresso sono uguali ai valori nella colonna bStadXY di listcoef. La colonna bStdX dà la variazione unitaria di Y previsto con un un cambio deviazione standard nella colonna X. Il bStdY dà il cambio deviazione standard di Y previsto con una variazione unitaria nella colonna X. Il SDofX dà quella deviazione standard di ciascuna variabile predittore in il modello. Ad esempio, il bStdX per ell è -21,3, il che significa che un aumento di una deviazione standard in ell porterebbe ad un atteso calo del 21,3 unità in api00. Il valore bStdY per ell di -0,0060 significa che per un una unità, l'uno per cento, aumento di studenti di lingua inglese, ci si aspetterebbe una diminuzione 0.006 deviazione standard a api00. Poiché i valori bStdX sono in unità standard per le variabili predittive, è possibile utilizzare questi coefficienti per confrontare la forza relativa dei predittori come si sarebbe confrontare coefficienti Beta. La differenza è coefficienti BStdX vengono interpretati come cambiamenti nelle unità della variabile esito anziché in unità standardizzate della variabile risultato. Ad esempio, il BStdX per i pasti rispetto ell è -94 contro -21, o circa 4 volte più grande, lo stesso rapporto come il rapporto dei coefficienti Beta. Abbiamo creato un output annotato che spiega in modo più approfondito l'uscita dal listcoef. Finora, ci siamo interessati a testare una sola variabile alla volta, ad esempio guardando il coefficiente per ell e determinare se è significativa. Possiamo anche provare insiemi di variabili, utilizzando il comando di prova, per vedere se l'insieme di variabili sono significative. In primo luogo, consente di iniziare testando una singola variabile, ell. utilizzando il comando test. Se si confronta questo output con l'uscita dall'ultimo regressione che si può vedere che il risultato del test F, 16.67, è lo stesso come il quadrato del risultato del t-test nella regressione (-4,0832 16.67). Si noti che si potrebbe ottenere gli stessi risultati se si digita il seguente dato di default Stata al confronto tra il termine (s) elencato a 0. Forse un test più interessante sarebbe quello di vedere se il contributo della dimensione delle classi è significativo. Dal momento che le informazioni riguardanti la dimensione delle classi è contenuto in due variabili, acsk3 e acs46. includiamo entrambi questi con il comando test. La significativa F-test, 3,95, significa che il contributo collettivo di queste due variabili è significativa. Un modo di pensare di questo, è che vi è una differenza significativa tra un modello con acsk3 e acs46 rispetto ad un modello senza, cioè vi è una differenza significativa tra il modello quotfullquot ei modelli quotreducedquot. Infine, come parte di fare un'analisi di regressione multipla si potrebbe essere interessati a vedere le correlazioni tra le variabili nel modello di regressione. È possibile farlo con il comando correlato come illustrato di seguito. Se osserviamo le correlazioni con api00. vediamo i pasti e Ell avere le due correlazioni più forti con api00. Tali correlazioni sono negative, il che significa che il valore di una variabile scende, il valore della altra variabile tende a salire. Sapendo che queste variabili sono fortemente associati con api00. potremmo prevedere che sarebbero stati statisticamente significativi predittori nel modello di regressione. Possiamo anche utilizzare il comando pwcorr per fare correlazioni a coppie. La differenza più importante tra correlato e pwcorr è il modo in cui viene gestita dati mancanti. Con correlate. un'osservazione o un caso di caduta eventuale variabile ha un valore mancante, in altre parole, correlare utilizza listwise. chiamato anche Casewise, la cancellazione. pwcorr utilizza eliminazione pairwise, significa che l'osservazione viene eliminato solo se vi è un valore mancante per la coppia di variabili correlate. Due opzioni che è possibile utilizzare con pwcorr. ma non con correlato. sono l'opzione sig, che darà i livelli di significatività per le correlazioni e la possibilità OB, che darà il numero di osservazioni utilizzate per la correlazione. Questa soluzione non è necessario con corr come Stata elenca il numero di osservazioni in cima dell'uscita. 1.5 Variabili Trasformare All'inizio ci siamo concentrati su di screening dei dati di potenziali errori. Nel prossimo capitolo, ci concentreremo sulla diagnostica di regressione per verificare se i dati soddisfano i presupposti della regressione lineare. Qui, ci si concentrerà sulla questione della normalità. Alcuni ricercatori ritengono che la regressione lineare richiede che l'esito (dipendente) e variabili predittive essere normalmente distribuiti. Abbiamo bisogno di chiarire la questione. In realtà, sono i residui che devono essere normalmente distribuito. Infatti, i residui devono essere normale solo per i test t sia valida. La stima dei coefficienti di regressione non richiedono residui normalmente distribuiti. Dato che siamo interessati ad avere validi t-test, studieremo questioni riguardanti la normalità. Una causa comune di residui non distribuite normalmente è variabili predittive esito eo non normalmente distribuite. Quindi, cerchiamo di esplorare la distribuzione delle nostre variabili e come li si potrebbe trasformare in una forma più normale. Consente di iniziare facendo un istogramma della iscriversi variabile. che abbiamo visto in precedenza nella regressione semplice. Possiamo usare l'opzione normale per sovrapporre una curva normale su tale curva e l'opzione bin (20) per usare 20 bidoni. La distribuzione appare obliqua a destra. Si consiglia inoltre di modificare le etichette degli assi. Ad esempio, utilizziamo l'opzione xlabel () per etichettare l'asse x di sotto, etichettatura 0-1600 incrementare di 100. istogrammi sono sensibili al numero delle celle o colonne utilizzate sul display. Un'alternativa a istogrammi è la trama di densità kernel, che approssima la densità di probabilità della variabile. I grafici della densità kernel hanno il vantaggio di essere liscia e di essere indipendente dalla scelta di origine, a differenza istogrammi. Stata implementa trame densità del kernel con il comando kdensity. Non a caso, la trama kdensity indica anche che il iscriversi variabile non sembra normale. Ora lascia fare un grafico a scatole per iscriversi. utilizzando il comando scatola grafico. Nota i punti in cima alla boxplot che indichino eventuali valori anomali, cioè, questi punti di dati sono più di 1,5 (intervallo interquartile) al di sopra del 75 ° percentile. Questo boxplot conferma inoltre che iscriversi è inclinata verso destra. Ci sono altri tre tipi di grafici che sono spesso utilizzati per esaminare la distribuzione di variabili simmetria trame, le normali trame quantile e grafici di probabilità normale. Una trama simmetria rappresenta graficamente la distanza al di sopra della media per il valore i-esimo contro la distanza al di sotto della media per il valore i-esimo. Una variabile che è simmetrica avrebbe punti che giacciono sulla linea diagonale. Come ci si aspetterebbe, questa distribuzione non è simmetrica. Una trama quantile normale rappresenta graficamente i quantili di una variabile contro i quantili di una distribuzione normale (gaussiana). qnorm è sensibile non normalità prossimità delle code, e infatti vediamo notevoli deviazioni dalla normale, la linea diagonale, nelle code. Questa trama è tipica di variabili che sono fortemente inclinato verso destra. Infine, il diagramma di probabilità normale è anche utile per esaminare la distribuzione di variabili. pnorm è sensibile a scostamenti dalla normalità più vicino al centro della distribuzione. Ancora una volta, vediamo indicazioni di non normalità in iscriversi. Dopo aver concluso che iscriversi non è normalmente distribuito, come dovremmo affrontare questo problema in primo luogo, si può provare a inserire la variabile come-è in regressione, ma se vediamo problemi, che noi probabilmente saremmo, quindi possiamo cercare di trasformare iscriversi per fare più normalmente distribuito. I potenziali trasformazioni includono prendendo il registro, la radice quadrata o alzando la variabile a una potenza. Selezionando la trasformazione appropriata è un po 'di un'arte. Stata comprende la scala e comandi più felice di aiutare nel processo. Scala riporta i risultati numerici e più felice produce un display grafico. Iniziamo con scaletta e cercare la trasformazione con il più piccolo del chi-quadro. Il registro di trasformare la più piccola ha chi-quadrato. Consente di verificare questi risultati graficamente usando più felice. Questo indica anche che la trasformazione logaritmica contribuirebbe a rendere più iscriversi normalmente distribuita. Consente di utilizzare il comando di generare con la funzione di registrazione per creare la lenroll variabile che sarà il registro di Registrazione. Si noti che log in Stata vi darà il logaritmo naturale, non accedere base 10. Per ottenere logaritmo in base 10, di tipo log10 (var). Ora lascia grafico nostra nuova variabile e vedere se abbiamo normalizzato esso. Possiamo vedere che lenroll sembra abbastanza normale. Vorremmo quindi utilizzare il symplot. qnorm e pnorm comandi per aiutare a valutare se lenroll sembra normale, così come vedere impatti come lenroll i residui, che è davvero la considerazione importante. In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use Stata to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals See the Stata Topics: Regression page for more information and resources on simple and multiple regression in Stata. 1.7 Self Assessment Make five graphs of api99 . histogram, kdensity plot, boxplot, symmetry plot and normal quantile plot. What is the correlation between api99 and meals Regress api99 on meals . What does the output tell you Create and list the fitted (predicted) values. Graph meals and api99 with and without the regression line. Look at the correlations among the variables api99 meals ell avged using the corr and pwcorr commands. Explain how these commands are different. Make a scatterplot matrix for these variables and relate the correlation results to the scatterplot matrix. Perform a regression predicting api99 from meals and ell . Interpret the output. Click here for our answers to these self assessment questions. 1.8 For More Information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California. SVAR Modeling in STATA - PowerPoint PPT Presentation Transcript and Presenters Notes Title: SVAR Modeling in STATA 1 SVAR Modeling in STATA Armando Snchez Vargas Economics Research Institute UNAM 2 I.- Motivation Stata is a powerful and flexible statistical package for modeling time series. Prospective and advanced users would want to know SVAR modeling facilities the package offers. The main advantages of Stata compared with other time series packages. What is still needed and what might be refined to implement the whole SVAR methodology in Stata. 3 II.- Objectives The main purpose of this presentation is to discuss STATAs capability to implement the entire SVAR methodology with non-stationary series. A second objective is to discuss what is needed to improve the implementation of SVAR models in STATA. 4 III.- SVAR Methodology The main objective of SVAR models is to find out the dynamic responses of economic variables to disturbances by combining time series analysis and economic theory. 5 III.- SVAR Methodology In the presence of unit roots the structuralisation of a VAR model can take place at three distinct stages 6 III.- SVAR Methodology The first step consists of specifying an appropriate VAR representation for the set of variables. Which implies to choose the lag order, the cointegration rank and the kind of associated deterministic polynomial and a sensible identification of the space spanned by the cointegrating vectors (Johansen, 1995). 7 III.- SVAR Methodology In the second step, the structuralisation stage, we use the VAR model in its error correction form to identify the short run associations between the variables and their determinants, which are hidden in the covariance matrix of the residuals of such multivariate model. In order to recover the short run model coefficients we can use the variance covariance matrix of the VAR in its error correction form () and impose theoretical restrictions. () 8 III.- SVAR Methodology Then, we start with an exactly-identified structure given by the lower triangular decomposition of the variance-covariance matrix of the estimated VAR disturbances and restrict the non-significant parameters to zero moving to a situation of over-identification (i. e). 9 III.- SVAR Methodology Finally, the short and medium run validity of the model can also be verified by plausible modeling of the instantaneous correlations via impulse response functions. 10 The model selection strategy 11 IV.- SVAR Estimation First, we must do misspecification test over VAR, this guarantee a good model because is very important to have the correctly VAR then to have a good SVAR. After the reduced from VAR representation has been aptly estimated, the researcher is allowed to specify a set of constraints on the A and B matrices. 12 IV.- SVAR Estimation The SVAR procedure verifies whether the restrictions comply with the rank condition for local identification. This check is carried out numerically by randomly drawing A and B matrices satisfying the restrictions being imposed. At this stage, of the identification condition is met, the procedure SVAR carries out maximum likelihood estimation of the structural VAR parameters by using the score algorithm. In the case of over-identification, the LR test for checking the validity of the over-indentifying restrictions is computed. 13 IV.- SVAR Estimation Starting from the estimate of the SVAR representation, the procedure VMA estimates the structural VMA and the FEVD parameters, together with their respective asymptotic standard errors. The results of this analysis are then available for being displayed, saved and graphed. 14 Statas capabilities Univariate Analysis Capabilities PcGive STATA RATS Graphics yes yes yes Autocorrelation Functions yes yes yes Unit Root Test yes yes yes Unit Root Test ADF ADF ADF Unit Root Test PP PP Unit Root Test KPSS SCP Unit Root Test DF-GLS Note ADFAugmented Dickey-Fuller Test. PPPhillips Perron. KPSSKwiatkowski-Phillips-Schmidt-Shin. SCPSchmidt Phillips. DF-GLSDickey-Fuller GLS. Note ADFAugmented Dickey-Fuller Test. PPPhillips Perron. KPSSKwiatkowski-Phillips-Schmidt-Shin. SCPSchmidt Phillips. DF-GLSDickey-Fuller GLS. Note ADFAugmented Dickey-Fuller Test. PPPhillips Perron. KPSSKwiatkowski-Phillips-Schmidt-Shin. SCPSchmidt Phillips. DF-GLSDickey-Fuller GLS. Note ADFAugmented Dickey-Fuller Test. PPPhillips Perron. KPSSKwiatkowski-Phillips-Schmidt-Shin. SCPSchmidt Phillips. DF-GLSDickey-Fuller GLS. 15 Statas capabilities Model Specification and Estimation Capabilities PcGive STATA RATS Malcom Automatic Seasonal Dummies yes no yes Maximum lag yes yes yes Trend polynomial yes yes yes Cointegration ranks yes yes yes Exogenous variables yes yes yes VAR estimation yes yes yes 16 Statas capabilities Misspecificacion Tests Capabilities PcGive PcGive STATA STATA RATS RATS Single Test Joint Test Single Test Joint Test Single Test Joint Test Normality yes yes yes no yes yes Homoskedasticity yes yes no no no no No Autocorrelation yes yes no yes yes no Parameters Stability yes yes no no no yes Linearity no no no no no no 17 Statas capabilities Statistial Inferences based on the model Capabilities PcGive STATA RATS Maximum lag yes yes yes Tests for trend polynomial no no yes Test for joint determination of cointegration rank and deterministic polynomial no no yes Trace Test in the I(1) model yes yes yes Tests for r, s in the I(2) model no no yes Parameters stabilityrank and cointegrating space no no yes Roots the Model yes yes yes 18 Statas capabilities Automatic test Capabilities PcGive STATA RATS Weak exogeneity test no no yes Indentification no no yes Granger causality no yes yes Tests on a y yes yes yes 19 Statas capabilities Structural VAR analysis whit stationary and non stationary variables Capabilities PcGive PcGive STATA STATA RATS RATS Stationary Non stationary Stationary Non stationary Stationary Non stationary Estimation no no yes no yes yes Simulation no no yes no yes yes Graphics no no yes no yes yes 20 Conclusions Commands are appropiate for basic use. Improvements in routines for advanced users. 21 Conclusions What is needed Addition of some other Unit Roots Tests. The VAR capabilities could benefit by the addition of single and joint misspecification tests. Adding a few tests and graphs as automatic output Tests for trend polynomial, Test for joint determination of cointegration rank and deterministic polynomial, Tests for r, s in the I(2) model, Parameters stabilityrank and cointegrating space. Considered the cointegrated SVAR model 22 Conclusions What might be refined It should automatically include seasonals. It should automatic include tests in the I(1) model. 23 Conclusions The VAR, SVAR and VECM commands deal with non stationarity through the prior differencing or the incorporation of deterministic trend or cointegration. Stata needs more flexibility for dealing with non stationary series. In general, Stata is powerful, versatile and well designed program which maybe improved by adding some features and refinements. 24 Bibliography Alan Yaffe, Robert (2007) Stata 10 (Time series and Forecasting), Journal of Statistical Software, December 2007, volume 23, software review 1, New York. Gottschalk, J. (2001) An Introduction into the SVAR Methodology Identification, Interpretation and Limitations of SVAR Models, Kiel Institute of World Economics. Amisano C Gianni (1997) Topics in Structural VAR Econometrics, New York. Dwyer, M. (1998) Impulse Response Priors for Discriminating Structural Vector Autoregressions, UCLA Department of Economics. Krolzig, H. (2003) General to Specific Model Selection Procedures for Structural Vector Auto Regressions. Department of Economics and Nuffield College. No 2003-W15. Sarte, P. D. (1997) On the Identification of Structural Vector Auto Regressions. Federal Reserve Bank of Richmond, Canada, Sum 45-68. PowerShow is a leading presentationslideshow sharing website. Sia che la vostra applicazione è business, how-to, l'istruzione, la medicina, scuola, chiesa, vendite, marketing, formazione on-line o solo per divertimento, PowerShow è una grande risorsa. E, soprattutto, la maggior parte delle funzioni interessanti sono liberi e facile da usare. È possibile utilizzare PowerShow per trovare e scaricare esempio presentazioni PowerPoint PPT online su praticamente qualsiasi argomento si possa immaginare in modo da poter imparare a migliorare le proprie diapositive e presentazioni gratuitamente. O usarlo per trovare e scaricare di alta qualità come fare le presentazioni PowerPoint PPT con scivoli illustrati o animati che vi insegnerà come fare qualcosa di nuovo, anche gratuitamente. O usarlo per caricare le proprie diapositive di PowerPoint in modo da poterli condividere con i vostri insegnanti, di classe, studenti, dirigenti, dipendenti, clienti, potenziali investitori o il mondo. O utilizzarlo per creare presentazioni di foto davvero cool - con transizioni 2D e 3D, l'animazione, e la vostra scelta di musica - che è possibile condividere con i tuoi amici di Facebook o cerchi di Google. Questo è tutto gratuito anche per una piccola tassa è possibile ottenere i migliori industrys privacy online o pubblicamente promuovere le presentazioni e le presentazioni con i posti superiori. Ma a parte questo il suo libero. Bene anche convertire le presentazioni e presentazioni in formato Flash universale, con tutto il loro splendore multimediali originali, tra cui l'animazione, gli effetti di transizione 2D e 3D, la musica incorporato o altro audio, o anche video incorporato nelle diapositive. Tutto gratis. La maggior parte delle presentazioni e slideshow su PowerShow sono liberi di vista, molti sono ancora da scaricare gratuitamente. (È possibile scegliere se consentire alle persone di scaricare le presentazioni di PowerPoint originali e presentazioni di foto a pagamento o gratuitamente o per niente.) Partenza PowerShow oggi - gratis. C'è davvero qualcosa per le presentazioni tutti gratuitamente. O usarlo per trovare e scaricare di alta qualità come fare le presentazioni PowerPoint PPT con scivoli illustrati o animati che vi insegnerà come fare qualcosa di nuovo, anche gratuitamente. O usarlo per caricare le proprie diapositive di PowerPoint in modo da poterli condividere con i vostri insegnanti, di classe, studenti, dirigenti, dipendenti, clienti, potenziali investitori o il mondo. O utilizzarlo per creare presentazioni di foto davvero cool - con transizioni 2D e 3D, l'animazione, e la vostra scelta di musica - che è possibile condividere con i tuoi amici di Facebook o cerchi di Google. Questo è tutto gratuito anche per una piccola tassa è possibile ottenere i migliori industrys privacy online o pubblicamente promuovere le presentazioni e le presentazioni con i posti superiori. Ma a parte questo il suo libero. Bene anche convertire le presentazioni e presentazioni in formato Flash universale, con tutto il loro splendore multimediali originali, tra cui l'animazione, gli effetti di transizione 2D e 3D, la musica incorporato o altro audio, o anche video incorporato nelle diapositive. Tutto gratis. La maggior parte delle presentazioni e slideshow su PowerShow sono liberi di vista, molti sono ancora da scaricare gratuitamente. (È possibile scegliere se consentire alle persone di scaricare le presentazioni di PowerPoint originali e presentazioni di foto a pagamento o gratuitamente o per niente.) Partenza PowerShow oggi - gratis. C'è davvero qualcosa per tutti

No comments:

Post a Comment