Introduction toMultiple Imputation
CFDR Workshop Series
Spring 2008
2
Outline
Missing data mechanisms
What is Multiple Imputation?
SAS Proc MI, Proc MIANALYZE
Stata ICE, MICOMBINE
SAS IVEware
What’s the diff?
Problems with categorical imputation
3
Missing data mechanisms
Missing Completely At Random (MCAR)
The probability of missingness doesn't depend onanything.
Missing At Random (MAR)
The probability of missingness does not depend onthe unobserved value of the missing variable, but itcan depend on any of the other variables in yourdataset
Not Missing at Random (NMAR)
The probability of missingness depends on theunobserved value of the missing variable itself
4
mipub
5
What is Multiple Imputation?
1.Imputation
Make M=3 to 10 copies of incomplete dataset filling in with conditionally random values
2.Analyses
Of each data set separately
3.Pooling
Point estimates. Average across M analyses
Standard errors. Combine variances .
6
1. Imputation: Multiple Copies of Dataset
7
Three steps
1.Imputation
Make M=2 to 10 copies of incomplete dataset filling in with conditionally random values
2.Analyses
Of each data set separately
3.Pooling
Point estimates. Average across M analyses
Standard errors. Combine variances .
8
What is MI?
STATA
based on each conditional density
chained equations
SAS
joint distribution of all the variables
assumed multivariate normal distribution
SAS IVEware
same as Stata, more options.
9
Stata Example
ICE to impute
Regression commands may be logistic,mlogit, ologit, or regress.
MICOMBINE to analyze and combine theresults.
Supported regression cmds are clogit, cnreg,glm, logistic, logit, mlogit, ologit, oprobit,poisson, probit, qreg, regress, rreg, stcox,streg, or xtgee.
Easy to use, nice documentation
10
SAS example
11
Step 1: Proc MI
Typical syntax:
 
proc mi data=mi_example out=outmiseed=1234;
   var Oxygen RunTime RunPulse;
run;
 
12
Step 2: Run Models
proc reg data=outmi outest=outreg covoutnoprint;
model Oxygen = RunTime RUnPulse;
by _Imputation_;
run;
Note that the regression output is stored asdataset “outreg”
Proc’s= Reg, Logistic, Genmod, Mixed, GLM
13
Parameter Estimates & CovarianceMatrices
proc print data=outreg(obs=8);
var _Imputation_ _Type_ _Name_ InterceptRunTime RunPulse;
run;
14
Step 3. Proc Mianalyze
proc mianalyze data=outreg;
modeleffects Intercept RunTime RunPulse;
run;
15
Irritating Parameter Est. & CovarianceMatrices
Syntax depends on what procedure you used in previous step:
proc mianalyze data=parmcov;(or)
proc mianalyze parms=parmsdatcovb=covbdat;
(or)
proc mianalyze parms=parmsdatxpxi=xpxidat;
 
PROC’s: reg, genmod, logit, mixed, glm.
16
SAS IVEware: 4 Components
1. IMPUTE  -- nice options.
2. DESCRIBE estimates the population means, proportions, subgroupdifferences, contrasts and linear combinations of means andproportions. A Taylor Series approach is used to obtain varianceestimates appropriate for a user specified complex sample design.
3. REGRESS fits linear, logistic, polytomous, Poisson, Tobit andproportional hazard regression models for data resulting from acomplex sample design.
4. SASMOD allows users to take into account complex sample designfeatures when analyzing data with several SAS procedures. SASPROCS can be called:CALIS, CATMOD, GENMOD, LIFEREG,MIXED, NLIN, PHREG, and PROBIT.
17
IVEware Impute
IMPUTE assumes the variables in the data set are one ofthe following five types:
(1) continuous
(2) binary
(3) categorical (polytomous with more than two categories)
(4) counts
(5) mixed
The types of regression models used are linear, logistic,Poisson, generalized logit or mixed logistic/linear,depending on the type of variable being imputed.
18
SAS IVEware: 4 Components
1. IMPUTE  -- nice options.
2. DESCRIBE estimates the population means, proportions, subgroupdifferences, contrasts and linear combinations of means andproportions. A Taylor Series approach is used to obtain varianceestimates appropriate for a user specified complex sample design.
3. REGRESS fits linear, logistic, polytomous, Poisson, Tobit andproportional hazard regression models for data resulting from acomplex sample design.
4. SASMOD allows users to take into account complex sample designfeatures when analyzing data with several SAS procedures. SASPROCS can be called:CALIS, CATMOD, GENMOD, LIFEREG,MIXED, NLIN, PHREG, and PROBIT.
19
A Few Issues
Do I impute the dependent variable?
Which model has more information? Theimputation model or the analyst model?
How many imputations do I need to do?
Can I impute in one language and analyze inanother?
How do I get summary statistics such as Rsquared?
Can I do this in SPSS?
Where do I go with questions?
20
Thanks
Next up:
“COLLATERAL CONSEQUENCES OF VIOLENCE INDISADVANTAGED NEIGHBORHOODS”
Dr. David HardingWednesday, February 13,Noon - 1:00 pm
Accessing and Analyzing Add Health DataInstructor:  Dr. Meredith PorterMonday, February 25, 12:00-1:00 pm