Introductory Statistics
Doc2
3+bbc-narrow_thick-line+intraday
NWDA logo.jpg
NWUA-logo-final-master.jpg
logo
crest
Learning Objectives
lDistinguish between different data types
lEvaluate the central tendency of realisticbusiness data
lEvaluate the dispersion of data
lEvaluate test statistics
lUse a test statistic to formulate a businessdecisions using regression analysis
After the session the students should be able to:
logo
crest
Types of data
Discrete (A variable controlled by a fixed set of values)
Continuous data (A variable measured on a continuous scale )
These data may be collected (ungrouped) and then groupedtogether in particular form so that can be easily inspected
But how would we collect data?
logo
crest
Simple random sampling
Stratified sampling
Cluster sampling
Quota sampling
Systematic sampling
Mechanical sampling
Convenience sampling
Sampling Techniques
logo
crest
Frequency distributions
The following are data of ages of a sample of agesmanagers
How could we represent these data effectively?
logo
crest
Scattering the data
Scatter Diagrams
Bar Diagrams
logo
crest
The histogram
We could group the datainto convenient classintervals thus
What measures of the centraltendency do we have
logo
crest
Measures of the central tendency
Mode
The maximum value of the distribution e.g. the mostoccurring value (in reality this can be evaluated using astandard formula
 Median
The central value of a set of data or a distribution. Can beevaluated using a standard method of using the CDF
Arithmetic mean
The central value assuming the data are distributed inaccordance to an arithmetic progression
Geometric mean
The central value assuming the data are distributedaccording to a geometric progression
logo
crest
The mode
For our data this occursbetween 30-39 (the modalrange)
The construction showncan be employed to homein on the exact value
Or the formula: whereL=lower boundary, l=lowerfreq diff, u=upper freq diffc=the class boundarywidth
logo
crest
The mode
Here, for our data
L=29.5,
l=5,
u=1and
the class boundarywidth c=10
logo
crest
The Median
For our data we couldevaluate this quantity twofold
Approximate using byplotting the cumulativefrequency diagram
Via logical inference
logo
crest
Measures of Dispersion
The range
Largest value minus Smallestvalue
Mean Square variation fromthe mean
Square root of the variance
NOTE:
logo
crest
Use of Computer packages
Example:
Given the following data use a spreadsheet toproduce a grouped histogram using 9 binsalso produce a CFD. Hence or otherwiseevaluate:
a)Three measures of the central tendency and,
b)Three measures of the dispersion
logo
crest
Decision Processes
This is all very welland good however,how does this allowus to make researchand managerial &research decisions?
To answer this weneed to consider thepattern of the data,thus:
logo
crest
Many sets of data adhere to thenormal distribution.
The most important distribution ofthem all
It is pretty much this property thatallows us to obtain (research)management decisions
The normal distribution is usuallywritten N(μ,σ2); with μ thepopulation mean and σthevariance
The Normal distribution
logo
crest
Properties of  N(μ,σ2)
For any normal curve withmean mu and standarddeviation sigma:
68 percent of the observationsfall within one standarddeviation sigma of the mean.
95 percent of observation fallwithin 2 standard deviations.
99.7 percent of observations fallwithin 3 standard deviations ofthe mean.
figure-01-25
logo
crest
The Z-Score
This is formula thatallows us to evaluatethe probability of anevent if we know thata particularpopulation isnormally distributed
 
N(48,12), find theprobability that some value of X<20.Example: If a population is N(48,12), find theprobability that some value of X<20.
logo
crest
Solution Protocol
1.Establishhypothesis
2.Evaluate the Z-score
3.Sketch thedistribution
4.Evaluateprobability
-2.15
p
logo
crest
Spreadsheet SolutionProtocol
1.Establish hypothesis
2.Use normaldistribution function
3.Perform Check i.e.use Z-function
logo
crest
Exercise
Example: Using a z score If a population is N(111,33.82),find the probability that some value of 100 <X<150.
logo
crest
Exercise
Using a z score and given that the population isN(37,4.352), find the probability that some value ofX>150.
logo
crest
Samples
If we are using a sample of values as aconsequence of the central limit theorem the zscore will change, thus
logo
crest
The mean expenditure per customer at a tire store is £60and the sd £6. It is known that the nominal customer perday is 40. A new product costs £64, what is theprobability of selling such a product per customer
Example
logo
crest
Try one
In a store, the average number of shoppers is448, with an sd of 21. What is the probability that49 shopping hours have a mean between 441and446.
logo
crest
Regression & Correlationanalysis
scatter diagram can be used to show therelationship between two variables
Correlation analysis is used to measure strength ofthe association (linear relationship) between twovariables
Correlation is only concerned with strength of therelationship
No causal effect is implied with correlation
Scatter diagrams were presented in the last sessions
As was Correlation
logo
crest
Regression & Correlationanalysis
scatter diagram can be used to show therelationship between two variables
Correlation analysis is used to measure strength ofthe association (linear relationship) between twovariables
Correlation is only concerned with strength of therelationship
No causal effect is implied with correlation
Scatter diagrams were presented in the last sessions
As was Correlation
logo
crest
Introduction toRegression Analysis
oRegression analysis is used to:
Predict the value of a dependent variable based on thevalue of at least one independent variable
Explain the impact of changes in an independentvariable on the dependent variable
oDependent variable:  the variable we wish to predictor explain
oIndependent variable:  the variable used to explainthe dependent variable
logo
crest
Simple Linear RegressionModel
oOnly one independent variable, X
oRelationship between  X  and  Y  isdescribed by a linear function
oChanges in  Y  are assumed to becaused by changes in  X
logo
crest
Types of Relationships
Y
X
Y
X
Y
Y
X
X
Linear relationships
Curvilinear relationships
logo
crest
Types of relationshipscont…
Y
X
Y
X
Y
Y
X
X
Strong relationships
Weak relationships
logo
crest
Types of Relationships
Y
X
Y
X
No relationship
logo
crest
The regression model
Linear component
PopulationY  intercept
PopulationSlopeCoefficient
RandomErrorterm
DependentVariable
IndependentVariable
Random Error
 component
logo
crest
The regression model
Random Errorfor this Xi value
Y
X
Observed Valueof Y for Xi
Predicted Valueof Y for Xi
Xi
Slope = β1
Intercept = β0
εi
logo
crest
The Least Squaresapproach
b0  and  b1  are obtained by finding thevalues of  b0  and  b1  that minimize the sumof the squared differences between Y and:
Rendering:
The proof of these requires the calculus
logo
crest
Regression Formulae
Thus the formulae canbe summarized as:
Where:
logo
crest
Regression Example
An estate agent wishes to find the relationshipbetween the house prices and size, it is suspectedthat a linear relationship exists between the houseprice (the dependent variable Y) and the house sizein square metres (the independent variable X). Usinglinear regression, find the relationship and make aprediction of a house price measuring 200m2. Thefollowing data have been collected by the estateagent.
logo
crest
Regression data
House Price in £k
(Y)
Area in m sqr
(X)
123
156
156
178
140
189
154
208
100
122
110
172
203
261
162
272
160
158
128
189
logo
crest
Regression Solution
It is usual to set up a table of results, using anappropriate Excel spreadsheet
logo
crest
Regression Solution Cont…
Now we simply apply the formulae as follows,first the regression coefficient, i.e. thegradient
logo
crest
Regression SolutionCont…
Then we evaluate the regression constant
There are various computer methods availablewhich do these calculations  for you these aredetailed in the handout
logo
crest
Regression  computersolution
There a three methods to evaluate theRegression coefficient and constantusing an Excel spreadsheet. These being:
Graphical
Calculation
Functions
logo
crest
Regression  computersolution Cont…
This is an example of the graphical method,which is required for a pass grade in theforthcoming assignment! If you want highergrades however you will have to check theseanswers using the other two methods shownin the handout
logo
crest
Summary
lDistinguish between different data types
lEvaluate the central tendency of realistic businessdata
lEvaluate the dispersion of data
lEvaluate test statistics
lUse a test statistic to formulate a businessdecisions using regression analysis
Have we met out learning objectives? Specifically areyou able to:
logo
crest