Descriptive Statistics Used inBiology
It is rarely practical for scientists to measure everyevent or individual in a population.
Instead, they typically collect data on a sample of apopulation and use these data to draw conclusions (ormake inferences) about the entire population.
Statistics is a mathematical discipline that relates tothis type of analysis.
One of your first steps in analyzing a smalldata set is to graph the data and examine thedistribution.
Here are two graphs of beakmeasurements taken from twosamples of medium ground finchesthat lived on the island of DaphneMajor, one of the Galápagos Islands,during a major drought in 1977.
The measurements tend to be more orless symmetrically distributed across arange, with most measurements aroundthe center of the distribution.
This is a characteristic of a normaldistribution.
http://1.bp.blogspot.com/-TAWTMY12lbE/UFD-yzM_c7I/AAAAAAAAAO4/AfzIdckVLMQ/s1600/normal+distribution.png
Measures of Average: Mean, Median, andMode
A description of a group of observations can include a value for themean, median, or mode.
These are all measures of central tendency—in other words, theyrepresent a number close to the center of the distribution.
The Mean
You calculate the mean (also referred to as the average or arithmeticmean) by summing all the data points in a data set (ΣX) and thendividing this number by the total number of data points (N):
What scientists want to understand is the mean of the entire population, whichis represented by µ. They use the sample mean, represented by ̅, as anestimate of µ.
Calculatethe meanfor twosubsets ofthe Grants’Data
 Nonsurvivors
 
Survivors
 
5-bird sample
15-bird sample
5-bird sample
15-bird sample
Bird
ID #
Beak Depth
(mm)
Bird
ID #
Beak Depth
(mm)
Bird
ID #
Beak Depth
(mm)
Bird
ID #
Beak Depth
(mm)
12
7.52
283
11.20
943
9.10
316
9.85
347
9.31
288
9.10
1643
8.80
623
8.80
413
8.20
294
10.50
1884
9.15
673
10.10
522
8.39
315
8.80
2244
11.01
678
9.70
609
10.50
321
8.48
8191
10.86
891
8.00
 
 
352
7.70
 
 
1019
11.21
 
 
413
8.20
 
 
1477
10.10
 
 
468
9.02
 
 
1528
8.55
 
 
503
9.10
 
 
1797
9.31
 
 
507
8.85
 
 
1850
10.40
 
 
561
10.20
 
 
1884
9.15
 
 
610
9.00
 
 
2242
9.45
 
 
619
9.25
 
 
2378
9.86
 
 
621
7.60
 
 
2249
10.68
 
 
676
9.70
 
 
2939
8.31
 
 
 
 
 
 
 
 
Mean
 
Mean
 
Mean
 
Mean
 
Note that the mean valuesare different for the fiveand fifteen-samples.
Which is a better estimateof the true mean, µ?
Median
When the data are ordered from the largest tothe smallest, the median is the midpoint of thedata.
It is not distorted by extreme values, or evenwhen the distribution is not normal.
For this reason, it may be more useful for you touse the median as the main descriptive statisticfor a sample of data in which some of themeasurements are extremely large or extremelysmall.
Find the median for each of your four sets offinch data.
http://flynnd.org/BIOL3386/Describing_files/image010.jpg
Range
The simplest measure of variability in a sample of normallydistributed data is the range, which is the difference between thelargest and smallest values in a set of data. You can use the range fordata that are not normally distributed.
For any data, a larger range value indicates a greater spread of thedata—in other words, the larger the range, the greater the variability.
An extremely large or small value in the data set will make thevariability appear high.
Calculate the range for your four samples of the Grants’ data.
The standard deviation provides a more reliable measure of the“true” spread of the data.
Definitions for Median and Range onBRT
Standard Deviation and Variance
The standard deviation is the most widely used measure of variability.
 The sample standard deviation (s) is essentially the average of thedeviation between each measurement in the sample and the samplemean ().
The sample standard deviation is an estimate of the standarddeviation in the larger population.
The formula for calculating the samplestandard deviation follows:
http://cfacuecards.files.wordpress.com/2012/06/samplestandarddeviation.jpg
What does standard deviation indicate?
If a population has a normaldistribution, 68% of the sampleshould be within one standarddeviation of the mean.
Approximately 2 standarddeviations should account for95% of all samples.
http://1.bp.blogspot.com/-TAWTMY12lbE/UFD-yzM_c7I/AAAAAAAAAO4/AfzIdckVLMQ/s1600/normal+distribution.png
Variance and Standard Deviation
Note that the number calculated at this step provides a statistic calledvariance (s2). Variance is an important measure of variability that isused in certain statistical methods. It is the square of the standardvariation.
6. Take the square root to calculate the standard deviation (s) for thesample.
Calculate the standard deviation for the two five-bird samples(survivors and non-survivors)
Results
Note that the standarddeviation is smaller for thelarger samples.
This is often, but notalways the case..
Now let’s look at a largerdata set:
Data for 50 Finches
Four variables, including beakdepth
Calculate the mean for eachvariable
Variance is given; you cancalculate the standard deviationeasily
Enter in table
Fill in everything except 95% confidenceinterval
Measures of Confidence: StandardError of the Mean and 95% ConfidenceInterval
The standard deviation provides a measure of the spread of the datafrom the mean.
A different type of statistic reveals the uncertainty in the calculationof the mean.
The sample mean is not necessarily identical to the mean of theentire population.
Every time you take a sample and calculate a sample mean, youwould expect a slightly different value.
In other words, the sample means themselves have variability.
Standard Error of the Mean
This variability can be expressed by calculating the standard error of themean (abbreviated as̅ SEM) or the 95% confidence interval (95% CI).
Why are SEM and 95% CL useful?
The standard error of the mean represents the standard deviation ofa distribution around the mean and estimates how close the samplemean is to the population mean.
The greater the sample size (i.e., 50 rather than 15 or 5 finches), themore closely the sample mean will estimate the population mean,and therefore the standard error of the mean becomes smaller.
The 95% confidence interval (95% CI) is equivalent to 1.96 (typicallyrounded to 2) standard errors of the mean.
Because the sample means are assumed to be normally distributed,95% of all sample means should fall between 2 standard deviationsabove and below the population mean, estimated by 95% CI.
Calculate the 95% Confidence Interval foreach variable mean.
Both SEM̅ and 95% CI can be illustrated as error bars in a bar graph of themeans of two or more samples that are being compared.
Depicting SEM or the 95% CI as error bars in a bar graph provides a clearvisual clue to the uncertainty of the calculations of the sample means.
Make a Bar Graph with Error Bars
On a sheet of graph paper, construct four bar graphs that comparethe means of non-survivors and survivors for each physicalcharacteristic (wing length, body mass, tarsus length, and beak size).
Label both axes of each graph and show the 95% CI as error bars.
Once you complete your four bar graphs, describe any differencesbetween non-survivors and survivors you observe in each graph.
What have we learned?
Measurements often cluster around the mean is a form known as anormal distribution.
The average variability about the mean is known as the standarddeviation of the mean.
Since it usually not possible to sample every individual in apopulation, there is also variability in the measurement of the mean.
If the variation of the mean follows a normal distribution, we canestimate how close our sample mean is to the actual mean.
95% confidence intervals allow us to compare sample means ofdifferent groups and infer statistically significant differences.
Observation: seeds of weeds seem toneed light as well as water to germinate
You will investigate this observation using garden seeds of variousspecies
You have the following: lots of seeds, petri dishes, filter paper, water
Design an experiment to address the observation.
Each petri dish should have exactly 30 seeds; each group should useat least 10 petri dishes
We will collect germination data and analyze it next week.
A written report, in scientific format, will be completed for homeworkin your lab notebook…
Observation: seeds of weeds seem toneed light as well as water to germinate
You will investigate this observation using dill weed(Anethum graveolens)
You have the following: lots of dill seeds, petridishes, filter paper, water
Design an experiment to address the observation.
Each petri dish should have exactly 30 seeds; eachgroup should use at least 6 petri dishes
We will collect germination data and analyze itnext week.
A written report, in scientific format, will becompleted for homework…
Illustration Anethum graveolens0.jpg