We obtained breast cancer tissues from theBreast Cancer Biospecimen Repository of FredHutchinson Cancer Research Center.
We performed two rounds of next-gensequencing;1) a primary whole exome sequencing on thenormal subsection, seven primary subsections,and one metastatic subsection, which identified281 mutation candidates.2) a deep sequencing on the normal subsection,eight primary subsections, and two metastaticsubsections which  was targeted on thecandidates and validated 17 mutations.
Deep targeted sequencing (median coverage of1100 reads per locus) provided reliable countsof the  normal allele, and counts of the alternateallele for our algorithm.
The approximate anatomic location of thesamples, and the frequency of 17 alternativealleles for each of 12 tumor samples are shownin the plot in right.
Performance on simulated data
To validate our implementation of the EM optimization procedure and to understand our modelbehavior,we produce simulated deep sequencing data and measure the extent to which the model successfully recoversthe true clonal structure of the data. We observed two primary trends: the overall error rate, as measured byeither genotype or clone frequency error, decreases systematically as the number of samples increases, andincreases as the number of clones increases. Overall, both error rates are low, especially for the case of clones.
Abstract
The ability of cancer to evolve within an individual patient is the most significant reasonthat cancer treatments fail. Because todayoncologists lack the means to predict cancersnext move, the disease can escape the current treatment strategies. Capturing thesubclonal heterogeneity of tumors can improve cancer treatment significantly byproviding effective insight into the structure of the tumor and the history of patient'scancer. If the mutations specific to each subclone are known, clinicians can design the mostefficient treatment to block the escape mechanisms of the tumor by attacking all subclonessimultaneously.
We obtained data from next-gen sequencing of several tumor samples from singlepatient in single time point, and developed novel method that analyzes thess data toaccurately estimate the frequency and mutational content of subclones. We model thecounts of alternative allele with binomial distribution, and infer the parameters such thatthe likelihood of the observed data is maximized. The outputs of our algorithm aregenotypes of all clones, and their frequencies in each sample. Our results can be used toinfer phylogeny tree which describes the evolution of the cancer in time, and alsoprovide map of the clonal heterogeneity of cancer which describes how the tumorevolved anatomically.
Methodology
Clonal structure can be inferred from multiple sections of a breastcancer by a novel binomial model 
Habil Zare1, Junfeng Wang2, Alex Hu1, Daniela Witten3, Anthony Blau2, and
William S. Noble1
1Department of Genome Sciences, University of Washington, Seattle, WA, USA
2Devision of Hematology, Deparment of Medicine, University of Washington, Seattle, WA, USA
3Department of Biostatistics, University of Washington, Seattle, WA, USA
Results
Conclusion
Data
collection of subsections are subjected to next-generation sequencing to measure countsof two allelse—the normal allele that was observed in matched normal sample at thatlocus, and tumor allele. The resulting counts matrices are provided as input to aninference procedure that estimates the clonal genotypes and frequencies. We developed anovel method that uses the EM algorithm to maximize the likelihood of observed dataassuming the alternative counts have binomial distribution.
Clone frequencies vary smoothly across the tumor
Each panel plots, for different section, the pattern of inferred clone frequencies acrosssubsections. Subsections in white were not subjected to sequencing. The primary clone frequenciesvary in monotonic fashion as we traverse the sample from left to right.
Evolution of breast cancer
The above phylogeny tree shows the inferred clonal phylogeny from our deep sequencing dataassuming there are clones. Nodes correspond to observed or inferred clonal populations, and edgesare annotated with mutations that occur between the parent and child clones. Two mutations aregrouped into colored box if they both occur on the same branch in all four phylogenies inferredunder the assumption of 3, 4, 5, or clones (data not shown). The tree provides valuable insight intothe development of each clone by ordering in time the mutations which lead to that clone.
We developed method to infer the clonal structure of single cancer from multiple samples of thesame tumor. We provide three types of evidence that the inferred structure is accurate: (1) analysis ofsimulated data, (2) analysis of the inferred clone frequencies relative to tumor anatomy, and (3)consistency of the clonal genotypes with phylogenetic tree. The inferred clonal architecture of atumor may help in understanding its etiology and in designing appropriate treatments.