Creating a science base to support newdirections in computer science
Cornell University Ithaca New York
John Hopcroft
Time of change
The information age is a fundamental revolutionthat is changing all aspects of our lives.
Those individuals, institutions, and nations whorecognize this change and position themselves forthe future will benefit enormously.
21 Century computing
Computer Science is changing
Early years
Programming languages
Compilers
Operating systems
Algorithms
Data bases
Emphasis on making computers useful
21 Century computing
Computer Science is changing
The future years
Tracking the flow of ideas in scientific literature
Tracking evolution of communities in social networks
Extracting information from unstructured data sources
Processing massive data sets and streams
Extracting signals from noise
Dealing with high dimensional data and dimensionreduction
21 Century computing
Drivers of change
Merging of computing and communications
Data available in digital form
Networked devices and sensors
Computers becoming ubiquitous
21 Century computing
Implications for TCS
Need to develop theory to support the newdirections
Update computer science education
21 Century computing
Internet search engines arechanging
When was Einstein born?
Einstein was born at Ulm, in Wurttemberg,Germany, on March 14, 1879.
List of relevant web pages
21 Century computing
21 Century computing
Einstein
Internet queries will be different
Which car should I buy?
What are the key papers in TheoreticalComputer Science?
Construct an annotated bibliography on graphtheory.
Where should I go to college?
How did the field of computer science develop?
21 Century computing
Which car should I buy?
Search engine response: Which criteria beloware important to you?
Fuel economy
Crash safety
Reliability
Performance
Etc.
21 Century computing
21 Century computing
Make
Cost
Reliability
Fueleconomy
Crashsafety
Links tophotos/articles
Toyota Prius
23,780
Excellent
44 mpg
Fair
photo
article
Honda Accord
28,695
Better
26 mpg
Excellent
photo
article
Toyota Camry
29,839
Average
24 mpg
Good
photo
article
Lexus 350
38,615
Excellent
23 mpg
Good
photo
article
Infiniti M35
47,650
Excellent
19 mpg
Good
photo
article
21 Century computing
112_0701_coty_02wl+2007_toyota_camry_hybrid+front_action_view
21 Century computing
2010 Toyota Camry - Auto Shows
Toyota sneaks the new Camry into the Detroit Auto Show.
Usually, redesigns and facelifts of cars as significant as the hot-sellingToyota Camry are accompanied by a commensurate amount of fanfare.So we were surprised when, right about the time that we were walkingby the Toyota booth, a chirp of our Blackberries brought us the pressrelease announcing that the facelifted 2010 Toyota Camry and CamryHybrid mid-sized sedans were appearing at the 2009 NAIAS in Detroit.
We’d have hardly noticed if they hadn’t told us—the headlamps areslightly larger, the grilles on the gas and hybrid models go their ownway, and taillamps become primarily LED. Wheels are also new, butoverall, the resemblance to the Corolla is downright uncanny. Let’s hearit for brand consistency!
Four-cylinder Camrys get Toyota’s new 2.5-liter four-cylinder with aboost in horsepower to 169 for LE and XLE grades, 179 for the CamrySE, all of which are available with six-speed manual or automatictransmissions. Camry V-6 and Hybrid models are relatively unchangedunder the skin.
Inside, changes are likewise minimal: the options list has been shakenup a bit, but the only visible change on any Camry model is the Hybrid’snew gauge cluster and softer seat fabrics. Pricing will be announcedcloser to the time it goes on sale this March.
2010 Toyota Camry
Which are the key papers inTheoretical Computer Science?
Hartmanis and Stearns, “On the computational complexity of algorithms”
Blum, “A machine-independent theory of the complexity of recursivefunctions”
Cook, “The complexity of theorem proving procedures”
Karp, “Reducibility  among combinatorial problems”
Garey and Johnson, “Computers and Intractability: Guide to theTheory of NP-Completeness”
Yao, “Theory and Applications of Trapdoor Functions”
Shafi Goldwasser, Silvio Micali, Charles Rackoff “The KnowledgeComplexity of Interactive Proof Systems”
Sanjeev Arora, Carsten Lund, Rajeev Motwani, Madhu Sudan, andMario Szegedy, “Proof Verification and the Hardness of ApproximationProblems”
21 Century computing
21 Century computing
Fed Ex package tracking
21 Century computing
fedex
21 Century computing
21 Century computing
flight_tracker
21 Century computing
snoqualmie
21 Century computing
traffic
I-5: NE 45th St
cctv135
none
21 Century computing
21 Century computing
NEXRAD Radar
Binghamton, Base Reflectivity 0.50 Degree Elevation Range 124 NMI — Map of All US Radar Sites
Zoom Map Click:
Zoom In
Zoom Out
Pan Map
                                                                                                                                                                                                              
»AdvancedRadarTypesCLICK»
 
WUNIDS_map?station=BGM&brand=wui&num=0&delay=15&type=N0R&frame=0&scale=0
clear
clear
21 Century computing
WUNIDS_map?station=BGM&brand=wui&num=0&delay=15&type=N0R&frame=26=25=26=27=28=29=30=31=32=33=34=35=36=37=38=39=40=0&scale=0
Collective Inference on Markov Modelsfor Modeling Bird Migration
21 Century computing
Space
Time
21 Century computing
im10a
im20a
im30a
im40a
Daniel Sheldon, M. A. Saleh Elmohamed, Dexter Kozen
Science base to supportactivities
Track flow of ideas in scientific literature
Track evolution of communities in social networks
Extract information from unstructured data sources.
21 Century computing
21 Century computing
Tracking the flow of ideas inscientific literature
Yookyung Jo
21 Century computing
Tracking the flow of ideas in scientific literature
Yookyung Jo
Page rank
Web
Link
Graph
Retrieval
Query
Search
Text
Web
Page
Search
Rank
Web
Chord
Usage
Index
Probabilistic
Text
File
Retrieve
Text
Index
Discourse
Word
Centering
Anaphora
21 Century computing
graph0_stage1
Original papers
21 Century computing
graph0_stage4
Original papers cleaned up
21 Century computing
graph5_stage1
Referenced papers
21 Century computing
graph5_stage4
graph5_stage4
Referenced papers cleaned up.Three distinct categories of papers
21 Century computing
21 Century computing
Tracking communities insocial networks
21 Century computing
Liaoruo Wang
“Statistical Properties of Community Structurein Large Social and Information Networks”, JureLeskovec; Kevin Lang; Anirban Dasgupta;Michael Mahoney
Studied over 70 large sparse real-worldnetworks.
Best communities are of approximate size 100 to150.
21 Century computing
    Our most striking finding is that in nearly everynetwork dataset we examined, we observed tightbut almost trivial communities at very smallscales, and at larger size scales, the best possiblecommunities gradually "blend in" with the rest ofthe network and thus become less "community-like".
21 Century computing
21 Century computing
Conductance
Size of community
100
21 Century computing
Giant component
21 Century computing
Whisker:  A component with v vertices connectedby               edges
Our view of a community
21 Century computing
TCS
Me
Colleagues at Cornell
Classmates
Family and friends
More connectionsoutside than inside
Early work
Min cut – two equal size communities
Conductance – minimizes cross edges
Future work
Consider communities with more cross edges thaninternal edges
Find small communities
Track communities over time
Develop appropriate definitions for communities
Understand the structure of different types of socialnetworks
21 Century computing
“Clustering Social networks”Mishra, Schreiber, Stanton, and Tarjan
Each member of community is connected to abeta fraction of community
No member outside the community is connectedto more than an alpha fraction of the community
Some connectivity constraint
21 Century computing
In sparse graphs
How do you find alpha-beta communities?
What if each person in the community isconnected to more members outside thecommunity than inside?
21 Century computing
Structure of social networks
Different networks may have quite different structures.
An algorithm for finding alpha-beta communities insparse graphs.
How many communities of given size are there in asocial network?
Results on exploring tweeter network of approximately100,000 nodes.
21 Century computing
Liaoruo Wang, Jing He, Hongyu Liang
200 randomlychosen nodes
Apply alpha-beta algorithm
Resulting alpha-beta community
How many alpha-beta communities?
21 Century computing
Massively overlapping communities
Are there a small number of massivelyoverlapping communities that share a commoncore?
Are there massively overlapping communities inwhich one can move from one community to atotally disjoint community?
21 Century computing
21 Century computing
Massively overlapping communities with a common core
21 Century computing
Massively overlapping communities
Define the core of a set of overlappingcommunities to be the intersection of thecommunities.
There are a small number of cores in the tweeterdata set.
21 Century computing
Size of initial set
Number of cores
25
221
50
94
100
19
150
8
200
4
250
4
300
4
350
3
400
3
450
3
21 Century computing
450         1                                                                   5               6
400         1                                                                   5                 6
350         1                                                                   5               6
300         1                                 3                              5                6
250         1                                 3                               5                6
200         1                                 3                              5                  6
150         1               2                3               4               5               6             7              8
21 Century computing
What is the graph structure that causes certaincores to merge and others to simply vanish?
What is the structure of cores as they get larger?Do they consist of concentric layers that are lessdense at the outside?
21 Century computing
21 Century computing
Sucheta Soundarajan
Transmission paths for viruses,flow of ideas, or influence
Sparse vectors
21 Century computing
There are a number of situations where sparsevectors are important
Tracking the flow of ideas in scientific literature
Biological applications
Signal processing
Sparse vectors in biology
21 Century computing
plants
Genotype
Internal code
Phenotype
Observables
Outward manifestation
Theory to support new directions
21 Century computing
Large graphs
Spectral analysis
High dimensions and dimension reduction
Clustering
Collaborative filtering
Extracting signal from noise
Theory of Large Graphs
Large graphs with billions of vertices
Exact edges present not critical
Invariant to small changes in definition
Must be able to prove basic theorems
21 Century computing
Erdös-Renyi
vertices
each of n2 potential edges is present withindependent probability
21 Century computing
N
n
pn (1-p)N-n
vertex degree
binomial degree distribution
numberofvertices
21 Century computing
smallunitedairlineusa
Generative models for graphs
  Vertices and edges added at each unit of time
  Rule to determine where to place edges
Uniform probability
Preferential attachment- gives rise to power lawdegree distributions
21 Century computing
21 Century computing
Vertex degree
Number
 of
vertices
Preferential attachment gives riseto the power law degreedistribution common in manygraphs
21 Century computing
Protein interactions
2730 proteins in data base
3602 interactions between proteins
Science 1999 July 30; 285:751-753
Only 899 proteins in components.  Where are the 1851 missingproteins?
21 Century computing
Protein interactions
2730 proteins in data base
3602 interactions between proteins
Science 1999 July 30; 285:751-753
Science base
What do we mean by science base?
Example:  High dimensions
21 Century computing
High dimension is fundamentallydifferent from 2 or 3 dimensionalspace
21 Century computing
High dimensional data isinherently unstable
Given random points in dimensional space,essentially all n2 distances are equal.
 
21 Century computing
21 Century computing
High Dimensions
Intuition from two and three dimensions not valid for highdimension
MCED00214_0000[1]
Volume of cube is onein all dimensions
Volume of spheregoes to zero
21 Century computing
1
Unit sphere
Unit square
2 Dimensions
21 Century computing
4 Dimensions
21 Century computing
d Dimensions
1
Almost all area of the unit cube isoutside the unit sphere
21 Century computing
Gaussian distribution
21 Century computing
   Probability mass concentratedbetween dotted lines
Gaussian in high dimensions
21 Century computing
Two Gaussians
21 Century computing
21 Century computing
TwoGaussians
Distance between two randompoints from same Gaussian
Points on thin annulus of radius
Approximate by sphere of radius
Average distance between two points is
   (Place one point at N. Pole, the other point at random.Almost surely, the second point is near the equator.)
21 Century computing
21 Century computing
21 Century computing
21 Century computing
Expected distance between points fromtwo Gaussians separated by δ
Can separate points from twoGaussians if
21 Century computing
Dimension reduction
   Given n points in d dimensions, randomprojection to log n dimensions willpreserve all pair wise distances
21 Century computing
Dimension reduction for theGaussians
Project points onto subspace containing centersof Gaussians
Reduce dimension from to k, the number ofGaussians
21 Century computing
21 Century computing
Centers retain separation
Average distance between points reduced
            by
Can separate Gaussians provided
21 Century computing
> some constant involving k and  γindependent of the dimension
Finding centers of Gaussians
21 Century computing
First singular vector vminimizes the perpendiculardistance to points
The first singular vector goes through center ofGaussian and minimizes distance to points
Gaussian
21 Century computing
Best k-dimensional space for Gaussian is any spacecontaining the line through the center of theGaussian.
21 Century computing
Given k Gaussians, the top k singular vectorsdefine a k dimensional space that contains the klines through the centers of the k Gaussian andhence contain the centers of the Gaussians.
21 Century computing
21 Century computing
We have just seen what a science basefor high dimensional data might look like.
What other areas do we need to develop ascience base for?
21 Century computing
Ranking is important
Restaurants, movies, books, web pages
Multi-billion dollar industry
Collaborative filtering
When a customer buys a product, what else ishe likely to buy?
Dimension reduction
Extracting information from large datasources
Social networks
Time of change
The information age is a fundamental revolutionthat is changing all aspects of our lives.
Those individuals and nations who recognize thischange and position themselves for the futurewill benefit enormously.
21 Century computing
Conclusions
We are in an exciting time of change.
Information technology is big driver of that change.
Computer science theory needs to be developed tosupport this information age.
21 Century computing
THANK  YOU