blurred cityscape image
© 2009 IBM Corporation
R120_G137_B251-200
Hetero-Labeled LDA:A partially supervised topic model with heterogeneouslabel information
Dongyeop Kang1, Youngja Park2, Suresh Chari2
                1. IT Convergence Laboratory, KAIST Institute,Korea
                  2. IBM T.J. Watson Research Center, NY, USA
© 2009 IBM Corporation
R120_G137_B251-200
Topic Discovery - Supervised
Topic classification
Learn decision boundaries of classes by learning from data with labels
 Accurate topic classification for general domains
 Very hard to build a model for business applications due todata bottleneck
© 2009 IBM Corporation
R120_G137_B251-200
Topic Discovery – Unsupervised
Probabilistic topic modeling
Learn topic distribution for each class by learning from datawithout label information, and choose topic of new data frommost similar topic distribution
e.g., Latent Dirichlet Allocation (LDA)
Not sufficiently accurate or interpretable
© 2009 IBM Corporation
R120_G137_B251-200
Topic Discovery – Semi-supervised
Supervised topic modeling methods
Supervised LDA [Blei&McAuliffe,2007],  Labeled LDA [Ramage,2009]:document labels provided
Semi-supervised topic modeling methods
Seeded LDA [Jagarlamudi,2012],  zLDA [Andrzejewski,2009]: wordlabels/constraints provided
Limitations
1.Only one kind of domain knowledge is supported
2.The labels should cover the entire topic space, |L| = |T|
3.All documents should be labeled in training data, |Dunlabeled| = Ф
© 2009 IBM Corporation
R120_G137_B251-200
Partially Semi-supervised Topic Modeling withHeterogeneous Labels
Generation of labeled training samples is much morechallenging for real-world applications
In most large companies, data are generated and managedindependently by many different divisions
Different types of domain knowledge are available in differentdivisions
Can we discover accurate and meaningful topics withsmall amount of various types of domain knowledge?
© 2009 IBM Corporation
R120_G137_B251-200
Hetero-Lableled LDA: Main Contributions
Heterogeneity
Domain knowledge (labels) come in different forms
 e.g., document labels, topic-indicative features, a partial taxonomy
Partialness
Small amount of labels are given
We address two kinds of partialness
Partially labeled documents: |L| << |T|
Partially labeled corpus:  |Dlabeled| << |Dunlabeled|
Three levels of domain information
Group Information:
Label Information:
Topic Distribution:
© 2009 IBM Corporation
R120_G137_B251-200
Challenges
Document labels (Ld)
Feature labels (Lw)
{trade, billion, dollar, export, bank, finance}
{grain, wheat, corn, oil, oildseed, sugar, tonn}
{game, team, player, hit, dont, run, pitch}
{god, christian, jesus, bible, church, christ}
?????
?????
© 2009 IBM Corporation
R120_G137_B251-200
Hetero-Labeled LDA: Heterogeneity
w
z
θ
α
φ
β
K
K
D
Λd
γ
Document Labels
Λw
K
δ
Word Labels
Wd
© 2009 IBM Corporation
R120_G137_B251-200
Hetero-Labeled LDA: Partialness
w
z
θ
α
φ
β
Wd
Λw
δ
Λd
γ
Kd << K
Kw << K
 Kd ∩ Kw ≠ Ф
K
K
Kw
D
© 2009 IBM Corporation
R120_G137_B251-200
Hetero-Labeled LDA: Heterogeneity+Partialness
Λd
Ψ
Kd
w
z
θ
α
φ
β
K
K
Λw
Kw
δ
Hybrid Constraint
Wd
D
γ
© 2009 IBM Corporation
R120_G137_B251-200
Hetero-Labeled LDA: Generative Process
© 2009 IBM Corporation
R120_G137_B251-200
Hetero-Labeled LDA: Generative Process
© 2009 IBM Corporation
R120_G137_B251-200
Hetero-Labeled LDA: Inference & Learning
13
Gibbs-Sampling
© 2009 IBM Corporation
R120_G137_B251-200
Experiments
Datasets:
Algorithms:
Baseline: LDALLDAzLDA
Proposed: HLLDA (L=T), HLLDA (L<T)
Evaluation metric:
 Prediction Accuracy: the higher the better
 Clustering F-measure: the higher the better
 Variational Information: the lower the better
Data set
 N
V
T
Reuters
21,073
32,848
20
News20
19,997
82,780
20
Delicious.5K
5,000
890,429
20
© 2009 IBM Corporation
R120_G137_B251-200
Experiment: Questions
Q1. How does mixture of heterogeneous labelinformation improve performance of classification andclustering?
© 2009 IBM Corporation
R120_G137_B251-200
Multi-class Prediction Accuracy
Clustering F-Measure
© 2009 IBM Corporation
R120_G137_B251-200
Experiment: Questions
Q2. How does HLLDA improve performance of partiallylabeled documents?
Partially labeled corpus: |Dlabeled| << |Dunlabeled|
Partially labeled document|L| << |T|
For a document, the provided label set covers a subset ofall the topics the document belongs to. Our goal is topredict the full set of topics for each document.
© 2009 IBM Corporation
R120_G137_B251-200
Partially Labeled Documents: |L| << |T|
© 2009 IBM Corporation
R120_G137_B251-200
Partially Labeled Corpus: |Dlabeled| << |Dunlabeled|
© 2009 IBM Corporation
R120_G137_B251-200
Experiment: Questions
Q3. How good are the generated topics interpretable?
 Comparison between LLDA and HLLDA
 User study for topic quality
© 2009 IBM Corporation
R120_G137_B251-200
News-20: LLDA (10) vs HLLDA (10)
<LLDA(10) with 10 Document labels>
<LLDA(10) with another 10 Document labels>
<HLLDA(10) with 10 Document labels >
© 2009 IBM Corporation
R120_G137_B251-200
Delicious.5k: LLDA (10) vs HLLDA (10)
<LLDA(10) with another 10 Document labels>
<LLDA(10) with 10 Document labels>
<HLLDA(10) with 10 Document labels >
© 2009 IBM Corporation
R120_G137_B251-200
User Study for Topic Quality
 Number of topically irrelevant (Red) and relevant (Blue) words.
 The more blue (red) words are, the higher (lower) the topic quality is
© 2009 IBM Corporation
R120_G137_B251-200
Conclusions
Proposed a novel algorithm for partially semi-supervised topicmodeling
Incorporates multiple heterogeneous domain knowledge which can beeasily obtained in real life
Supports two types of partialness : |L| << |T|  and |Dlabeled| << |Dunlabeled|
A unified graphical model
Experimental results confirm that learning from multipledomain information is beneficial (mutually reinforcing)
HLLDA outperforms existing semi-supervised methods interms of classification and clustering task
© 2009 IBM Corporation
R120_G137_B251-200
THANK YOUcontact: young_park@us.ibm.com
25