SlideShare a Scribd company logo
   
   
Ninan Sajeeth PhilipNinan Sajeeth Philip
St. Thomas College, Kozhencherry
   
Ninan Sajeeth PhilipNinan Sajeeth Philip
St. Thomas College, Kozhencherry
   
I am visiting Sudhanshu Barway as part of the 
joint  South­Africa  India  bilateral  project  with 
SAAO  for  developing  Virtual  Observatory 
tools for SALT.
   
Machine Learning Challenges in 
Astronomy
Ninan Sajeeth Philip
nspp@iucaa.ernet.in
http://www.iucaa.ernet.in/~nspp
   
Machine Learning
● Objective : Mimic human ability to learn and make 
decisions.
● Need :  Surveys  are  producing  huge  data  and 
conventional  methods  are  insufficient  to  process 
them. 
Eg: SDSS survey could spectroscopically confirm the nature of 
only less than 1% of its photometric detections.
● Limitation : The  goodness  of  the  outputs  depend 
on the discriminative power of the inputs.
● Advantage : First level sorting of candidates.
   
Machine Learning
● Objective : Mimic human ability to learn and make 
decisions.
● Need :  Surveys  are  producing  huge  data  and 
conventional  methods  are  insufficient  to  process 
them. 
Eg: SDSS survey could spectroscopically confirm the nature of 
only less than 1% of its photometric detections.
● Limitation : The  goodness  of  the  outputs  depend 
on the discriminative power of the inputs.
● Advantage : First level sorting of candidates.
   
Machine Learning
● Objective : Mimic human ability to learn and make 
decisions.
● Need :  Surveys  are  producing  huge  data  and 
conventional  methods  are  insufficient  to  process 
them. 
Eg: SDSS survey could spectroscopically confirm the nature of 
only less than 1% of its photometric detections.
● Limitation : The  goodness  of  the  outputs  depend 
on the discriminative power of the inputs.
● Advantage : First level sorting of candidates.
   
Machine Learning
● Objective : Mimic human ability to learn and make 
decisions.
● Need :  Surveys  are  producing  huge  data  and 
conventional  methods  are  insufficient  to  process 
them. 
Eg: SDSS survey could spectroscopically confirm the nature of 
only less than 1% of its photometric detections.
● Limitation : The  goodness  of  the  outputs  depend 
on the discriminative power of the inputs.
● Advantage : First level sorting of candidates.
   
Machine Learning
● Objective : Mimic human ability to learn and make 
decisions.
● Need :  Surveys  are  producing  huge  data  and 
conventional  methods  are  insufficient  to  process 
them. 
Eg: SDSS survey could spectroscopically confirm the nature of 
only less than 1% of its photometric detections.
● Limitation : The  goodness  of  the  outputs  depend 
on the discriminative power of the inputs.
● Advantage : First level sorting of candidates.
   
Large Data Issues
● Multidimensional data – requires more memory
● Diversity in the data – rare to rich populations
● Overlapping features – observational limitations
● Missing values – observational limitations
● Uncertainties – inherent and observational
● Processing Power – silicon limitations
● Storage and retrieval – bandwidth limitations 
   
Large Data Issues
● Multidimensional data – requires more memory
● Diversity in the data – rare to rich populations
● Overlapping features – observational limitations
● Missing values – observational limitations
● Uncertainties – inherent and observational
● Processing Power – silicon limitations
● Storage and retrieval – bandwidth limitations 
   
Large Data Issues
● Multidimensional data – requires more memory
● Diversity in the data – rare to rich populations
● Overlapping features – observational limitations
● Missing values – observational limitations
● Uncertainties – inherent and observational
● Processing Power – silicon limitations
● Storage and retrieval – bandwidth limitations 
   
Large Data Issues
● Multidimensional data – requires more memory
● Diversity in the data – rare to rich populations
● Overlapping features – observational limitations
● Missing values – observational limitations
● Uncertainties – inherent and observational
● Processing Power – silicon limitations
● Storage and retrieval – bandwidth limitations 
   
Large Data Issues
● Multidimensional data – requires more memory
● Diversity in the data – rare to rich populations
● Overlapping features – observational limitations
● Missing values – observational limitations
● Uncertainties – inherent and observational
● Processing Power – silicon limitations
● Storage and retrieval – bandwidth limitations 
   
Large Data Issues
● Multidimensional data – requires more memory
● Diversity in the data – rare to rich populations
● Overlapping features – observational limitations
● Missing values – observational limitations
● Uncertainties – inherent and observational
● Processing Power – silicon limitations
● Storage and retrieval – bandwidth limitations 
   
Large Data Issues
● Multidimensional data – requires more memory
● Diversity in the data – rare to rich populations
● Overlapping features – observational limitations
● Missing values – observational limitations
● Uncertainties – inherent and observational
● Processing Power – silicon limitations
● Storage and retrieval – bandwidth limitations 
   
Different Machine Learning Methods
● All methods assume that the different types 
(classes) are separable in the feature space.
Light profile of galaxies are different from that of stars
   
A Real Example
Composed  of  about  a 
million  points  showing 
clustering  of  Quasars 
(blue  and  red),  main 
sequence  stars  (green), 
late  type  stars  (yellow) 
and unresolved galaxies 
(pink) in a colour ­colour 
plot of SDSS colours.
SDSS
 colour­colour plot
   
A Real Example
Composed  of  about  a 
million  points  showing 
clustering  of  Quasars 
(blue  and  red),  main 
sequence  stars  (green), 
late  type  stars  (yellow) 
and unresolved galaxies 
(pink) in a colour ­colour 
plot of SDSS colours.
Blue are low redshift 
Quasars and our goal is 
to identify them and 
verify whether the actual 
number count match 
with the estimated 
values.
   
A Real Example Blue are low redshift 
Quasars and our goal is 
to identify them and 
verify whether the actual 
number count match 
with the estimated 
values.
The region in the box 
has about 150,000 
confirmed observations 
and about 6 million 
unconfirmed cases.
   
A Real Example Blue are low redshift 
Quasars and our goal is 
to identify them and 
verify whether the actual 
number count match 
with the estimated 
values.
The region in the box 
has about 150,000 
confirmed observations 
and about 6 million 
unconfirmed cases.
All objects have known 
colours – only their 
classification is 
unknown.
   
Bayesian Model
   
Feature Space
● SDSS provides 5 magnitudes for each object in 
bands  u,  g,  r,  i  and  z  that  can  be  used  to 
construct a ten dimensional colour space.
● A subset of the 150,000 objects with confirmed 
spectroscopic  classification  can  be  used  to 
estimate the likelihood.
● The classifier can be tested on remaining data 
to verify the accuracy of the model.
   
Feature Space
● SDSS provides 5 magnitudes for each object in 
bands  u,  g,  r,  i  and  z  that  can  be  used  to 
construct a ten dimensional colour space.
● A subset of the 150,000 objects with confirmed 
spectroscopic  classification  can  be  used  to 
estimate the likelihood.
● The classifier can be tested on remaining data 
to verify the accuracy of the model.
The distribution is not smooth
   
Feature Space
● SDSS  provides  5  magnitudes  for  each  object  in 
bands u, g, r, i and z that can be used to construct a 
ten dimensional colour space.
● A  subset  of  the  150,000  objects  with  confirmed 
spectroscopic classification can be used to estimate 
the likelihood.
The colour space need to be binned to approximate 
the distribution.
● The  classifier  can  be  tested  on  remaining  data  to 
verify the accuracy of the model.
The distribution is not smooth
   
Feature Space
● SDSS provides 5 magnitudes for each object in bands u, 
g,  r,  i  and  z  that  can  be  used  to  construct  a  ten 
dimensional colour space.
● A  subset  of  the  150,000  objects  with  confirmed 
spectroscopic  classification  can  be  used  to  estimate  the 
likelihood.
The  colour  space  need  to  be  binned  to  approximate  the 
distribution. Computing conditional likelihood of the binned 
high dimensional feature space is nearly impossible.
● The classifier can be tested on remaining data to verify the 
accuracy of the model.
The distribution is not smooth
   
Two issues with Bayesian Formalism
● How  would  you  guess  the  True  value  of  the 
Prior for each bin?
● Conditional  dependency  of  the  input  feature 
space – likelihood is conditionally dependent on 
input  values  ­  Naive  Bayesian  models  fail  on 
even simple XOR problems.
   
Bayesian Methods
● Ensemble methods: Multiple models, same data : many 
weak learners combined to form a strong learning model
● Bagging: each model in ensemble vote for the probable 
candidate
● Boosting: Emphasise the failing models with weights
● Bayesian  Model  Averaging  (BMA):  Sampling 
Hypothesis from Hypothesis Space
● Bayesian  Model  Combination  (BMC):  Seek 
combination of models closest to a distribution.
   
Bayesian Methods
● Ensemble methods: Multiple models, same data
● Bagging:  each  model  in  ensemble  vote  for  the 
probable candidate
● Boosting:  Emphasise  the  failing  models  with 
weights
● Bayesian  Model  Averaging  (BMA):  Sampling 
Hypothesis from Hypothesis Space
● Bayesian  Model  Combination  (BMC):  Seek 
combination of models closest to a distribution.
   
Bayesian Methods
● Ensemble methods: Multiple models, same data
● Bagging:  each  model  in  ensemble  vote  for  the 
probable candidate
● Boosting:  Emphasise  the  failing  models  with 
weights
● Bayesian  Model  Averaging  (BMA):  Sampling 
Hypothesis from Hypothesis Space
● Bayesian  Model  Combination  (BMC):  Seek 
combination of models closest to a distribution.
   
Bayesian Methods
● Ensemble methods: Multiple models, same data
● Bagging:  each  model  in  ensemble  vote  for  the 
probable candidate
● Boosting:  Emphasise  the  failing  models  with 
weights
● Bayesian  Model  Averaging  (BMA):  Sampling 
Hypothesis from Hypothesis Space
● Bayesian  Model  Combination  (BMC):  Seek 
combination of models closest to a distribution.
   
Bayesian Methods
● Ensemble methods: Multiple models, same data
● Bagging: each model in ensemble vote for the 
probable candidate
● Boosting: Emphasise the failing models with 
weights
● Bayesian Model Averaging (BMA): Sampling 
Hypothesis from Hypothesis Space
● Bayesian Model Combination (BMC): Seek a 
combination of models closest to a distribution.
   
Our Solution
● Estimating both Prior and Likelihood from data.
● Boosting:  Emphasise  the  failing  models  with 
weights
Can  Prior  be  replaced  with  weights  for  each 
range  (bin)  of  input  feature  values  within  the 
same model?
   
Replacing Prior with weights
● Partition the input feature space into M bins – the bins the bins 
can be centred around clusters or simple uniform binning.can be centred around clusters or simple uniform binning.
●
Assign uniform small prior/weight to all the bins.Assign uniform small prior/weight to all the bins.
●
Compute  Bayesian  Posterior  Probability  based  on Compute  Bayesian  Posterior  Probability  based  on 
input features in the training data and identify failed input features in the training data and identify failed 
instances.instances.
●
Update  weights  associated  with  the  input  feature Update  weights  associated  with  the  input  feature 
bins  corresponding  to  failed  cases  by  A bins  corresponding  to  failed  cases  by  A  x x  (1­P/P*) (1­P/P*) 
where A is a learning constant and P and P* are BP where A is a learning constant and P and P* are BP 
for failed and target outcomes respectively.for failed and target outcomes respectively.
   
Replacing Prior with weights
● Partition the input feature space into M bins – the bins the bins 
can be centred around clusters or simple uniform binning.can be centred around clusters or simple uniform binning.
●
Assign Assign uniformuniform small prior/weight to all the bins. small prior/weight to all the bins.
●
Compute  Bayesian  Posterior  Probability  based  on Compute  Bayesian  Posterior  Probability  based  on 
input features in the training data and identify failed input features in the training data and identify failed 
instances.instances.
●
Update  weights  associated  with  the  input  feature Update  weights  associated  with  the  input  feature 
bins  corresponding  to  failed  cases  by  A bins  corresponding  to  failed  cases  by  A  x x  (1­P/P*) (1­P/P*) 
where A is a learning constant and P and P* are BP where A is a learning constant and P and P* are BP 
for failed and target outcomes respectively.for failed and target outcomes respectively.
   
Replacing Prior with weights
● Partition the input feature space into M bins – the bins the bins 
can be centred around clusters or simple uniform binning.can be centred around clusters or simple uniform binning.
●
Assign Assign uniformuniform small prior/weight to all the bins. small prior/weight to all the bins.
●
Compute  Bayesian  Posterior  Probability  based  on Compute  Bayesian  Posterior  Probability  based  on 
input features in the training data and input features in the training data and identify failed identify failed 
instances.instances.
●
Update  weights  associated  with  the  input  feature Update  weights  associated  with  the  input  feature 
bins  corresponding  to  failed  cases  by  A bins  corresponding  to  failed  cases  by  A  x x  (1­P/P*) (1­P/P*) 
where A is a learning constant and P and P* are BP where A is a learning constant and P and P* are BP 
for failed and target outcomes respectively.for failed and target outcomes respectively.
   
Replacing Prior with weights
● Partition the input feature space into M bins – the bins the bins 
can be centred around clusters or simple uniform binning.can be centred around clusters or simple uniform binning.
●
Assign Assign uniformuniform small prior/weight to all the bins. small prior/weight to all the bins.
●
Compute  Bayesian  Posterior  Probability  based  on Compute  Bayesian  Posterior  Probability  based  on 
input features in the training data and input features in the training data and identify failed identify failed 
instances.instances.
●
Update  weights  associated  with  the  input  feature Update  weights  associated  with  the  input  feature 
bins  corresponding  to  failed  cases  by bins  corresponding  to  failed  cases  by  A A  x x  (1­P/P*)(1­P/P*)  
where where AA is a learning constant and  is a learning constant and PP and  and P*P* are BP  are BP 
for failed and target outcomes respectively.for failed and target outcomes respectively.
   
Replacing Prior with weights
● Partition the input feature space into M bins – the bins the bins 
can be centred around clusters or simple uniform binning.can be centred around clusters or simple uniform binning.
●
Assign Assign uniformuniform small prior/weight to all the bins. small prior/weight to all the bins.
●
Compute  Bayesian  Posterior  Probability  based  on Compute  Bayesian  Posterior  Probability  based  on 
input features in the training data and input features in the training data and identify failed identify failed 
instances.instances.
●
Update  weights  associated  with  the  input  feature Update  weights  associated  with  the  input  feature 
bins  corresponding  to  failed  cases  by bins  corresponding  to  failed  cases  by  A A  x x  (1­P/P*)(1­P/P*)  
where A is a learning constant and P and P* are BP where A is a learning constant and P and P* are BP 
for failed and target outcomes respectively. for failed and target outcomes respectively.  Since the Since the 
update is based on probability, outliers do not cause an issue.update is based on probability, outliers do not cause an issue.
   
Likelihood estimation of Binned Space
● Likelihood  estimation  becomes  an  issue  because 
we  want  to  know  the  conditional  likelihood  of  the 
binned feature space. There may not be sufficient 
samples  in  each  bin  to  estimate  likelihood  when 
conditional dependence constrains are imposed on 
them.
● We adopted an imposed conditional independence 
formula  that  approximate  the  likelihood  for  a 
conditionally dependent event as the product of the 
likelihood for pairs of input features.
   
Likelihood estimation of Binned Space
● Likelihood  estimation  becomes  an  issue  because 
we  want  to  know  the  conditional  likelihood  of  the 
binned feature space. There may not be sufficient 
samples to estimate likelihood when constrains on 
conditional dependence is imposed on them.
● We adopted an imposed conditional independence 
formula  that  approximate  the  likelihood  for  a 
conditionally dependent event as the product of the 
likelihood for pairs of input features.
   
Imposed Conditional Independence
The likelihood for a conditionally dependent event A can 
be approximated as the product of the likelihood of paired 
input features.
● L(A|b,c,d,e,f) ~ 
M*L(A|b,c)* L(A|b,d)* L(A|b,e)* L(A|b,f)* L(A|c,d) *L(A|c,e)* 
L(A|c,f)* L(A|d,e)* L(A|d,f)* L(A|e,f)
● Works better than Naive Bayes – no issue with XOR gate
   
Imposed Conditional Independence
The likelihood for a conditionally dependent event A can 
be approximated as the product of the likelihood of  its 
paired inputs.
● L(A|b,c,d,e,f) ~ 
M*L(A|b,c)* L(A|b,d)* L(A|b,e)* L(A|b,f)* L(A|c,d) *L(A|c,e)* 
L(A|c,f)* L(A|d,e)* L(A|d,f)* L(A|e,f)
● Works better than Naive Bayes – no issue with XOR gate
   
Classification of the 6 million Objects
Blue are Quasars, Yellow are unresolved Galaxies and Green are 
main sequence Stars
   
Verification of Predictions
   
Comparison with expected number counts
   
Further Information
   
The Predicted Catalogue
   
A more complex situation
● What if all input features are not known?
Straightforward solution : Compute the inverse 
probability for the missing feature just as you 
handle missing values.
Not so easy situation: What if we do not have a 
training data with all features for computing inverse 
probability?
   
A more complex situation
● What if all input features are not known?
Straightforward  solution  :  Compute  the  inverse 
probability  for  the  missing  feature  just  as  you 
handle missing values.
Not  so  easy  situation:  What  if  we  do  not  have  a 
training data with all features for computing inverse 
probability?
   
A more complex situation
● What if all input features are not known?
Straightforward  solution  :  Compute  the  inverse 
probability  for  the  missing  feature  just  as  you 
handle missing values.
Not  so  easy  situation:  What  if  we  do  not  have  a 
training data with all features for computing inverse 
probability?
   
A Challenging Problem
   
A Challenging Problem
● Generate alerts on optical transient detections
● Minimize false alarms
● Customize alarms to user demands
● Send the alarms immediately – given minimal or 
sometime very little information about it.
Example : Nearest distance to a galaxy or star
 : Distance to nearest known radio object 
 : Distance to nearest known x­ray detections
 : Magnitudes in archives and in earlier detections
   
A Challenging Problem
● Generate alerts on optical transient detections
● Minimize false alarms
● Customize alarms to user demands
● Send the alarms immediately – given minimal or 
sometime very little information about it.
Example : Nearest distance to a galaxy or star
 : Distance to nearest known radio object 
 : Distance to nearest known x­ray detections
 : Magnitudes in archives and in earlier detections
   
A Challenging Problem
● Generate alerts on optical transient detections
● Minimize false alarms
● Customize alerts to user demands
● Send the alarms immediately – given minimal 
or sometime very little information about it.
Example : Nearest distance to a galaxy or star
 : Distance to nearest known radio object 
 : Distance to nearest known x­ray detections
 : Magnitudes in archives and in earlier 
detections
   
A Challenging Problem
● Generate alerts on optical transient detections
● Minimize false alarms
● Customize alarms to user demands
● Send the alerts immediately – given minimal or 
sometime very little information about it.
Example : Nearest distance to a galaxy or star
 : Distance to nearest known radio object 
 : Distance to nearest known x­ray detections
 : Magnitudes in archives and in earlier 
detections
   
A Challenging Problem
● Generate alerts on optical transient detections
● Minimize false alarms
● Customize alarms to user demands
● Send the alerts immediately – given minimal or 
sometime very little information about it.
Example : Nearest distance to a galaxy or star
 : Distance to nearest known radio object 
 : Distance to nearest known x­ray detections
 : Magnitudes in archives and in earlier  
detections
   
Missing Values
Example : Nearest distance to a galaxy or star
 : Distance to nearest known radio object 
 : Distance to nearest known x­ray detections
 : Magnitudes in archives and in earlier detections
Possible only if the object is within the foot print 
of a survey
Each survey may use a different unit for their 
catalogues – need to be considered separately 
   
Missing Values
Example : Nearest distance to a galaxy or star
 : Distance to nearest known radio object 
 : Distance to nearest known x­ray detections
 : Magnitudes in archives and in earlier detections
Possible only if the object is within the foot print 
of a survey
Each survey may use a different unit for their 
catalogues – need to be considered separately 
   
Missing Data Values
The training data itself has missing data values.
Note:  The  accuracy  of  the  actual  observation  is  not    beyond  one  or  two  decimal 
places.  The  double  precision  is  used  here  only  to  reduce  round  off  error  while 
rescaling the data during the processing.
   
Missing Values
No way to compute inverse probability­ makes 
No way to compute inverse probability­ makes 
it impossible for standard machine learning 
it impossible for standard machine learning 
algorithms to learn and predict the outcome
algorithms to learn and predict the outcome
   
Our Approach
The likelihood for a conditionally dependent event A 
can be approximated as the product of the likelihood 
of  its paired inputs.
● L(A|b,c,d,e,f) ~ 
M*L(A|b,c)* L(A|b,d)* L(A|b,e)* L(A|b,f)* L(A|c,d) 
*L(A|c,e)* L(A|c,f)* L(A|d,e)* L(A|d,f)* L(A|e,f)
   
Our Approach
The likelihood for a conditionally dependent event A 
can be approximated as the product of the likelihood 
of  its paired inputs.
● L(A|b,c,d,e,f) ~ 
M*L(A|b,c)* L(A|b,d)* L(A|b,e)* L(A|b,f)* L(A|c,d) 
*L(A|c,e)* L(A|c,f)* L(A|d,e)* L(A|d,f)* L(A|e,f)
   
Our Approach
The likelihood for a conditionally dependent event A can 
be approximated as the product of the likelihood of  its 
paired inputs.
● L(A|b,c,d,e,f) ~ 
M*L(A|b,c)* L(A|b,d)* L(A|b,e)* L(A|b,f)* L(A|c,d) *L(A|c,e)* 
L(A|c,f)* L(A|d,e)* L(A|d,f)* L(A|e,f)
● Estimate approximate Likelihood based on whatever 
information available and use it for training and testing.
   
Approximate Likelihood
● Since we do not have the luxury to decide the 
input features, we go for a greedy collection of 
what all information – input data – that can be 
collected to compute the approximate likelihood.
● It is expected (assumed) that the redundancy in 
the  available  information  will  help  us  to 
approximate the likelihood to some reasonable 
accuracy.
   
Approximate Likelihood
● Since we do not have the luxury to decide the 
input features, we go for a greedy collection of 
what all information – input data – that can be 
collected to compute the approximate likelihood.
● It is expected (assumed) that the redundancy in 
the  available  information  will  help  us  to 
approximate the likelihood to some reasonable 
accuracy.
   
Approximate Likelihood
● Since we do not have the luxury to decide the 
input features, we go for a greedy collection of 
what all information – input data – that can be 
collected to compute the approximate likelihood.
● It is expected (assumed) that the redundancy in 
the  available  information  will  help  us  to 
approximate the likelihood to some reasonable 
accuracy.
More like a forensic investigationMore like a forensic investigation
   
What about Prior?
The likelihood for a conditionally dependent 
event A is approximated to the product of the 
likelihood of  paired input features.
The prior is to be determined from the data
Uses a gradient descent algorithm to determine 
the prior from the data
   
What about Prior?
The likelihood for a conditionally dependent event 
A can is approximated to the product of the 
likelihood of paired input features.
The prior is to be determined from the data with 
missing data
We use a gradient descent algorithm to determine 
the prior from the data
   
What about Prior?
The likelihood for a conditionally dependent event A is 
approximated as the product of the likelihood of paired 
input features.
The prior is to be determined from the data with missing 
data
We use a gradient descent algorithm to determine the 
prior – weights ­ from the data, similar to boosting.
   
Dynamic Learning
● With lot of missing values in the observations, 
each input data has partial information about 
the features associated to an outcome.
● Learn as we go... use Bayesian update rule to 
update the belief in each input feature and its 
consequences.  
   
Dynamic Learning
● With lot of missing values in the observations, 
each input data has partial information about 
the features associated to an outcome.
● Learn as we go... use Bayesian update rule to 
update the belief in each input feature and its 
effect on the outcome.  
   
Dynamic Addition of Features
● We want to use all available information about 
the detections as and when they become 
available.
● Since likelihood is computed as the product, it is 
feasible to update it with new evidences as and 
when they become available.
   
Dynamic Addition of Features
● We want to use all available information about 
the detections
● Since likelihood is computed as the product, it is 
feasible to update it with new evidences as and 
when they become available.
   
Dreaming Computers
● We  now  have  many  input  features  but  not  so 
many examples to learn from. This can lead to 
over­fitting the data and Memorising rather than 
generalising the situation.
● Dreams  are  synthetic  inputs  our  brain  uses  to 
teach  us  how  to  react  to  plausible  situations. 
Can we create dreams for computers? 
   
Dreaming Computers
● We  now  have  many  input  features  but  not  so 
many examples to learn from. This can lead to 
over­fitting the data and Memorising rather than 
generalising the situation.
● Dreams  are  synthetic  inputs  our  brain  uses  to 
teach  us  how  to  react  to  plausible  situations. 
Can we create dreams for computers? 
   
Information from Error Bars
● Can error bars give additional information?
● Error bars tell us that the nature of the object 
remains same even if the measurement value is 
varied within the range of the error bar – can be 
used to generate new data
   
Information from Error Bars
● Can error bars give additional information?
● Error bars tell us that the nature of the object 
remains same even if the measurement value is 
varied within the range of the error bar – can be 
used to generate new data
   
DBNN
● The algorithm described so far is the core 
design concept of the Difference Boosting 
Neural Network or DBNN algorithm.
● It is GNU public and the source code can be 
downloaded from 
http://www.iucaa.ernet.in/~nspp/dbnn.html
   
DBNN Annotator
A  collaborative  project  with  Ashish  Mahabal A  collaborative  project  with  Ashish  Mahabal 
(Caltech),  IUCAA,  Pune  and  the  CRTS  Team (Caltech),  IUCAA,  Pune  and  the  CRTS  Team 
with funding  from IUSSTF and ISRO.with funding  from IUSSTF and ISRO.
   
CRTS Predictions
1, "Cataclysmic Variable"
2 "Supernova"
3 "other"
5 "Blazar Outburst"
6 "AGN Variability"
7 "UVCeti Variable"
8 "Asteroid"
9 "Variable"
10 "Mira Variable"
11 "High Proper Motion Star"
12 "Comet"
   
CRTS Predictions
  [1] [2] [3] [5] [6] [7] [8] [9] [10] [11] [12] [16] Total
 [1]  273  3  4  1  1  0  1  3  3  3  0  1  293 
 [2]   4  402 3  0  4  1  3  2  0  1  1  0  421 
 [3]   0  0  34  0  0  0  0  0  0  0  0  0  34 
 [5]   0  0  0  60  0  0  0  0  1  0  0  0  61 
 [6]   0  0  0  0  126 0  0  0  0  0  0  0  126 
 [7]   0  0  0  0  0  32  0  0  0  0  0  0  32 
 [8]   0  0  0  0  0  0  6  0  0  0  0  0  6 
 [9]   0  0  0  0  0  0  0  18  0  0  0  0  18 
 [10] 0  0  0  0  0  0  0  0  12  0  0  0  12 
 [11] 0  0  0  0  0  0  0  0  0  43  0  0  43 
 [12] 0  0  0  0  0  0  0  0  0  0  5  0  5 
 [16] 0  0  0  0  0  0  0  0  0  0  0  1  1 
 _________________________________________________________
Total 277 405  41  61  131 33  10  23  16  47  6  2  1052 
1,"Cataclysmic Variable"
2,"Supernova"
3,"other"
5,"Blazar Outburst"
6,"AGN Variability"
7,"UVCeti Variable"
8,"Asteroid"
9,"Variable"
10,"Mira Variable"
11,"High Proper Motion Star"
12,"Comet"
   
CRTS Predictions
  [1] [2] [3] [5] [6] [7] [8] [9] [10] [11] [12] [16] Total
 [1]  273  3  4  1  1  0  1  3  3  3  0  1  293 
 [2]   4  402 3  0  4  1  3  2  0  1  1  0  421 
 [3]   0  0  34  0  0  0  0  0  0  0  0  0  34 
 [5]   0  0  0  60  0  0  0  0  1  0  0  0  61 
 [6]   0  0  0  0  126 0  0  0  0  0  0  0  126 
 [7]   0  0  0  0  0  32  0  0  0  0  0  0  32 
 [8]   0  0  0  0  0  0  6  0  0  0  0  0  6 
 [9]   0  0  0  0  0  0  0  18  0  0  0  0  18 
 [10] 0  0  0  0  0  0  0  0  12  0  0  0  12 
 [11] 0  0  0  0  0  0  0  0  0  43  0  0  43 
 [12] 0  0  0  0  0  0  0  0  0  0  5  0  5 
 [16] 0  0  0  0  0  0  0  0  0  0  0  1  1 
 _________________________________________________________
Total 277 405  41  61  131 33  10  23  16  47  6  2  1052 
1,"Cataclysmic Variable"
2,"Supernova"
3,"other"
5,"Blazar Outburst"
6,"AGN Variability"
7,"UVCeti Variable"
8,"Asteroid"
9,"Variable"
10,"Mira Variable"
11,"High Proper Motion Star"
12,"Comet"
Recall   273/277 =98.5%→
False Alarms   (293­273)/293 = 7%→
   
Parallel DBNN
● Since  DBNN  split  likelihood  as  the  product  of 
individual  pairs,  computation  of  likelihood  may 
be independently carried out by a different node 
in a HPC system.
● Broadcast likelihoods to nodes
● Compute
● Gather Bayesian belief for each outcome
   
Parallel DBNN
● Since  DBNN  split  likelihood  as  the  product  of 
individual  pairs,  computation  of  likelihood  may 
be independently carried out by a different node 
in a HPC system.
● Broadcast likelihoods to nodes
● Compute
● Gather Bayesian belief for each outcome
   
Parallel DBNN
● Since  DBNN  split  likelihood  as  the  product  of 
individual  pairs,  computation  of  likelihood  may 
be independently carried out by a different node 
in a HPC system.
● Broadcast likelihoods to nodes
● Compute
● Gather Bayesian belief for each outcome
   
Parallel DBNN
● Since  DBNN  split  likelihood  as  the  product  of 
individual  pairs,  computation  of  likelihood  may 
be independently carried out by a different node 
in a HPC system.
● Broadcast likelihoods to nodes
● Compute
● Gather Bayesian belief for each outcome
   
Parallel DBNN Code
Ajay Vibhute
Photometric Redshift Estimation
8 million Point sources from SDSS
Redshift with a step size of 0.05
Ranging from 0 to 7 
Four compute nodes, 16 Gb RAM
Training time reduced from 3 days 
to 11 hours
   
Parallel DBNN Code
Ajay Vibhute
Photometric Redshift Estimation
8 million Point sources from SDSS
Redshift with a step size of 0.05
Ranging from 0 to 7 
Four compute nodes, 16 Gb RAM
Training time reduced from 3 days 
to 11 hours
   
Parallel DBNN Code
Ajay Vibhute
Photometric Redshift Estimation
8 million Point sources from SDSS
Redshift with a step size of 0.05
Ranging from 0 to 7 
Four compute nodes, 16 Gb RAM
Training time reduced from 3 days 
to 11 hours
   
Parallel DBNN Code
Ajay Vibhute
Photometric Redshift Estimation
8 million Point sources from SDSS
Redshift with a step size of 0.05
Ranging from 0 to 7 
Four compute nodes, 16 Gb RAM
Training time reduced from 3 days 
to 11 hours
   
Parallel DBNN Results
Photometric redshift estimation of unresolved SDSS detections 
compared with spectroscopically confirmed samples.
Unpublished : under preparation
   
Parallel DBNN Results
   
Work in Progress
● Use of features extracted from light curves can 
improve the classification
● Not all interesting objects – discoveries – may 
have light curves
● A VO ­ Machine learning Tool kit is under 
development
● It will provide a VO compatible platform for 
astronomical data mining. 
   
Work in Progress
● Use of features extracted from light curves can 
improve the classification
Eclipsing Binary
Planetary System
Red Giant
   
Work in Progress
● Use of features extracted from light curves can 
improve the classification
Correlation analysis of 58 features 
extracted from CRTS light curves.
Arun Kumar
   
Work in Progress
● Use of features extracted from light curves can 
improve the classification
● Not all interesting objects – discoveries – may 
have light curves
● A VO ­ Machine learning Tool kit is under 
development
● It will provide a VO compatible platform for 
astronomical data mining. 
   
Work in Progress
● Use of features extracted from light curves can 
improve the classification
Spectroscopic Pipeline for 
the  Double  Spectrograph 
at Palomar Observatory
Sheelu Abraham
   
Work in Progress
● Use of features extracted from light curves can 
improve the classification
● Not all interesting objects – discoveries – may 
have light curves
● A VO ­ Machine learning Tool kit is under 
development
● It will provide a VO compatible platform for 
astronomical data mining. 
   
Photometric Databases and Data 
Analysis Techniques
Indo­ US Joint  Centers
Jan 20­24th
 2014
1. CLASS ACT ­ IUCAA, Caltech, St. Thomas 
College
2. Variable Stars ­ Univ. Delhi, SUNY 
Oswego, Univ. of Florida, Gainesville, Texas 
A&M Univ., IUCAAA

More Related Content

Similar to Machine Learning Challenges in Astronomy

Similar to Machine Learning Challenges in Astronomy (7)

The Role of Retention Time in Untargeted Metabolomics
The Role of Retention Time in Untargeted MetabolomicsThe Role of Retention Time in Untargeted Metabolomics
The Role of Retention Time in Untargeted Metabolomics
 
Character Of Iago Essay
Character Of Iago EssayCharacter Of Iago Essay
Character Of Iago Essay
 
SAMPLING methods d p singh .ppt
SAMPLING methods d p singh .pptSAMPLING methods d p singh .ppt
SAMPLING methods d p singh .ppt
 
SAMPLING.pptx
SAMPLING.pptxSAMPLING.pptx
SAMPLING.pptx
 
Phd Defence talk
Phd Defence talkPhd Defence talk
Phd Defence talk
 
2015 osu-metagenome
2015 osu-metagenome2015 osu-metagenome
2015 osu-metagenome
 
Ijcatr04051013
Ijcatr04051013Ijcatr04051013
Ijcatr04051013
 

More from CosmoAIMS Bassett

D-Branes and The Disformal Dark Sector - Danielle Wills and Tomi Koivisto
D-Branes and The Disformal Dark Sector - Danielle Wills and Tomi KoivistoD-Branes and The Disformal Dark Sector - Danielle Wills and Tomi Koivisto
D-Branes and The Disformal Dark Sector - Danielle Wills and Tomi Koivisto
CosmoAIMS Bassett
 
Cosmo-not: a brief look at methods of analysis in functional MRI and in diffu...
Cosmo-not: a brief look at methods of analysis in functional MRI and in diffu...Cosmo-not: a brief look at methods of analysis in functional MRI and in diffu...
Cosmo-not: a brief look at methods of analysis in functional MRI and in diffu...
CosmoAIMS Bassett
 
Effective Field Theory of Multifield Inflation
Effective Field Theory of Multifield InflationEffective Field Theory of Multifield Inflation
Effective Field Theory of Multifield Inflation
CosmoAIMS Bassett
 
Research Survival - Bruce Bassett
Research Survival - Bruce BassettResearch Survival - Bruce Bassett
Research Survival - Bruce Bassett
CosmoAIMS Bassett
 

More from CosmoAIMS Bassett (20)

Machine learning clustering
Machine learning clusteringMachine learning clustering
Machine learning clustering
 
Mauritius Big Data and Machine Learning JEDI workshop
Mauritius Big Data and Machine Learning JEDI workshopMauritius Big Data and Machine Learning JEDI workshop
Mauritius Big Data and Machine Learning JEDI workshop
 
Tuning your radio to the cosmic dawn
Tuning your radio to the cosmic dawnTuning your radio to the cosmic dawn
Tuning your radio to the cosmic dawn
 
A short introduction to massive gravity... or ... Can one give a mass to the ...
A short introduction to massive gravity... or ... Can one give a mass to the ...A short introduction to massive gravity... or ... Can one give a mass to the ...
A short introduction to massive gravity... or ... Can one give a mass to the ...
 
Decomposing Profiles of SDSS Galaxies
Decomposing Profiles of SDSS GalaxiesDecomposing Profiles of SDSS Galaxies
Decomposing Profiles of SDSS Galaxies
 
Cluster abundances and clustering Can theory step up to precision cosmology?
Cluster abundances and clustering Can theory step up to precision cosmology?Cluster abundances and clustering Can theory step up to precision cosmology?
Cluster abundances and clustering Can theory step up to precision cosmology?
 
An Overview of Gravitational Lensing
An Overview of Gravitational LensingAn Overview of Gravitational Lensing
An Overview of Gravitational Lensing
 
Testing cosmology with galaxy clusters, the CMB and galaxy clustering
Testing cosmology with galaxy clusters, the CMB and galaxy clusteringTesting cosmology with galaxy clusters, the CMB and galaxy clustering
Testing cosmology with galaxy clusters, the CMB and galaxy clustering
 
Galaxy Formation: An Overview
Galaxy Formation: An OverviewGalaxy Formation: An Overview
Galaxy Formation: An Overview
 
Spit, Duct Tape, Baling Wire & Oral Tradition: Dealing With Radio Data
Spit, Duct Tape, Baling Wire & Oral Tradition: Dealing With Radio DataSpit, Duct Tape, Baling Wire & Oral Tradition: Dealing With Radio Data
Spit, Duct Tape, Baling Wire & Oral Tradition: Dealing With Radio Data
 
MeerKAT: an overview
MeerKAT: an overviewMeerKAT: an overview
MeerKAT: an overview
 
Casa cookbook for KAT 7
Casa cookbook for KAT 7Casa cookbook for KAT 7
Casa cookbook for KAT 7
 
From Darkness, Light: Computing Cosmological Reionization
From Darkness, Light: Computing Cosmological ReionizationFrom Darkness, Light: Computing Cosmological Reionization
From Darkness, Light: Computing Cosmological Reionization
 
WHAT CAN WE DEDUCE FROM STUDIES OF NEARBY GALAXY POPULATIONS?
WHAT CAN WE DEDUCE FROM STUDIES OF NEARBY GALAXY POPULATIONS?WHAT CAN WE DEDUCE FROM STUDIES OF NEARBY GALAXY POPULATIONS?
WHAT CAN WE DEDUCE FROM STUDIES OF NEARBY GALAXY POPULATIONS?
 
Cosmological Results from Planck
Cosmological Results from PlanckCosmological Results from Planck
Cosmological Results from Planck
 
Where will Einstein fail?
Where will Einstein fail? Where will Einstein fail?
Where will Einstein fail?
 
D-Branes and The Disformal Dark Sector - Danielle Wills and Tomi Koivisto
D-Branes and The Disformal Dark Sector - Danielle Wills and Tomi KoivistoD-Branes and The Disformal Dark Sector - Danielle Wills and Tomi Koivisto
D-Branes and The Disformal Dark Sector - Danielle Wills and Tomi Koivisto
 
Cosmo-not: a brief look at methods of analysis in functional MRI and in diffu...
Cosmo-not: a brief look at methods of analysis in functional MRI and in diffu...Cosmo-not: a brief look at methods of analysis in functional MRI and in diffu...
Cosmo-not: a brief look at methods of analysis in functional MRI and in diffu...
 
Effective Field Theory of Multifield Inflation
Effective Field Theory of Multifield InflationEffective Field Theory of Multifield Inflation
Effective Field Theory of Multifield Inflation
 
Research Survival - Bruce Bassett
Research Survival - Bruce BassettResearch Survival - Bruce Bassett
Research Survival - Bruce Bassett
 

Recently uploaded

Search and Society: Reimagining Information Access for Radical Futures
Search and Society: Reimagining Information Access for Radical FuturesSearch and Society: Reimagining Information Access for Radical Futures
Search and Society: Reimagining Information Access for Radical Futures
Bhaskar Mitra
 

Recently uploaded (20)

IOS-PENTESTING-BEGINNERS-PRACTICAL-GUIDE-.pptx
IOS-PENTESTING-BEGINNERS-PRACTICAL-GUIDE-.pptxIOS-PENTESTING-BEGINNERS-PRACTICAL-GUIDE-.pptx
IOS-PENTESTING-BEGINNERS-PRACTICAL-GUIDE-.pptx
 
Free and Effective: Making Flows Publicly Accessible, Yumi Ibrahimzade
Free and Effective: Making Flows Publicly Accessible, Yumi IbrahimzadeFree and Effective: Making Flows Publicly Accessible, Yumi Ibrahimzade
Free and Effective: Making Flows Publicly Accessible, Yumi Ibrahimzade
 
From Siloed Products to Connected Ecosystem: Building a Sustainable and Scala...
From Siloed Products to Connected Ecosystem: Building a Sustainable and Scala...From Siloed Products to Connected Ecosystem: Building a Sustainable and Scala...
From Siloed Products to Connected Ecosystem: Building a Sustainable and Scala...
 
Demystifying gRPC in .Net by John Staveley
Demystifying gRPC in .Net by John StaveleyDemystifying gRPC in .Net by John Staveley
Demystifying gRPC in .Net by John Staveley
 
Measures in SQL (a talk at SF Distributed Systems meetup, 2024-05-22)
Measures in SQL (a talk at SF Distributed Systems meetup, 2024-05-22)Measures in SQL (a talk at SF Distributed Systems meetup, 2024-05-22)
Measures in SQL (a talk at SF Distributed Systems meetup, 2024-05-22)
 
IoT Analytics Company Presentation May 2024
IoT Analytics Company Presentation May 2024IoT Analytics Company Presentation May 2024
IoT Analytics Company Presentation May 2024
 
Behind the Scenes From the Manager's Chair: Decoding the Secrets of Successfu...
Behind the Scenes From the Manager's Chair: Decoding the Secrets of Successfu...Behind the Scenes From the Manager's Chair: Decoding the Secrets of Successfu...
Behind the Scenes From the Manager's Chair: Decoding the Secrets of Successfu...
 
Salesforce Adoption – Metrics, Methods, and Motivation, Antone Kom
Salesforce Adoption – Metrics, Methods, and Motivation, Antone KomSalesforce Adoption – Metrics, Methods, and Motivation, Antone Kom
Salesforce Adoption – Metrics, Methods, and Motivation, Antone Kom
 
UiPath Test Automation using UiPath Test Suite series, part 3
UiPath Test Automation using UiPath Test Suite series, part 3UiPath Test Automation using UiPath Test Suite series, part 3
UiPath Test Automation using UiPath Test Suite series, part 3
 
When stars align: studies in data quality, knowledge graphs, and machine lear...
When stars align: studies in data quality, knowledge graphs, and machine lear...When stars align: studies in data quality, knowledge graphs, and machine lear...
When stars align: studies in data quality, knowledge graphs, and machine lear...
 
How world-class product teams are winning in the AI era by CEO and Founder, P...
How world-class product teams are winning in the AI era by CEO and Founder, P...How world-class product teams are winning in the AI era by CEO and Founder, P...
How world-class product teams are winning in the AI era by CEO and Founder, P...
 
Search and Society: Reimagining Information Access for Radical Futures
Search and Society: Reimagining Information Access for Radical FuturesSearch and Society: Reimagining Information Access for Radical Futures
Search and Society: Reimagining Information Access for Radical Futures
 
De-mystifying Zero to One: Design Informed Techniques for Greenfield Innovati...
De-mystifying Zero to One: Design Informed Techniques for Greenfield Innovati...De-mystifying Zero to One: Design Informed Techniques for Greenfield Innovati...
De-mystifying Zero to One: Design Informed Techniques for Greenfield Innovati...
 
Empowering NextGen Mobility via Large Action Model Infrastructure (LAMI): pav...
Empowering NextGen Mobility via Large Action Model Infrastructure (LAMI): pav...Empowering NextGen Mobility via Large Action Model Infrastructure (LAMI): pav...
Empowering NextGen Mobility via Large Action Model Infrastructure (LAMI): pav...
 
Unpacking Value Delivery - Agile Oxford Meetup - May 2024.pptx
Unpacking Value Delivery - Agile Oxford Meetup - May 2024.pptxUnpacking Value Delivery - Agile Oxford Meetup - May 2024.pptx
Unpacking Value Delivery - Agile Oxford Meetup - May 2024.pptx
 
Assuring Contact Center Experiences for Your Customers With ThousandEyes
Assuring Contact Center Experiences for Your Customers With ThousandEyesAssuring Contact Center Experiences for Your Customers With ThousandEyes
Assuring Contact Center Experiences for Your Customers With ThousandEyes
 
Key Trends Shaping the Future of Infrastructure.pdf
Key Trends Shaping the Future of Infrastructure.pdfKey Trends Shaping the Future of Infrastructure.pdf
Key Trends Shaping the Future of Infrastructure.pdf
 
Designing Great Products: The Power of Design and Leadership by Chief Designe...
Designing Great Products: The Power of Design and Leadership by Chief Designe...Designing Great Products: The Power of Design and Leadership by Chief Designe...
Designing Great Products: The Power of Design and Leadership by Chief Designe...
 
UiPath Test Automation using UiPath Test Suite series, part 1
UiPath Test Automation using UiPath Test Suite series, part 1UiPath Test Automation using UiPath Test Suite series, part 1
UiPath Test Automation using UiPath Test Suite series, part 1
 
Software Delivery At the Speed of AI: Inflectra Invests In AI-Powered Quality
Software Delivery At the Speed of AI: Inflectra Invests In AI-Powered QualitySoftware Delivery At the Speed of AI: Inflectra Invests In AI-Powered Quality
Software Delivery At the Speed of AI: Inflectra Invests In AI-Powered Quality
 

Machine Learning Challenges in Astronomy