doc/v610/RuleFitAPI_8cxx_source.html

 // @(#)root/tmva $Id$
 // Author: Andreas Hoecker, Joerg Stelzer, Fredrik Tegenfeldt, Helge Voss

 /**********************************************************************************
  * Project: TMVA - a Root-integrated toolkit for multivariate data analysis       *
  * Package: TMVA                                                                  *
  * Class  : RuleFitAPI                                                            *
  * Web    : http://tmva.sourceforge.net                                           *
  *                                                                                *
  * Description:                                                                   *
  *      Implementation (see header file for description)                          *
  *                                                                                *
  * Authors (alphabetical):                                                        *
  *      Fredrik Tegenfeldt <Fredrik.Tegenfeldt@cern.ch>  - Iowa State U., USA     *
  *                                                                                *
  * Copyright (c) 2005:                                                            *
  *      CERN, Switzerland                                                         *
  *      Iowa State U.                                                             *
  *      MPI-KP Heidelberg, Germany                                                *
  *                                                                                *
  * Redistribution and use in source and binary forms, with or without             *
  * modification, are permitted according to the terms listed in LICENSE           *
  * (http://tmva.sourceforge.net/LICENSE)                                          *
  **********************************************************************************/

 /*! \class TMVA::RuleFitAPI
 \ingroup TMVA
 J Friedman's RuleFit method
 */

 #include "TMVA/RuleFitAPI.h"

 #include "TMVA/DataSet.h"
 #include "TMVA/DataSetInfo.h"
 #include "TMVA/MethodRuleFit.h"
 #include "TMVA/RuleFit.h"
 #include "TMVA/Timer.h"
 #include "TMVA/Tools.h"
 #include "TMVA/Types.h"
 #include "TMVA/VariableInfo.h"

 #include "TROOT.h"
 #include "TSystem.h"
 #include "TMath.h"

 #include <algorithm>

 ClassImp(TMVA::RuleFitAPI)

 TMVA::RuleFitAPI::RuleFitAPI( const MethodRuleFit *rfbase,
                               RuleFit *rulefit,
                               EMsgType minType = kINFO ) :
 fMethodRuleFit(rfbase),
    fRuleFit(rulefit),
    fRFProgram(kRfTrain),
    fLogger("RuleFitAPI",minType)
 {
    // standard constructor
    if (rfbase) {
       SetRFWorkDir(rfbase->GetRFWorkDir());
    } else {
       SetRFWorkDir("./rulefit");
    }
    InitRuleFit();
 }


 ////////////////////////////////////////////////////////////////////////////////
 /// destructor

 TMVA::RuleFitAPI::~RuleFitAPI()
 {
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// welcome message

 void TMVA::RuleFitAPI::WelcomeMessage()
 {
    fLogger << kINFO
            << "\n"
            << "---------------------------------------------------------------------------\n"
            << "-   You are running the interface to Jerome Friedmans RuleFit(tm) code.   -\n"
            << "-   For a full manual see the following web page:                         -\n"
            << "-                                                                         -\n"
            << "-        http://www-stat.stanford.edu/~jhf/R-RuleFit.html                 -\n"
            << "-                                                                         -\n"
            << "---------------------------------------------------------------------------"
            << Endl;
 }
 ////////////////////////////////////////////////////////////////////////////////
 /// howto message

 void TMVA::RuleFitAPI::HowtoSetupRF()
 {
    fLogger << kINFO
            << "\n"
            << "------------------------ RULEFIT-JF INTERFACE SETUP -----------------------\n"
            << "\n"
            << "1. Create a rulefit directory in your current work directory:\n"
            << "       mkdir " << fRFWorkDir << "\n\n"
            << "   the directory may be set using the option RuleFitDir\n"
            << "\n"
            << "2. Copy (or make a link) the file rf_go.exe into this directory\n"
            << "\n"
            << "The file can be obtained from Jerome Friedmans homepage (linux):\n"
            << "   wget http://www-stat.stanford.edu/~jhf/r-rulefit/linux/rf_go.exe\n"
            << "\n"
            << "Don't forget to do:\n"
            << "   chmod +x rf_go.exe\n"
            << "\n"
            << "For Windows download:\n"
            << "   http://www-stat.stanford.edu/~jhf/r-rulefit/windows/rf_go.exe\n"
            << "\n"
            << "NOTE: other platforms are not supported (see Friedmans homepage)\n"
            << "\n"
            << "---------------------------------------------------------------------------\n"
            << Endl;
 }
 ////////////////////////////////////////////////////////////////////////////////
 /// default initialisation
 ///   SetRFWorkDir("./rulefit");

 void TMVA::RuleFitAPI::InitRuleFit()
 {
    CheckRFWorkDir();
    FillIntParmsDef();
    FillRealParmsDef();
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// import setup from MethodRuleFit

 void TMVA::RuleFitAPI::ImportSetup()
 {
    fRFIntParms.p            = fMethodRuleFit->DataInfo().GetNVariables();
    fRFIntParms.max_rules    = fMethodRuleFit->GetRFNrules();
    fRFIntParms.tree_size    = fMethodRuleFit->GetRFNendnodes();
    fRFIntParms.path_steps   = fMethodRuleFit->GetGDNPathSteps();
    //
    fRFRealParms.path_inc    = fMethodRuleFit->GetGDPathStep();
    fRFRealParms.samp_fract  = fMethodRuleFit->GetTreeEveFrac();
    fRFRealParms.trim_qntl   = fMethodRuleFit->GetLinQuantile();
    fRFRealParms.conv_fac    = fMethodRuleFit->GetGDErrScale();
    //
    if      (fRuleFit->GetRuleEnsemblePtr()->DoOnlyLinear() )
       fRFIntParms.lmode = kRfLinear;
    else if (fRuleFit->GetRuleEnsemblePtr()->DoOnlyRules() )
       fRFIntParms.lmode = kRfRules;
    else
       fRFIntParms.lmode = kRfBoth;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// set the directory containing rf_go.exe.

 void TMVA::RuleFitAPI::SetRFWorkDir(const char * wdir)
 {
    fRFWorkDir = wdir;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// check if the rulefit work dir is properly setup.
 /// it aborts (kFATAL) if not.
 ///
 /// Check existence of directory

 void TMVA::RuleFitAPI::CheckRFWorkDir()
 {
    TString oldDir = gSystem->pwd();
    if (!gSystem->cd(fRFWorkDir)) {
       fLogger << kWARNING << "Must create a rulefit directory named : " << fRFWorkDir << Endl;
       HowtoSetupRF();
       fLogger << kFATAL << "Setup failed - aborting!" << Endl;
    }
    // check rf_go.exe
    FILE *f = fopen("rf_go.exe","r");
    if (f==0) {
       fLogger << kWARNING << "No rf_go.exe file in directory : " << fRFWorkDir << Endl;
       HowtoSetupRF();
       fLogger << kFATAL << "Setup failed - aborting!" << Endl;
    }
    fclose(f);
    gSystem->cd(oldDir.Data());
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// set the training parameters

 void TMVA::RuleFitAPI::SetTrainParms()
 {
    ImportSetup();
    //
    Int_t    n    = fMethodRuleFit->Data()->GetNTrainingEvents();
    //   Double_t neff = Double_t(n); // When weights are added: should be sum(wt)^2/sum(wt^2)
    fRFIntParms.n = n; // number of data points in tree
    fRFProgram    = kRfTrain;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// set the test params

 void TMVA::RuleFitAPI::SetTestParms()
 {
    ImportSetup();
    Int_t    n    = fMethodRuleFit->Data()->GetNTestEvents();
    //   Double_t neff = Double_t(n); // When weights are added: should be sum(wt)^2/sum(wt^2)
    fRFIntParms.n = n; // number of data points in tree
    fRFProgram    = kRfPredict;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// set default real params

 void TMVA::RuleFitAPI::FillRealParmsDef()
 {
    fRFRealParms.xmiss       = 9.0e30;
    fRFRealParms.trim_qntl   = 0.025;
    fRFRealParms.huber       = 0.8;
    fRFRealParms.inter_supp  = 3.0;
    fRFRealParms.memory_par  = 0.01;
    fRFRealParms.samp_fract  = 0.5; // calculated later
    fRFRealParms.path_inc    = 0.01;
    fRFRealParms.conv_fac    = 1.1;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// set default int params

 void TMVA::RuleFitAPI::FillIntParmsDef()
 {
    fRFIntParms.mode           = (int)kRfClass;
    fRFIntParms.lmode          = (int)kRfBoth;
    //   fRFIntParms.n;
    //   fRFIntParms.p;
    fRFIntParms.max_rules      = 2000;
    fRFIntParms.tree_size      = 4;
    fRFIntParms.path_speed     = 2;
    fRFIntParms.path_xval      = 3;
    fRFIntParms.path_steps     = 50000;
    fRFIntParms.path_testfreq  = 100;
    fRFIntParms.tree_store     = 10000000;
    fRFIntParms.cat_store      = 1000000;

 }

 ////////////////////////////////////////////////////////////////////////////////
 /// write all files read by rf_go.exe

 Bool_t TMVA::RuleFitAPI::WriteAll()
 {
    WriteIntParms();
    WriteRealParms();
    WriteLx();
    WriteProgram();
    WriteVarNames();
    if (fRFProgram==kRfTrain)   WriteTrain();
    if (fRFProgram==kRfPredict) WriteTest();
    if (fRFProgram==kRfVarimp)  WriteRealVarImp();
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// write int params file

 Bool_t TMVA::RuleFitAPI::WriteIntParms()
 {
    std::ofstream f;
    if (!OpenRFile("intparms",f)) return kFALSE;
    WriteInt(f,&fRFIntParms.mode,sizeof(fRFIntParms)/sizeof(Int_t));
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// write int params file

 Bool_t TMVA::RuleFitAPI::WriteRealParms()
 {
    std::ofstream f;
    if (!OpenRFile("realparms",f)) return kFALSE;
    WriteFloat(f,&fRFRealParms.xmiss,sizeof(fRFRealParms)/sizeof(Float_t));
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// Save input variable mask
 ///
 /// If the lx vector size is not the same as inputVars,
 /// resize it and fill it with 1
 /// NOTE: Always set all to 1
 ///  if (fRFLx.size() != m_inputVars->size()) {

 Bool_t TMVA::RuleFitAPI::WriteLx()
 {
    fRFLx.clear();
    fRFLx.resize(fMethodRuleFit->DataInfo().GetNVariables(),1);
    //  }
    std::ofstream f;
    if (!OpenRFile("lx",f)) return kFALSE;
    WriteInt(f,&fRFLx[0],fRFLx.size());
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// write command to rf_go.exe

 Bool_t TMVA::RuleFitAPI::WriteProgram()
 {
    std::ofstream f;
    if (!OpenRFile("program",f)) return kFALSE;
    TString program;
    switch (fRFProgram) {
    case kRfTrain:
       program = "rulefit";
       break;
    case kRfPredict:
       program = "rulefit_pred";
       break;
       // calculate variable importance
    case kRfVarimp:
       program = "varimp";
       break;
    default:
       fRFProgram = kRfTrain;
       program="rulefit";
       break;
    }
    f << program;
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// write the minimum importance to be considered

 Bool_t TMVA::RuleFitAPI::WriteRealVarImp()
 {
    std::ofstream f;
    if (!OpenRFile("realvarimp",f)) return kFALSE;
    Float_t rvp[2];
    rvp[0] = 0.0; // Mode: see varimp() in rulefit.r
    rvp[1] = 0.0; // Minimum importance considered (1 is max)
    WriteFloat(f,&rvp[0],2);
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// written by rf_go.exe; write rulefit output (rfout)

 Bool_t TMVA::RuleFitAPI::WriteRfOut()
 {
    fLogger << kWARNING << "WriteRfOut is not yet implemented" << Endl;
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// written by rf_go.exe; write rulefit status

 Bool_t TMVA::RuleFitAPI::WriteRfStatus()
 {
    fLogger << kWARNING << "WriteRfStatus is not yet implemented" << Endl;
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// written by rf_go.exe (NOTE:Format unknown!)

 Bool_t TMVA::RuleFitAPI::WriteRuleFitMod()
 {
    fLogger << kWARNING << "WriteRuleFitMod is not yet implemented" << Endl;
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// written by rf_go.exe (NOTE: format unknown!)

 Bool_t TMVA::RuleFitAPI::WriteRuleFitSum()
 {
    fLogger << kWARNING << "WriteRuleFitSum is not yet implemented" << Endl;
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// write training data, column wise

 Bool_t TMVA::RuleFitAPI::WriteTrain()
 {
    std::ofstream fx;
    std::ofstream fy;
    std::ofstream fw;
    //
    if (!OpenRFile("train.x",fx)) return kFALSE;
    if (!OpenRFile("train.y",fy)) return kFALSE;
    if (!OpenRFile("train.w",fw)) return kFALSE;
    //
    Float_t x,y,w;
    //
    // The loop order cannot be changed.
    // The data is stored <var1(eve1), var1(eve2), ...var1(eveN), var2(eve1),....
    //
    for (UInt_t ivar=0; ivar<fMethodRuleFit->DataInfo().GetNVariables(); ivar++) {
       for (Int_t ievt=0;ievt<fMethodRuleFit->Data()->GetNTrainingEvents(); ievt++) {
          const Event * ev = fMethodRuleFit->GetTrainingEvent(ievt);
          x = ev->GetValue(ivar);
          WriteFloat(fx,&x,1);
          if (ivar==0) {
             w = ev->GetWeight();
             y = fMethodRuleFit->DataInfo().IsSignal(ev)? 1.0 : -1.0;
             WriteFloat(fy,&y,1);
             WriteFloat(fw,&w,1);
          }
       }
    }
    fLogger << kINFO << "Number of training data written: " << fMethodRuleFit->Data()->GetNTrainingEvents() << Endl;
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// Write test data

 Bool_t TMVA::RuleFitAPI::WriteTest()
 {
    fMethodRuleFit->Data()->SetCurrentType(Types::kTesting);

    std::ofstream f;
    //
    if (!OpenRFile("test.x",f)) return kFALSE;
    //
    Float_t vf;
    Float_t neve;
    //
    neve = static_cast<Float_t>(fMethodRuleFit->Data()->GetNEvents());
    WriteFloat(f,&neve,1);
    // Test data is saved as:
    // 0      : <N> num of events, type float, 4 bytes
    // 1-N    : First variable for all events
    // N+1-2N : Second variable...
    // ...
    for (UInt_t ivar=0; ivar<fMethodRuleFit->DataInfo().GetNVariables(); ivar++) {
       for (Int_t ievt=0;ievt<fMethodRuleFit->Data()->GetNEvents(); ievt++) {
          vf =   fMethodRuleFit->GetEvent(ievt)->GetValue(ivar);
          WriteFloat(f,&vf,1);
       }
    }
    fLogger << kINFO << "Number of test data written: " << fMethodRuleFit->Data()->GetNEvents() << Endl;
    //
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// write variable names, ascii

 Bool_t TMVA::RuleFitAPI::WriteVarNames()
 {
    std::ofstream f;
    if (!OpenRFile("varnames",f)) return kFALSE;
    for (UInt_t ivar=0; ivar<fMethodRuleFit->DataInfo().GetNVariables(); ivar++) {
       f << fMethodRuleFit->DataInfo().GetVariableInfo(ivar).GetExpression() << '\n';
    }
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////

 Bool_t TMVA::RuleFitAPI::WriteVarImp()

 {
    // written by rf_go.exe
    fLogger << kWARNING << "WriteVarImp is not yet implemented" << Endl;
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// written by rf_go.exe

 Bool_t TMVA::RuleFitAPI::WriteYhat()
 {
    fLogger << kWARNING << "WriteYhat is not yet implemented" << Endl;
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// read the score

 Bool_t TMVA::RuleFitAPI::ReadYhat()
 {
    fRFYhat.clear();
    //
    std::ifstream f;
    if (!OpenRFile("yhat",f)) return kFALSE;
    Int_t   neve;
    Float_t xval;
    ReadFloat(f,&xval,1);
    neve = static_cast<Int_t>(xval);
    if (neve!=fMethodRuleFit->Data()->GetNTestEvents()) {
       fLogger << kWARNING << "Inconsistent size of yhat file and test tree!" << Endl;
       fLogger << kWARNING << "neve = " << neve << " , tree = " << fMethodRuleFit->Data()->GetNTestEvents() << Endl;
       return kFALSE;
    }
    for (Int_t ievt=0; ievt<fMethodRuleFit->Data()->GetNTestEvents(); ievt++) {
       ReadFloat(f,&xval,1);
       fRFYhat.push_back(xval);
    }
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// read variable importance

 Bool_t TMVA::RuleFitAPI::ReadVarImp()
 {
    fRFVarImp.clear();
    //
    std::ifstream f;
    if (!OpenRFile("varimp",f)) return kFALSE;
    UInt_t   nvars;
    Float_t xval;
    Float_t xmax=1.0;
    nvars=fMethodRuleFit->DataInfo().GetNVariables();
    //
    // First read all importances
    //
    for (UInt_t ivar=0; ivar<nvars; ivar++) {
       ReadFloat(f,&xval,1);
       if (ivar==0) {
          xmax=xval;
       } else {
          if (xval>xmax) xmax=xval;
       }
       fRFVarImp.push_back(xval);
    }
    //
    // Read the indices.
    // They are saved as float (!) by rf_go.exe.
    //
    for (UInt_t ivar=0; ivar<nvars; ivar++) {
       fRFVarImp[ivar] = fRFVarImp[ivar]/xmax;
       ReadFloat(f,&xval,1);
       fRFVarImpInd.push_back(Int_t(xval)-1);
    }
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// read model from rulefit.sum

 Bool_t TMVA::RuleFitAPI::ReadModelSum()
 {
    fRFVarImp.clear();
    //
    fLogger << kVERBOSE << "Reading RuleFit summary file" << Endl;
    std::ifstream f;
    if (!OpenRFile("rulefit.sum",f)) return kFALSE;
    Int_t    lines=0;
    Int_t    nrules=0;
    Int_t    nvars=0;
    Int_t    nvarsOpt=0;
    Int_t    dumI;
    Float_t  dumF;
    Float_t  offset;
    Double_t impref=-1.0;
    Double_t imp;

    fRuleFit->GetRuleEnsemblePtr()->SetAverageRuleSigma(0.4); // value used by Friedmans RuleFit
    //
    //--------------------------------------------
    //       first read rulefit.sum header
    //--------------------------------------------
    // line      type    val     descr
    //   0       <int>   86      N(rules)x2
    //   1       <int>   155     ???
    //   2       <int>   1       ???
    //   3       <int>   1916    ???
    //   4       <int>   2       N(vars) ?
    //   5       <int>   2       N(vars) ?
    //   6       <float> 9e+30   xmiss
    //   7       <float> 1.1e-1  a0 (model offset)
    //--------------------------------------------
    //
    // NOTE: a model without any rules, will look like
    // for the first four lines:
    //
    //   0        1
    //   1        1
    //   2        1
    //   3        0
    //
    // There will later be one block of dummy data for one rule.
    // In order to catch this situation, some special checks are made below.
    //
    Bool_t norules;
    lines += ReadInt(f,&nrules);
    norules = (nrules==1);
    lines += ReadInt(f,&dumI);
    norules = norules && (dumI==1);
    lines += ReadInt(f,&dumI);
    norules = norules && (dumI==1);
    lines += ReadInt(f,&dumI);
    norules = norules && (dumI==0);
    if (nrules==0) norules=kTRUE; // this ugly construction is needed:(
    if (norules) nrules = 0;
    //
    lines += ReadInt(f,&nvars);
    lines += ReadInt(f,&nvarsOpt);
    lines += ReadFloat(f,&dumF);
    lines += ReadFloat(f,&offset);
    fLogger << kDEBUG << "N(rules) = " << nrules   << Endl;
    fLogger << kDEBUG << "N(vars)  = " << nvars    << Endl;
    fLogger << kDEBUG << "N(varsO) = " << nvarsOpt << Endl;
    fLogger << kDEBUG << "xmiss    = " << dumF     << Endl;
    fLogger << kDEBUG << "offset   = " << offset   << Endl;
    if (nvars!=nvarsOpt) {
       fLogger << kWARNING << "Format of rulefit.sum is ... weird?? Continuing but who knows how it will end...?" << Endl;
    }
    std::vector<Double_t> rfSupp;
    std::vector<Double_t> rfCoef;
    std::vector<Int_t>    rfNcut;
    std::vector<Rule *>   rfRules;
    if (norules) {
       // if no rules, read 8 blocks of data
       // this corresponds to one dummy rule
       for (Int_t t=0; t<8; t++) {
          lines += ReadFloat(f,&dumF);
       }
    }
    //
    //--------------------------------------------
    //       read first part of rule info
    //--------------------------------------------
    //
    //   8       <int>   10      ???
    //   9       <float> 0.185   support
    //   10      <float> 0.051   coefficient
    //   11      <float> 2       num of cuts in rule
    //   12      <float> 1       ??? not used by this interface
    //
    for (Int_t r=0; r<nrules; r++) {
       lines += ReadFloat(f,&dumF);
       lines += ReadFloat(f,&dumF);
       rfSupp.push_back(dumF);
       lines += ReadFloat(f,&dumF);
       rfCoef.push_back(dumF);
       lines += ReadFloat(f,&dumF);
       rfNcut.push_back(static_cast<int>(dumF+0.5));
       lines += ReadFloat(f,&dumF);
       //
    }
    //--------------------------------------------
    //       read second part of rule info
    //--------------------------------------------
    //
    // Per range (cut):
    //   0    <float> 1       varind
    //   1    <float> -1.0    low
    //   2    <float>  1.56   high
    //

    for (Int_t r=0; r<nrules; r++) {
       Int_t    varind;
       Double_t xmin;
       Double_t xmax;
       Rule *rule = new Rule(fRuleFit->GetRuleEnsemblePtr());
       rfRules.push_back( rule );
       RuleCut *rfcut = new RuleCut();
       rfcut->SetNvars(rfNcut[r]);
       rule->SetRuleCut( rfcut );
       // the below are set to default values since no info is
       // available in rulefit.sum
       rule->SetNorm(1.0);
       rule->SetSupport(0);
       rule->SetSSB(0.0);
       rule->SetSSBNeve(0.0);
       rule->SetImportanceRef(1.0);
       rule->SetSSB(0.0);
       rule->SetSSBNeve(0.0);
       // set support etc
       rule->SetSupport(rfSupp[r]);
       rule->SetCoefficient(rfCoef[r]);
       rule->CalcImportance();
       imp = rule->GetImportance();
       if (imp>impref) impref = imp; // find max importance
       //
       fLogger << kDEBUG << "Rule #" << r << " : " << nvars << Endl;
       fLogger << kDEBUG << "  support  = " << rfSupp[r] << Endl;
       fLogger << kDEBUG << "  sigma    = " << rule->GetSigma() << Endl;
       fLogger << kDEBUG << "  coeff    = " << rfCoef[r] << Endl;
       fLogger << kDEBUG << "  N(cut)   = " << rfNcut[r] << Endl;

       for (Int_t c=0; c<rfNcut[r]; c++) {
          lines += ReadFloat(f,&dumF);
          varind = static_cast<Int_t>(dumF+0.5)-1;
          lines += ReadFloat(f,&dumF);
          xmin   = static_cast<Double_t>(dumF);
          lines += ReadFloat(f,&dumF);
          xmax   = static_cast<Double_t>(dumF);
          // create Rule HERE!
          rfcut->SetSelector(c,varind);
          rfcut->SetCutMin(c,xmin);
          rfcut->SetCutMax(c,xmax);
          // the following is not nice - this is however defined
          // by the rulefit.sum format.
          rfcut->SetCutDoMin(c,(xmin<-8.99e35 ? kFALSE:kTRUE));
          rfcut->SetCutDoMax(c,(xmax> 8.99e35 ? kFALSE:kTRUE));
          //
       }
    }
    fRuleFit->GetRuleEnsemblePtr()->SetRules( rfRules );
    fRuleFit->GetRuleEnsemblePtr()->SetOffset( offset );
    //--------------------------------------------
    //       read second part of rule info
    //--------------------------------------------
    //
    // Per linear term:
    // 73      1               var index
    // 74      -1.99594        min
    // 75      1.99403         max
    // 76      -0.000741858    ??? average ???
    // 77      0.970935        std
    // 78      0               coeff
    //
    std::vector<Int_t>    varind;
    std::vector<Double_t> xmin;
    std::vector<Double_t> xmax;
    std::vector<Double_t> average;
    std::vector<Double_t> stdev;
    std::vector<Double_t> norm;
    std::vector<Double_t> coeff;
    //
    for (Int_t c=0; c<nvars; c++) {
       lines += ReadFloat(f,&dumF);
       varind.push_back(static_cast<Int_t>(dumF+0.5)-1);
       lines += ReadFloat(f,&dumF);
       xmin.push_back(static_cast<Double_t>(dumF));
       lines += ReadFloat(f,&dumF);
       xmax.push_back(static_cast<Double_t>(dumF));
       lines += ReadFloat(f,&dumF);
       average.push_back(static_cast<Double_t>(dumF));
       lines += ReadFloat(f,&dumF);
       stdev.push_back(static_cast<Double_t>(dumF));
       Double_t nv = fRuleFit->GetRuleEnsemblePtr()->CalcLinNorm(stdev.back());
       norm.push_back(nv);
       lines += ReadFloat(f,&dumF);
       coeff.push_back(dumF/nv); // save coefficient for normalised var
       //
       fLogger << kDEBUG << "Linear #" << c << Endl;
       fLogger << kDEBUG << "  varind   = " << varind.back()  << Endl;
       fLogger << kDEBUG << "  xmin     = " << xmin.back()    << Endl;
       fLogger << kDEBUG << "  xmax     = " << xmax.back()    << Endl;
       fLogger << kDEBUG << "  average  = " << average.back() << Endl;
       fLogger << kDEBUG << "  stdev    = " << stdev.back()  << Endl;
       fLogger << kDEBUG << "  coeff    = " << coeff.back()  << Endl;
    }
    if (xmin.size()>0) {
       fRuleFit->GetRuleEnsemblePtr()->SetLinCoefficients(coeff);
       fRuleFit->GetRuleEnsemblePtr()->SetLinDM(xmin);
       fRuleFit->GetRuleEnsemblePtr()->SetLinDP(xmax);
       fRuleFit->GetRuleEnsemblePtr()->SetLinNorm(norm);
    }
    //   fRuleFit->GetRuleEnsemblePtr()->CalcImportance();
    imp = fRuleFit->GetRuleEnsemblePtr()->CalcLinImportance();
    if (imp>impref) impref=imp;
    fRuleFit->GetRuleEnsemblePtr()->SetImportanceRef(impref);
    fRuleFit->GetRuleEnsemblePtr()->CleanupLinear(); // to fill fLinTermOK vector

    fRuleFit->GetRuleEnsemblePtr()->CalcVarImportance();
    //   fRuleFit->GetRuleEnsemblePtr()->CalcRuleSupport();

    fLogger << kDEBUG << "Reading model done" << Endl;
    return kTRUE;
 }

 ////////////////////////////////////////////////////////////////////////////////
 /// execute rf_go.exe

 Int_t TMVA::RuleFitAPI::RunRuleFit()
 {
    TString oldDir = gSystem->pwd();
    TString cmd = "./rf_go.exe";
    gSystem->cd(fRFWorkDir.Data());
    int rval = gSystem->Exec(cmd.Data());
    gSystem->cd(oldDir.Data());
    return rval;
 }
TMVA::RuleFitAPI::WriteLx
Bool_t WriteLx()
Save input variable mask.
Definition: RuleFitAPI.cxx:293

TMVA::RuleFitAPI::kRfTrain
Definition: RuleFitAPI.h:85

TMVA::RuleFitAPI::ReadVarImp
Bool_t ReadVarImp()
read variable importance
Definition: RuleFitAPI.cxx:509

TMVA::RuleFitAPI::WelcomeMessage
void WelcomeMessage()
welcome message
Definition: RuleFitAPI.cxx:78

TMVA::DataSetInfo::GetNVariables
UInt_t GetNVariables() const
Definition: DataSetInfo.h:110

TMVA::Rule::SetCoefficient
void SetCoefficient(Double_t v)
Definition: Rule.h:82

TMVA::MethodRuleFit
J Friedman&#39;s RuleFit method.
Definition: MethodRuleFit.h:47

TMVA::MethodRuleFit::GetTreeEveFrac
Double_t GetTreeEveFrac() const
Definition: MethodRuleFit.h:93

xmin
float xmin
Definition: THbookFile.cxx:93

TMVA::RuleFitAPI::HowtoSetupRF
void HowtoSetupRF()
howto message
Definition: RuleFitAPI.cxx:94

TMVA::RuleEnsemble::SetLinDP
void SetLinDP(const std::vector< Double_t > &xmax)
Definition: RuleEnsemble.h:117

TMVA::RuleFitAPI::kRfRules
Definition: RuleFitAPI.h:84

TMVA::Endl
MsgLogger & Endl(MsgLogger &ml)
Definition: MsgLogger.h:158

Types.h

TMVA::Rule::SetSSBNeve
void SetSSBNeve(Double_t v)
Definition: Rule.h:91

TMVA::RuleFitAPI::IntParms::cat_store
Int_t cat_store
Definition: RuleFitAPI.h:100

TMVA::RuleFitAPI::fRuleFit
RuleFit * fRuleFit
Definition: RuleFitAPI.h:180

TMVA::Rule::SetRuleCut
void SetRuleCut(RuleCut *rc)
Definition: Rule.h:76

TMVA::RuleCut::SetCutMax
void SetCutMax(Int_t i, Double_t v)
Definition: RuleCut.h:65

TMVA::MethodRuleFit::GetGDErrScale
Double_t GetGDErrScale() const
Definition: MethodRuleFit.h:104

TMVA::RuleFitAPI
J Friedman&#39;s RuleFit method.
Definition: RuleFitAPI.h:50

TMVA::Rule::GetSigma
Double_t GetSigma() const
Definition: Rule.h:141

TMVA::RuleFitAPI::IntParms::tree_size
Int_t tree_size
Definition: RuleFitAPI.h:94

DataSetInfo.h

TMVA::RuleFitAPI::RealParms::huber
Float_t huber
Definition: RuleFitAPI.h:107

TMVA::RuleEnsemble::SetLinDM
void SetLinDM(const std::vector< Double_t > &xmin)
Definition: RuleEnsemble.h:116

Float_t
float Float_t
Definition: RtypesCore.h:53

TMVA::RuleFit
A class implementing various fits of rule ensembles.
Definition: RuleFit.h:44

TMVA::RuleFitAPI::fRFProgram
ERFProgram fRFProgram
Definition: RuleFitAPI.h:189

TMVA::RuleFitAPI::~RuleFitAPI
virtual ~RuleFitAPI()
destructor
Definition: RuleFitAPI.cxx:71

TMVA::RuleFitAPI::WriteRfStatus
Bool_t WriteRfStatus()
written by rf_go.exe; write rulefit status
Definition: RuleFitAPI.cxx:358

TMVA::RuleFitAPI::SetRFWorkDir
void SetRFWorkDir(const char *wdir)
set the directory containing rf_go.exe.
Definition: RuleFitAPI.cxx:157

TMVA::RuleEnsemble::CalcLinNorm
Double_t CalcLinNorm(Double_t stdev)
Definition: RuleEnsemble.h:120

TMVA::RuleFitAPI::WriteAll
Bool_t WriteAll()
write all files read by rf_go.exe
Definition: RuleFitAPI.cxx:250

TMVA::RuleFitAPI::RealParms::trim_qntl
Float_t trim_qntl
Definition: RuleFitAPI.h:106

TMVA::RuleFitAPI::FillIntParmsDef
void FillIntParmsDef()
set default int params
Definition: RuleFitAPI.cxx:230

TSystem::cd
Bool_t cd(const char *path)
Definition: TSystem.h:404

TString
Basic string class.
Definition: TString.h:129

TMVA::RuleFitAPI::WriteTrain
Bool_t WriteTrain()
write training data, column wise
Definition: RuleFitAPI.cxx:385

TMVA::RuleFitAPI::fMethodRuleFit
const MethodRuleFit * fMethodRuleFit
Definition: RuleFitAPI.h:179

TMVA::Types::kTesting
Definition: Types.h:143

Int_t
int Int_t
Definition: RtypesCore.h:41

Bool_t
bool Bool_t
Definition: RtypesCore.h:59

TMVA::RuleFitAPI::kRfClass
Definition: RuleFitAPI.h:83

TMVA::RuleFitAPI::WriteRfOut
Bool_t WriteRfOut()
written by rf_go.exe; write rulefit output (rfout)
Definition: RuleFitAPI.cxx:349

TMVA::RuleFitAPI::WriteIntParms
Bool_t WriteIntParms()
write int params file
Definition: RuleFitAPI.cxx:266

RuleFitAPI.h

TMVA::RuleFitAPI::WriteRealVarImp
Bool_t WriteRealVarImp()
write the minimum importance to be considered
Definition: RuleFitAPI.cxx:335

TMVA::RuleFitAPI::RealParms::path_inc
Float_t path_inc
Definition: RuleFitAPI.h:111

TMVA::RuleFitAPI::fRFIntParms
IntParms fRFIntParms
Definition: RuleFitAPI.h:186

TMVA::RuleEnsemble::CleanupLinear
void CleanupLinear()
cleanup linear model
Definition: RuleEnsemble.cxx:362

TMVA::RuleFitAPI::ImportSetup
void ImportSetup()
import setup from MethodRuleFit
Definition: RuleFitAPI.cxx:134

TMVA::RuleFitAPI::CheckRFWorkDir
void CheckRFWorkDir()
check if the rulefit work dir is properly setup.
Definition: RuleFitAPI.cxx:168

TMVA::RuleCut::SetNvars
void SetNvars(UInt_t nc)
Definition: RuleCut.h:141

TMVA::RuleFitAPI::RealParms::xmiss
Float_t xmiss
Definition: RuleFitAPI.h:105

TMVA::RuleFitAPI::IntParms::path_xval
Int_t path_xval
Definition: RuleFitAPI.h:96

TMVA::VariableInfo::GetExpression
const TString & GetExpression() const
Definition: VariableInfo.h:57

TMVA::Rule
Implementation of a rule.
Definition: Rule.h:48

TMVA::RuleEnsemble::SetAverageRuleSigma
void SetAverageRuleSigma(Double_t v)
Definition: RuleEnsemble.h:137

RuleFit.h

TMVA::RuleEnsemble::DoOnlyLinear
Bool_t DoOnlyLinear() const
Definition: RuleEnsemble.h:260

TMVA::RuleEnsemble::SetLinCoefficients
void SetLinCoefficients(const std::vector< Double_t > &v)
Definition: RuleEnsemble.h:114

TMVA::RuleFitAPI::RealParms::memory_par
Float_t memory_par
Definition: RuleFitAPI.h:109

TMVA::RuleEnsemble::SetImportanceRef
void SetImportanceRef(Double_t impref)
set reference importance
Definition: RuleEnsemble.cxx:439

TMVA::RuleFitAPI::kRfPredict
Definition: RuleFitAPI.h:85

Timer.h

TMVA::MethodRuleFit::GetGDPathStep
Double_t GetGDPathStep() const
Definition: MethodRuleFit.h:103

TMVA::RuleFitAPI::IntParms::n
Int_t n
Definition: RuleFitAPI.h:91

TMVA::RuleCut::SetCutMin
void SetCutMin(Int_t i, Double_t v)
Definition: RuleCut.h:64

TMVA::RuleFitAPI::fRFLx
std::vector< int > fRFLx
Definition: RuleFitAPI.h:188

x
Double_t x[n]
Definition: legend1.C:17

TMVA::RuleFitAPI::fRFYhat
std::vector< Float_t > fRFYhat
Definition: RuleFitAPI.h:182

TMVA::RuleFitAPI::WriteProgram
Bool_t WriteProgram()
write command to rf_go.exe
Definition: RuleFitAPI.cxx:307

TMVA::RuleFitAPI::FillRealParmsDef
void FillRealParmsDef()
set default real params
Definition: RuleFitAPI.cxx:215

TMVA::MethodBase::GetEvent
const Event * GetEvent() const
Definition: MethodBase.h:733

TMVA::MethodBase::Data
DataSet * Data() const
Definition: MethodBase.h:393

TSystem.h

TMVA::RuleFitAPI::IntParms::p
Int_t p
Definition: RuleFitAPI.h:92

TMVA::Rule::SetSSB
void SetSSB(Double_t v)
Definition: Rule.h:88

TMVA::RuleCut::SetCutDoMin
void SetCutDoMin(Int_t i, Bool_t v)
Definition: RuleCut.h:66

TMVA::RuleEnsemble::SetRules
void SetRules(const std::vector< TMVA::Rule *> &rules)
set rules
Definition: RuleEnsemble.cxx:545

TMVA::RuleFitAPI::kRfBoth
Definition: RuleFitAPI.h:84

TMVA::MethodBase::DataInfo
DataSetInfo & DataInfo() const
Definition: MethodBase.h:394

TMVA::RuleEnsemble::DoOnlyRules
Bool_t DoOnlyRules() const
Definition: RuleEnsemble.h:259

TMVA::RuleFitAPI::ReadModelSum
Bool_t ReadModelSum()
read model from rulefit.sum
Definition: RuleFitAPI.cxx:546

TMVA::RuleCut::SetSelector
void SetSelector(Int_t i, UInt_t s)
Definition: RuleCut.h:63

TMVA::RuleFit::GetRuleEnsemblePtr
RuleEnsemble * GetRuleEnsemblePtr()
Definition: RuleFit.h:141

TMVA::RuleFitAPI::ReadInt
Int_t ReadInt(std::ifstream &f, Int_t *v, Int_t n=1) const
Definition: RuleFitAPI.h:281

TMVA::Event::GetWeight
Double_t GetWeight() const
return the event weight - depending on whether the flag IgnoreNegWeightsInTraining is or not...
Definition: Event.cxx:382

TMVA::RuleFitAPI::kRfVarimp
Definition: RuleFitAPI.h:85

TMVA::RuleFitAPI::IntParms::path_testfreq
Int_t path_testfreq
Definition: RuleFitAPI.h:98

TMVA::DataSet::GetNTrainingEvents
Long64_t GetNTrainingEvents() const
Definition: DataSet.h:79

DataSet.h

TMVA::MethodBase::GetTrainingEvent
const Event * GetTrainingEvent(Long64_t ievt) const
Definition: MethodBase.h:753

TMVA::RuleFitAPI::IntParms::lmode
Int_t lmode
Definition: RuleFitAPI.h:90

TMVA::RuleFitAPI::WriteRuleFitMod
Bool_t WriteRuleFitMod()
written by rf_go.exe (NOTE:Format unknown!)
Definition: RuleFitAPI.cxx:367

TSystem::pwd
const char * pwd()
Definition: TSystem.h:405

TMVA::RuleFitAPI::RealParms::samp_fract
Float_t samp_fract
Definition: RuleFitAPI.h:110

TMVA::RuleFitAPI::SetTrainParms
void SetTrainParms()
set the training parameters
Definition: RuleFitAPI.cxx:190

TMVA::RuleEnsemble::CalcVarImportance
void CalcVarImportance()
Calculates variable importance using eq (35) in RuleFit paper by Friedman et.al.
Definition: RuleEnsemble.cxx:495

TMVA::MethodRuleFit::GetRFNrules
Int_t GetRFNrules() const
Definition: MethodRuleFit.h:111

r
TRandom2 r(17)

gSystem
R__EXTERN TSystem * gSystem
Definition: TSystem.h:539

TMVA::RuleCut
A class describing a &#39;rule cut&#39;.
Definition: RuleCut.h:34

TROOT.h

TMVA::MethodRuleFit::GetLinQuantile
Double_t GetLinQuantile() const
Definition: MethodRuleFit.h:108

MethodRuleFit.h

TMVA::Event
Definition: Event.h:52

TMVA::RuleFitAPI::WriteInt
Bool_t WriteInt(std::ofstream &f, const Int_t *v, Int_t n=1)
Definition: RuleFitAPI.h:265

TMVA::RuleFitAPI::kRfLinear
Definition: RuleFitAPI.h:84

TMVA::RuleEnsemble::SetOffset
void SetOffset(Double_t v=0.0)
Definition: RuleEnsemble.h:112

TMVA::Rule::CalcImportance
void CalcImportance()
Definition: Rule.h:97

UInt_t
unsigned int UInt_t
Definition: RtypesCore.h:42

TMVA::RuleFitAPI::ReadFloat
Int_t ReadFloat(std::ifstream &f, Float_t *v, Int_t n=1) const
Definition: RuleFitAPI.h:290

TMVA::RuleFitAPI::IntParms::mode
Int_t mode
Definition: RuleFitAPI.h:89

TSystem::Exec
virtual Int_t Exec(const char *shellcmd)
Execute a command.
Definition: TSystem.cxx:660

xmax
float xmax
Definition: THbookFile.cxx:93

TMVA::RuleFitAPI::SetTestParms
void SetTestParms()
set the test params
Definition: RuleFitAPI.cxx:203

TMVA::RuleFitAPI::WriteFloat
Bool_t WriteFloat(std::ofstream &f, const Float_t *v, Int_t n=1)
Definition: RuleFitAPI.h:273

TMVA::RuleFitAPI::RealParms::conv_fac
Float_t conv_fac
Definition: RuleFitAPI.h:112

TMVA::RuleFitAPI::RealParms::inter_supp
Float_t inter_supp
Definition: RuleFitAPI.h:108

TMVA::Rule::SetImportanceRef
void SetImportanceRef(Double_t v)
Definition: Rule.h:94

TMVA::MethodRuleFit::GetRFNendnodes
Int_t GetRFNendnodes() const
Definition: MethodRuleFit.h:112

TMVA::DataSet::GetNTestEvents
Long64_t GetNTestEvents() const
Definition: DataSet.h:80

kFALSE
const Bool_t kFALSE
Definition: RtypesCore.h:92

TMVA::Event::GetValue
Float_t GetValue(UInt_t ivar) const
return value of i&#39;th variable
Definition: Event.cxx:237

TMVA::Rule::SetSupport
void SetSupport(Double_t v)
Definition: Rule.h:85

TMVA::RuleFitAPI::IntParms::max_rules
Int_t max_rules
Definition: RuleFitAPI.h:93

TMVA::Rule::SetNorm
void SetNorm(Double_t norm)
Definition: Rule.h:79

TMVA::RuleFitAPI::fRFVarImp
std::vector< Float_t > fRFVarImp
Definition: RuleFitAPI.h:183

TMVA::RuleCut::SetCutDoMax
void SetCutDoMax(Int_t i, Bool_t v)
Definition: RuleCut.h:67

ClassImp
#define ClassImp(name)
Definition: Rtypes.h:336

f
double f(double x)
Definition: testIntegration.cxx:12

Double_t
double Double_t
Definition: RtypesCore.h:55

TMVA::RuleFitAPI::fLogger
MsgLogger fLogger
Definition: RuleFitAPI.h:192

TMVA::MethodRuleFit::GetGDNPathSteps
Int_t GetGDNPathSteps() const
Definition: MethodRuleFit.h:102

y
Double_t y[n]
Definition: legend1.C:17

TMVA::RuleFitAPI::WriteVarNames
Bool_t WriteVarNames()
write variable names, ascii
Definition: RuleFitAPI.cxx:452

TMVA::DataSet::SetCurrentType
void SetCurrentType(Types::ETreeType type) const
Definition: DataSet.h:100

TMVA::RuleFitAPI::WriteTest
Bool_t WriteTest()
Write test data.
Definition: RuleFitAPI.cxx:420

TMVA::RuleFitAPI::fRFWorkDir
TString fRFWorkDir
Definition: RuleFitAPI.h:185

TMVA::DataSetInfo::GetVariableInfo
VariableInfo & GetVariableInfo(Int_t i)
Definition: DataSetInfo.h:96

TMVA::RuleFitAPI::IntParms::path_steps
Int_t path_steps
Definition: RuleFitAPI.h:97

TMVA::RuleFitAPI::OpenRFile
Bool_t OpenRFile(TString name, std::ofstream &f)
Definition: RuleFitAPI.h:237

TMVA
Abstract ClassifierFactory template that handles arbitrary types.
Definition: GeneticMinimizer.h:21

Tools.h

TMVA::RuleFitAPI::fRFRealParms
RealParms fRFRealParms
Definition: RuleFitAPI.h:187

TMVA::Rule::GetImportance
Double_t GetImportance() const
Definition: Rule.h:143

TMVA::RuleFitAPI::WriteYhat
Bool_t WriteYhat()
written by rf_go.exe
Definition: RuleFitAPI.cxx:475

TMVA::RuleFitAPI::WriteRuleFitSum
Bool_t WriteRuleFitSum()
written by rf_go.exe (NOTE: format unknown!)
Definition: RuleFitAPI.cxx:376

TMVA::RuleFitAPI::ReadYhat
Bool_t ReadYhat()
read the score
Definition: RuleFitAPI.cxx:484

TMVA::RuleFitAPI::RunRuleFit
Int_t RunRuleFit()
execute rf_go.exe
Definition: RuleFitAPI.cxx:774

TMVA::RuleEnsemble::SetLinNorm
void SetLinNorm(const std::vector< Double_t > &norm)
Definition: RuleEnsemble.h:118

TMVA::DataSet::GetNEvents
Long64_t GetNEvents(Types::ETreeType type=Types::kMaxTreeType) const
Definition: DataSet.h:215

TMVA::RuleFitAPI::WriteRealParms
Bool_t WriteRealParms()
write int params file
Definition: RuleFitAPI.cxx:277

TMVA::RuleFitAPI::WriteVarImp
Bool_t WriteVarImp()
Definition: RuleFitAPI.cxx:464

TMVA::DataSetInfo::IsSignal
Bool_t IsSignal(const Event *ev) const
Definition: DataSetInfo.cxx:172

TMVA::RuleFitAPI::IntParms::tree_store
Int_t tree_store
Definition: RuleFitAPI.h:99

TMVA::RuleFitAPI::IntParms::path_speed
Int_t path_speed
Definition: RuleFitAPI.h:95

TMVA::RuleEnsemble::CalcLinImportance
Double_t CalcLinImportance()
calculate the linear importance for each rule
Definition: RuleEnsemble.cxx:469

TMVA::RuleFitAPI::fRFVarImpInd
std::vector< Int_t > fRFVarImpInd
Definition: RuleFitAPI.h:184

VariableInfo.h

TMath.h

kTRUE
const Bool_t kTRUE
Definition: RtypesCore.h:91

norm
double norm(double *x, double *p)
Definition: unuranDistr.cxx:40

n
const Int_t n
Definition: legend1.C:16

TMVA::RuleFitAPI::InitRuleFit
void InitRuleFit()
default initialisation SetRFWorkDir("./rulefit");
Definition: RuleFitAPI.cxx:124

TString::Data
const char * Data() const
Definition: TString.h:347