libscran/quick__grouped__size__factors_8hpp_source.html

#ifndef SCRAN_QUICK_GROUPED_SIZE_FACTORS_HPP

#define SCRAN_QUICK_GROUPED_SIZE_FACTORS_HPP


#include "../utils/macros.hpp"


#include <algorithm>

#include <vector>

#include <cmath>

#include <functional>

#include <memory>


#include "tatami/tatami.hpp"

#include "kmeans/Kmeans.hpp"

#include "kmeans/InitializePCAPartition.hpp"


#include "../utils/blocking.hpp"

#include "../dimensionality_reduction/SimplePca.hpp"

#include "LogNormCounts.hpp"

#include "GroupedSizeFactors.hpp"


namespace scran {


namespace quick_grouped_size_factors {


template<

    typename Block_ = int,

    typename SizeFactor_ = double

>


struct Options {

    int rank = 25;


    std::function<size_t(size_t)> clusters;


    const Block_* block = NULL;


    const SizeFactor_* initial_factors = NULL;


    int num_threads = 1;

};


namespace internal {


template<

    typename Value_,

    typename Index_

>

auto cluster(const tatami::Matrix<Value_, Index_>* mat, int rank, size_t clusters, int num_threads) {

    SimplePca pca_runner;

    pca_runner.set_rank(rank);

    pca_runner.set_num_threads(num_threads);

    auto pc_out = pca_runner.run(mat);

    const auto& pcs = pc_out.pcs;


    kmeans::Kmeans kmeans_runner;

    kmeans_runner.set_num_threads(num_threads);

    kmeans::InitializePCAPartition<Value_, Index_, Index_> init;

    return kmeans_runner.run(

        pcs.rows(),

        pcs.cols(),

        pcs.data(),

        clusters,

        &init

    );

}


}

template<

    typename Value_,

    typename Index_,

    typename OutputFactor_,

    typename Block_,

    typename SizeFactor_

>


void run(const tatami::Matrix<Value_, Index_>* mat, OutputFactor_* output, const Options<Block_, SizeFactor_>& opt) {

    std::vector<Index_> clusters;

    Index_ NC = mat->ncol();

    auto ptr = tatami::wrap_shared_ptr(mat);


    LogNormCounts logger;

    logger.set_num_threads(opt.num_threads);


    auto fun = opt.clusters;

    if (!fun) {

        fun = [](size_t n) -> size_t {

            size_t candidate = std::sqrt(static_cast<double>(n));

            return std::min(candidate, static_cast<size_t>(50));

        };

    }


    if (opt.block) {

        auto nblocks = count_ids(NC, opt.block);

        std::vector<std::vector<Index_> > assignments(nblocks);

        for (Index_ c = 0; c < NC; ++c) {

            assignments[opt.block[c]].push_back(c);

        }


        clusters.resize(NC);

        Index_ last_cluster = 0;


        for (size_t b = 0; b < nblocks; ++b) {

            const auto& inblock = assignments[b];

            auto subptr = tatami::make_DelayedSubset<1>(ptr, tatami::ArrayView<Index_>(inblock.data(), inblock.size()));


            std::shared_ptr<tatami::Matrix<Value_, Index_> > normalized;

            if (opt.initial_factors) {

                std::vector<SizeFactor_> fac;

                fac.reserve(inblock.size());

                for (auto i : inblock) {

                    fac.push_back(opt.initial_factors[i]);

                }

                normalized = logger.run(std::move(subptr), std::move(fac));

            } else {

                normalized = logger.run(std::move(subptr));

            }


            auto res = internal::cluster(normalized.get(), opt.rank, fun(inblock.size()), opt.num_threads);

            auto cIt = res.clusters.begin();

            for (auto i : inblock) {

                clusters[i] = *cIt + last_cluster;

                ++cIt;

            }

            last_cluster += *std::max_element(res.clusters.begin(), res.clusters.end()) + 1;

        }


    } else {

        std::shared_ptr<const tatami::Matrix<Value_, Index_> > normalized; // TODO: avoid propagating const'ness from LogNormCounts.

        if (opt.initial_factors) {

            std::vector<SizeFactor_> fac(opt.initial_factors, opt.initial_factors + NC);

            normalized = logger.run(std::move(ptr), std::move(fac));

        } else {

            normalized = logger.run(std::move(ptr));

        }


        auto res = internal::cluster(normalized.get(), opt.rank, fun(NC), opt.num_threads);

        clusters = std::move(res.clusters);

    }


    GroupedSizeFactors group_runner;

    group_runner.set_num_threads(opt.num_threads);

    group_runner.run(mat, clusters.data(), output);

    return;

}


template<

    typename Value_,

    typename Index_,

    typename OutputFactor_

>


void run(const tatami::Matrix<Value_, Index_>* mat, OutputFactor_* output) {

    run(mat, output, Options<>());

}


template<

    typename OutputFactor_ = double,

    typename Value_,

    typename Index_,

    typename Block_,

    typename SizeFactor_

>


std::vector<OutputFactor_> run(const tatami::Matrix<Value_, Index_>* mat, const Options<Block_, SizeFactor_>& opt) {

    std::vector<OutputFactor_> output(mat->ncol());

    run(mat, output.data(), opt);

    return output;

}


template<

    typename OutputFactor_ = double,

    typename Value_,

    typename Index_

>


std::vector<OutputFactor_> run(const tatami::Matrix<Value_, Index_>* mat) {

    std::vector<OutputFactor_> output(mat->ncol());

    run(mat, output.data(), Options<>());

    return output;

}


}


}


#endif

GroupedSizeFactors.hpp
Compute size factors for groups of cells.

LogNormCounts.hpp
Compute log-normalized expression values.

scran::GroupedSizeFactors
Compute grouped size factors to handle composition bias.
Definition GroupedSizeFactors.hpp:43

scran::GroupedSizeFactors::set_num_threads
GroupedSizeFactors & set_num_threads(int n=Defaults::num_threads)
Definition GroupedSizeFactors.hpp:126

scran::GroupedSizeFactors::run
void run(const tatami::Matrix< T, IDX > *mat, const Group *group, Out *output) const
Definition GroupedSizeFactors.hpp:157

scran::LogNormCounts
Compute log-normalized expression values.
Definition LogNormCounts.hpp:33

scran::LogNormCounts::set_num_threads
LogNormCounts & set_num_threads(int n=Defaults::num_threads)
Definition LogNormCounts.hpp:186

scran::LogNormCounts::run
std::shared_ptr< MAT > run(std::shared_ptr< MAT > mat, V size_factors) const
Definition LogNormCounts.hpp:247

scran::SimplePca
Perform a simple PCA on a gene-cell matrix.
Definition SimplePca.hpp:33

scran::SimplePca::set_rank
SimplePca & set_rank(int r=Defaults::rank)
Definition SimplePca.hpp:93

scran::SimplePca::set_num_threads
SimplePca & set_num_threads(int n=Defaults::num_threads)
Definition SimplePca.hpp:153

scran::SimplePca::run
Results run(const tatami::Matrix< T, IDX > *mat) const
Definition SimplePca.hpp:301

scran::quick_grouped_size_factors::run
void run(const tatami::Matrix< Value_, Index_ > *mat, OutputFactor_ *output, const Options< Block_, SizeFactor_ > &opt)
Definition quick_grouped_size_factors.hpp:141

scran
Functions for single-cell RNA-seq analyses.
Definition AggregateAcrossCells.hpp:18

scran::count_ids
size_t count_ids(size_t length, const Id_ *ids)
Definition blocking.hpp:29

scran::SimplePca::Results::pcs
Eigen::MatrixXd pcs
Definition SimplePca.hpp:252

scran::quick_grouped_size_factors::Options
Options for run().
Definition quick_grouped_size_factors.hpp:43

scran::quick_grouped_size_factors::Options::block
const Block_ * block
Definition quick_grouped_size_factors.hpp:61

scran::quick_grouped_size_factors::Options::initial_factors
const SizeFactor_ * initial_factors
Definition quick_grouped_size_factors.hpp:68

scran::quick_grouped_size_factors::Options::num_threads
int num_threads
Definition quick_grouped_size_factors.hpp:73

scran::quick_grouped_size_factors::Options::clusters
std::function< size_t(size_t)> clusters
Definition quick_grouped_size_factors.hpp:53

scran::quick_grouped_size_factors::Options::rank
int rank
Definition quick_grouped_size_factors.hpp:47