CppKmeans/RefineLloyd_8hpp_source.html

#ifndef KMEANS_LLOYD_HPP

#define KMEANS_LLOYD_HPP


#include <vector>

#include <algorithm>


#include "Refine.hpp"

#include "Details.hpp"

#include "QuickSearch.hpp"

#include "is_edge_case.hpp"

#include "compute_centroids.hpp"

#include "parallelize.hpp"


namespace kmeans {


struct RefineLloydOptions {

    int max_iterations = 10;


    int num_threads = 1;

};


template<typename Index_, typename Data_, typename Cluster_, typename Float_, typename Matrix_ = Matrix<Index_, Data_> >


class RefineLloyd final : public Refine<Index_, Data_, Cluster_, Float_, Matrix_> {

private:

    RefineLloydOptions my_options;


public:

    RefineLloyd(RefineLloydOptions options) : my_options(std::move(options)) {}


    RefineLloyd() = default;


public:


    RefineLloydOptions& get_options() {

        return my_options;

    }


public:

    Details<Index_> run(const Matrix_& data, Cluster_ ncenters, Float_* centers, Cluster_* clusters) const {

        Index_ nobs = data.num_observations();

        if (internal::is_edge_case(nobs, ncenters)) {

            return internal::process_edge_case(data, ncenters, centers, clusters);

        }


        int iter = 0, status = 0;

        std::vector<Index_> sizes(ncenters);

        std::vector<Cluster_> copy(nobs);

        size_t ndim = data.num_dimensions();

        internal::QuickSearch<Float_, Cluster_> index;


        for (iter = 1; iter <= my_options.max_iterations; ++iter) {

            index.reset(ndim, ncenters, centers);

            parallelize(my_options.num_threads, nobs, [&](int, Index_ start, Index_ length) -> void {

                auto work = data.new_extractor(start, length);

                for (Index_ obs = start, end = start + length; obs < end; ++obs) {

                    auto dptr = work->get_observation();

                    copy[obs] = index.find(dptr);

                }

            });


            // Checking if it already converged.

            bool updated = false;

            for (Index_ obs = 0; obs < nobs; ++obs) {

                if (copy[obs] != clusters[obs]) {

                    updated = true;

                    break;

                }

            }

            if (!updated) {

                break;

            }

            std::copy(copy.begin(), copy.end(), clusters);


            std::fill(sizes.begin(), sizes.end(), 0);

            for (Index_ obs = 0; obs < nobs; ++obs) {

                ++sizes[clusters[obs]];

            }

            internal::compute_centroids(data, ncenters, centers, clusters, sizes);

        }


        if (iter == my_options.max_iterations + 1) {

            status = 2;

        }


        return Details<Index_>(std::move(sizes), iter, status);

    }

};


}


#endif

Details.hpp
Report detailed clustering statistics.

Refine.hpp
Interface for k-means refinement.

kmeans::RefineLloyd
Implements the Lloyd algorithm for k-means clustering.
Definition RefineLloyd.hpp:64

kmeans::RefineLloyd::RefineLloyd
RefineLloyd()=default

kmeans::RefineLloyd::RefineLloyd
RefineLloyd(RefineLloydOptions options)
Definition RefineLloyd.hpp:72

kmeans::RefineLloyd::get_options
RefineLloydOptions & get_options()
Definition RefineLloyd.hpp:84

kmeans::Refine
Interface for k-means refinement algorithms.
Definition Refine.hpp:26

kmeans::Refine::run
virtual Details< Index_ > run(const Matrix_ &data, Cluster_ num_centers, Float_ *centers, Cluster_ *clusters) const =0

kmeans
Namespace for k-means clustering.
Definition compute_wcss.hpp:12

kmeans::parallelize
void parallelize(int num_workers, Task_ num_tasks, Run_ run_task_range)
Definition parallelize.hpp:28

parallelize.hpp
Utilities for parallelization.

kmeans::Details
Additional statistics from the k-means algorithm.
Definition Details.hpp:20

kmeans::RefineLloydOptions
Options for RefineLloyd construction.
Definition RefineLloyd.hpp:25

kmeans::RefineLloydOptions::num_threads
int num_threads
Definition RefineLloyd.hpp:36

kmeans::RefineLloydOptions::max_iterations
int max_iterations
Definition RefineLloyd.hpp:30