Skip to main content


Journal Article

EM cluster analysis for categorical data

Grim Jiří

: Lecture Notes in Computer Science vol.44, 4109 (2006), p. 640-648

: Joint IAPR International Workshops SSPR 2006 and SPR 2006, (Hong Kong, CN, 17.08.2006-19.08.2006)

: CEZ:AV0Z10750506

: 507752, EC, 1ET400750407, GA AV ČR, 1M0572, GA MŠk

: cluster analysis, categorical data, EM algorithm

(eng): Distribution mixtures with product components have been applied repeatedly to determine clusters in multivariate data. Unfortunately for categorical variables the mixture parameters are not uniquely identifiable and therefore the result of cluster analysis may become questionable. We prove that any non-degenerate discrete product mixture can be equivalently described by infinitely many diferent parameter sets. A unique result of cluster analysis can be guaranteed by additional constrains.

(cze): Nevýhodou shlukování diskrétních mnohorozměrných dat na základě odhadu součinové distribuční směsi je nejednoznačná identifikace parametrů směsi. V práci je popsán jednoduchý důkaz neidentifikovatelnosti diskrétní distribuční směsi a je navržena modifikace EM algoritmu, která zaručuje jednoznačný výsledek odhadu směsi.

: 09K

: BB