Skip to main content
top

Bibliography

Journal Article

Text document classification based on mixture models

Novovičová Jana, Malík Antonín

: Kybernetika vol.40, 3 (2004), p. 293-304

: CEZ:AV0Z1075907

: IAA2075302, GA AV ČR, GA102/03/0049, GA ČR, KSK1019101, GA AV ČR

: text classification, text categorization, multinomial mixture model

(eng): Finite mixture modelling of class-conditional distributions is a standard method in a statistical pattern recognition. This paper, using bag-of-words vector document representation, explores the use of the mixture of multinomial distributions as a model for class-conditional distribution for multiclass text document classification task. Experimental comparison of the proposed models was performed using Reuters-21578 and Newsgroups data sets.

(cze): Použití směsi multinomických rozdělení jako modelu pro podmíněná rozdělení pravděpodobností pro Bayesův klasifikátor je uvedeno. Výsledky experimentů s použitím Reuters 21578 a Newsgroups datových souborů indikují efektivnost použitého multinomického směsového modelu v otázkách klasifikace textových dokumentů. Bylo ukázáno, že přesnost Bayesova klasifikátoru může být zvýšena při použití navrženého modelu v porovnání s Bayesovým klasifikátorem založeným jednak na standardních modelech (vícerozměrný Bernoulliho model, multinomický model), jednak na směsovém Bernoulliho modelu

: 09K, 12B

: BB