Bibliografie
Conference Paper (international conference)
Feature selection using improved mutual information for text classification
, ,
: Structural, Syntactic, and Statistical Pattern Recognition. Joint IAPR International Workshops SSPR 2004 and SPR 2004. Proceedings, p. 1010-1017
: Joint IAPR International Workshops SSPR 2004 and SPR 2004, (Lisbon, PT, 18.08.2004-20.08.2004)
: CEZ:AV0Z1075907
: IAA2075302, GA AV ČR, KSK1019101, GA AV ČR
: text classification, text categorization, feature selection
(eng): Two algorithms for feature (word) selection for the purpose of text classification are proposed. The algorithms use the feature evaluation functions based on improved mutual information that takes into consideration how features work together. The performance of these evaluation functions compared to the information gain which evaluate features individually is discussed. Experimental results from various perspectives(F1-measure, precision and recall) are analyzed.
(cze): Navržena dvě nová kriteria pro výběr příznaků/slov pro řešení problému klasifikace textových dokumentů. Obě kriteria jsou modifikace v této oblasti používaného kriteria vzájemné informace. Účinnost navržených kriteriálních funkcí byla porovnána s kriteriem vzájemné informace použitím multinomického modelu proreprezentaci dokumentů, naivního Bayesova klasifikátoru a Reuters-21578 datových souborů. Experimentální výsledky (analyzované pomocí F1- míry, precision a recall měr) indikují efektivitu navržených algoritmů pro výběr příznaků
: 09K, 12B
: BB