一种MapReduce并行化大数据文本分类方法,包括如下步骤:第一步:建立用于文本分类的基准测试数据集,进行数据预处理,包括分词、去停用词、词根还原;将该基准测试数据集随机划分为训练文本和测试文本,将所述基准测试数据集采用向量空间模型建立文本表示模型;第二步:根据上述文本表示模型采用CDMT对所述基准测试数据集进行特征选择;第三步:采用贝叶斯分类器对所述基准测试数据集进行训练学习,得到分类结果。本发明提供一种分类性能良好、区分度较高的MapReduce并行化大数据文本分类方法。
类型:发明
应用领域:软件开发,计算机制造,通信设备制造,其他信息技术服务业
成熟度:可规模生产
交易方式:许可转让,技术入股
类型:发明
应用领域:计算机制造,通信设备制造,软件开发
成熟度:正在研发
交易方式:完全转让
类型:发明
应用领域:计算机制造,通信设备制造,软件开发
成熟度:正在研发
交易方式:完全转让
类型:发明,发明
应用领域:软件开发,计算机制造,互联网信息服务,通信设备制造
成熟度:可规模生产
交易方式:完全转让,许可转让,技术入股
类型:发明
应用领域:计算机制造,通信设备制造,软件开发,其他信息技术服务业
成熟度:通过小试
交易方式:完全转让,许可转让,技术入股
类型:发明
应用领域:计算机制造,软件开发,通信设备制造,其他信息技术服务业
成熟度:通过小试
交易方式:完全转让,许可转让,技术入股