博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据挖掘学习02 - 使用weka的kmeans聚类分析
阅读量:6264 次
发布时间:2019-06-22

本文共 1081 字,大约阅读时间需要 3 分钟。

本文目的

weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到自己的项目中。最近在的项目中遇到了文本聚类的问题,kmeans是一种常见的聚类算法,这里先拿此算法和示例数据做一些实验,以便熟悉weka的界面操作。

 

什么是kmeans

详细的描述,参见。通俗的解释,就是将K个点,称为中心点(K需要预先给出),随机的放到数据集中,然后针对数据集中的每个点计算与这K个中心点的距离,找到每个点最近的中心点。然后更新这K个中心点,使每个中心点是最近的点的平均中心点。如此循环,直到这K个点的位置不能再移动,得到K个聚类。

 

数据集

weka定义了自己的数据集文件格式,以.arrf结尾,整体感觉就是一张表格,主要分为四个部分(如下图):

  1. 注释,comment
  2. 数据集名称,relation
  3. 属性,attribute,相当于列
  4. 数据,每行是一个实例,每一行中的每个字段用逗号隔开,字符串在引号中间,也可以是数字或枚举

 

获取并安装weka

到官网上获取,如果本机有jre,那么直接下载weka安装包,如果没有jre,又不想手动安装java,可以安装带有jre的weka,后者会比前者大。

获取后,直接双击,然后一步步OK,就行,最后会在桌面上生成小图标

 

执行Kmeans聚类操作

双击小图标,弹出如下对话框,

选择“Explorer”,如果以后高级用户,可以选择最后的“Simple CLI”,直接命令行操作。

弹出如下对话框

这里,需要实验数据集,点击下载,然后点击“open file …”,导入刚刚下载的数据集,出现如下界面,说明导入OK。

现在,选取最上面的第三个tab“Cluster”,进入聚类分析主界面

点击“Choose”按钮,选择聚类算法。这里先选择了SimpleKMeans,单机“Choose”旁边的输入框,可以设置算法参数

这里需要将”numClusters”修改为一个合适的值,其他保留默认即可。

记下来,点击开始,weka就开会帮你算出结果,结果会以文件的方式存储在Result List中,方便后面分析。右边是计算结果。

 

结果可视化

Explorer主界面最上面最后一个tab是数据结果可视化,目前只能支持2纬可视化,所以个人觉得比较鸡肋,因为一般数据纬度都为大于2纬。

具体如何使用可视化,可以参见最后的链接。

 

以上就是利用weka进行kmeans聚类操作的过程。

 

参考资料

转载地址:http://iwzpa.baihongyu.com/

你可能感兴趣的文章
Let's Encrypt免费ssl证书安装使用详解
查看>>
有个功能丰富的 react 脚手架,了解下?
查看>>
SnippetsLab - 像纳博科夫写小说一样写代码
查看>>
React-Redux 源码解析 二(middleware)
查看>>
JLRoutes 实现原理分析
查看>>
第二章 OC程序设计
查看>>
初识Python
查看>>
关于dispatch_once的坑及注意点
查看>>
TreeMap之元素插入
查看>>
Vue二次封装axios为插件使用
查看>>
es6中export和export default的作用、区别
查看>>
Toast通知栏权限填坑指南
查看>>
LeetCode39.组合总和 JavaScript
查看>>
IOS开发常用GitHub开源项目
查看>>
In FontFamilyFont, unable to find attribute android:font的报错处理
查看>>
webpack配置路径问题
查看>>
浅谈尾递归
查看>>
追踪解析 Disruptor 源码
查看>>
CSS-伪类选择器(未完待续。。。)
查看>>
Markdown常用标记使用
查看>>