軟件介紹
Weka特別版是一款基于java環境的數據挖掘工作平臺,我們不僅可以通過Weka數據挖掘工具自帶的算法來完成數據挖掘,同時還可以添加一些自己的新算法進去。這款軟件除了能夠進行數據挖掘外,同時還可以用來完成回歸、聚類、關聯分析等多種操作。
VRYeeJueWIq+eJiA==" src="http://img.kxdw.com/2020/1026/20201026095451995.jpg">
Weka特別版軟件簡介
Weka的全名是懷卡托智能分析環境(Waikato Environment for Knowledge Analysis),是一款免費的,非商業化(與之對應的是SPSS公司商業數據挖掘產品--Clementine )的,基于JAVA環境下開源的機器學習(machine learning)以及數據挖掘(data mining)軟件。它和它的源代碼可在其官方網站下載。有趣的是,該軟件的縮寫WEKA也是新西蘭獨有的一種鳥名(新西蘭秧雞),而Weka的主要開發者同時恰好來自新西蘭的懷卡托大學(The University of Waikato)。
軟件特色
1、可以處理一個數據庫的查詢結果
2、weka軟件支持相同功能的命令行,或是一種基于組件的知識流接口
3、集成自己的算法甚至借鑒它的方法自己實現可視化工具都很簡單
4、技術基于假設數據是以一種單個文件或關聯的
5、使用Java的數據庫鏈接能力可以訪問SQL數據庫
Weka特別版使用方法
1、在啟動WEKA時,會彈出GUI選擇器,讓您選擇使用WEKA和數據的四種方式。選擇Explorer選項已經足夠。
2、weka是基于java,用于數據挖掘和知識分析一個平臺。從海量數據中發掘其背后隱藏的種種關系。
3、數據創建完成后,就可以開始創建我們的回歸模型了。啟動 WEKA,然后選擇 Explorer。將會出現 Explorer 屏幕,其中 Preprocess 選項卡被選中。選擇 Open File 按鈕并選擇在上一節中創建的 ARFF 文件。
Weka特別版操作教程
WEKA文件相關術語
表格里的一個橫行稱作一個實例(Instance),相當于統計學中的一個樣本,或者數據庫中的一條記錄。豎行稱作一個屬性(Attribute),相當于統計學中的一個變量,或者數據庫中的一個字段。這樣一個表格,或者叫數據集,在WEKA看來,呈現了屬性之間的一種關系(Relation)。上圖中一共有14個實例,5個屬性,關系名稱為“weather”。
WEKA存儲數據的格式是ARFF(Attribute-Relation File Format)文件,這是一種ASCII文本文件。上圖所示的二維表格存儲在如下的ARFF文件中。這也就是WEKA自帶的“weather.arff”文件,在WEKA安裝目錄的“data”子目錄下可以找到。
文件內容說明
識別ARFF文件的重要依據是分行,因此不能在這種文件里隨意的斷行??招校ɑ蛉强崭竦男校⒈缓雎?。以“%”開始的行是注釋,WEKA將忽略這些行。如果你看到的“weather.arff”文件多了或少了些“%”開始的行,是沒有影響的。
除去注釋后,整個ARFF文件可以分為兩個部分。
第一部分給出了頭信息(Head information),包括了對關系的聲明和對屬性的聲明。
第二部分給出了數據信息(Data information),即數據集中給出的數據。從“@data”標記開始,后面的就是數據信息了。
關系聲明
關系名稱在ARFF文件的第一個有效行來定義,格式為@relation <relation-name>
<relation-name>是一個字符串。如果這個字符串包含空格,它必須加上引號(指英文標點的單引號或雙引號)。
屬性聲明
屬性聲明用一列以“@attribute”開頭的語句表示。數據集中的每一個屬性都有它對應的“@attribute”語句,來定義它的屬性名稱和數據類型。
這些聲明語句的順序很重要。首先它表明了該項屬性在數據部分的位置。例如,“humidity”是第三個被聲明的屬性,這說明數據部分那些被逗號分開的列中,第三列數據85 90 86 96 ... 是相應的“humidity”值。其次,最后一個聲明的屬性被稱作class屬性,在分類或回歸任務中,它是默認的目標變量。屬性聲明的格式為
@attribute <attribute-name> <datatype>
其中<attribute-name>是必須以字母開頭的字符串。和關系名稱一樣,如果這個字符串包含空格,它必須加上引號。
數值屬性
數值型屬性可以是整數或者實數,但WEKA把它們都當作實數看待。
標稱屬性
標稱屬性由<nominal-specification>列出一系列可能的類別名稱并放在花括號中:{<nominal-name1>, <nominal-name2>,
<nominal-name3>, ...} 。數據集中該屬性的值只能是其中一種類別。
例如如下的屬性聲明說明“outlook”屬性有三種類別:“sunny”,“overcast”和“rainy”。而數據集中每個實例對應的“outlook”值必是這三者之一。
@attribute outlook {sunny, overcast, rainy}
如果類別名稱帶有空格,仍需要將之放入引號中。
- 精選留言 來自陜西安康電信用戶 發表于: 2023-7-13
- 小東西實用
- 精選留言 來自四川宜賓聯通用戶 發表于: 2023-12-26
- 用習慣了,畢竟方便太多
- 精選留言 來自廣東中山電信用戶 發表于: 2023-2-19
- 很好的工具,謝謝作者!
- 精選留言 來自四川綿陽電信用戶 發表于: 2023-9-8
- 這個軟件還好
- 精選留言 來自江蘇無錫移動用戶 發表于: 2023-8-2
- 真心好用,很滿意。