數據挖掘:實用機器學習技術
目錄:Contents
序 Foreword
前言 Preface
第一部分:機器學習工具與技術
第1章 緒論 What's it all about?
1.1 數據挖掘和機器學習
說明結構模式
機器學習
數據挖掘
1.2 簡單例子:天氣問題和其它
天氣問題
隱形眼鏡:一個理想化的問題 Contact lenses: An idealized problem
鳶尾花:一個一流的數值型數據集 Irises: A classic numeric dataset
CPU性能:介紹數值的預測 CPU performance: Introducing numeric prediction
勞資協商: 一個更實際的例子 Labor negotiations: A more realistic example
大豆分類法:一個經典的機器學習的成功案例 Soybean classification: A classic machine
learning success
1.3 應用領域
包括評判的決策 Decisions involving judgment
篩選圖像 Screening images 圖像篩選
負載預測 Load forecasting
診斷 調查分析 Diagnosis
市場和銷售 Marketing and sales
其它應用 Other applications
1.4 機器學習和統計學 statistics
1.5 用于搜索的概括總結 Generalization as search
各種概念 Enumerating the concept space 枚舉概念空間
傾向性 Bias 偏差
1.6 數據挖掘和倫理觀 數據挖掘和道德
1.7 補充讀物
第2章 輸入:概念、實例和屬性
2.1 概念
2.2 樣本
2.3 屬性
2.4 輸入準備
數據整理 Gathering the data together 數據收集
ARFF文件格式 ARFF format
稀疏型的數據 Sparse data
屬性類型 Attribute types
遺漏的值 Missing values 殘缺值
不準確的值 Inaccurate values
了解你的數據 Getting to know your data
2.5 補充讀物
第3章 輸出:知識表達 Knowledge representation
3.1 決策表 Decision tables
3.2 決策樹 Decision trees
3.3 分類規則 Classification rules
3.4 關聯規則 Association rules
3.5 包含例外的規則 Rules with exceptions
3.6 包含聯系的規則 Rules involving relations
3.7 數據預測樹 Trees for numeric prediction
3.8 基于實例的表達 Instance-based representation
3.9 Clusters 聚類
3.10 補充讀物 Further reading
第4章 算法:基本方法 Algorithms:The basic methods
4.1推斷基本規則:Inferring rudimentary rules
遺漏的數值和數據屬性 Missing values and numeric attributes 殘缺值和數值屬性
論述 Discussion 討論
4.2 統計模型 Statistical modeling 統計建模
遺漏的數值和數據屬性 殘缺值和數值屬性
用于文檔分類的貝葉斯定理模型 Bayesian models for document classification
討論 Discussion
4.3 分治法:創建決策樹 Divide-and-conquer:Constructing decision trees
計算信息量 Calculation information
高度分支屬性 Highly branching attributes
討論
4.4 覆蓋算法:建立規則 Covering algorithms:Constructing rules
對比規則和樹 Rules versus trees
一個簡單的覆蓋算法 A simple covering algorithm
規則和決策對比表 Rules versus decision lists 規則與決策列
4.5 挖掘關聯規則 Mining association rules
條目集或項目集 Item sets 項集
關聯規則 Association rules
建立有效的規則 Generating rules efficiently 有效地建立規則
討論
4.6 線性模型 Linear models
數據預測:線性回歸 Numeric prediction:Linear regression
線性預測:邏輯回歸 Logistic regression
應用感知器的線性分類 Linear classification using the perceptron
應用辨別篩選的線性分類 Linear classification using Winnow
4.7 基于實例的學習
距離函數 The distance function
高效的發現近鄰 Finding nearest neighbors efficiently 有效地尋找最近鄰
討論
4.8 聚類 Clustering
基于距離的迭代聚類 Iterative distance-based clustering
更快的距離計算 Faster distance calculations 快速的距離計算
討論
4.9 補充讀物
第5章 可信度:評估機器學習成果 Credibility:evaluating what's been learned
5.1 訓練和測試
5.2 預測性能 Prdicting performance
5.3 交叉驗證 Cross-validation
5.4 其它估計法 estimates
留一交叉校驗法 Leave-one-out
仿真程序 The bootstrap 自引導法
5.5 比較數據挖掘方法
5.6 預測概率
二次方程損耗函數 Quadreatic loss function
信息損耗函數 Informational loss function
討論
5.7 計算成本
敏感成本分類 Cost-sensitive classification 成本敏感分類
敏感成本學習 Cost-sensitive learning
升降圖表 Lift charts 上升圖
無線曲線 Roc curves ROC曲線
回叫精確曲線 Recall-precision curves 反饋率-精確率曲線
討論
成本曲線 Cost curves
5.8 評估數字預測 evaluating numeric prediction
5.9 最短表達(描述)長度原理 The minimum description length principle
5.10 聚類方法中應用MDL原理 Applying the MDL principle to clustering
5.11 補充讀物
第6章 實現:真正的機器學習方案 Real machine learning schemes
6.1 決策樹 Decision trees
數值屬性 Numeric attributes
篩選值 Missing values
修剪整理 Pruning
估算錯誤比率 Estimating error rates
復雜決策樹介紹 Complexity of decision tree induction
從樹到規則 From trees to rules
精選和任意選擇 C4.5 Choices and options
論述
6.2 分類規則 Classification rules
選擇標準測試 Criteria for choosing tests
篩選值和數值屬性 Missing values numeric attributes
創建良好的規則 Generating good rules
應用全局優化 Using global optimization
從局部決策樹獲取規則 Obtaining rules from partial decision trees
包含例外的規則 Rules with exception
6.3 擴展線性模型 Extending linear models
最大邊緣超平面 The maximum margin hyperplane
非線性類別邊界 Nonlinear class bou