简介:本文将介绍如何使用R语言实现随机森林、支持向量机(SVM)和决策树这三种常用的机器学习方法来进行二分类。我们将通过实例和图表展示每一种方法的基本概念、实现步骤以及模型的评估指标。
一、随机森林
随机森林是一种基于决策树的集成学习算法。通过构建多个决策树并综合它们的预测结果,随机森林能够提高模型的预测精度和稳定性。在R语言中,我们可以使用randomForest包来实现随机森林模型。
以下是一个使用随机森林进行二分类的基本示例:
# 安装并加载randomForest包install.packages('randomForest')library(randomForest)# 加载数据集(以鸢尾花数据集为例)data(iris)# 将数据集拆分为训练集和测试集set.seed(123)train_index <- sample(1:nrow(iris), nrow(iris)*0.7)train_data <- iris[train_index, ]test_data <- iris[-train_index, ]# 构建随机森林模型rf_model <- randomForest(Species ~ ., data = train_data, ntree = 100)# 预测测试集结果predictions <- predict(rf_model, newdata = test_data)# 计算模型的准确率accuracy <- sum(predictions == test_data$Species) / nrow(test_data)print(paste('Accuracy:', accuracy))
二、支持向量机(SVM)
支持向量机是一种有监督学习算法,通过找到能够将不同类别的数据点最大化分隔的决策边界来实现分类。在R语言中,我们可以使用e1071包来实现支持向量机模型。
以下是一个使用支持向量机进行二分类的基本示例:
# 安装并加载e1071包install.packages('e1071')library(e1071)# 加载数据集(以鸢尾花数据集为例)data(iris)# 将数据集拆分为训练集和测试集set.seed(123)train_index <- sample(1:nrow(iris), nrow(iris)*0.7)train_data <- iris[train_index, ]test_data <- iris[-train_index, ]# 构建支持向量机模型svm_model <- svm(Species ~ ., data = train_data, kernel = 'linear', cost = 100)# 预测测试集结果predictions <- predict(svm_model, newdata = test_data)# 计算模型的准确率accuracy <- sum(predictions == test_data$Species) / nrow(test_data)print(paste('Accuracy:', accuracy))
三、决策树
决策树是一种常见的机器学习方法,通过递归地将数据集划分成若干个子集来构建决策树,直到满足终止条件。在R语言中,我们可以使用rpart包来实现决策树模型。
以下是一个使用决策树进行二分类的基本示例:
```r
install.packages(‘rpart’)
library(rpart)
data(iris)
set.seed(123)
rpart_train_index <- sample(1:nrow(iris), nrow(iris)*0.7)
rpart_train_data <- iris[rpart_train_index, ]
rpart_test_data <- iris[-rpart_train_index, ]