机器学习入门：线性回归详解与实战

技术文档

线性回归（Linear Regression）是机器学习中最基础也最常用的算法之一，无论是初学者入门还是实际业务场景，都能看到它的身影。本文将从概念、原理到代码实现，带你全方位了解线性回归。

一、什么是线性回归？

简单来说，线性回归是一种用于预测自变量与因变量之间线性关系的算法。它假设因变量（需要预测的结果）与一个或多个自变量（影响因素）之间存在线性关联，通过构建数学模型来描述这种关系，从而实现对未知数据的预测。

举个生活中的例子：

房价（因变量）与房屋面积、房龄、地段（自变量）的关系
学生成绩（因变量）与学习时长、刷题量（自变量）的关系
销售额（因变量）与广告投入（自变量）的关系

二、线性回归的数学原理

1. 模型表达式

单变量线性回归

当只有一个自变量时，模型表达式为：
y=wx+b
其中：

y 是因变量（预测值）
x 是自变量
w 是权重（斜率）
b 是偏置（截距）

三、线性回归核心代码（入门必看）

对于零基础入门者，线性回归的核心代码只有三行！以下是最简化版本：

# 极简线性回归示例（仅需3行核心代码）import numpy as npfrom sklearn.linear_model import LinearRegression# 准备数据（示例：学习时间与考试分数）X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1) # 学习时间（小时）y = np.array([60, 70, 80, 85, 90]) # 对应分数# 1. 创建模型model = LinearRegression()# 2. 训练模型model.fit(X, y)# 3. 预测new_X = np.array([6]).reshape(-1, 1) # 预测学习6小时的分数print(f\"预测分数: {model.predict(new_X)[0]:.2f}\")# 查看模型参数print(f\"权重(斜率): {model.coef_[0]:.2f}\")print(f\"偏置(截距): {model.intercept_:.2f}\")

输出结果：

预测分数: 92.00权重(斜率): 6.50偏置(截距): 53.50

对应的数学模型就是：分数 = 6.5 × 学习时间 + 53.5

如果需要更详细的解释，可以看下面这版带注释的：

# 带注释的极简版import numpy as npfrom sklearn.linear_model import LinearRegression# 准备数据（学习时间与考试分数的关系）# X必须是二维数组，所以用reshape(-1, 1)转换X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)y = np.array([60, 70, 80, 85, 90])# 创建线性回归模型对象model = LinearRegression()# 用数据训练模型（核心！）# 模型会自动找到最佳的权重(w)和偏置(b)model.fit(X, y)# 用训练好的模型预测新数据new_X = np.array([6]).reshape(-1, 1) # 预测学习6小时的分数prediction = model.predict(new_X)print(f\"学习6小时的预测分数: {prediction[0]:.2f}\")# 查看模型学到的参数# 数学模型：分数 = 权重 × 学习时间 + 偏置print(f\"模型学到的权重(斜率): {model.coef_[0]:.2f}\") # 每多学1小时，分数提高6.5分print(f\"模型学到的偏置(截距): {model.intercept_:.2f}\") # 基础分数53.5分

四、线性回归的完整实现（带可视化）

下面我们用 Python 的 Scikit-learn 库实现一个完整的线性回归示例，以房屋面积与房价的关系为例。

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegression# 生成模拟数据（房屋面积与房价）np.random.seed(42)x = np.random.rand(100, 1) * 10 # 房屋面积（0-100平米）y = 2.5 * x + 3 + np.random.randn(100, 1) * 2 # 真实关系：y=2.5x+3，添加噪声# 创建并训练模型model = LinearRegression()model.fit(x, y)# 预测y_pred = model.predict(x)# 输出参数print(f\"权重 w: {model.coef_[0][0]:.2f}\")print(f\"偏置 b: {model.intercept_[0]:.2f}\")# 可视化plt.scatter(x, y, color=\'blue\', label=\'真实数据\')plt.plot(x, y_pred, color=\'red\', linewidth=2, label=\'拟合直线\')plt.xlabel(\'房屋面积（平米）\')plt.ylabel(\'房价（万元）\')plt.title(\'房屋面积与房价的线性回归\')plt.legend()plt.show()

五、线性回归的优缺点

优点

原理简单，解释性强（权重可直接反映特征影响）
训练速度快，计算成本低
可作为基础模型，为复杂模型提供参考

缺点

只能捕捉线性关系，无法处理非线性数据
对异常值敏感，需要预处理

六、总结

线性回归是机器学习的入门基石，掌握它不仅能解决简单的预测问题，更能帮助理解机器学习的基本思想：通过数据拟合模型，最小化误差来逼近真实规律。

如果觉得本文有帮助，欢迎点赞收藏，也欢迎在评论区交流你的学习心得～

机器学习入门：线性回归详解与实战

一、什么是线性回归？

二、线性回归的数学原理

1. 模型表达式

单变量线性回归

三、线性回归核心代码（入门必看）

四、线性回归的完整实现（带可视化）

五、线性回归的优缺点

优点

缺点

六、总结

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

机器学习入门：线性回归详解与实战

一、什么是线性回归？

二、线性回归的数学原理

1. 模型表达式

单变量线性回归

三、线性回归核心代码（入门必看）

四、线性回归的完整实现（带可视化）

五、线性回归的优缺点

优点

缺点

六、总结

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签