机器学习
更新: 6/23/2025 字数: 0 字 时长: 0 分钟
- 时间:10:30 - 12:30
- 地点:中心楼 627-629
- 监考老师:肖剑波、李丽蓉
基础知识
人工智能、机器学习、深度学习之间的关系
- 人工智能(AI):旨在让计算机模拟人类的智能行为,包括思考、学习和决策。应用范围广泛,如语音识别、图像处理、自然语言处理和自动驾驶等。
- 机器学习(ML):是实现人工智能的核心技术,通过算法让计算机从数据中学习规律,无需显式编程。例如,通过分析大量图片数据区分猫和狗。是人工智能的子集,专注于通过数据训练模型完成特定任务。常见算法:线性回归、决策树、支持向量机等。
- 深度学习(DL):是机器学习的分支,利用多层神经网络处理复杂任务(如图像识别、语音翻译)。模仿人脑神经元结构,自动提取高级特征。
总结:人工智能是框架,机器学习是实现方法,深度学习是更先进的技术。三者是包含与被包含的关系,层层递进。
机器学习常用数据分析库及数据类型设置
- Pandas:数据处理和分析,提供
DataFrame
和Series
数据结构。支持数据清洗、筛选、分组、聚合等,常用于数据预处理和特征工程。 - NumPy:基础科学计算库,提供高效的多维数组(
ndarray
)和矩阵运算。支持数学函数、随机数生成,是数值计算的核心工具。 - Matplotlib:数据可视化库,支持折线图、柱状图、散点图等,可自定义样式。
- Seaborn:基于 Matplotlib 的高级可视化库,专注统计图表(如热力图、箱线图)。
- Scikit-learn:机器学习工具库,涵盖分类、回归、聚类等算法。
- OpenCV:计算机视觉库,支持图像/视频处理(读取、裁剪、滤波、特征检测等)。
- jieba:中文分词库,支持精确模式、全模式等分词模式。
使用 Pandas 读取 CSV 文件
python
import pandas as pd
data = pd.read_csv('文件名.csv')
KNN 算法
简述 KNN 算法的基本思想
- 确定一个 K 值,计算待预测样本与所有训练样本的距离,选取距离最近的 K 个样本,根据这 K 个样本中出现最多的类别进行预测。
KNN 算法的应用流程
- 构建数据集:明确数据特征和标签。
- 数据预处理:清洗异常值/缺失值,标准化消除量纲差异。
- 选取 K 值:人工设定超参数 K。
- 模型训练与评估:使用精确率、召回率、F1 值等指标评估性能。
- 预测:对符合性能要求的新样本进行预测。
K-means 聚类算法
简述 K-means 聚类的基本思想
- 随机初始化 K 个聚类中心,计算所有样本与中心的距离,将样本归入最近中心对应的类;更新聚类中心(重新计算各类均值);重复上述过程直至聚类中心不再变化。
K-means 算法的应用流程
- 准备数据:构建无标签数据集。
- 初始化聚类中心:随机选择 K 个中心点。
- 迭代聚类:
- 分配样本:将每个样本分配到最近的中心类别。
- 更新中心:重新计算各类均值作为新中心。
- 终止条件:中心点不再变化时停止迭代。
线性回归
线性回归与分类任务的核心区别
- 线性回归预测连续值(如温度、股价),分类任务预测离散类别(如猫/狗)。
线性回归的应用流程
- 构建数据集:定义特征变量(X)和目标变量(y)。
- 特征工程:
- 数据清洗(处理异常值、缺失值)。
- 标准化(消除特征间量纲差异)。
- 建模与训练:导入线性回归模型(如
LinearRegression
),训练模型。 - 评估与预测:评估模型性能(如 R²分数),达标后用于预测。
参数计算
卷积神经网络和全连接网络的参数量计算。
- 卷积神经网络参数量计算:
(输入通道数 * 卷积核宽度 * 卷积核高度 * 输出通道数) + 输出通道数
- 全连接网络参数量计算:
(左边神经元个数 * 右边神经元个数) + 右边神经元个数