Skip to content

机器学习

更新: 6/23/2025 字数: 0 字 时长: 0 分钟

  • 时间:10:30 - 12:30
  • 地点:中心楼 627-629
  • 监考老师:肖剑波、李丽蓉

基础知识

人工智能、机器学习、深度学习之间的关系

  • 人工智能(AI):旨在让计算机模拟人类的智能行为,包括思考、学习和决策。应用范围广泛,如语音识别、图像处理、自然语言处理和自动驾驶等。
  • 机器学习(ML):是实现人工智能的核心技术,通过算法让计算机从数据中学习规律,无需显式编程。例如,通过分析大量图片数据区分猫和狗。是人工智能的子集,专注于通过数据训练模型完成特定任务。常见算法:线性回归、决策树、支持向量机等。
  • 深度学习(DL):是机器学习的分支,利用多层神经网络处理复杂任务(如图像识别、语音翻译)。模仿人脑神经元结构,自动提取高级特征。

总结:人工智能是框架,机器学习是实现方法,深度学习是更先进的技术。三者是包含与被包含的关系,层层递进。

机器学习常用数据分析库及数据类型设置

  • Pandas:数据处理和分析,提供 DataFrameSeries 数据结构。支持数据清洗、筛选、分组、聚合等,常用于数据预处理和特征工程。
  • NumPy:基础科学计算库,提供高效的多维数组(ndarray)和矩阵运算。支持数学函数、随机数生成,是数值计算的核心工具。
  • Matplotlib:数据可视化库,支持折线图、柱状图、散点图等,可自定义样式。
  • Seaborn:基于 Matplotlib 的高级可视化库,专注统计图表(如热力图、箱线图)。
  • Scikit-learn:机器学习工具库,涵盖分类、回归、聚类等算法。
  • OpenCV:计算机视觉库,支持图像/视频处理(读取、裁剪、滤波、特征检测等)。
  • jieba:中文分词库,支持精确模式、全模式等分词模式。

使用 Pandas 读取 CSV 文件

python
import pandas as pd
data = pd.read_csv('文件名.csv')

KNN 算法

  1. 简述 KNN 算法的基本思想

    • 确定一个 K 值,计算待预测样本与所有训练样本的距离,选取距离最近的 K 个样本,根据这 K 个样本中出现最多的类别进行预测。
  2. KNN 算法的应用流程

    1. 构建数据集:明确数据特征和标签。
    2. 数据预处理:清洗异常值/缺失值,标准化消除量纲差异。
    3. 选取 K 值:人工设定超参数 K。
    4. 模型训练与评估:使用精确率、召回率、F1 值等指标评估性能。
    5. 预测:对符合性能要求的新样本进行预测。

K-means 聚类算法

  1. 简述 K-means 聚类的基本思想

    • 随机初始化 K 个聚类中心,计算所有样本与中心的距离,将样本归入最近中心对应的类;更新聚类中心(重新计算各类均值);重复上述过程直至聚类中心不再变化。
  2. K-means 算法的应用流程

    1. 准备数据:构建无标签数据集。
    2. 初始化聚类中心:随机选择 K 个中心点。
    3. 迭代聚类:
      • 分配样本:将每个样本分配到最近的中心类别。
      • 更新中心:重新计算各类均值作为新中心。
    4. 终止条件:中心点不再变化时停止迭代。

线性回归

  1. 线性回归与分类任务的核心区别

    • 线性回归预测连续值(如温度、股价),分类任务预测离散类别(如猫/狗)。
  2. 线性回归的应用流程

    1. 构建数据集:定义特征变量(X)和目标变量(y)。
    2. 特征工程:
      • 数据清洗(处理异常值、缺失值)。
      • 标准化(消除特征间量纲差异)。
    3. 建模与训练:导入线性回归模型(如 LinearRegression),训练模型。
    4. 评估与预测:评估模型性能(如 R²分数),达标后用于预测。

参数计算

卷积神经网络和全连接网络的参数量计算。

  • 卷积神经网络参数量计算:(输入通道数 * 卷积核宽度 * 卷积核高度 * 输出通道数) + 输出通道数
  • 全连接网络参数量计算:(左边神经元个数 * 右边神经元个数) + 右边神经元个数

总结

贡献者

The avatar of contributor named as LI SIR LI SIR

页面历史