机器学习

更新: 6/23/2025 字数: 0 字时长: 0 分钟

基础知识

人工智能、机器学习、深度学习之间的关系

人工智能（AI）：旨在让计算机模拟人类的智能行为，包括思考、学习和决策。应用范围广泛，如语音识别、图像处理、自然语言处理和自动驾驶等。
机器学习（ML）：是实现人工智能的核心技术，通过算法让计算机从数据中学习规律，无需显式编程。例如，通过分析大量图片数据区分猫和狗。是人工智能的子集，专注于通过数据训练模型完成特定任务。常见算法：线性回归、决策树、支持向量机等。
深度学习（DL）：是机器学习的分支，利用多层神经网络处理复杂任务（如图像识别、语音翻译）。模仿人脑神经元结构，自动提取高级特征。

总结：人工智能是框架，机器学习是实现方法，深度学习是更先进的技术。三者是包含与被包含的关系，层层递进。

机器学习常用数据分析库及数据类型设置

Pandas：数据处理和分析，提供 DataFrame 和 Series 数据结构。支持数据清洗、筛选、分组、聚合等，常用于数据预处理和特征工程。
NumPy：基础科学计算库，提供高效的多维数组（ndarray）和矩阵运算。支持数学函数、随机数生成，是数值计算的核心工具。
Matplotlib：数据可视化库，支持折线图、柱状图、散点图等，可自定义样式。
Seaborn：基于 Matplotlib 的高级可视化库，专注统计图表（如热力图、箱线图）。
Scikit-learn：机器学习工具库，涵盖分类、回归、聚类等算法。
OpenCV：计算机视觉库，支持图像/视频处理（读取、裁剪、滤波、特征检测等）。
jieba：中文分词库，支持精确模式、全模式等分词模式。

使用 Pandas 读取 CSV 文件

python

import pandas as pd
data = pd.read_csv('文件名.csv')

简述 KNN 算法的基本思想
- 确定一个 K 值，计算待预测样本与所有训练样本的距离，选取距离最近的 K 个样本，根据这 K 个样本中出现最多的类别进行预测。
KNN 算法的应用流程
1. 构建数据集：明确数据特征和标签。
2. 数据预处理：清洗异常值/缺失值，标准化消除量纲差异。
3. 选取 K 值：人工设定超参数 K。
4. 模型训练与评估：使用精确率、召回率、F1 值等指标评估性能。
5. 预测：对符合性能要求的新样本进行预测。

简述 K-means 聚类的基本思想
- 随机初始化 K 个聚类中心，计算所有样本与中心的距离，将样本归入最近中心对应的类；更新聚类中心（重新计算各类均值）；重复上述过程直至聚类中心不再变化。
K-means 算法的应用流程
1. 准备数据：构建无标签数据集。
2. 初始化聚类中心：随机选择 K 个中心点。
3. 迭代聚类：
  - 分配样本：将每个样本分配到最近的中心类别。
  - 更新中心：重新计算各类均值作为新中心。
4. 终止条件：中心点不再变化时停止迭代。

线性回归与分类任务的核心区别
- 线性回归预测连续值（如温度、股价），分类任务预测离散类别（如猫/狗）。
线性回归的应用流程
1. 构建数据集：定义特征变量（X）和目标变量（y）。
2. 特征工程：
  - 数据清洗（处理异常值、缺失值）。
  - 标准化（消除特征间量纲差异）。
3. 建模与训练：导入线性回归模型（如 LinearRegression），训练模型。
4. 评估与预测：评估模型性能（如 R²分数），达标后用于预测。

卷积神经网络和全连接网络的参数量计算。

LI SIR

最后编辑于 3 个月前

查看完整历史