1. 实验背景与目标

1.1. 实验背景

鲍鱼作为珍贵的海洋生物资源，在海洋生态系统中扮演着重要角色，同时也是高档海产品的代表。鲍鱼的生长速度相对缓慢，通过其壳上的年轮（环数）可以准确估算其年龄。在海洋生物学研究、水产养殖管理和可持续渔业管理中，准确预测鲍鱼的年龄具有重要意义。传统的鲍鱼年龄鉴定方法主要依赖显微镜观察年轮，这种方法不仅耗时耗力，而且对操作人员的技术要求较高。

1.2. 实验目标

本实验旨在探索机器学习方法在鲍鱼年龄预测中的应用价值，具体目标包括：

分类任务：基于鲍鱼的物理特征，将鲍鱼按环数划分为三个年龄类别（年轻、中年、老年），评估支持向量机（SVM）在这一多分类任务中的性能。
回归任务：直接预测鲍鱼的具体环数，探索SVM在回归预测中的表现。
特征分析：识别影响鲍鱼年龄预测的最重要特征，为鲍鱼生物学研究提供参考。
方法验证：在无工具箱依赖的环境下，实现完整的SVM算法，验证其在实际应用中的可行性。

2. 数据集描述

2.1. 数据来源

本次实验使用的数据集来自UCI机器学习仓库（Abalone Dataset），该数据集是海洋生物学和机器学习研究中的经典数据集。

2.2. 数据规格

样本数量：4,177只鲍鱼
特征数量：9列（8个特征 + 1个目标变量）
数据完整性：无缺失值，数据完整

2.3. 特征说明

特征名称	数据类型	描述	单位
Sex	类别型	鲍鱼性别	-
Length	数值型	鲍鱼长度	mm
Diameter	数值型	鲍鱼直径	mm
Height	数值型	鲍鱼高度	mm
Whole weight	数值型	整体重量	g
Shucked weight	数值型	去壳重量（肉重）	g
Viscera weight	数值型	内脏重量	g
Shell weight	数值型	壳重	g
Rings	数值型	环数（年龄指标）	-

3. 数据预处理与标准化

3.1. 性别特征编码

由于原始数据中的性别特征为类别型变量（M、F、I），需要进行数值编码：

M（雄性） → 0
F（雌性） → 1
I（未成年） → 2

3.2. 分类标签构造

基于环数将鲍鱼划分为三个年龄类别：

类别0（年轻）：环数 ≤ 8（1,407只，占33.7%）
类别1（中年）：9 ≤ 环数 ≤ 12（2,077只，占49.7%）
类别2（老年）：环数 > 12（693只，占16.6%）

3.3. 数据标准化（无数据泄漏）

为确保模型训练的有效性和评估的公正性，采用了严格的防止数据泄漏的标准化流程：

数据划分：将数据随机分为训练集（70%，2,923只）和测试集（30%，1,254只）
训练集标准化：仅在训练集上计算各特征的均值和标准差
统一标准化：使用训练集的统计量对训练集和测试集进行标准化处理

数学公式：
[
X{\text{norm}} = \frac{X - \mu{\text{train}}}{\sigma_{\text{train}}}
]

3.4. 回归目标标准化

对于回归任务，对环数目标变量也进行了标准化处理：

训练集环数均值：9.91
训练集环数标准差：3.26

4. 数据探索性分析

4.1. 环数分布特征

通过对目标变量Rings的统计分析，发现以下特点：

分布范围：最小7环，最大29环
集中趋势：平均9.94环，大部分鲍鱼年龄集中在7-12环之间
分布形态：呈右偏分布，老年鲍鱼数量相对较少

4.2. 特征相关性分析

计算了所有特征之间的相关系数矩阵，主要发现：

物理特征高度相关：长度、直径、高度以及各种重量之间存在强正相关关系
特征与目标的相关性：
- 壳重与环数的相关系数最高（约0.65）
- 长度、直径与环数的相关系数次之（约0.55-0.60）
- 性别与环数的相关性最弱

4.3. 类别不平衡问题

数据集中存在明显的类别不平衡：

中年类别样本最多（占49.7%）
老年类别样本最少（仅占16.6%）
这种不平衡可能影响模型对少数类别的识别能力。

5. 分类模型：支持向量机（SVM）

5.1. 多分类策略

由于SVM本质上是二分类器，我们采用一对多（One-vs-Rest）策略处理多分类问题：

分类器1：类别0 vs 其他
分类器2：类别1 vs 其他
分类器3：类别2 vs 其他

5.2. 核函数选择

选用RBF（径向基）核函数，原因包括：

能够处理非线性可分数据
通过核技巧将数据映射到高维空间
参数调节相对简单，泛化能力较强

5.3. 超参数设置

正则化参数C：1.0（平衡分类误差和模型复杂度）
RBF核参数σ：1.0（控制核函数的影响范围）
容差参数tol：1e-3（优化停止条件）

5.4. 算法实现

在不依赖MATLAB工具箱的情况下，实现了完整的SMO（序列最小优化）算法：

实现了核矩阵预计算
实现了KKT条件检查
实现了α参数和偏置项b的更新
提取了支持向量用于预测

6. 模型训练与评估

6.1. 训练结果

在训练集上的性能：

训练集准确率：71.60%
支持向量数量：三个分类器分别提取了有效的支持向量

6.2. 测试结果

在独立测试集上的性能：

测试集准确率：71.29%
泛化能力：训练集和测试集性能接近，表明模型没有过拟合

6.3. 混淆矩阵分析

测试集的混淆矩阵如下：

真实\预测	年轻(0)	中年(1)	老年(2)	总计
年轻(0)	263	136	1	400
中年(1)	55	573	15	643
老年(2)	4	149	58	211
总计	322	858	74	1254

各类别性能分析：

年轻类别（0）：
- 准确率：65.8%（263/400）
- 主要误判：34%误判为中年，几乎无误判为老年
中年类别（1）：
- 准确率：89.3%（573/643）
- 主要误判：8.5%误判为年轻，2.3%误判为老年
老年类别（2）：
- 准确率：27.5%（58/211）
- 主要误判：70.6%误判为中年，1.9%误判为年轻

6.4. 分类特征重要性分析

采用排列重要性方法评估各特征对分类性能的影响：

特征	原始准确率	打乱后准确率	重要性	排名
肉重	71.29%	60.05%	11.24	1
壳重	71.29%	62.44%	8.85	2
全重	71.29%	64.27%	7.02	3
性别	71.29%	65.95%	5.34	4
长度	71.29%	65.95%	5.34	4
直径	71.29%	68.98%	2.31	6
高度	71.29%	70.81%	0.48	7
内脏重	71.29%	72.17%	-0.88	8

关键发现：

肉重是影响分类的最重要特征
重量类特征（肉重、壳重、全重）比尺寸特征更重要
内脏重出现负重要性，可能表明该特征存在噪声

7. 回归模型：支持向量回归（SVR）

7.1. 回归任务设置

目标变量：连续环数（标准化后）
损失函数：ε-不敏感损失（ε=0.1）
正则化参数C：10.0
核函数：线性核（确保训练稳定性）

7.2. 算法实现

在不依赖工具箱的情况下，实现了简化的SVR算法：

采用随机梯度下降进行优化
实现了ε-不敏感损失函数
训练200个epoch，学习率逐步衰减

7.3. 回归性能评估

指标	训练集	测试集
均方误差（MSE）	7.3867	6.9959
均方根误差（RMSE）	2.7178	2.6450
平均绝对误差（MAE）	2.1285	2.0781
R²分数	0.3034	0.2930

性能解读：

R²=0.293：模型能够解释约29.3%的环数方差
RMSE=2.645：平均预测误差约2.65环
训练集和测试集性能接近，模型稳定

7.4. 回归特征重要性分析

特征	原始MSE	打乱后MSE	重要性	排名
肉重	6.9959	32.5643	365.47%	1
全重	6.9959	30.6780	338.51%	2
内脏重	6.9959	15.4332	120.60%	3
壳重	6.9959	7.6488	9.33%	4
长度	6.9959	7.4884	7.04%	5
高度	6.9959	7.3163	4.58%	6
性别	6.9959	6.8186	-2.54%	7
直径	6.9959	6.5245	-6.74%	8