加载中...
avatar

机器学习

image-20200509225116678

kNN需要明确的问题

相似性度量metric:

  • 闵式距离
  • 欧氏距离(默认)
  • p=1,曼哈顿距离
  • p=2,欧氏距离

k值

  • 紧邻点个数k或者n_neighbors
  • k值越大,分类边界月平滑
  • k值如何确定?交叉验证

模型参数包括两种

  1. 模型自身参数,通过样本学习得到的参数。
  2. 超参数,模型框架的参数,如kNN中的k,神经网络中的网络层数一集每层的节点数。通常手工设定。

通常所说的模型“调参“,指的是超参数

kNN的优缺点:

  • 优点:算法简单直观,易于实现。不需要额外的数据,只依靠数据(样本)本身
  • 缺点:计算量较大,分类速度缓慢。需要预先指定k值

talk is cheap ,show me the code.

线性回归

监督学习,训练样本包含对应的“标签”

  • 分类问题,样本标签属于两类或者多累(离散),如人脸识别
  • 回归问题,样本标签包括一个或多个连续变量(连续),如房价预测

回归线,线性回归,

房价预测

  • 21613个样本
  • 每个本18个特征,如卧室个数、浴室个数、客厅面积
  • 房价为需要预测值

通过加权求和该样本的特征值及偏置项计算其结果并作为预测值

例子:

样本有两维特征,1.每年的房产税(Xtax),2房屋年龄(Xage)

已知特征权重分别为109,-2000,偏置项

某个房屋的Xtax=10000,Xage=75,则

预测房屋价格y=212000+10910000-200075=1152000

如何求参数

通过最小二乘法找出适合的参数

被选择的参数,应该使拟合的预测值曲线与观测值(真实值)之差的平方和最小。该值也叫:残差平方和(residual sum of squares ,RSS),这个值越小,这个模型参数越好。

文章作者: 蕾米亚
文章链接: http://omimo.ga/2020/498ab7d9.html
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 彭彭和丁满
打赏
  • 微信
    微信
  • 支付寶
    支付寶

评论