kNN需要明确的问题
相似性度量metric:
- 闵式距离
- 欧氏距离(默认)
- p=1,曼哈顿距离
- p=2,欧氏距离
k值
- 紧邻点个数k或者n_neighbors
- k值越大,分类边界月平滑
- k值如何确定?交叉验证
模型参数包括两种
- 模型自身参数,通过样本学习得到的参数。
- 超参数,模型框架的参数,如kNN中的k,神经网络中的网络层数一集每层的节点数。通常手工设定。
通常所说的模型“调参“,指的是超参数
kNN的优缺点:
- 优点:算法简单直观,易于实现。不需要额外的数据,只依靠数据(样本)本身
- 缺点:计算量较大,分类速度缓慢。需要预先指定k值
talk is cheap ,show me the code.
线性回归
监督学习,训练样本包含对应的“标签”
- 分类问题,样本标签属于两类或者多累(离散),如人脸识别
- 回归问题,样本标签包括一个或多个连续变量(连续),如房价预测
回归线,线性回归,
房价预测
- 21613个样本
- 每个本18个特征,如卧室个数、浴室个数、客厅面积
- 房价为需要预测值
通过加权求和该样本的特征值及偏置项计算其结果并作为预测值
例子:
样本有两维特征,1.每年的房产税(Xtax),2房屋年龄(Xage)
已知特征权重分别为109,-2000,偏置项
某个房屋的Xtax=10000,Xage=75,则
预测房屋价格y=212000+10910000-200075=1152000
如何求参数
通过最小二乘法找出适合的参数
被选择的参数,应该使拟合的预测值曲线与观测值(真实值)之差的平方和最小。该值也叫:残差平方和(residual sum of squares ,RSS),这个值越小,这个模型参数越好。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 彭彭和丁满!
评论