|
01、机器学习的数据、类别、概论与哲学思考
机器学习中的数据样本:大写字母X代表特征矩阵 小写字母y代表目标向量或label
特征空间(feature space)
分类任务本质就是在特征空间中切分,在高维空间同理
机器学习的任务:分类 回归
很多复杂的问题也可以转换为分类问题
一些算法只支持完成二分类的任务 但是多分类的任务可以转换成二分类的任务
有些算法天然可以完成多分类任务
分类任务:二分类 多分类
多标签分类,比较高级的话题
回归任务:结果是一个连续数字的值,而非一个类别 预测:房屋价格 市场分析 学生成绩 股票价格 等
一些情况下,回归任务可以简化成为分类任务
把模型可以理解成为一个函数 f(x)
监督学习 :给机器学习模型训练的数据拥有label或答案的
非监督学习 半监督学习 强化学习
非监督学习的意义:对数据进行降维处理
特征提取(扔特征):信用卡的信用评级和人的胖瘦无关?实现情况非常复杂
特征压缩(不扔特征):PCA主成分分析 在尽量少损失信息的条件下将高维特征向量压缩成低维特征向量 大大提高算法运行效率 但是不影响最终的准确率
降维处理的意义:方便可视化 给人看 直观对数据的理解
非监督学习的意义:异常检测
强化学习:行动 反馈 行动 反馈 行动 反馈 。。。
在线学习和离线学习(批量学习)
批量学习的优点是简单,问题是如何适应环境变化?解决方案:定时重新批量学习
缺点:每次重新批量学习,运算量巨大,在某些环境变化非常快的情况下,甚至是不可能的
在线学习:优点是及时反映新的环境变化 问题是新的数据可能带来不好的变化,解决方案:需要加强对数据的监控(异常检测)
有一些算法天然是适合在线学习 参考其他资料
参数学习:一旦学到了模型参数,就不再需要原有的数据集
非参数学习 :不对模型进行过多的统计学假设 通常在预测的过程中,喂养给算法模型的数据集也需要参与预测的过程
注意:非参数学习算法不等于没参数!
机器学习的哲学思考:机器学习是面对高度不确定性的现实问题,给出的答案也是不确定的、概率性的、统计学意义上的
那这个答案真的可靠吗?我们该相信吗?
1、只要数据足够多,准确度就上升:数据即算法 数据驱动的 大数据的火热 数据特征工程
2、从0开始 starting from scratch 算法为王
如何选择机器学习的算法?奥卡姆剃刀:简单的就是好的
到底在机器学习领域,什么叫简单?
没有免费的午餐定理:可以严格地数学推导出,任意两个算法,他们的期望性能是相同的!
具体到某个特定问题,有些算法可能更好,但是整体而言没有一种算法绝对比另一种算法好
脱离具体问题,谈哪个算法好是没有意义的!
在面对一个具体问题的时候,尝试使用多种算法进行对比试验,是非常必要的!
面对不确定的世界,怎么看待使用机器学习进行预测的结果?
视频教程请参考:http://www.ai111.vip/thread-349-1-1.html
|
|