01、机器学习的数据、类别、概论与哲学思考

东方耀 · 发表于 2019-9-27 22:29:41

01、机器学习的数据、类别、概论与哲学思考

机器学习中的数据样本：大写字母X代表特征矩阵  小写字母y代表目标向量或label

特征空间（feature space）
分类任务本质就是在特征空间中切分，在高维空间同理

机器学习的任务：分类回归
很多复杂的问题也可以转换为分类问题
一些算法只支持完成二分类的任务但是多分类的任务可以转换成二分类的任务
有些算法天然可以完成多分类任务

分类任务：二分类多分类
多标签分类，比较高级的话题

回归任务：结果是一个连续数字的值，而非一个类别  预测：房屋价格市场分析学生成绩股票价格等
一些情况下，回归任务可以简化成为分类任务

把模型可以理解成为一个函数 f(x)

监督学习：给机器学习模型训练的数据拥有label或答案的
非监督学习半监督学习强化学习

非监督学习的意义：对数据进行降维处理
特征提取（扔特征）：信用卡的信用评级和人的胖瘦无关？实现情况非常复杂
特征压缩（不扔特征）：PCA主成分分析在尽量少损失信息的条件下将高维特征向量压缩成低维特征向量大大提高算法运行效率但是不影响最终的准确率

降维处理的意义：方便可视化给人看直观对数据的理解

非监督学习的意义：异常检测

强化学习：行动反馈行动反馈行动反馈。。。

在线学习和离线学习（批量学习）
批量学习的优点是简单，问题是如何适应环境变化？解决方案：定时重新批量学习
缺点：每次重新批量学习，运算量巨大，在某些环境变化非常快的情况下，甚至是不可能的

在线学习：优点是及时反映新的环境变化问题是新的数据可能带来不好的变化，解决方案：需要加强对数据的监控（异常检测）
有一些算法天然是适合在线学习  参考其他资料

参数学习：一旦学到了模型参数，就不再需要原有的数据集
非参数学习：不对模型进行过多的统计学假设通常在预测的过程中，喂养给算法模型的数据集也需要参与预测的过程
注意：非参数学习算法不等于没参数！

机器学习的哲学思考：机器学习是面对高度不确定性的现实问题，给出的答案也是不确定的、概率性的、统计学意义上的
那这个答案真的可靠吗？我们该相信吗？
1、只要数据足够多，准确度就上升：数据即算法  数据驱动的  大数据的火热数据特征工程
2、从0开始 starting from scratch  算法为王

如何选择机器学习的算法？奥卡姆剃刀：简单的就是好的
到底在机器学习领域，什么叫简单？
没有免费的午餐定理：可以严格地数学推导出，任意两个算法，他们的期望性能是相同的！
具体到某个特定问题，有些算法可能更好，但是整体而言没有一种算法绝对比另一种算法好
脱离具体问题，谈哪个算法好是没有意义的！
在面对一个具体问题的时候，尝试使用多种算法进行对比试验，是非常必要的！

面对不确定的世界，怎么看待使用机器学习进行预测的结果？

视频教程请参考：http://www.ai111.vip/thread-349-1-1.html

kiko · 发表于 2022-11-6 10:45:14

学习中，支持

kiko · 发表于 2022-11-6 10:45:54

学习中，支持

		自动登录	找回密码
密码			立即注册

[学习笔记] 01、机器学习的数据、类别、概论与哲学思考

相关帖子