东方耀AI技术分享
标题:
10、scikit-learn机器学习框架的安装与环境搭建_笔记
[打印本页]
作者:
东方耀
时间:
2018-3-29 19:33
标题:
10、scikit-learn机器学习框架的安装与环境搭建_笔记
10、scikit-learn机器学习框架的安装与环境搭建_笔记
Anaconda的使用:
http://www.ai111.vip/thread-188-1-1.html
原始数据来源(个人家庭用电数据集):
http://archive.ics.uci.edu/ml/da ... c+power+consumption
# 线性回归的类
from sklearn.linear_model import LinearRegression
# 原始数据= 训练数据 + 测试数据 数据划分的类
from sklearn.model_selection import train_test_split
# 数据标准化
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
from pandas import DataFrame
import time
## 设置字符集,防止中文乱码
mpl.rcParams['font.family'] = 'sans-serif'
mpl.rcParams['font.sans-serif'] = 'SimHei'
mpl.rcParams['axes.unicode_minus'] = False
# 加载数据
# 日期、时间、有功功率、无功功率、电压、电流、厨房用电功率、洗衣服用电功率、热水器用电功率
path1 = 'datas/household_power_consumption_1000.txt'
df = pd.read_csv(path1, sep=';', low_memory=False)
# 没有混合类型的时候可以通过low_memory=False调用更多内存,加快效率)
# print(df.head(2))
# print(df.index)
print(df.columns)
# 查看数据结构
# print(df.info())
# 异常数据处理(异常数据过滤)
# 替换非法字符为np.nan
new_df = df.replace('?', np.nan)
# 只要有一个数据为空,就进行行删除操作
datas = new_df.dropna(axis=0, how='any')
# 观察数据的多种统计指标(只能看数值型的 本来9个的变7个了)
# print(datas.describe().T)
# 需求:构建时间和功率之间的映射关系,可以认为:特征属性为时间;目标属性为功率值。
# 获取x和y变量, 并将时间转换为数值型连续变量
# 创建一个时间函数格式化字符串
def date_format(dt):
# dt显示是一个Series
# print(dt.index)
# print(dt)
t = time.strptime(' '.join(dt), '%d/%m/%Y %H:%M:%S')
return (t.tm_year, t.tm_mon, t.tm_mday, t.tm_hour, t.tm_min, t.tm_sec)
X = datas.iloc[:, 0:2]
# print(X)
X = X.apply(lambda x: pd.Series(date_format(x)), axis=1)
Y = datas['Global_active_power']
print(Y.head(4))
print(X.head(4))
print(type(X))
print(type(Y))
# 对数据集进行测试集、训练集划分
# X:特征矩阵(类型一般是DataFrame)
# Y:特征对应的Label标签或目标属性(类型一般是Series)
复制代码
作者:
mghncepu
时间:
2019-11-5 07:33
这个非常好
作者:
fglbee
时间:
2019-12-22 20:52
this is good idea
作者:
tn4458726
时间:
2020-2-25 12:03
从头开始学习学习ing
作者:
智能abc
时间:
2020-3-2 14:19
强啊。大佬。6666
作者:
谢文
时间:
2020-3-7 21:40
6666666666666
作者:
谢文
时间:
2020-3-7 21:41
以后就跟着大佬一起学习了
作者:
liu
时间:
2020-3-16 15:53
那个scikit learn怎么搭建的,还是不太懂
作者:
口果微笑
时间:
2020-3-17 12:37
66666666666
作者:
小好
时间:
2020-4-12 14:06
sklearn确实简单,但是从新手开始最好把源代码敲一遍,之后再用sklearn
作者:
万物皆虚
时间:
2020-5-22 10:33
从头开始学习学习ing
作者:
万物皆虚
时间:
2020-5-22 10:34
从头开始学习学习ing
作者:
万物皆虚
时间:
2020-5-22 10:39
从头开始学习学习ing
作者:
万物皆虚
时间:
2020-5-22 10:41
sklearn确实简单,但是从新手开始最好把源代码敲一遍,之后再用sklearn
作者:
万物皆虚
时间:
2020-5-22 10:41
sklearn确实简单,但是从新手开始最好把源代码敲一遍,之后再用sklearn
作者:
万物皆虚
时间:
2020-5-22 10:42
sklearn确实简单,但是从新手开始最好把源代码敲一遍,之后再用sklearn
作者:
tangyuan
时间:
2020-8-12 09:30
sklearn的确是好工具包,很好上手
作者:
tangyuan
时间:
2020-8-12 14:11
学习了666666666
作者:
tangyuan
时间:
2020-8-12 15:32
学习了666666666
作者:
tangyuan
时间:
2020-8-12 16:05
学习了666666666
作者:
kenji1982
时间:
2020-10-19 20:49
66666666666666
作者:
小别离
时间:
2021-1-10 21:49
下载不了数据啊
作者:
happy
时间:
2021-6-11 15:51
sklearn确实简单,但是从新手开始最好把源代码敲一遍,之后再用sklearn
作者:
小五98
时间:
2021-6-17 19:22
这个数据集很棒
作者:
破天一件
时间:
2021-7-13 09:45
666666666666666
作者:
破天一件
时间:
2021-7-14 09:35
6666666666666666666
作者:
nnn
时间:
2022-11-23 11:29
nice,讲的很好,收益匪浅
作者:
yanxi
时间:
7 天前
感谢大佬
欢迎光临 东方耀AI技术分享 (http://www.ai111.vip/)
Powered by Discuz! X3.4