百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

火爆GitHub100天搞定机器学习编程(超赞信息图+代码+数据集)

toyiye 2024-04-27 03:47 24 浏览 0 评论

问耕 栗子 发自 麦蒿寺

量子位 出品 | 公众号 QbitAI

你是想喝一辈子糖水,还是想用AI改变世界?

但怎么想是一回事,怎么做往往是另一回事。学习和健身一样,不少人都停留在口头上,有各种借口不曾付诸实施。

为此,YouTube网红Siraj Raval发起了一个挑战赛:#100DaysOfMLCode。

这个挑战赛意在号召大家行动起来,从参与活动的那天起,每天至少花费1小时的时间来学习提升或者应用编程,连续坚持100天,从而更好的理解和掌握机器学习这个强大的工具。积跬步、至千里。

而且参加这个活动,还要使用#100DaysOfMLCode这个标签,在社交平台每日“打卡”,公开记录自己的工作。

你想在这100天里学到什么,或者完成一个项目全凭自主决定。大家的选择五花八门,其中有一个小哥的学习计划,很快引发大家的关注。

这个小哥名叫Avik Jain(重名的不少),他的百天计划,是从机器学习的基础概念起步,逐层递进,内容比较适合初学者。

这个100天搞定机器学习编程的项目,现在已经是爆红GitHub,很快累积了3000多标星,在Twitter上,也有一大票人热捧这个项目。

同是百天计划,这个有什么特别之处?三点:

1、超赞的学习图片

2、配套的代码

3、相应的数据集

对这个项目的评价,多以awesome、great、fantastic、outstanding、perfect等评价,大家纷纷表示感谢(并祝楼主好人一生平安)。

项目地址在此:

https://github.com/Avik-Jain/100-Days-Of-ML-Code

请你一定收藏好。

目前作者的100天计划,已经进行到第25天,已有的内容包括:

数据预处理、线性回归、逻辑回归、K最邻近算法、支持向量机、深度学习专项课程等,最新的内容已经讲到决策树及实现等。

量子位摘录其中的部分内容,做个示例。

第一天

看上去,真是美好的一天。

第一步:导入一些库

Numpy和Pandas这两个,是非常重要的库。

Numpy里面有各种数学函数,Pandas是用来导入数据集、管理数据集的。

1 import numpy as np

2 import pandas as pd

第二步:导入数据集

数据集通常是.csv格式。CSV文件,是把表格数据,存储成纯文本。每一行是一个数据记录 (Data Record) 。

在Pandas库里面,用read_csv的方法,来读取本地的CSV文件,每个文件是一个数据帧 (Data Frame) 。

给每个数据帧里的自变量和因变量,分别做矩阵和向量。

1 dataset = pd.read_csv('Data.csv')

2 X = dataset.iloc[ : , :-1].values

3 Y = dataset.iloc[ : , 3].values

第三步:处理缺失数据

我们获取的数据,通常是异构数据。导致缺失数据 (Missing Data) 的原因有很多,需要处理一下,模型的表现才不会减损。

可以把缺失的数据,用整列数据的平均值或者中位数代替。拿sklearn.preprocessing里的Imputer来处理。

1 from sklearn.preprocessing import Imputer

2 imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)

3 imputer = imputer.fit(X[ : , 1:3])

4 X[ : , 1:3] = imputer.transform(X[ : , 1:3])

第四步:编码分类数据

分类数据 (Categorical Data) 里的变量,不包含数值,只包含分类标签

比如,是/否,性别,婚姻状态,这样的变量,是没办法当成数值直接运算的。

所以,才需要把它们编码成能够运算的数值。用sklearn.preprocessing里面的LabelEncoder就可以了。

1 from sklearn.preprocessing import LabelEncoder, OneHotEncoder

2 labelencoder_X = LabelEncoder()

3 X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])

创建个虚拟变量:

1 onehotencoder = OneHotEncoder(categorical_features = [0])

2 X = onehotencoder.fit_transform(X).toarray()

3 labelencoder_Y = LabelEncoder()

4 Y = labelencoder_Y.fit_transform(Y)

第五步:分开训练集和测试集

要把数据集分成两半,一个当训练集,另一个当测试集。

一般来说,可以按80/20这样分,训练集大一些。用sklearn.crossvalidation里面的train_test_split() 来分,就行了。

1 from sklearn.cross_validation import train_test_split

2 X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)

第六步:特征缩放

大部分机器学习算法,都会拿两个数据点之间的欧几里得距离 (Euclidean Distance) 做计算。

这样一来,如果一个特征比其他特征的范围值更大,这个特征值就会成为主导。

而我们希望其他特征,也得到同等的重视,所以用特征标准化 (Feature Standardization) 来解决这个问题。

sklearn.preprocessing里面的StandardScalar,就派上用场了。

1 from sklearn.preprocessing import StandardScaler

2 sc_X = StandardScaler()

3 X_train = sc_X.fit_transform(X_train)

4 X_test = sc_X.fit_transform(X_test)

第二天

今天,要做的是简单线性回归 (Simple Linear Regression) 。

就是拿已知的那些 (x,y) 数据点,做出一条线性的趋势,来预测其他x值,对应的y。

第一步:数据预处理

其实,就是把第一天做过的事情,复习一下:

· 导入一些库

· 导入数据集

· 处理缺失数据

· 把数据集分成训练集和测试集

· 特征缩放的话,交给库了

1 import pandas as pd

2 import numpy as np

3 import matplotlib.pyplot as plt

4

5 dataset = pd.read_csv('studentscores.csv')

6 X = dataset.iloc[ : , : 1 ].values

7 Y = dataset.iloc[ : , 1 ].values

8

9 from sklearn.cross_validation import train_test_split

10 X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size = 1/4, random_state = 0)

第二步:拟合训练集

要把数据集,拟合到简单线性回归模型里面去,可以用sklearn.linear_model里面的LinearRegression来解决。

LinearRegression里面,建一个叫做regressor的对象。

然后,把regressor拟合到数据集里去,用fit() 就行了。

1 from sklearn.linear_model import LinearRegression

2 regressor = LinearRegression()

3 regressor = regressor.fit(X_train, Y_train)

第三步:预测结果

现在,用测试集来预测一下。

把输出存到一个向量Y_pred里面。然后,用LinearRegression里面的预测方法,来支配上一步训练过的regressor

1 Y_pred Y_pred == regressor.predict(X_test) regressor.predict(X_test)

第四步:可视化

最后一步,就是给预测结果做个可视化。

matplotlib.pyplot做散点图,给训练集和测试集都做一下,看看预测结果是不是接近真实。

训练集可视化:

1 plt.scatter(X_train , Y_train, plt.scatter(X_train , Y_train, colorcolor == ''redred'')

2 plt.plot(X_train , regressor.predict(X_train), ) plt.plot(X_train , regressor.p color ='blue')

测试集可视化:

1 plt.scatter(X_test , Y_test, color = 'red')

2 plt.plot(X_test , regressor.predict(X_test), color ='blue')

两件需要提醒的事

总之,大概就是上面这个样子。部分已经放出的信息图集合如下,大家可以预览一下。

如果你也想入门或者提升自己的机器学习能力,不妨试试跟着这个小哥一起学习进步。虽然这个项目全是英文,但并不晦涩高深,说不定还能顺便提高一下英文水平,以后读paper也用得到~

还有两件事,需要提醒一下。

1、这个项目已经开始汉化了

@zhyongquan 在GitHub上已经开始尝试中文版,效果如下图所示。

不过目前只进行了第一天内容的汉化。如果你感兴趣,可以持续关注,或者加入汉化的行动中。地址在此:

https://github.com/Avik-Jain/100-Days-Of-ML-Code/issues/8

2、项目内容不能盲信

尽信书不如无书。这个学习项目,也不是百分百完全正确,比如第四天讲逻辑回归时的右下角配图,就被指出存在错误。

作者也承诺将更新改正这个问题。

就酱。

最后,再发一次这个项目的地址:

https://github.com/Avik-Jain/100-Days-Of-ML-Code

请你一定收藏好,如果能开始学习那就更好啦。

如果这种偏入门的内容不适合你,还有更多进阶或者具体项目实现的100天计划可供参考,希望能帮助你精进。

比方#100DaysOfMLCode挑战赛发起人Siraj Raval,就选择了在100天里,使用机器学习技术,根据气温、降水、植被变化等因素,预测每周的登革热疫情,改善防疫的研究计划和资源分配。

你也可以选择其他项目,或者在Twitter、GitHub等看看别人的100天挑战,有没有你合适跟随的,或者全新启动你的挑战。

对了Siraj Raval还在GitHub和YouTube上发布过很多其他机器学习课程,例如三个月学习机器学习,六周入门深度学习等。

相关地址在此:

https://github.com/llSourcell

总之,原则就是每天进步一点点。

加油。

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

?'?' ? 追踪AI技术和产品新动态

相关推荐

如何利用Xpath抓取京东网商品信息

前几小编分别利用Python正则表达式和BeautifulSoup爬取了京东网商品信息,今天小编利用Xpath来为大家演示一下如何实现京东商品信息的精准匹配~~HTML文件其实就是由一组尖括号构成的标...

如何利用Xpath选择器抓取京东网商品信息

前几小编分别利用Python正则表达式和BeautifulSoup爬取了京东网商品信息,今天小编利用Xpath来为大家演示一下如何实现京东商品信息的精准匹配~~HTML文件其实就是由一组尖括号构成的标...

python之Scrapy爬虫案例:豆瓣(python爬虫书籍豆瓣评分)

python模块之Scrapy爬虫框架...

Python编程入门学习:最常见加密方式和Python实现

前言我们所说的加密方式,都是对二进制编码的格式进行加密的,对应到Python中,则是我们的Bytes。所以当我们在Python中进行加密操作的时候,要确保我们操作的是Bytes,否则就会报错。将字符串...

一日一技:Python中的string.rindex()方法

string.rindex()方法string.rindex()方法返回字符串内子字符串的最高索引(如果找到)。如果未找到子字符串,则会引发异常。rindex()的语法为:...

Asterisk-ARI对通道中的DTMF事件处理

Asterisk通道中关于DTMF处理是一个非常重要的功能。通过DTMF可以实现很多的业务处理。现在我们介绍一下关于ARI对通道中的DTMF处理,我们通过自动话务员实例来说明Asterisk如何创建一...

PyQt5 初次使用(pyqt5下载官网)

本篇文章默认已安装Python3,本篇文章默认使用虚拟环境。安装pipinstallPyQt5PyQt一些图形界面开发工具QtDesigner、国际化翻译工具Liguist需要另外...

Qt开发,使用Qt for Python还是Qt C++ Qt开发,使用Qt for

Qt开发使用QtforPython还是QtC++?1.早些年写过一个PyQt5的项目,最近几年重构成QtC++了,其中有个人原因,如早期代码写得烂,...

最简单方法!!用python生成动态条形图

最近非常流行动态条形图,在B站等视频网站上,此类视频经常会有上百万的播放量,今天我们通过第三方库:bar_chart_race(0.2版本)来实现动态条形图的生成;生成的效果如图:问题:...

Asterisk通道和ARI接口的通信(aau通道数)

Asterisk通道和ARI详解什么是通道Asterisk中,通道是介于终端和Asterisk自己本身的一个通信媒介。它包含了所有相关信息传递到终端,或者从终端传递到Asterisk服务器端。这些信...

Python GUI-长链转短链(长链接转化成短链接java)

当我们要分享某一个链接给别人,或是要把某个链接放入帖子中时,如果链接太长,则会占用大量空间,而且很不美观。这时候,我们可以结束长链转短链工具进行转换。当然可以直接搜索在线的网站进行转换,但我们可以借此...

Python 的hash 函数(python的hash函数)

今天在看python的hash函数源码的时候,发现针对不同的数据类型python实现了不同的hash函数,今天简单介绍源码中提到的hash函数。(https://github.com/pyth...

8款Python GUI开源框架,谁才是你的菜?

作为Python开发者,你迟早都会用到图形用户界面来开发应用。本文千锋武汉Python培训小编将推荐一些PythonGUI框架,希望对你有所帮助。1、Python的UI开发工具包Kivy...

python适合开发桌面软件吗?(python可不可以开发桌面应用软件)

其实Python/Java/PHP都不适合用来做桌面开发,Java还是有几个比较成熟的产品的,比如大名鼎鼎的Java集成开发环境IntelliJIDEA、Eclipse就是用Java开发的,不过PH...

CryptoChat:一款功能强大的纯Python消息加密安全传输工具

关于CryptoChatCryptoChat是一款功能强大的纯Python消息加密安全传输工具,该工具专为安全研究专家、渗透测试人员和红蓝队专家设计,该工具可以完全保证数据传输中的隐私安全。该工具建立...

取消回复欢迎 发表评论:

请填写验证码