通过代码示例涵盖启动数据科学所需的所有 Python 基础知识和基本概念
照片由Myriam Jessier在Unsplash上拍摄
Python 是现代最重要的编程语言之一。尽管该语言是在近 30 年前开发的,但它不断发展,它仍然具有巨大的价值和更多的价值,特别是在数据科学和人工智能方面。
当前版本的 Python 3.10 是从之前的 Python 2 时代演变而来的,这种编程语言及其社区的发展处于历史最高水平。
由于这些技术的持续发展和进步,数据科学和人工智能在数据科学和人工智能领域取得了巨大的普及,人们非常好奇这些巨大的学科将会飞多远,尤其是在 Python 作为它们的主要开发语言的情况下。
我们将经历一个新时代,因为我们拥有更多的爱好者,他们不断地吸收这些现代概念中的大部分,并为这些领域的发展做出巨大贡献。随着明年的快速临近,我们中的许多人都有新的目标来学习新的有趣主题并进一步进步。
在本文中,我们的主要重点是建立对所有对数据科学有用的基本概念的基本理解,并初步了解如何利用 Python 在人工智能、机器学习和数据科学领域变得更加精通.
我们将专注于开发人员在从事数据科学项目时应该主要关注的特定主题,以实现最佳结果。如果您正在寻找更多关于即兴 Python 编程的高级作品,请查看以下文章以了解 Python 的一些最佳实践。
迭代语句:
在简要了解了使用 Python 进行面向对象编程的意义之后,让我们探索一下 Python 中迭代语句的概念。大多数编程语言(如 Java 和 C++)通常使用相当多的迭代语句,例如 for 循环、while 循环、do-while 语句、switch case 和其他类似的迭代。
在 Python 中,我们大多只有效地利用For循环或While循环。大多数计算都是用这两个迭代语句执行的。借助 Python 编程,只要满足某个条件(即 True),就可以运行这些迭代循环。因此,在不断满足所需目的之前,执行特定的代码块变得很容易。
无论是数据科学还是简单的 Python 编程,迭代语句都被认为是必须的。几乎每个主题的每个项目都利用这些重复循环来执行特定任务。我之前文章中的大多数项目也使用了这些语句。以下最好的示例之一来自我以前的博客之一,用于创建语言亵渎测试仪。查看下面的代码并访问以下文章以获取更多信息。
句子=“你不仅笨,而且是个白痴。”def censor(sentence = ""):
new_sentence = "" for word in sentence.split():
if word in Banned_List:
new_sentence += '* '
else:
new_sentence += word + ' ' return new_sentence
面向对象:
Python 是一种面向对象的编程语言,它是 Python 最重要的方面之一。但是,由于 Python 的其他惊人功能,有时会忽略此功能。因此,这个主题应该是我们开始使用 Python for Data Science 的主要重点。在处理 Python 的许多方面时,有时可能会忘记面向对象编程的重要性。
每个用于机器学习、数据科学或任何内置 Python 的深度学习框架的库都将主要构成两个基本的主要组件,即对象和类。类、封装、多态性和继承等现实世界的实体在 Python 中也得到了很好的实现。因此,我们的目标是非常详细地理解所有概念,我们将在下一篇文章中深入探讨这些概念。
下面是一些用于开始使用类的快速入门代码。查看以下文章以获取有关此代码块的更多信息。
类 Derivative_Calculator:
def power_rule(*args):
deriv = sympy.diff(*args)
return deriv
def sum_rule(*args):
derived = sympy.diff(*args)
return derivdifferentiatie = Derivative_Calculator
differentiatie.power_rule(Derivative)
列表:
列表是元素的可变有序序列。可变意味着可以修改或更改列表。列表包含在方括号“[]”中。列表是一种有序的数据结构,列表中的每个元素都被分配了一个特定的索引号,通过该索引号可以访问它。列表中的每个项目或元素都由逗号 (,) 分隔。
lst = ['一', '二', '三', '四']
lst.append('五')
lst
输出:
['一二三四五']
append 函数是编程和数据科学领域中使用的最重要的命令之一。我们可以在列表上执行和操作其他几个功能。要了解有关其他可用选项的更多信息,我强烈建议您从下面提供的链接中查看使用 Python 编程的掌握列表的详细版本。
字典:
字典允许用户相应地访问键和值。假设您必须存储一个人的一些数据,那么您会考虑使用字典,例如存储联系人姓名及其号码。字典还可以存储与特定相关联的多个数据元素。学校中学生的特定姓名可以存储许多科目的分数。字典是 Python 中的数据结构,被定义为无序的数据集合。下面是开始使用字典的一些示例代码和输出。
# 返回 (key, value) 形式的字典项的元组列表
my_dict = {1: 'A', 2: 'B', 3: 'C'}
print(my_dict.items())# 返回字典键的新视图
my_dict = {1: 'A', 2: 'B', 3: 'C'}
print(my_dict.keys())# 返回字典值的新视图
my_dict = {1: 'A', 2: 'B', 3: 'C'}
print(my_dict.values())
输出:
dict_items([(1, 'A'), (2, 'B'), (3, 'C')])
dict_keys([1, 2, 3])
dict_values(['A', 'B', ' C'])
上面的入门代码应该让用户对如何使用字典值和关键元素的一些基本概念有一个简要的了解。如果您期待字典和集合的扩展指南,我建议您查看以下文章以获取有关这些主题的更多知识。
职能:
函数允许用户在def function name():命令下快速操作代码块内的可重复任务。这个概念在编程中非常有用,尤其是在数据科学中,您需要对大量数据重复特定的操作。利用函数来实现这一目标将减少开发人员需要执行的大量计算。
Python 还允许其用户直接访问它的一些匿名(或高级)功能选项,这将有助于更快、更高效地开发项目。我已经在另一篇文章中详细介绍了以下主题,如果您有兴趣进一步探索该主题,我建议您查看它。下面提供了相同的链接。
探索用于数据科学的 Python 库:
Python 的最大特点是可用于这种编程语言的大量库。对于您想要执行的几乎所有类型的任务或您想要处理的任何类型的项目,Python 都提供了一个库,可以大大简化或减少工作量。
在 Python 提供的一些最佳数据科学库的帮助下,你可以完成任何类型的任务。让我们探索一些数据科学初学者必须了解的库。
1.熊猫:
对于使用数据科学,主要要求之一是分析数据。Python 为其用户提供的最好的库之一是 Pandas 库,您可以通过它访问互联网上以结构化格式提供的大部分内容。它为开发人员提供了访问各种格式的大量文件的选项,例如文本、HTML、CSV、XML、乳胶等等。以下是您可以访问 CSV 格式类型数据的示例之一。
数据 = pd.read_csv("fer2013.csv")
data.head()
作者图片
为了更多地了解 Pandas 并征服这个库背后的分析实用程序,我建议查看我之前关于 14 个最重要的 Pandas 操作的文章之一,这些操作必须包含在每个数据科学家的武器库中。以下是相同的以下链接。
2.matplotlib:
作者图片
完成数据分析后,下一个重要步骤是相应地可视化它们。对于数据的可视化,matplotlib 和 seaborn 是 Python 中可用的最佳选项之一。您可以使用这个带有简单代码的奇妙库来可视化几乎任何基本实体。它支持像 NumPy 这样的数字扩展,您可以将它们组合在一起以可视化大多数数据元素。
上面的图像表示显示了在 matplotlib 库的帮助下构建的条形图。我们可以使用 matplotlib 执行更多的可视化、图表和其他统计视觉效果。要了解有关数据科学项目的不同类型可视化的更多信息,请查看下面提供的以下链接。
3.NumPy:
简而言之,数值 Python 或 NumPy 是 Python 中用于计算数学问题的最佳选择之一。您可以利用 numpy 数组的概念来简化数据科学领域中涉及的复杂数学。它可以帮助您处理大型多维数组和矩阵,并帮助您高效地构建数据科学项目。
如果没有 numpy 的适当实用程序,几乎不可能解决大多数复杂的数学问题和机器学习项目。因此,必须非常详细地理解这个概念。建议观众查看下面的文章,了解每个数据科学家必须了解的 15 个 numpy 功能。
4. Scikit-学习:
Scikit-learn 是最好的库之一,您可以使用它实现所有基本的机器学习算法,例如分类、回归、聚类、预处理(如下面的代码所示)、模型选择、降维等等。库工具包使用简单但高效的工具来分析和计算数据。它不仅像前面提到的其他三个模块一样易于安装,而且还构建在 matplotlib、numpy 和 scipy 等关键软件包之上。对于初学者来说,这个开源工具是更有效地实施机器学习项目的必备工具。
从 sklearn.model_selection 导入 train_test_splitX_train,X_test,y_train,y_test = train_test_split(问题,响应,test_size=0.20)
5.NLTK:
自然语言工具包是处理人类语言数据的最佳库之一。一开始,大多数机器学习和数据科学项目将处理大量自然语言处理任务。对于与自然语言处理相关的大多数问题,清理数据是数据准备阶段所需的最基本步骤之一。因此,如果您开始使用该领域,这个库对于学习和掌握这些知识非常重要。
导入 nltk句子=“你好!早上好。”
令牌= nltk.word_tokenize(句子)
如果您正在研究事物的图像处理方面,那么强烈推荐使用计算机视觉库 Open-CV。从下面的链接中查看以下库的完整指南。
结论:
照片由unsplash上的freestocks 拍摄
“代码就像幽默。当你不得不解释它时,这很糟糕。” —科里之家
Python 是一种革命性的编程语言,因为它的简单性、易学性、多功能性和许多其他出色的特性,它在过去几十年中一直保持着相关性。随着过去几年人工智能和数据科学的出现,Python 因其作为这些领域的主导语言之一而享有盛誉,并且是每个人最终都必须努力掌握的东西。
在本文中,我们介绍了开始使用 Python 以更加精通数据科学的大部分基本概念。我们专注于 Python 中的大多数基本主题,这些主题在数据科学的大多数领域都具有巨大的实用性,并将有助于大多数项目的成功完成。如果您能够掌握本文中提到的所有方法,您将能够轻松地浏览大多数基本的数据科学项目。
如果您想在我的文章发布后立即收到通知,请查看以下链接以订阅电子邮件推荐。如果您想支持其他作者和我,请订阅以下链接。
如果您对本文中所述的各个要点有任何疑问,请随时在下面的评论中告诉我。我会尽快回复您。
查看我的其他一些与本文所涵盖主题相关的文章,您可能也会喜欢阅读!
谢谢大家一直坚持到最后。我希望你们都喜欢阅读这篇文章。祝大家有个美好的一天!