百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

自然语言处理背后的数据科学

toyiye 2024-06-21 12:43 13 浏览 0 评论

自然语言处理 (NLP) 是计算机科学和人工智能领域的一门学科。NLP 是人与机器之间的沟通, 它既能解释我们的意思, 也能构建有效的反应。

人类交流是能感知到的最迷人的特性之一。作为人类的一员,我知道人类之间如何互动是极其复杂的。我们经常发送和接收错误的信息,或者我们的信息会被他人误解。每天我们都理所当然地认为自己有能力向同事和家人传达意义。我们用各种各样的方式交流,包括交谈和书写符号。人与人之间的交流可以像隔着房间看一眼那么简单。斯坦福大学机器学习教授克里斯?曼宁将沟通描述为“一个离散的、符号的、分类的信号系统”。这是什么意思呢?我认为是我们的感官,如视觉、触觉、听觉,甚至是嗅觉,使我们能够交流。这让我想到了这篇博客的主题:当我们把计算纳入考虑范围时会发生什么?什么是自然语言处理?它是如何工作的?

自然语言处理 (NLP) 是计算机科学和人工智能领域的一门学科。NLP 是人与机器之间的沟通, 它既能解释我们的意思, 也能构建有效的反应。这个领域已经从上世纪50年代就存在了, 你可能听说过的艾伦图灵开发的"图灵测试" 。图灵测试衡量计算机对人类书面问题的反馈。如果一个独立的人不能分辨一个人和一台机器的区别, 那么计算系统就会被评为智能。从上世纪50年代以来, 我们取得了长足的进步, 数据科学和语言学领域也取得了很大进展。本文的其余部分详细介绍了这些算法在自然语言处理领域的一些基本功能,同时将包含一些使用 Python 的代码示例。


标记化

为了开始自然语言处理, 我们将从一些非常简单的文本解析开始。标记化是提取文本流的一个过程, 如一个句子, 并将其分解为其最基本的单词。例如, 取以下句子:“he red fox jumps over the moon .”每个单词都代表一个标记, 其中共有七个。

使用Python标记句子:

myText = ‘The red fox jumps over the moon.’

myLowerText = myText.lower()

myTextList = myLowerText.split()

print(myTextList)

OUTPUT:

[‘the’, ‘red’, ‘fox’, ‘jumps’, ‘over’, ‘the’, ‘moon’]


词性归类

词性归类用于确定句法功能。在英语中, 词性的主要部分是: 形容词、代词、名词、动词、副词、前置词、连词和感叹词。这是用来推断基于它的单词的意图。例如, PERMIT 一词可以是一个名词和一个动词。动词用法:“I permit you to go to the dance.” 名词用法:“Did you get the permit from the county.”

使用Python分析部分语音 :(使用 NLTK 库)

您可能需要安装 NLTK, 它是用于自然语言处理的 Python 库。关于 NLTK 的说明: https://www.geeksforgeeks.org/part-speech-tagging-stop-words-using-nltk-python/

import nltk

myText = nltk.word_tokenize(‘the red fox jumps over the moon.’)

print(‘Parts of Speech: ‘, nltk.pos_tag(myText))

OUTPUT:

Parts of Speech: [(‘the’, ‘DT’), (‘red’, ‘JJ’), (‘fox’, ‘NN’), (‘jumps’, ‘NNS’), (‘over’, ‘IN’), (‘the’, ‘DT’), (‘moon’, ‘NN’), (‘.’, ‘.’)]

因此, 您可以看到 NLTK 如何将句子分解为各个标记并解释语音的某些部分, 例如 ("fox"、"NN"):

NN 名词, 单数 "fox"


停止词删除

许多句子和段落中包含的单词几乎没有意义或价值。这些词包括 "a"、"and"、"an"和"the"。移除停止词是一个从句子或单词流中删除这些单词的过程。

使用 Python 和 NLTK 进行停止词删除: (点击原文阅读有关 NLTK 的说明)

from nltk.corpus import stopwords

from nltk.tokenize import word_tokenize

example_sent = “a red fox is an animal that is able to jump over the moon.” stop_words = set(stopwords.words(‘english’)) word_tokens = word_tokenize(example_sent) filtered_sentence = [w for w in word_tokens if not w in stop_words] filtered_sentence = [] for w in word_tokens: if w not in stop_words: filtered_sentence.append(w) print(filtered_sentence)

OUTPUT:

[‘red’, ‘fox’, ‘animal’, ‘able’, ‘jump’, ‘moon’, ‘.’]

词干提取

词干提取是减少单词噪声的过程,也称为词典归一化。它减少了词形变化。例如, "钓鱼" 一词有一个词干 "鱼"。词干提取是用来把一个词简化为它的基本含义。另一个很好的例子是 "喜欢" 这个词, 它是许多词的词干, 比如: "likes"、"liked"、"likely"。搜索引擎使用词干分析就是这个原因。在许多情况下, 搜索其中一个词返回在集合中包含另一个单词的文档可能会很有用。

要使用 Python 和 NLTK 库执行词干提取, 请执行以下操作:

from nltk.stem import PorterStemmer

from nltk.tokenize import word_tokenize

ps = PorterStemmer()

for w in words:

print(w, ” : “, ps.stem(w))

OUTPUT:

(‘likes’, ‘ : ‘, u’like’)

(‘likely’, ‘ : ‘, u’like’)

(‘likes’, ‘ : ‘, u’like’)

(‘liking’, ‘ : ‘, u’like’)

words = [“likes”, “likely”, “likes”, “liking”]


词形还原

词干提取和词形还原是非常相似的, 因为它们能让你找到词根。这称为单词规范化, 两者都可以生成相同的输出结果。然而, 它们的工作方式却大不相同。词干提取试图将单词切分而词形还原给你提供观察单词是名词、动词还是其他词性。让我们以单词 "saw"为例。词干提取会返回 "saw", 词形还原可以返回"see" 或 "saw"。词形还原通常会返回一个可读的词, 而词干提取可能不会。有关差异的示例, 请参见下文。雷锋网雷锋网雷锋网(公众号:雷锋网)

让我们看一个 Python 示例, 它将词干提取与词形还原进行了比较:

from nltk.stem import PorterStemmer

# from nltk.tokenize import word_tokenizefrom nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

ps = PorterStemmer()

words = [“corpora”, “constructing”, “better”, “done”, “worst”, “pony”]

for w in words:

print(w, ” STEMMING : “, ps.stem(w), ” LEMMATIZATION “, lemmatizer.lemmatize(w, pos=‘v’))

OUTPUT:

corpora STEMMING : corpora LEMMATIZATION corpora

constructing STEMMING : construct LEMMATIZATION constructing

better STEMMING : better LEMMATIZATION good

done STEMMING : done LEMMATIZATION done

worst STEMMING : worst LEMMATIZATION bad

pony STEMMING : poni LEMMATIZATION pony


总结

语言学是对语言、形态学、句法、语音和语义学的研究。包括数据科学和计算在内的这一领域在过去60年里已经进行了爆炸式的发展。我们刚刚在 NLP 中探索了一些非常简单的文本分析功能。Google、Bing 和其他搜索引擎利用这项技术帮助您在万维网上查找信息。想想看, 让 Alexa 播放你最喜欢的歌曲或者 Siri 是如何帮助你指路。这都是因为 NLP。计算中的自然语言不是噱头或玩具。NLP是我们生活中无缝计算的未来。

Arcadia Data刚刚发布了5.0 版, 其中包括我们称之为 Search Based BI的自然语言查询功能。它使用了之前描述的一些数据科学和文本分析。查看我们关于Search Based BI工具的视频可了解更多信息: SEARCH-BASED BI

原标题 :The Data Science Behind Natural Language Processing;作者: John Thuma;原文:https://medium.com/dataseries/the-data-science-behind-natural-language-processing-69d6df06a1ff

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码