百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程字典 > 正文

利用Python和机器学习进行网站行业分类

toyiye 2024-06-21 12:15 9 浏览 0 评论

在本教程中,我想解释网站的提取,清理和分类到不同的类别。我将使用python环境运行我的代码进行数据抓取,并使用神经网络对网站进行分类。

文本分类是自然语言处理(NLP)在数据科学的许多不同领域中广泛使用的任务之一。一个高效的文本分类器可以使用NLP算法有效地将数据自动区分为类别。

文本分类是监督机器学习任务的一个例子,因为标记的数据集包含文本文档,它们的标签被用来训练分类器。

文本分类的一些常见技术是:

  • 朴素贝叶斯分类器
  • 线性分类器
  • 支持向量机
  • Bagging模型
  • Boosting模型
  • 深度神经网络

Web抓取、Web收集或Web数据提取是用于从网站中提取数据。通常,这是通过软件来完成的,该软件可以模拟人的网络操作,从不同的网站收集特定的信息。

可以用于web抓取的一些技术是:

  • 人工复制粘贴
  • 文本模式匹配
  • HTTP编程
  • HTML解析
  • DOM解析
  • 垂直聚合
  • 语义标注识别
  • 计算机视觉网页分析

在本教程中,我们将尝试将完整模型实现为三个不同的模块:

  • 数据抓取
  • 基于关键字的分类,用于创建训练数据集
  • 神经网络在实际测试模型中的应用

模块1:数据抓取

在这个模块中,我将使用Python 3.5环境来实现我的脚本。

步骤1:从网站请求数据。

要提取web数据,可以使用许多不同的包,但是在本教程中,我将使用requests。

import requests

url='https://medium.com/'

try:

page = requests.get(url) #to extract page from website

html_code = page.content #to extract html code from page

except Exception as e:

print(e)

在上面的代码中,requests.get()方法将使用https协议从网站请求页面并将页面加载到对象“ page”中。下一行代码将HTML代码移动到String html_code。所以到目前为止我们已经从网站中提取了数据,但它仍然是HTML格式,这与实际文本有很大不同。

第2步:从HTML页面中提取文本

要从HTML页面中提取完整的文本数据,我们有两个非常受欢迎的包,BeautifulSoup和html2text。使用上一步中找到的html_code字符串,我们可以应用以下两种方法中的任何一种。

from bs4 import BeautifulSoup

try:

soup = BeautifulSoup(html_code, 'html.parser') #Parse html code

texts = soup.findAll(text=True) #find all text

text_from_html' '.join(texts) #join all text

except Exception as e:

print(e)

在上面的代码片段中,BeautifulSoup包将解析HTML代码并将数据分配给soup 对象。findall ()函数从代码中查找所有可见文本,并返回我们存储在文本中的字符串列表。最后,我们使用join()函数将所有单个文本连接到一个公共字符串。

import html2text

h = html2text.HTML2Text() #Initializing object

h.ignore_links = True #Giving attributes

try:

text = h.handle(html_code) #handling the HTML code

text_from_html=text.replace("\n"," ") #replacing next line char

except Exception as e:

print(e)

在这个块中,我们使用package html2text解析字符串并直接从HTML代码中获取文本。我们还需要用空格替换空行,最后找到text_from_html。

类似地,我们可以对1000多个url使用循环,并从这些站点中提取数据,并以csv(逗号分隔文件)格式存储它们,我们可以在分类模块中进一步使用这种格式。

模块二:基于关键词的分类

对于任何机器学习算法,我们都需要一些训练集和测试集来训练模型并测试该模型的准确性。因此要为模型创建一组数据,我们已经有了来自不同网站的文本,我们将根据关键词进行分类,然后将结果应用到下一个模块中。

在本教程中,我们将把网站分为三类:

  • 技术,办公室和教育产品网站(Class_1)
  • 消费品网站(Class_2)
  • 工业工具和硬件产品网站(Class_3)

这里的方法是我们将拥有属于特定类别的某些关键字,我们将这些关键字与文本匹配,并找到具有最大匹配值的类。

Matching_value =(与一个行业匹配的关键字数量)/(匹配的关键字总数)

因此,我们有一个关键字列表,如下所示:

Class_1_keywords = ['Office', 'School', 'phone', 'Technology', 'Electronics', 'Cell', 'Business', 'Education', 'Classroom']

Class_1_keywords = ['Restaurant', 'Hospitality', 'Tub', 'Drain', 'Pool', 'Filtration', 'Floor', 'Restroom', 'Consumer', 'Care', 'Bags', 'Disposables']

Class_3_keywords = ['Pull', 'Lifts', 'Pneumatic', 'Emergency', 'Finishing', 'Hydraulic', 'Lockout', 'Towers', 'Drywall', 'Tools', 'Packaging', 'Measure', 'Tag ']

keywords=Class_1_keywords + Class_2_keywords + Class_3_keywords

现在,我们将使用KeywordProcessor从url中查找收到的文本中的关键字。

在pypi上的flashtext包中可以使用KeywordProcessor。

from flashtext.keyword import KeywordProcessor

kp0=KeywordProcessor()

for word in keywords:

kp0.add_keyword(word)

kp1=KeywordProcessor()

for word in Class_1_keywords:

kp1.add_keyword(word)

kp2=KeywordProcessor()

for word in Class_2_keywords:

kp2.add_keyword(word)

kp3=KeywordProcessor()

for word in Class_3_keywords:

kp3.add_keyword(word)

在上面的代码中,我们将使用关键字加载KeywordProcessor对象,我们将进一步使用这些关键字来查找匹配的关键字。

要查找Matching_value的百分比值,我们定义一个函数百分比,Python实现如下所示:

def percentage1(dum0,dumx):

try:

ans=float(dumx)/float(dum0)

ans=ans*100

except:

return 0

else:

return ans

我们现在将使用extract_keywords(string)方法来查找文本中存在的关键字。我们将找到该列表的长度以查找文本中匹配关键字的数量。以下Python实现的函数将查找百分比,并选择具有最大百分比的类。

def find_class:

x=str(text_from_html)

y0 = len(kp0.extract_keywords(x))

y1 = len(kp1.extract_keywords(x))

y2 = len(kp2.extract_keywords(x))

y3 = len(kp3.extract_keywords(x))

Total_matches=y0

per1 = float(percentage1(y0,y1))

per2 = float(percentage1(y0,y2))

per3 = float(percentage1(y0,y3))

if y0==0:

Category='None'

else:

if per1>=per2 and per1>=per3:

Category='Class_1'

elif per2>=per3 and per2>=per1:

Category='Class_2'

elif per3>=per1 and per3>=per2:

Category='Class_3'

return Category

使用上述函数的循环,我们可以根据关键字找到所有网站的类别。我们将分类数据保存到Data.csv文件中,我们将进一步使用。所以现在我们已准备好数据集,用于应用神经网络进行分类。

模块3:应用神经网络

在下面的实现中,我们将从头开始创建一个神经网络,并使用NLTK字标记器进行预处理。首先,我们需要导入从上述步骤中获得的数据集并将其加载到列表中。

import pandas as pd

data=pd.read_csv('Data.csv')

data = data[pd.notnull(data['tokenized_source'])]

data=data[data.Category != 'None']

上面的代码将加载和清理分类数据。NULL值将被删除。

以下代码将针对其类创建DATA字典。

for index,row in data.iterrows():

train_data.append({"class":row["Category"], "sentence":row["text"]})

为了应用神经网络,我们需要将语言文字转换成数学符号,用于计算。我们将在所有字符串中形成所有单词的列表。

words = []

classes = []

documents = []

ignore_words = ['?']

# loop through each sentence in our training data

for pattern in training_data:

# tokenize each word in the sentence

w = nltk.word_tokenize(pattern['sentence'])

# add to our words list

words.extend(w)

# add to documents in our corpus

documents.append((w, pattern['class']))

# add to our classes list

if pattern['class'] not in classes:

classes.append(pattern['class'])

# stem and lower each word and remove duplicates

words = [stemmer.stem(w.lower()) for w in words if w not in ignore_words]

words = list(set(words))

# remove duplicates

classes = list(set(classes))

print (len(documents), "documents")

print (len(classes), "classes", classes)

print (len(words), "unique stemmed words", words)

例如,输出将是:

1594 documents

3 classes ['Class_1', 'Class_3', 'Class_2']

unique stemmed words 40000

现在,我们将为模式创建一个标记化单词列表,并使用NLTK Lancaster Stemmer创建一个bag of words。

from nltk.stem.lancaster import LancasterStemmer

stemmer = LancasterStemmer()

# create our training data

training = []

output = []

# create an empty array for our output

output_empty = [0] * len(classes)

# training set, bag of words for each sentence

for doc in documents:

# initialize our bag of words

bag = []

# list of tokenized words for the pattern

pattern_words = doc[0]

# stem each word

pattern_words = [stemmer.stem(word.lower()) for word in pattern_words]

# create our bag of words array

for w in words:

bag.append(1) if w in pattern_words else bag.append(0)

training.append(bag)

# output is a '0' for each tag and '1' for current tag

output_row = list(output_empty)

output_row[classes.index(doc[1])] = 1

output.append(output_row)

print ("# words", len(words))

print ("# classes", len(classes))

输出:

# words 41468

# classes 3

现在,我们对数据进行最终预处理并创建一些函数。

Sigmoid Function

def sigmoid(x):

output = 1/(1+np.exp(-x))

return output

# convert output of sigmoid function to its derivative

def sigmoid_output_to_derivative(output):

return output*(1-output)

Cleaning function

def clean_up_sentence(sentence):

# tokenize the pattern

sentence_words = nltk.word_tokenize(sentence)

# stem each word

sentence_words = [stemmer.stem(word.lower()) for word in sentence_words]

return sentence_words

Bag Of Words function

def bow(sentence, words, show_details=False):

# tokenize the pattern

sentence_words = clean_up_sentence(sentence)

# bag of words

bag = [0]*len(words)

for s in sentence_words:

for i,w in enumerate(words):

if w == s:

bag[i] = 1

if show_details:

print ("found in bag: %s" % w)

return(np.array(bag))

将在神经网络中使用的最终函数: Think function

def think(sentence, show_details=False):

x = bow(sentence.lower(), words, show_details)

if show_details:

print ("sentence:", sentence, "\n bow:", x)

# input layer is our bag of words

l0 = x

# matrix multiplication of input and hidden layer

l1 = sigmoid(np.dot(l0, synapse_0))

# output layer

l2 = sigmoid(np.dot(l1, synapse_1))

return l2

现在我们准备训练的神经网络模型。我们将通过scratch实现它,并将使用逻辑回归到每个神经元。只有一层,但有50000个epochs,我们将训练我们的模型。完整的训练示例将在CPU上运行。

def train(X, y, hidden_neurons=10, alpha=1, epochs=50000, dropout=False, dropout_percent=0.5):

print ("Training with %s neurons, alpha:%s, dropout:%s %s" % (hidden_neurons, str(alpha), dropout, dropout_percent if dropout else '') )

print ("Input matrix: %sx%s Output matrix: %sx%s" % (len(X),len(X[0]),1, len(classes)) )

np.random.seed(1)

last_mean_error = 1

# randomly initialize our weights with mean 0

synapse_0 = 2*np.random.random((len(X[0]), hidden_neurons)) - 1

synapse_1 = 2*np.random.random((hidden_neurons, len(classes))) - 1

prev_synapse_0_weight_update = np.zeros_like(synapse_0)

prev_synapse_1_weight_update = np.zeros_like(synapse_1)

synapse_0_direction_count = np.zeros_like(synapse_0)

synapse_1_direction_count = np.zeros_like(synapse_1)

for j in iter(range(epochs+1)):

# Feed forward through layers 0, 1, and 2

layer_0 = X

layer_1 = sigmoid(np.dot(layer_0, synapse_0))

if(dropout):

layer_1 *= np.random.binomial([np.ones((len(X),hidden_neurons))],1-dropout_percent)[0] * (1.0/(1-dropout_percent))

layer_2 = sigmoid(np.dot(layer_1, synapse_1))

# how much did we miss the target value?

layer_2_error = y - layer_2

if (j% 10000) == 0 and j > 5000:

# if this 10k iteration's error is greater than the last iteration, break out

if np.mean(np.abs(layer_2_error)) < last_mean_error:

print ("delta after "+str(j)+" iterations:" + str(np.mean(np.abs(layer_2_error))) )

last_mean_error = np.mean(np.abs(layer_2_error))

else:

print ("break:", np.mean(np.abs(layer_2_error)), ">", last_mean_error )

break

# in what direction is the target value?

# were we really sure? if so, don't change too much.

layer_2_delta = layer_2_error * sigmoid_output_to_derivative(layer_2)

# how much did each l1 value contribute to the l2 error (according to the weights)?

layer_1_error = layer_2_delta.dot(synapse_1.T)

# in what direction is the target l1?

# were we really sure? if so, don't change too much.

layer_1_delta = layer_1_error * sigmoid_output_to_derivative(layer_1)

synapse_1_weight_update = (layer_1.T.dot(layer_2_delta))

synapse_0_weight_update = (layer_0.T.dot(layer_1_delta))

if(j > 0):

synapse_0_direction_count += np.abs(((synapse_0_weight_update > 0)+0) - ((prev_synapse_0_weight_update > 0) + 0))

synapse_1_direction_count += np.abs(((synapse_1_weight_update > 0)+0) - ((prev_synapse_1_weight_update > 0) + 0))

synapse_1 += alpha * synapse_1_weight_update

synapse_0 += alpha * synapse_0_weight_update

prev_synapse_0_weight_update = synapse_0_weight_update

prev_synapse_1_weight_update = synapse_1_weight_update

now = datetime.datetime.now()

# persist synapses

synapse = {'synapse0': synapse_0.tolist(), 'synapse1': synapse_1.tolist(),

'datetime': now.strftime("%Y-%m-%d %H:%M"),

'words': words,

'classes': classes

}

synapse_file = "synapses.json"

with open(folder_path+synapse_file, 'w') as outfile:

json.dump(synapse, outfile, indent=4, sort_keys=True)

print ("saved synapses to:", synapse_file)

最后我们将训练模型:

import time

X = np.array(training)

y = np.array(output)

start_time = time.time()

train(X, y, hidden_neurons=10, alpha=0.1, epochs=50000, dropout=False, dropout_percent=0.2)

elapsed_time = time.time() - start_time

print ("processing time:", elapsed_time, "seconds")

输出:

Training with 10 neurons, alpha:0.1, dropout:False

Input matrix: 1594x41468 Output matrix: 1x3

delta after 10000 iterations:0.0665105275385

delta after 20000 iterations:0.0610711168863

delta after 30000 iterations:0.0561908365355

delta after 40000 iterations:0.0533465919346

delta after 50000 iterations:0.0461560407785

saved synapses to: synapses.json

processing time: 33060.51151227951 seconds

正如我们所看到的,训练模型花了将近11个小时。经过如此密集的计算,我们准备测试数据。

测试数据的函数:

# probability threshold

ERROR_THRESHOLD = 0.2

# load our calculated synapse values

synapse_file = 'synapses.json'

with open(synapse_file) as data_file:

synapse = json.load(data_file)

synapse_0 = np.asarray(synapse['synapse0'])

synapse_1 = np.asarray(synapse['synapse1'])

def classify(sentence, show_details=False):

results = think(sentence, show_details)

results = [[i,r] for i,r in enumerate(results) if r>ERROR_THRESHOLD ]

results.sort(key=lambda x: x[1], reverse=True)

return_results =[[classes[r[0]],r[1]] for r in results]

#print ("\n classification: %s" % ( return_results))

return return_results

让我们测试模型的准确性:

classify("Switchboards Help KA36200 About Us JavaScript seems to be disabled in your browser You must have JavaScript enabled in your browser to utilize the functionality of this website Help Shopping Cart 0 00 You have no items in your shopping cart My Account My Wishlist My Cart My Quote Log In BD Electrical Worldwide Supply Remanufacturing the past SUSTAINING THE FUTURE Hours and Location Michigan Howell")

Output:

[['Class_3', 0.97663437888614435]]

如您所见,我们在这些测试中获得了相当高的准确性。

在这种只有一层的模型中,精度约为95%+被认为是非常准确的。对于不同模型的进一步分类,我们可以使用Keras或Tensorflow。为了减少训练模型的时间,我们可以使用NVIDIA GPU。

现在,我们可以使用Back Propogation在Deep Neural Network的帮助下轻松抓取数据并对其类别进行分类。

相关推荐

为何越来越多的编程语言使用JSON(为什么编程)

JSON是JavascriptObjectNotation的缩写,意思是Javascript对象表示法,是一种易于人类阅读和对编程友好的文本数据传递方法,是JavaScript语言规范定义的一个子...

何时在数据库中使用 JSON(数据库用json格式存储)

在本文中,您将了解何时应考虑将JSON数据类型添加到表中以及何时应避免使用它们。每天?分享?最新?软件?开发?,Devops,敏捷?,测试?以及?项目?管理?最新?,最热门?的?文章?,每天?花?...

MySQL 从零开始:05 数据类型(mysql数据类型有哪些,并举例)

前面的讲解中已经接触到了表的创建,表的创建是对字段的声明,比如:上述语句声明了字段的名称、类型、所占空间、默认值和是否可以为空等信息。其中的int、varchar、char和decimal都...

JSON对象花样进阶(json格式对象)

一、引言在现代Web开发中,JSON(JavaScriptObjectNotation)已经成为数据交换的标准格式。无论是从前端向后端发送数据,还是从后端接收数据,JSON都是不可或缺的一部分。...

深入理解 JSON 和 Form-data(json和formdata提交区别)

在讨论现代网络开发与API设计的语境下,理解客户端和服务器间如何有效且可靠地交换数据变得尤为关键。这里,特别值得关注的是两种主流数据格式:...

JSON 语法(json 语法 priority)

JSON语法是JavaScript语法的子集。JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔花括号保存对象方括号保存数组JS...

JSON语法详解(json的语法规则)

JSON语法规则JSON语法是JavaScript对象表示法语法的子集。数据在名称/值对中数据由逗号分隔大括号保存对象中括号保存数组注意:json的key是字符串,且必须是双引号,不能是单引号...

MySQL JSON数据类型操作(mysql的json)

概述mysql自5.7.8版本开始,就支持了json结构的数据存储和查询,这表明了mysql也在不断的学习和增加nosql数据库的有点。但mysql毕竟是关系型数据库,在处理json这种非结构化的数据...

JSON的数据模式(json数据格式示例)

像XML模式一样,JSON数据格式也有Schema,这是一个基于JSON格式的规范。JSON模式也以JSON格式编写。它用于验证JSON数据。JSON模式示例以下代码显示了基本的JSON模式。{"...

前端学习——JSON格式详解(后端json格式)

JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScriptProgrammingLa...

什么是 JSON:详解 JSON 及其优势(什么叫json)

现在程序员还有谁不知道JSON吗?无论对于前端还是后端,JSON都是一种常见的数据格式。那么JSON到底是什么呢?JSON的定义...

PostgreSQL JSON 类型:处理结构化数据

PostgreSQL提供JSON类型,以存储结构化数据。JSON是一种开放的数据格式,可用于存储各种类型的值。什么是JSON类型?JSON类型表示JSON(JavaScriptO...

JavaScript:JSON、三种包装类(javascript 包)

JOSN:我们希望可以将一个对象在不同的语言中进行传递,以达到通信的目的,最佳方式就是将一个对象转换为字符串的形式JSON(JavaScriptObjectNotation)-JS的对象表示法...

Python数据分析 只要1分钟 教你玩转JSON 全程干货

Json简介:Json,全名JavaScriptObjectNotation,JSON(JavaScriptObjectNotation(记号、标记))是一种轻量级的数据交换格式。它基于J...

比较一下JSON与XML两种数据格式?(json和xml哪个好)

JSON(JavaScriptObjectNotation)和XML(eXtensibleMarkupLanguage)是在日常开发中比较常用的两种数据格式,它们主要的作用就是用来进行数据的传...

取消回复欢迎 发表评论:

请填写验证码