基于内容的图像检索也称为图像内容查询，它是基于计算机视觉技术应用于图像检索的问题。它涉及从图像数据库中检索视觉上相似的图像到给定的查询图像。在本文中，基于内容的图像检索问题是使用无监督的机器学习技术即自动编码器来实现的。

我们将使用包含10个类的32x32彩色图像的CIFAR10机器学习图像数据集。该机器学习模型使用python，numpy，pandas，Keras API开发。

导入Python库

import tensorflow as tf
import keras, keras.layers as L, keras.backend as K
import numpy as np
from sklearn.model_selection import train_test_split
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
from collections import defaultdict
from keras.models import save_model
import keras

所需的辅助函数

class ModelSaveCallback(keras.callbacks.Callback):
 def __init__(self, file_name):
 super(ModelSaveCallback, self).__init__()
 self.file_name = file_name
 def on_epoch_end(self, epoch, logs=None):
 model_filename = self.file_name.format(epoch)
 save_model(self.model, model_filename)
 print("Model saved in {}".format(model_filename))
# !!! remember to clear session/graph if you rebuild your graph to avoid out-of-memory errors !!!
def reset_tf_session():
 curr_session = tf.get_default_session()
 # close current session
 if curr_session is not None:
 curr_session.close()
 # reset graph
 K.clear_session()
 # create new session
 config = tf.ConfigProto()
 config.gpu_options.allow_growth = True
 s = tf.InteractiveSession(config=config)
 K.set_session(s)
 return s

加载机器学习数据集

from keras.datasets import cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
NUM_CLASSES = 10
cifar10_classes = ["airplane", "automobile", "bird", "cat", "deer", 
 "dog", "frog", "horse", "ship", "truck"]
# show random images from train
cols = 8
rows = 2
fig = plt.figure(figsize=(2 * cols - 1, 2.5 * rows - 1))
for i in range(cols):
 for j in range(rows):
 random_index = np.random.randint(0, len(y_train))
 ax = fig.add_subplot(rows, cols, i * rows + j + 1)
 ax.grid('off')
 ax.axis('off')
 ax.imshow(x_train[random_index, :])
 ax.set_title(cifar10_classes[y_train[random_index, 0]])
plt.show()

上述Python代码输出显示如下：

CIFAR10

IMG_SHAPE = x_train.shape[1:]
# center images
x_train = x_train.astype('float32') / 255.0 - 0.5
x_test = x_test.astype('float32') / 255.0 - 0.5

自动编码器

自动编码器是用于无监督任务的神经网络的变体，其目标是将其输入复制到其输出。它有一个隐藏层z，用于描述用于表示输入的代码。自动编码器由两部分组成：编码器，Z = F（X），这部分网络负责将输入编码到一个潜在空间表示。解码器，目的是重构从latent-space表示的输入r = g(z)。

我们将自动编码器设计为两个sequential keras模型：编码器和解码器。

编码器

我们将卷积层和池化层堆叠起来，最后使用一个dense层来表示所需的大小(code_size)。我们对所有卷积层和dense层使用“elu”激活。

解码器

对于解码器，我们将使用“转置卷积”。在传统的卷积层中，获取图像的一个patch并生成一个数字。在转置卷积中，我们要取一个数字并输出图像的patch。我们的解码器以dense层开始，以“undo”最后一层编码器。

Python实现

def build_deep_autoencoder(img_shape, code_size):
 H,W,C = img_shape
 
 # encoder
 encoder = keras.models.Sequential()
 encoder.add(L.InputLayer(img_shape))
 
 encoder.add(L.Conv2D(filters=32, kernel_size=(3, 3), activation='elu', padding='same'))
 encoder.add(L.MaxPooling2D(pool_size=(2, 2)))
 encoder.add(L.Conv2D(filters=64, kernel_size=(3, 3), activation='elu', padding='same'))
 encoder.add(L.MaxPooling2D(pool_size=(2, 2)))
 encoder.add(L.Conv2D(filters=128, kernel_size=(3, 3), activation='elu', padding='same'))
 encoder.add(L.MaxPooling2D(pool_size=(2, 2)))
 encoder.add(L.Conv2D(filters=256, kernel_size=(3, 3), activation='elu', padding='same'))
 encoder.add(L.MaxPooling2D(pool_size=(2, 2)))
 encoder.add(L.Flatten()) #flatten image to vector
 encoder.add(L.Dense(code_size)) 
# encoder.summary()
 # decoder
 decoder = keras.models.Sequential()
 decoder.add(L.InputLayer((code_size,)))
 
 decoder.add(L.Dense(2*2*256)) #actual decoder, height*width*3 units
 decoder.add(L.Reshape((2,2,256)))
 decoder.add(L.Conv2DTranspose(filters=128, kernel_size=(3, 3), strides=2, activation='elu', padding='same'))
 decoder.add(L.Conv2DTranspose(filters=64, kernel_size=(3, 3), strides=2, activation='elu', padding='same'))
 decoder.add(L.Conv2DTranspose(filters=32, kernel_size=(3, 3), strides=2, activation='elu', padding='same'))
 decoder.add(L.Conv2DTranspose(filters=3, kernel_size=(3, 3), strides=2, activation=None, padding='same'))
 
 return encoder, decoder

编码器和解码器摘要如下：

encoder, decoder = build_deep_autoencoder(IMG_SHAPE, code_size=32)
encoder.summary()
decoder.summary()

训练机器学习模型

使用“adamax”优化器和平均平方误差损失对网络进行训练。Python实现如下：

inp = L.Input(IMG_SHAPE)
code = encoder(inp)
reconstruction = decoder(code)
autoencoder = keras.models.Model(inputs=inp, outputs=reconstruction)
autoencoder.compile(optimizer="adamax", loss='mse')
model_filename = 'autoencoder.{0:03d}.hdf5'
last_finished_epoch = 23
### uncomment below to continue training from model checkpoint
### fill `last_finished_epoch` with your latest finished epoch
from keras.models import load_model
s = reset_tf_session()
# last_finished_epoch = 4
autoencoder = load_model(model_filename.format(last_finished_epoch))
encoder = autoencoder.layers[1]
decoder = autoencoder.layers[2]
autoencoder.fit(x=x_train, y=x_train, epochs=25,
 validation_data=[x_test, x_test],
 callbacks=[ModelSaveCallback(model_filename)],
 verbose=1,
 initial_epoch=last_finished_epoch or 0)

def visualize(img,encoder,decoder):
 """Draws original, encoded and decoded images"""
 code = encoder.predict(img[None])[0] # img[None] is the same as img[np.newaxis, :]
 reco = decoder.predict(code[None])[0]
 plt.subplot(1,3,1)
 plt.title("Original")
 show_image(img)
 plt.subplot(1,3,2)
 plt.title("Code")
 plt.imshow(code.reshape([code.shape[-1]//2,-1]))
 plt.subplot(1,3,3)
 plt.title("Reconstructed")
 show_image(reco)
 plt.show()
def show_image(x):
 plt.imshow(np.clip(x + 0.5, 0, 1))
reconstruction_mse = autoencoder.evaluate(x_test, x_test, verbose=0)
print("Convolutional autoencoder MSE:", reconstruction_mse)
for i in range(5):
 img = x_test[i]
 visualize(img,encoder,decoder)

Convolutional autoencoder MSE: 0.011431425794959068

所以我们训练了一个不完美的网络，将图像转换为自身。我们将使用此网络生成表示并在潜在空间中查找类似的图像。

图像搜索

我们想在一个潜在空间(encoder code)中找到图像的最近邻。为了简单起见，我们用蛮力法计算最近的邻居。Python实现如下：

images = x_train
codes = encoder.predict(images)
from sklearn.neighbors.unsupervised import NearestNeighbors
nei_clf = NearestNeighbors(metric="euclidean")
nei_clf.fit(codes)
def get_similar(image, n_neighbors=5):
 assert image.ndim==3,"image must be [batch,height,width,3]"
 code = encoder.predict(image[None])
 
 (distances,),(idx,) = nei_clf.kneighbors(code,n_neighbors=n_neighbors)
 
 return distances,images[idx]
def show_similar(image):
 
 distances,neighbors = get_similar(image,n_neighbors=3)
 
 plt.figure(figsize=[8,7])
 plt.subplot(1,4,1)
 show_image(image)
 plt.title("Original image")
 
 for i in range(3):
 plt.subplot(1,4,i+2)
 show_image(neighbors[i])
 plt.title("Dist=%.3f"%distances[i])
 plt.show()

进行测试一下：

show_similar(x_test[41])

show_similar(x_test[209])

show_similar(x_test[93])

改进

为了产生更好的结果，您可以尝试以下一些方法;

超参数调整
去噪自动编码器
为了加快检索过程，应该在编码向量之上使用局部敏感哈希。

结论

在本文中，我们使用一种称为自动编码器的神经网络来研究基于内容的图像检索。我们还研究了使用卷积，“转置卷积”和池化层进行编码，解码图像表示。我们将这个网络应用于图像检索任务，使用最近邻算法在由欧氏距离分隔的潜在空间中找到相似的图像。

基于内容的自动编码器图像检索

导入Python库

所需的辅助函数

加载机器学习数据集

自动编码器

训练机器学习模型

图像搜索

改进

结论

相关推荐

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

安装使用Hoppscotch构建API请求访问与测试

轻松转换!AppleNumbers到Excel的快捷教程

Python自动化办公——后台截图（python 自动截图）

电脑端腾讯文档如何导出excel

网络流媒体经典开源软件宝典webRTC, FFMpeg, SIP_流媒体开发教程

基于内容的自动编码器图像检索

导入Python库

所需的辅助函数

加载机器学习数据集

自动编码器

训练机器学习模型

图像搜索

改进

结论

相关推荐

取消回复欢迎 你 发表评论:

Google 黑客常用搜索语句一览 原力计划

npx简介（npxvip是哪国的）

在 Android 模拟器上运行 ARM 应用（android模拟器原理）

GB28181,B接口协议之SIPRTSPRTPRTMP协议从入门到精通

手机实时提取SIM卡打电话的信令和声音-辅助外设与商用通话方案

安装使用Hoppscotch构建API请求访问与测试

轻松转换!AppleNumbers到Excel的快捷教程

Python自动化办公——后台截图（python 自动截图）

电脑端腾讯文档如何导出excel

网络流媒体经典开源软件宝典webRTC, FFMpeg, SIP_流媒体开发教程

取消回复欢迎你发表评论:

Google 黑客常用搜索语句一览原力计划