轻松学Pytorch-详解Conv2D卷积处理

摘要：

torch.nn.functional.conv2d更多是在各种自定义中使用，需要明确指出输入与权重filters参数。

轻松学Pytorch-详解Conv2D卷积处理

原创 gloomyfish  OpenCV学堂  4月25日
收录于话题
#轻松学Pytorch系列
30个
图片
点击上方蓝字关注我们
微信公众号：OpenCV学堂
关注获取更多计算机视觉与深度学习知识
Conv2D基本原理与相关函数
常见的图像卷积是二维卷积，而深度学习中Conv2D卷积是三维卷积，图示如下：
图片
Pytroch中的Conv2D是构建卷积神经网络常用的函数，支持的输入数据是四维的tensor对象，格式为NCHW，其中N表示样本数目、C表示通道数目彩色图像为3，灰度图像为1、H跟W分别表示图像高与宽。它们的计算方法可以图示如下：
图片
Conv2D在pytorch中有两个相关的API函数，分别如下：
torch.nn.Conv2d(
    in_channels, // 输入通道数
    out_channels, // 输出通道数
    kernel_size, // 卷积核大小
    stride=1, // 步长
    padding=0, // 填充
    dilation=1, // 空洞卷积支持
    groups=1, // 分组卷积支持
    bias=True, // 偏置
    padding_mode='zeros' // 填0
)

torch.nn.functional.conv2d(
    input, // 输入数据
    weight, // 卷积核
    bias=None, // 偏置
    stride=1, // 步长
    padding=0, // 填充
    dilation=1, // 空洞
    groups=1 // 分组
)
其中torch.nn.Conv2d主要是在各种组合的t.nn.Sequential中使用，构建CNN模型。torch.nn.functional.conv2d更多是在各种自定义中使用，需要明确指出输入与权重filters参数。
Pytorch图像卷积处理
下面的代码演示如何使用torch.nn.functional.conv2d实现图像的模糊、梯度、拉普拉斯等常见的图像卷积处理，代码实现与运行演示分别如下：
图像模糊(左侧为原图)：
图片
图像梯度(左侧为原图)：
图片
图像拉普拉斯(左侧为原图)：
图片
边缘提取(左侧为原图)：
图片
Pytoch也可以像OpenCV一样随意完成各种常规的图像卷积功能了！上面几个演示的源码如下所示： 
import torch
import torch.nn.functional as F
import cv2 as cv
import numpy as np


def image_blur():
    image = cv.imread("D:/images/1024.png", cv.IMREAD_GRAYSCALE)
    h, w = image.shape
    print(h, w)
    cv.imshow("input", image)
    img = np.reshape(image, (1, 1, h, w))
    img = np.float32(img)
    k = torch.ones((1, 1, 7, 7), dtype=torch.float) / 49.0
    z = F.conv2d(torch.from_numpy(img), k, padding=3)
    result = z.numpy()
    print(result.shape)
    result = np.reshape(result, (h, w))
    cv.imshow("blur", np.uint8(result))
    cv.waitKey(0)
    cv.destroyAllWindows()


def image_gradient():
    image = cv.imread("D:/images/1024.png", cv.IMREAD_GRAYSCALE)
    h, w = image.shape
    print(h, w)
    cv.imshow("input", image)
    img = np.reshape(image, (1, 1, h, w))
    img = np.float32(img)
    k = torch.tensor([-1, -2, -1, 0, 0, 0, 1, 2, 2], dtype=torch.float)
    k = k.view(1, 1, 3, 3)
    print(k.size(), k)
    z = F.conv2d(torch.from_numpy(img), k, padding=1)
    result = z.numpy()
    print(result.shape)
    result = np.reshape(result, (h, w))
    cv.normalize(result, result, 0, 1.0, cv.NORM_MINMAX)
    cv.imshow("gradint", np.uint8(result*255))
    cv.waitKey(0)
    cv.destroyAllWindows()


def image_laplian():
    image = cv.imread("D:/images/1024.png", cv.IMREAD_GRAYSCALE)
    h, w = image.shape
    print(h, w)
    cv.imshow("input", image)
    img = np.reshape(image, (1, 1, h, w))
    img = np.float32(img)
    k = torch.tensor([-1, -1, -1, -1, 8, -1, -1, -1, -1], dtype=torch.float)
    k = k.view(1, 1, 3, 3)
    print(k.size(), k)
    z = F.conv2d(torch.from_numpy(img), k, padding=1)
    result = z.numpy()
    print(result.shape)
    result = np.reshape(result, (h, w))
    cv.normalize(result, result, 0, 1.0, cv.NORM_MINMAX)
    cv.imshow("reshape", np.uint8(result*255))
    cv.waitKey(0)
    cv.destroyAllWindows()


def image_edge():
    image = cv.imread("D:/images/1024.png", cv.IMREAD_GRAYSCALE)
    h, w = image.shape
    print(h, w)
    cv.imshow("input", image)
    img = np.reshape(image, (1, 1, h, w))
    img = np.float32(img)
    k = torch.tensor([-1, 0, 0, 1], dtype=torch.float)
    k = k.view(1, 1, 2, 2)
    print(k.size(), k)
    z = F.conv2d(torch.from_numpy(img), k, padding=0)
    result = z.numpy()
    print(result.shape)
    result = np.reshape(result, (h-1, w-1))
    cv.imshow("reshape", np.uint8(abs(result)))
    cv.waitKey(0)
    cv.destroyAllWindows()


if __name__ == "__main__":
    image_edge()

如果你对Pytorch中的YOLOv5对象检测感兴趣，想训练自定义对象检测，扫码查看下面的视频教程，一键获取该技能即可：
图片

免责声明：文章转载自《轻松学Pytorch-详解Conv2D卷积处理》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

深入浅出计算机组成原理学习笔记：第三十一讲

一、引子上一讲，我带你一起看了三维图形在计算机里的渲染过程。这个渲染过程，分成了顶点处理、图元处理、栅格化、片段处理，以及最后的像素操作。这一连串的过程，也被称之为图形流水线或者渲染管线。因为要实时计算渲染的像素特别地多，图形加速卡登上了历史的舞台。通过3dFx的Voodoo或者NVidia的TNT这样的图形加速卡，CPU就不需要再去处理一个个像素点...

机器学习在电商领域三大应用，推荐，搜索，广告中商品排序

1、业务角度一般是在一个召回的商品集合里，通过对商品排序，追求GMV或者点击量最大化。基于一个目标，如何让流量的利用效率最高。很自然的，如果我们可以准确预估每个商品的GMV转化率或者点击率，就可以最大化利用流量，从而收益最大。2、技术服务于业务，模型本身的迭代需要配合业务目标才能发挥出最大的价值，因此选择模型迭代的路线，必须全盘考虑业务。3、在点击率预估领...

GitHub：超分辨率最全资料集锦

前言本文将分享的内容是：超分辨率（Super Resolution，SR）最全资料合集，涵盖了SISR、VSR等。在这里插入图片描述一张图看懂超分辨率SR作用注：文末附超分辨率SR微信交流群，欢迎加入学习Awesome-Super-Resolution 项目作者：ChaofWang Star 数量：636 Commit 数量：120htt...

多视觉任务的全能: HRNet

多视觉任务的全能: HRNet HRNet是微软亚洲研究院的王井东老师领导的团队完成的，打通图像分类、图像分割、目标检测、人脸对齐、姿态识别、风格迁移、Image Inpainting、超分、optical flow、Depth estimation、边缘检测等网络结构。王老师在ValseWebinar《物体和关键点检测》中亲自讲解了HRNet，讲解地非常...

SciPy模块应用

1.图像模糊图像的高斯模糊是非常经典的图像卷积例子。本质上，图像模糊就是将（灰度）图像I 和一个高斯核进行卷积操作：，其中是标准差为σ的二维高斯核。高斯模糊通常是其他图像处理操作的一部分，比如图像插值操作、兴趣点计算以及很多其他应用。SciPy 有用来做滤波操作的scipy.ndimage.filters 模块。该模块使用快速一维分离的方...

轻松学Pytorch-详解Conv2D卷积处理

相关文章

深入浅出计算机组成原理学习笔记：第三十一讲

机器学习进阶-案例实战-图像全景拼接-图像全景拼接(RANSCA) 1.sift.detectAndComputer(获得sift图像关键点) 2.cv2.findHomography(计算单应性矩阵H) 3.cv2.warpPerspective(获得单应性变化后的图像) 4.cv2.line(对关键点位置进行连线画图)

机器学习在电商领域三大应用，推荐，搜索，广告中商品排序

GitHub：超分辨率最全资料集锦

多视觉任务的全能: HRNet

SciPy模块应用

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表