将测试图片网页展示

安装与准备

pip install dominate

html.py

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
import dominate
from dominate.tags import meta, h3, table, tr, td, p, a, img, br
import os


class HTML:
"""This HTML class allows us to save images and write texts into a single HTML file.

It consists of functions such as <add_header> (add a text header to the HTML file),
<add_images> (add a row of images to the HTML file), and <save> (save the HTML to the disk).
It is based on Python library 'dominate', a Python library for creating and manipulating HTML documents using a DOM API.
"""

def __init__(self, web_dir, title, refresh=0):
"""Initialize the HTML classes

Parameters:
web_dir (str) -- a directory that stores the webpage. HTML file will be created at <web_dir>/index.html; images will be saved at <web_dir/images/
title (str) -- the webpage name
refresh (int) -- how often the website refresh itself; if 0; no refreshing
"""
self.title = title
self.web_dir = web_dir
self.img_dir = os.path.join(self.web_dir, 'images')
if not os.path.exists(self.web_dir):
os.makedirs(self.web_dir)
if not os.path.exists(self.img_dir):
os.makedirs(self.img_dir)

self.doc = dominate.document(title=title)
if refresh > 0:
with self.doc.head:
meta(http_equiv="refresh", content=str(refresh))

def get_image_dir(self):
"""Return the directory that stores images"""
return self.img_dir

def add_header(self, text):
"""Insert a header to the HTML file

Parameters:
text (str) -- the header text
"""
with self.doc:
h3(text)

def add_images(self, ims, txts, links, width=400):
"""add images to the HTML file

Parameters:
ims (str list) -- a list of image paths
txts (str list) -- a list of image names shown on the website
links (str list) -- a list of hyperref links; when you click an image, it will redirect you to a new page
"""
self.t = table(border=1, style="table-layout: fixed;") # Insert a table
self.doc.add(self.t)
with self.t:
with tr():
for im, txt, link in zip(ims, txts, links):
with td(style="word-wrap: break-word;", halign="center", valign="top"):
with p():
with a(href=os.path.join('images', link)):
img(style="width:%dpx" % width, src=os.path.join('images', im))
br()
p(txt)

def save(self):
"""save the current content to the HMTL file"""
html_file = '%s/index.html' % self.web_dir
f = open(html_file, 'wt')
f.write(self.doc.render())
f.close()


if __name__ == '__main__': # we show an example usage here.
html = HTML('web/', 'test_html')
html.add_header('hello world')

ims, txts, links = [], [], []
for n in range(4):
ims.append('image_%d.png' % n)
txts.append('text_%d' % n)
links.append('image_%d.png' % n)
html.add_images(ims, txts, links)
html.save()

测试时

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
from utils import html
def save_web_images(self, webpage, data, images, epoch):
if self.cfg.model.type == "Baseline":
img_path_relative = (data["image_A_path"][0]).split("/")[-1]
save_path = self.results_path / img_path_relative
save_path.parent.mkdir(exist_ok=True, parents=True)
webpage.add_header(save_path.stem)
txts = ['input','enhanced','GT','changemap','mask']
ims, links = [], []
width = 450
str_epoch = '_'+str(epoch)
root = str(save_path.parent)+'/'+str(save_path.stem)+str_epoch+".png"
self.to_pil(self.denorm(data["image_A"][0])).save(root)
self.to_pil(self.denorm(images["fake_B"][0])).save(save_path.parent / f"{save_path.stem}_enhanced.png")
self.to_pil(self.denorm(images["latent"][0]/3)).save(save_path.parent / f"{save_path.stem}_latent.png")
self.to_pil(self.denorm(data["image_B"][0])).save(save_path.parent / f"{save_path.stem}_gt.png")
self.to_pil((data["input_mask"])[0]).save(save_path.parent / f"{save_path.stem}_mask.png")
ims.append(root)
ims.append(save_path.parent / f"{save_path.stem}_enhanced.png")
ims.append(save_path.parent / f"{save_path.stem}_gt.png")
ims.append(save_path.parent / f"{save_path.stem}_latent.png")
ims.append(save_path.parent / f"{save_path.stem}_mask.png")
webpage.add_images(ims, txts, ims, width=width)
else:
raise "Unknown visualisation config"
web_dir = 'where images folder'
webpage = html.HTML(web_dir, 'Experiment = %s, Epoch = %s' % (cfg.model.type, cfg.model.load_epoch))

for images in results
    visualizer.save_web_images(webpage, data, images, epoch)

优雅的python深度学习

根目录下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
conf
    train.yaml
    test.yaml
data
    __init__.py           //最外层 get_dataset(dataset_name)
    datasets.py //各种个样dataset(paired unpaired combaind..)
    transform.py //制作dataset的时候,用到的数据变化 比如norm crop等
    utils.py //读取 加载 图片类型转化 padding等data用到的工具

model
    vgg19.weight

models
    auxiliary.py //作为特征提取或者vggloss 辅助网络
    discriminators.py //组成鉴别器的不同组件 以及不同鉴别器
    generators.py      //组成生成器的不同组件 以及不同生成器
    losses.py //比较复杂的loss 例如GAN perceptual loss
    engan.py //实验的完整网络和对比网络 由G和D和loss共同构成
    utils.py //初始化网络 初始化权重等 models部分用到的工具
outputs
    实验输出
utils
    metrics.py //一些评价指标
    utils.py              //系统时间啊 get device啊
    visualize.py //图片可视化和保存

eval.py
train.py
test.py
README.md

Hydra使用

最简单使用

安装

1
pip install hydra-core

初步测试

目前的代码结构

1
2
3
4
folder
├── conf
│ └── recoro_train.yaml
└── main.py

其中main.py

1
2
3
4
5
6
7
8
9
10
11
12
13
from omegaconf import DictConfig, OmegaConf
import hydra

@hydra.main(config_path="./conf", config_name="recoro_train")
def main(cfg: DictConfig):
    running_dir = str(hydra.utils.get_original_cwd())
working_dir = str(Path.cwd())
print(f"The current running directory is {running_dir}")
print(f"The current working directory is {working_dir}")


if __name__ == "__main__":
main()

结果

1
2
The current running directory is C:\Users\xx\xx\xx\folder\
The current working directory is C:\Users\xx\xx\xx\folder\outputs\2023-02-08\22-47-06

可以看到hydra运行时,会自动建立一个输出文件夹,包含日期和时间信息,然后还会直接将路径调到里面去,以方便保存脚本内的各种东西。这就是初步测试,全部都在这一行:配置的路径在”conf”,配置的文件名为”recoro_train”

因此,无论在代码的任何地方,新建文件都会在working directory下 进行新建写入。

【Python】Hydra 库使用记录_Kin__Zhang的博客-CSDN博客_python hydra

python常用指令

查看pytorch版本

1
2
import torch
print(torch.__version__)

python 文件管理

文件列表
1
2
3
4
filefolder = os.listdir(root)
filefolder.sort()
for f in filefolder:
    print(f)
删除文件
1
2
3
4
5
6
7
8
import os
import shutil

os.remove(path) #删除文件
os.removedirs(path) #删除空文件夹

os.rmdir(path) #删除空文件夹
shutil.rmtree(path) #递归删除文件夹,即:删除非空文件夹
文件读取
1
2
3
4
with open('./loss.txt','a+') as f:   
for key in losssum:
f.write(f"test_img : losses {key}: {losssum[key]/items}\n")
f.close()

python 直接使用os.system

1
2
3
command = 'ffmpeg -i ./results/%s/'%(datasetname[i]) +'%06d.png ./results'+'/%s.mp4'%(datasetname[i])
print(command)
os.system(command)

python 读写、创建 文件 - juandx - 博客园

python超参传递

1
2
3
4
5
6
7
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("-in", "--inputA", help="this is parameter a", type=str, default="")
parser.add_argument("-out", "--outputB", help="this is parameter b", type=str, default="")
args = parser.parse_args()
print(args.inputA)
1
python3 /Users/PeppaZhu/Desktop/studio_light/zoom_VB/test_V4_1NGF.py -in test_video_gfdebug/peppa_13test.mov -out peppa_13test_V4_4

cplusplus文件管理

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
#include <filesystem>
#include <iostream>

namespace fs = std::filesystem;
std::string path = "/Users/oliverzhu/Desktop/test_video/";
for (const auto &entry : fs::directory_iterator(path)){
        //将文件夹下所有文件名得到
std::string inputpath = entry.path();
std::string::size_type nPos1 = std::string::npos;
std::string::size_type nPos2 = std::string::npos;
nPos1 = inputpath.find_last_of("/");
nPos2 = inputpath.find_last_of(".");
        //截取/开始 长度为nPos2-nPos1-1的字符串
std::string strPath = inputpath.substr(nPos1 + 1, nPos2-nPos1-1);
std::string input_path;
std::string output_path;
if (nPos2-nPos1 > 1)
{
// vaild input path
input_path = inputpath;
output_path = "/Users/oliverzhu/Desktop/results/" + strPath + ".mp4";
std::cout << input_path << std::endl;
std::cout << output_path << std::endl;
        }

https://codeantenna.com/a/vhWRDy0wan

cplusplus里数据类型的大小和存储方式

不同数据类型的大小

相同位数的系统下,每一个变量的地址大小相同

1
2
3
4
5
6
7
8
9
        int32_t va; int32_t* vb; double vc; double* vd; uint8_t ve; uint8_t* vf; intptr_t vg;

        int32_t a = sizeof(&va); //8
int32_t b = sizeof(&vb); //8
int32_t d = sizeof(&vc); //8
int32_t e = sizeof(&vd); //8
int32_t f = sizeof(&ve); //8
int32_t g = sizeof(&vf); //8
int32_t h = sizeof(&vg); //8

以上变量地址大小都是 8 ,因为在64位体统下。

相同位数的系统下,不同类型变量占有的空间大小不同

1
2
3
4
5
6
7
8
9
10
int32_t va; int32_t* vb; double vc; double* vd; uint8_t ve; uint8_t* vf; intptr_t vg;

int32_t a = sizeof(va); //4
int32_t b = sizeof(vb); //8
int32_t d = sizeof(vc); //8
int32_t e = sizeof(vd); //8
int32_t f = sizeof(ve); //1
int32_t g = sizeof(vf); //8
int32_t h = sizeof(vg); //8
int32_t i = sizeof(*vb); //4

这里*vb == vb[0]

不同位数的系统下,不同/相同变量占有的大小不同

当申请一块 uint_8* buff 时,系统划分出一个8字节的大小,存储了一个指向随机位置的指针。

buff = (uint_8*)calloc(seizeof(*buff) * 10,0 ); 时,buff指向了一块地址。这块地址保存的都是十个 1字节的uint_8数据。

1
2
3
4
5
6
7
8
        uint8_t* aa;
aa = (uint8_t*)zltCMemoryBasic::zlt_calloc(sizeof(*aa) * bufSizeB * 12, 0);

        aa[0] = 1; aa[1] = 2;
uint8_t a = aa[0]; //1
uint8_t c = aa[1]; //2
uint8_t b = *aa; //1
uint8_t d = *(aa+1); //2

uint8 int float double 怎么在计算机内存储

uint8:占一个字节八位, 无符号数,0~255,算数or逻辑左移右移就是左右移动,舍去移动的位数然后补零

int32 :四个字节32位,有符号数,最高位代表符号。

最大数2147483647的原码为0111 1111 1111 1111 1111 1111 1111 1111

最小数-2147483648的补码表示为1000 0000 0000 0000 0000 0000 0000 0000,在32位没有原码。

对有符号数逻辑左右移动不考虑符号,算数右移补符号位。

float32: 四字节32位,有符号数,最高位代表符号。E代表指数 2E M代表尾数

https://zhuanlan.zhihu.com/p/84453627

Shell指令

语法基础

作为可执行程序

将代码保存为name.sh,并 cd 到相应目录

chmod +x ./test.sh #使脚本具有执行权限

./test.h 运行,或者将文件拖入终端运行

注意,一定要写成 ./test.sh,而不是 test.sh,运行其它二进制的程序也一样,直接写 test.sh,linux 系统会去 PATH 里寻找有没有叫 test.sh 的,而只有 /bin, /sbin, /usr/bin,/usr/sbin 等在 PATH 里,你的当前目录通常不在 PATH 里,所以写成 test.sh 是会找不到命令的,要用 ./test.sh 告诉系统说,就在当前目录找。

#! 是一个约定的标记,它告诉系统这个脚本需要什么解释器(sh、bash、php等等)来执行。

使用模版

1
2
3
4
5
#!/bin/bash
echo "Hello World !"
ffmpeg -r 30 -i output/%05d.jpg -vcodec libx264 -vf zscale=matrix=709:r=full output.mp4
mkdir backlit
ffmpeg -i backlit.mp4 -r 30 backlit/%05d.png

https://www.runoob.com/linux/linux-command-manual.html

Shell脚本书写规范 - That’s_it - 博客园

文件操作

1
2
3
4
5
6
7
8
9
10
删除文件
rm -r *.pdf
但是一次性删除太多的话就会报错 zsh: argument list too long: rm 此时用
find . -name "*.pdf" -print0 | xargs -0 rm

移动文件
mv folder2/*.* folder/
移动太多会报错
find folder2 -name '*.*' -exec mv {} folder \;
-exec runs any command, {} inserts the filename found, \; marks the end of the exec command.

linux - Argument list too long error for rm, cp, mv commands - Stack Overflow

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
查看当前路径下文件个数(不包括下一级子目录里文件个数)
ls -l | grep "^-" | wc -l
查看当前路径下文件个数(包括下一级子目录里文件个数)
ls -lR| grep "^-" | wc -l
查看某目录下文件夹(目录)的个数(包括子目录)
ls -lR | grep "^d" | wc -l

命令解析:
ls -l
长列表输出该目录下文件信息(注意这里的文件是指目录、链接、设备文件等),每一行对应一个文件或目录,ls -lR是列出所有文件,包括子目录。

grep "^-"
过滤ls的输出信息,只保留一般文件,只保留目录是grep "^d"。

wc -l
统计输出信息的行数,统计结果就是输出信息的行数,一行信息对应一个文件,所以就是文件的个数。

Linux统计文件夹下的文件数目 | SnailTyan

Bilateral and Guided Filter

双边滤波 for gray and color images

原理

在滤波加权的时候计算几何相似度和光学相似度,在亮度差别大的地方不进行平均加权,从而达到保边。

公式

test

在上述公式中,k代表正则化,c(.)代表几何相似度,也就是距离, s(.) 代表光学相似度,可以是色彩的差,亮度的差等。

实验现象

如果只做色彩滤镜相当于对直方图进行压缩,也就是只做色彩滤镜相当于把全图色彩平均,向中灰度压缩。

当像素相似度比较大的时候(100~300),对于小的范围参数影响不大了,因为几乎小范围内的所有数据都在像素相似度内。整图结果主要由范围半径控制。

当范围半径比较大的时候,双边滤波更像是色彩相似度滤镜,表现为对直方图的压缩,现象就是偏灰。

常说到的导致梯度反转

首先,是双边滤波在做Tone Mapping时才会导致梯度反转。并不是直接用双边滤波得到保边平滑图就会出现梯度反转。

双边滤波在做Tone Mapping时,Fast Bilateral Filtering for the Display of High-Dynamic-Range Images ,将图像分成base层和ditail 层 base = BF(ori_img) detail = ori_img./base。由于base层在边缘处加权的数据少,所以不稳定,偏向没有边缘的那一侧的值。导致的detail层也不稳定,在增强或者压缩base后,叠加detail会出现梯度反转。

Guided Filter

目的

保边平滑,线性时间复杂度(与滤波半径无关),以及和matting Laplacian matrix理论有相似形式。可以用于:去噪,细节增强/平滑,HDR压缩,抠图,羽化,去雾,联合双边上采样。

原理

在一个小的局部区域,输出是guidance I 的一个线性变化,通过这个假设来确保,在局部,输出q的梯度和guidance I的梯度成比例,从而引入,或者说保留guidance I的梯度。

在一个局部的区域内,输出q,或者说是去噪音后的输入p,是引导图I的一个kI+b的线性变化。kI也就是,引导图的变化趋势都被保留,b是为了模拟p所在域的bias。eps控制a不能太大,这项是为了控制平滑(模糊)程度的

公式

公式意义:

当I没有梯度的时候,a等于0 ;当p没有梯度的时候,a等于0; 也就是任意一方是平坦图的时候,输出q 退化为p的两次boxfilter

当I有比较大的梯度,p也有比较大梯度,且他们有相关性的时候(分母一定,也就是I方差一定,Ip相关性越大分子越大),a越大,I的梯度得到保留

当引导图的方差远小于eps时,a几乎等于0,像素被平滑,也就是引导图方差相对于eps的关系决定了平滑的力度。

对于引导图I,滤波图p为一副图的情况,a = 方差/方差+eps b = avg - a*avg。输出就变成了根据方差和eps关系,来选择性输出原图或者是avg图。对于方差比较大的边缘,输出原图的权重高,对于方差比较小的地方,输出平均图的权重高。

公式几何意义:在一个局部区域内,I为横轴p为纵轴,q = aI+b,也就是一条直线尽量拟合每一个(I,p) ,那么根据这个拟合结果,可以对原本的p有一个新的输出q。

考虑到eps 对a的限制,输出可能更平滑一些

线性复杂度:由于一个固定方框内的均值方差可以采用box filter的优化方式变成线性复杂度,因此本算法也可以优化成线性复杂度。

实验现象

参数: GuidedFilter(guided,10,0.000001),对于引导图是黑白图像,输出会引入边缘处其他梯度,会导致有些边缘模糊。模糊可能是因为,第一,p在该区域不全为0,有梯度变化。引导图在该区域有梯度,a有值,再加上a的平均,导致在边缘区域加入了引导图。第二,引入边缘处的梯度就是不完全的加权加了一部分原图的自然结果。且a并不是1,是-1~11的数据。简单来说,在边缘处黑度图他们不可清晰分类。

对于引导图是彩色图,其结果好转。彩色图在计算时,a是引导图三通道3*3方差 * (I * P), 也就是单独通道颜色不匹配(哪怕亮度匹配),a依旧很小。防止引入相同亮度不同颜色的边缘信息。简单来说,在rgb色彩空间,边缘可分。

抠图潜在危险

  1. 半径不能太大。不然线性无法拟合。而且脸部要是有白色高光容易和背景墙混淆。

  2. 几乎完全相同颜色的边缘信息会引入。比如白色衣服白色墙体。黑色头发黑色椅子,因为本质上相同颜色不可分。于是会出现更多错误。

  3. 边缘处有rgb色彩重叠,会有些错分,带来就是部分引入错误,淡化原本01的强分割边界。

代码

https://github.com/lisabug/guided-filter

针对于抠图的潜在危险设计的S_Guided Filter

针对于缺点2,设计了选择区域的GF,总的来说是颜色差别较大的区域Guided Filter生效,当颜色差别较小的区域不使用Guided Filter

具体做法:在算引导图I 方差的时候,标记I 大于一定值的区域作为生效区域。当引导图为彩色图是,存在RR,RG,RB..等九个协方差,选取最大那个作为判定值。(因为当有一种颜色RR GG BB,或者一对颜色关系RG RB GB 可分时这个区域就可以区分)。

引入的危险:阈值如何计算。太小了的话,那些高噪音的平台区域也变成working area了,太大了的话,一些本来可以使用GF的区域也失效了。

测试case:尽量让浅肤色和白墙,深色头发和黑墙可以区分,不让白衣服白墙,全黑衣服和黑墙,以及高噪音全黑衣服和黑墙引入错误。

针对于缺点3,对GF后的结果进行了一些拉伸,让分割锐利,且剔除被分到前景的背景,但不在原基础上新增内容(可能有的前景被CNN分到了背景但是GF也无法加回来了)

具体做法:

•Q, Workingarea  = GuidedFilter(guidedI,ori_mask) ;//得到可分区域或者纹理复杂区域

•Q是GF算法的直接结果,包含错分区域,纹理复杂区域,以及正确区域

•M = ori_mask - Q;//改变值, M本身在-1~1之间

•M = M * 2 – 0.3(beta);//将改变的数据进行拉伸,后在-2.3 ~1.7之间放大改变值的。

•M[M<0]= 0; // 1:不会新添加东西 2:如果改变值过小就忽视 。

•M[M>1] = 1; //数据合理性约束

•Output = (Workingarea == TRUE)? (ori_mask – M) : ori_mask

•Output < 0 = 0; // 数据合理性

引入的危险:*2 - 0.3 是手调拉伸超参数。为了保证变化锐利而非自然。且舍弃了将前景补足的潜力。

测试case:卷曲的头发剔除背景合理,不增加黑头发后面的复杂背景。