pytorch训练过程中突然死机，重启才行

东方耀 · 发表于 2020-8-21 11:17:52

pytorch训练过程中突然死机，重启才行

分析问题的原因：
1、内存溢出用htop查看，并未出现内存过大
2、内存泄漏需要在训练结束后关闭 SummaryWriter
self.writer.close() 但是一般只会出现在训练多轮后才会卡死
3、pytorch由dataloader引发的死锁 pin_memory = True num_workers的配置问题
该问题在pytorch的官方github上的issue上有提到，这里不再赘述。
https://github.com/pytorch/pytorch/issues/1355
4、多进程的启动问题
from torch.multiprocessing import set_start_method
set_start_method('spawn')
需要注意的是，该函数的调用位置，必须位于所有与多进程有关的代码之前。

启动进程的方式大致可分为以下 3 种：

spawn：使用此方式启动的进程，只会执行和 target 参数或者 run() 方法相关的代码。Windows 平台只能使用此方法，事实上该平台默认使用的也是该启动方式。相比其他两种方式，此方式启动进程的效率最低。
fork：使用此方式启动的进程，基本等同于主进程（即主进程拥有的资源，该子进程全都有）。因此，该子进程会从创建位置起，和主进程一样执行程序中的代码。注意，此启动方式仅适用于 UNIX 平台，os.fork() 创建的进程就是采用此方式启动的。
forserver：使用此方式，程序将会启动一个服务器进程。即当程序每次请求启动新进程时，父进程都会连接到该服务器进程，请求由服务器进程来创建新进程。通过这种方式启动的进程不需要从父进程继承资源。注意，此启动方式只在 UNIX 平台上有效。

总的来说，使用类 UNIX 平台，启动进程的方式有以上 3 种，而使用 Windows 平台，只能选用 spawn 方式（默认即可）

最终我的配置：
pin_memory = True
num_workers = 0
# from multiprocessing import set_start_method
from torch.multiprocessing import set_start_method
set_start_method('spawn')

此 API 100% 兼容原生模块 - 所以足以将 import multiprocessing 改成 import torch.multiprocessing 使得所有的 tensors 通过队列发送或者使用其它共享机制, 移动到共享内存

东方耀 · 发表于 2020-8-21 11:25:41

如果我的配置：
pin_memory = True
num_workers = 8
# from multiprocessing import set_start_method
from torch.multiprocessing import set_start_method
set_start_method('spawn')

会报错：RuntimeError: context has already been set

东方耀 · 发表于 2020-8-21 11:26:40

这个也会报错：RuntimeError: context has already been set

import torch
import torch.multiprocessing as mp
torch.multiprocessing.set_start_method("spawn")
def sub_processes(A, B, D, i, j, size):
D[(j * size):((j + 1) * size), i] = torch.mul(B[:, i], A[j, i])
def task(A, B):
size1 = A.shape
size2 = B.shape
D = torch.zeros([size1[0] * size2[0], size1[1]]).cuda()
D.share_memory_()
for i in range(1):
processes = []
for j in range(size1[0]):
p = mp.Process(target=sub_processes, args=(A, B, D, i, j, size2[0]))
p.start()
processes.append(p)
for p in processes:
p.join()
return D
A = torch.rand(3, 3).cuda()
B = torch.rand(3, 3).cuda()
C = task(A, B)
print(C)

复制代码

东方耀 · 发表于 2020-8-21 11:30:10

解决方法:当使用spawn的时候要用 if __name__ == "__main__"
这样改就可以了

import torch
import torch.multiprocessing as mp
from torch.multiprocessing import set_start_method
def sub_processes(A, B, D, i, j, size):
D[(j * size):((j + 1) * size), i] = torch.mul(B[:, i], A[j, i])
def task(A, B):
size1 = A.shape
size2 = B.shape
D = torch.zeros([size1[0] * size2[0], size1[1]]).cuda()
D.share_memory_()
for i in range(1):
processes = []
for j in range(size1[0]):
p = mp.Process(target=sub_processes, args=(A, B, D, i, j, size2[0]))
p.start()
processes.append(p)
for p in processes:
p.join()
return D
if __name__ == "__main__":
set_start_method("spawn")
A = torch.rand(3, 3).cuda()
B = torch.rand(3, 3).cuda()
C = task(A, B)
print(C)

复制代码

东方耀 · 发表于 2020-8-21 11:40:37

东方耀发表于 2020-8-21 11:30
解决方法:当使用spawn的时候要用 if __name__ == "__main__"
这样改就可以了

但是我的pytorch训练到几轮后还是会卡死以后再继续尝试吧

东方耀 · 发表于 2020-8-22 13:34:20

后来发现：换了一个显卡一切又都可以了
配置成以前的：
pin_memory = True
num_workers = 16
不需要下面的：
# from multiprocessing import set_start_method
from torch.multiprocessing import set_start_method
set_start_method('spawn')

		自动登录	找回密码
密码			立即注册

[课堂笔记] pytorch训练过程中突然死机，重启才行