导入模型参数后在进行训练,不知为何会出现kernel died

因为机器比较慢,所以每次训练完成之后都会把参数保存下来,下次训练的时候在导入继续训练。
但是最近突然就出现了问题,每次训练20min左右后kernel died,但是之前保存-导入就没有任何问题。

按照之前的一些教程,重新安装了mxnet还是出现问题。
Terminal中的信息

[I 11:33:39.060 NotebookApp] KernelRestarter: restarting kernel (1/5)
WARNING:root:kernel f0d73815-63f3-45b1-88a5-38fe1ebc48fe restarted

不知道是因为文件出了问题还是其他的故障?

系统信息(请忽略pip和python的版本号):
----------Python Info----------
Version : 3.5.2
Compiler : GCC 5.4.0 20160609
Build : (‘default’, ‘Nov 17 2016 17:05:23’)
Arch : (‘64bit’, ‘ELF’)
------------Pip Info-----------
No corresponding pip install for current python.
----------MXNet Info-----------
No MXNet installed.
----------System Info----------
Platform : Linux-4.10.0-37-generic-x86_64-with-Ubuntu-16.04-xenial
system : Linux
node : E450
release : 4.10.0-37-generic
version : #41~16.04.1-Ubuntu SMP Fri Oct 6 22:42:59 UTC 2017
----------Hardware Info----------
machine : x86_64
processor : x86_64
----------Network Test----------
Setting timeout: 10
Timing for Gluon Tutorial(en): http://gluon.mxnet.io, DNS: 0.0121 sec, LOAD: 1.2038 sec.
Timing for PYPI: https://pypi.python.org/pypi/pip, DNS: 0.0095 sec, LOAD: 3.1619 sec.
Timing for MXNet: https://github.com/apache/incubator-mxnet, DNS: 0.0064 sec, LOAD: 1.8356 sec.
Timing for Gluon Tutorial(cn): https://zh.gluon.ai, DNS: 0.0065 sec, LOAD: 1.7343 sec.
Timing for FashionMNIST: https://apache-mxnet.s3-accelerate.dualstack.amazonaws.com/gluon/dataset/fashion-mnist/train-labels-idx1-ubyte.gz, DNS: 0.0056 sec, LOAD: 1.3218 sec.
Timing for Conda: https://repo.continuum.io/pkgs/free/, DNS: 0.0058 sec, LOAD: 1.7320 sec.

kernel died的原因可能很多。你换一个数据集训练试一下看看会不会再遇到相同的问题?

感觉可能参数保存的时候哪里出了点问题,使用更早之前保存的参数就没有问题了。

你好,版主.
我这边也想保存参数继续训练,但我加载json和params的net,跑不通后面的训练代码.
请问要怎么做呢?我训练的是zoo里面的yolo3_darknet53_custom