本文目录一览:

3D UnetCNN 错误日志(读取数据有问题)

multiprocessing.pool.RemoteTraceback:

"""

Traceback (most recent call last):

  File "/usr/lib/python3.5/multiprocessing/pool.py", line 119, in worker

    result = (True, func(*args, **kwds))

  File "/usr/local/lib/python3.5/dist-packages/keras/utils/data_utils.py", line 626, in next_sample

    return six.next(_SHARED_SEQUENCES[uid])

  File "/media/amax/partion2/xdh/tensorflow/3DUnetCNN-master/unet3d/generator.py", line 155, in data_generator

    skip_blank=skip_blank, permute=permute)

  File "/media/amax/partion2/xdh/tensorflow/3DUnetCNN-master/unet3d/generator.py", line 210, in add_data

    data, truth = get_data_from_file(data_file, index, patch_shape=patch_shape)

  File "/media/amax/partion2/xdh/tensorflow/3DUnetCNN-master/unet3d/generator.py", line 238, in get_data_from_file

    x, y = data_file.root.data[index], data_file.root.truth[index, 0]

  File "/usr/local/lib/python3.5/dist-packages/tables/array.py", line 662, in __getitem__

    arr = self._read_slice(startl, stopl, stepl, shape)

  File "/usr/local/lib/python3.5/dist-packages/tables/array.py", line 766, in _read_slice

    self._g_read_slice(startl, stopl, stepl, nparr)

  File "tables/hdf5extension.pyx", line 1585, in tables.hdf5extension.Array._g_read_slice

tables.exceptions.HDF5ExtError: HDF5 error back trace

  File "H5Dio.c", line 216, in H5Dread

    can't read data

  File "H5Dio.c", line 587, in H5D__read

    can't read data

  File "H5Dchunk.c", line 2304, in H5D__chunk_read

    unable to read raw data chunk

3dcnn+stn的简单介绍

  File "H5Dchunk.c", line 3659, in H5D__chunk_lock

    data pipeline read failed

  File "H5Z.c", line 1279, in H5Z_pipeline

    filter returned failure during read

  File "hdf5-blosc/src/blosc_filter.c", line 254, in blosc_filter

    Blosc decompression error

End of HDF5 error back trace

Problems reading the array data.

"""

The above exception was the direct cause of the following exception:

Traceback (most recent call last):

  File "brats/train_isensee2017.py", line 117, in module

    main(overwrite=config["overwrite"])

  File "brats/train_isensee2017.py", line 112, in main

    n_epochs=config["n_epochs"])

  File "/media/amax/partion2/xdh/tensorflow/3DUnetCNN-master/unet3d/training.py", line 90, in train_model

    use_multiprocessing = True)

  File "/usr/local/lib/python3.5/dist-packages/keras/legacy/interfaces.py", line 91, in wrapper

    return func(*args, **kwargs)

  File "/usr/local/lib/python3.5/dist-packages/keras/engine/training.py", line 1418, in fit_generator

    initial_epoch=initial_epoch)

  File "/usr/local/lib/python3.5/dist-packages/keras/engine/training_generator.py", line 181, in fit_generator

    generator_output = next(output_generator)

  File "/usr/local/lib/python3.5/dist-packages/keras/utils/data_utils.py", line 709, in get

    six.reraise(*sys.exc_info())

  File "/home/amax/.local/lib/python3.5/site-packages/six.py", line 693, in reraise

    raise value

  File "/usr/local/lib/python3.5/dist-packages/keras/utils/data_utils.py", line 685, in get

    inputs = self.queue.get(block=True).get()

  File "/usr/lib/python3.5/multiprocessing/pool.py", line 608, in get

    raise self._value

tables.exceptions.HDF5ExtError: HDF5 error back trace

  File "H5Dio.c", line 216, in H5Dread

    can't read data

  File "H5Dio.c", line 587, in H5D__read

    can't read data

  File "H5Dchunk.c", line 2304, in H5D__chunk_read

    unable to read raw data chunk

  File "H5Dchunk.c", line 3659, in H5D__chunk_lock

    data pipeline read failed

  File "H5Z.c", line 1279, in H5Z_pipeline

    filter returned failure during read

  File "hdf5-blosc/src/blosc_filter.c", line 254, in blosc_filter

    Blosc decompression error

End of HDF5 error back trace

Problems reading the array data.

Closing remaining open files:/media/amax/partion2/xdh/tensorflow/3DUnetCNN-master/brats_data.h5...done

[Paper Weekly]CNN采样方法:空间变换网络(STN)与可变形卷积网络(DCN)

卷积神经网络(CNN)是一种强大的非结构化数据抽象特征抽取模型,其最基本的结构卷积层为一个权值共享矩阵,但是在不考虑池化(pooling)层的情况下,单纯的卷积操作对图像的仿射变换(平移、缩放、剪切、旋转)缺乏不变性。这种缺陷与CNN默认的采样方法(矩阵采样)有很大的关系。所以,为了使网络获得对仿射变换的不变性,通常采用了改变 采样方式 的做法(如采用pooling方式的采样使网络获得了一定的平移、缩放、剪切不变性和较小的旋转不变性)。

在以往的卷积网络中,采样方式通常以强先验的方式直接给出(如基于hough变换的位置修正),但是显然强先验的方式通用性较差,我们看到基于矩阵的pooling只能通过数据增强的方式获得对旋转的识别能力。很容易联想到,基于学习的启发式采样,可能是一种更通用的采样方式。本文将介绍两篇启发式采样方面的相关工作:空间变换网络(STN)和可变形卷积网络(DCN)。

《Spatial Transformer Networks》是一篇2015年deepmind的研究。这篇文章提出了一种以启发式仿射变换矩阵为基础的结构来为网络提供一定的空间不变性。

有点懒,待补充

正如前文所说,通过仿射矩阵可以求得特征矩阵上的点在经过特定仿射变换后对应输出的位置,通过双线性插值,我们可以得到一个新的特征矩阵。我们可以通过学习来设定仿射矩阵的参数,从而通过仿射矩阵对特征矩阵进行有效归一,我们称其为空间变换器(Spatial Transformers)。来论文的第一部分,只介绍了单变换器(即对一个feature map只有一个仿射矩阵)。

空间变换结构包含三个部分:

通过以上三个结构,就形成了了一个空间变换器。该结构可以背放在卷积网络的任意位置,通过训练学习如何得到最有效的变换方式。

STN的基本原理大致就是这样,文章之后还讨论了multiple spatial transformers、 半监督的co-localisation、higher dimensional transformers等应用形式。

STN网络确实是一个好的想法,但是比较怀疑这种针对全局的变换在比较复杂的任务(如分类较多时)中是否依然有效。

《Deformable Convolutional Networks》是一篇2017年Microsoft Research Asia的研究。基本思想也是卷积核的采样方式是可以通过学习得到的。作者提出了两种新的op:deformable convolution和deformable roi pooling,主要是通过给传统卷积采样点加offsets的方式来获得新的采样点。

在传统的卷积中采样的grid为一个矩形,如对于一个3*3的卷积核来说,其grid为 :

在每一个输出feature map位置上做卷积操作:

用于加上offset后,位置可能会出现非整数的情况,故需要采用插值的方式(如二次线性插值)确定非整位置下对应的值:

在训练过程中,offset通过二次线性插值进行反向传播(见STN)。

Roi Pooling是detection中的一种方法,目的是将一个任意大小的feature map映射到特定大小的feature map上。在传统的Roi Pooling中:

Deformable Convolution和Deformable RoI Pooling两种结构都可以直接应用到conv网络中去,同时直接端到端训练达到启发式采样的目的。

STN和DCN两篇文章都提出了启发式的CNN采样方法。bilinear interpolation确实是个好方法,即解决了采样问题也解决了反向问题,实际实验里也确实work了。但是为什么会work,还是不明白。

两篇文章都是端到端的方法,非常有启发性,但是也都没有完全逃离传统采样,期待以后的工作。

tensorflow 中的3DCNN的,其输入怎么组织.就是怎么创建图像cube

基本使用

使用 TensorFlow, 你必须明白 TensorFlow:

使用图 (graph) 来表示计算任务.

在被称之为 会话 (Session) 的上下文 (context) 中执行图.

使用 tensor 表示数据.

通过 变量 (Variable) 维护状态.

使用 feed 和 fetch 可以为任意的操作(arbitrary operation) 赋值或者从其中获取数据.

综述

TensorFlow 是一个编程系统, 使用图来表示计算任务. 图中的节点被称之为 op

(operation 的缩写). 一个 op 获得 0 个或多个 Tensor, 执行计算,

产生 0 个或多个 Tensor. 每个 Tensor 是一个类型化的多维数组.

例如, 你可以将一小组图像集表示为一个四维浮点数数组,

这四个维度分别是 [batch, height, width, channels].

一个 TensorFlow 图描述了计算的过程. 为了进行计算, 图必须在 会话 里被启动.

会话 将图的 op 分发到诸如 CPU 或 GPU 之类的 设备 上, 同时提供执行 op 的方法.

这些方法执行后, 将产生的 tensor 返回. 在 Python 语言中, 返回的 tensor 是

numpy ndarray 对象; 在 C 和 C++ 语言中, 返回的 tensor 是

tensorflow::Tensor 实例.

计算图

TensorFlow 程序通常被组织成一个构建阶段和一个执行阶段. 在构建阶段, op 的执行步骤

被描述成一个图. 在执行阶段, 使用会话执行执行图中的 op.

例如, 通常在构建阶段创建一个图来表示和训练神经网络, 然后在执行阶段反复执行图中的训练 op.

TensorFlow 支持 C, C++, Python 编程语言. 目前, TensorFlow 的 Python 库更加易用,

它提供了大量的辅助函数来简化构建图的工作, 这些函数尚未被 C 和 C++ 库支持.

三种语言的会话库 (session libraries) 是一致的.

构建图

构建图的第一步, 是创建源 op (source op). 源 op 不需要任何输入, 例如 常量 (Constant). 源 op 的输出被传递给其它 op 做运算.

Python 库中, op 构造器的返回值代表被构造出的 op 的输出, 这些返回值可以传递给其它

op 构造器作为输入.

TensorFlow Python 库有一个默认图 (default graph), op 构造器可以为其增加节点. 这个默认图对

许多程序来说已经足够用了. 阅读 Graph 类 文档

来了解如何管理多个图.

import tensorflow as tf

# 创建一个常量 op, 产生一个 1x2 矩阵. 这个 op 被作为一个节点

# 加到默认图中.

#

# 构造器的返回值代表该常量 op 的返回值.

matrix1 = tf.constant([[3., 3.]])

# 创建另外一个常量 op, 产生一个 2x1 矩阵.

matrix2 = tf.constant([[2.],[2.]])

# 创建一个矩阵乘法 matmul op , 把 'matrix1' 和 'matrix2' 作为输入.

# 返回值 'product' 代表矩阵乘法的结果.

product = tf.matmul(matrix1, matrix2)

默认图现在有三个节点, 两个 constant() op, 和一个matmul() op. 为了真正进行矩阵相乘运算, 并得到矩阵乘法的

结果, 你必须在会话里启动这个图.

在一个会话中启动图

构造阶段完成后, 才能启动图. 启动图的第一步是创建一个 Session 对象, 如果无任何创建参数,

会话构造器将启动默认图.

欲了解完整的会话 API, 请阅读Session 类.

# 启动默认图.

sess = tf.Session()

# 调用 sess 的 'run()' 方法来执行矩阵乘法 op, 传入 'product' 作为该方法的参数.

# 上面提到, 'product' 代表了矩阵乘法 op 的输出, 传入它是向方法表明, 我们希望取回

# 矩阵乘法 op 的输出.

#

# 整个执行过程是自动化的, 会话负责传递 op 所需的全部输入. op 通常是并发执行的.

#

# 函数调用 'run(product)' 触发了图中三个 op (两个常量 op 和一个矩阵乘法 op) 的执行.

#

# 返回值 'result' 是一个 numpy `ndarray` 对象.

result = sess.run(product)

print result

# == [[ 12.]]

# 任务完成, 关闭会话.

sess.close()

Session 对象在使用完后需要关闭以释放资源. 除了显式调用 close 外, 也可以使用 "with" 代码块

来自动完成关闭动作.

with tf.Session() as sess:

result = sess.run([product])

print result

在实现上, TensorFlow 将图形定义转换成分布式执行的操作, 以充分利用可用的计算资源(如 CPU

或 GPU). 一般你不需要显式指定使用 CPU 还是 GPU, TensorFlow 能自动检测. 如果检测到 GPU, TensorFlow

会尽可能地利用找到的第一个 GPU 来执行操作.

如果机器上有超过一个可用的 GPU, 除第一个外的其它 GPU 默认是不参与计算的. 为了让 TensorFlow

使用这些 GPU, 你必须将 op 明确指派给它们执行. withDevice 语句用来指派特定的 CPU 或 GPU

执行操作:

with tf.Session() as sess:

with tf.device("/gpu:1"):

matrix1 = tf.constant([[3., 3.]])

matrix2 = tf.constant([[2.],[2.]])

product = tf.matmul(matrix1, matrix2)

设备用字符串进行标识. 目前支持的设备包括:

"/cpu:0": 机器的 CPU.

"/gpu:0": 机器的第一个 GPU, 如果有的话.

"/gpu:1": 机器的第二个 GPU, 以此类推.

阅读使用GPU章节, 了解 TensorFlow GPU 使用的更多信息.

交互式使用

文档中的 Python 示例使用一个会话 Session 来

启动图, 并调用 Session.run() 方法执行操作.

为了便于使用诸如 IPython 之类的 Python 交互环境, 可以使用

InteractiveSession 代替

Session 类, 使用 Tensor.eval()

和 Operation.run() 方法代替

Session.run(). 这样可以避免使用一个变量来持有会话.

# 进入一个交互式 TensorFlow 会话.

import tensorflow as tf

sess = tf.InteractiveSession()

x = tf.Variable([1.0, 2.0])

a = tf.constant([3.0, 3.0])

# 使用初始化器 initializer op 的 run() 方法初始化 'x'

x.initializer.run()

# 增加一个减法 sub op, 从 'x' 减去 'a'. 运行减法 op, 输出结果

sub = tf.sub(x, a)

print sub.eval()

# == [-2. -1.]

Tensor

TensorFlow 程序使用 tensor 数据结构来代表所有的数据, 计算图中, 操作间传递的数据都是 tensor.

你可以把 TensorFlow tensor 看作是一个 n 维的数组或列表. 一个 tensor 包含一个静态类型 rank, 和

一个 shape. 想了解 TensorFlow 是如何处理这些概念的, 参见

Rank, Shape, 和 Type.

变量

Variables for more details.

变量维护图执行过程中的状态信息. 下面的例子演示了如何使用变量实现一个简单的计数器. 参见

变量 章节了解更多细节.

# 创建一个变量, 初始化为标量 0.

state = tf.Variable(0, name="counter")

# 创建一个 op, 其作用是使 state 增加 1

one = tf.constant(1)

new_value = tf.add(state, one)

update = tf.assign(state, new_value)

# 启动图后, 变量必须先经过`初始化` (init) op 初始化,

# 首先必须增加一个`初始化` op 到图中.

init_op = tf.initialize_all_variables()

# 启动图, 运行 op

with tf.Session() as sess:

# 运行 'init' op

sess.run(init_op)

# 打印 'state' 的初始值

print sess.run(state)

# 运行 op, 更新 'state', 并打印 'state'

for _ in range(3):

sess.run(update)

print sess.run(state)

# 输出:

# 0

# 1

# 2

# 3

代码中 assign() 操作是图所描绘的表达式的一部分, 正如 add() 操作一样. 所以在调用 run()

执行表达式之前, 它并不会真正执行赋值操作.

通常会将一个统计模型中的参数表示为一组变量. 例如, 你可以将一个神经网络的权重作为某个变量存储在一个 tensor 中.

在训练过程中, 通过重复运行训练图, 更新这个 tensor.

Fetch

为了取回操作的输出内容, 可以在使用 Session 对象的 run() 调用 执行图时, 传入一些 tensor,

这些 tensor 会帮助你取回结果. 在之前的例子里, 我们只取回了单个节点 state, 但是你也可以取回多个

tensor:

input1 = tf.constant(3.0)

input2 = tf.constant(2.0)

input3 = tf.constant(5.0)

intermed = tf.add(input2, input3)

mul = tf.mul(input1, intermed)

with tf.Session() as sess:

result = sess.run([mul, intermed])

print result

# 输出:

# [array([ 21.], dtype=float32), array([ 7.], dtype=float32)]

需要获取的多个 tensor 值,在 op 的一次运行中一起获得(而不是逐个去获取 tensor)。

Feed

上述示例在计算图中引入了 tensor, 以常量或变量的形式存储. TensorFlow 还提供了 feed 机制, 该机制

可以临时替代图中的任意操作中的 tensor 可以对图中任何操作提交补丁, 直接插入一个 tensor.

feed 使用一个 tensor 值临时替换一个操作的输出结果. 你可以提供 feed 数据作为 run() 调用的参数.

feed 只在调用它的方法内有效, 方法结束, feed 就会消失. 最常见的用例是将某些特殊的操作指定为 "feed" 操作,

标记的方法是使用 tf.placeholder() 为这些操作创建占位符.

input1 = tf.placeholder(tf.float32)

input2 = tf.placeholder(tf.float32)

output = tf.mul(input1, input2)

with tf.Session() as sess:

print sess.run([output], feed_dict={input1:[7.], input2:[2.]})

# 输出:

# [array([ 14.], dtype=float32)]

for a larger-scale example of feeds.

如果没有正确提供 feed, placeholder() 操作将会产生错误.

MNIST 全连通 feed 教程

(source code)

给出了一个更大规模的使用 feed 的例子.

keras 3D UnetCNN训练时出现的segmentation fault的问题

        最近做3D UnetCNN 医学图像的分割。按照GitHub中的 官方操作,在执行 python train.py和python train_isensee2017.py时,都会出现segmentation fault的问题。查看了很多网上的资料,始终和自己遇到的问题有所差异。

1)有些人在CPU下可以正常运行,多GPU就不行,有的是单GPU可以,多GPU不行。所以怀疑是Keras多GPU设置的问题,但是程序在CPU和单GPU下仍然会出现segmentation fault的问题。

2)有时候,cudnn的版本问题也会导致segmentation fault的问题。我尝试了几个版本的cudnn,发现问题依旧存在。

3)怀疑是数据本身的问题,导致访问内存出错,尝试了Brats2018和Brats2017,结果都一样。

4)调试程序,用print语句找错误位置,程序运行到Epoch 1/500结束,始终没有找到相应的打印语句。最后找到

model.fit_generator(generator=training_generator,

                        steps_per_epoch=steps_per_epoch,

                        epochs=n_epochs,

                       validation_data=validation_generator,

                        validation_steps=validation_steps,

                        callbacks=get_callbacks(model_file,

                                                initial_learning_rate=initial_learning_rate,

                                                learning_rate_drop=learning_rate_drop,

                                                learning_rate_epochs=learning_rate_epochs,

                                                learning_rate_patience=learning_rate_patience,

                                                early_stopping_patience=early_stopping_patience) )

找到fit_generator()函数的定义,发现参数位置是不对的callbacks在前面

应该是:

model.fit_generator(generator=training_generator,

                        steps_per_epoch=steps_per_epoch,

                        epochs=n_epochs,

                        callbacks=get_callbacks(model_file,

                                                initial_learning_rate=initial_learning_rate,

                                                learning_rate_drop=learning_rate_drop,

                                                learning_rate_epochs=learning_rate_epochs,

                                                learning_rate_patience=learning_rate_patience,

                                                early_stopping_patience=early_stopping_patience),

                        validation_data=validation_generator,

                        validation_steps=validation_steps,

                       use_multiprocessing = True )

程序可以正常运行一个epoch,不会出现segmentation fault的问题。

但是程序还是未能正常运行。最后发现是Keras版本的问题,我的版本是2.2.4,降级到2.1.2就可以了。