递归神经网络RNN怎样加速

2024-05-19 10:07

1. 递归神经网络RNN怎样加速

1、如果使用MATLAB的话不要自己设定，newff之后会自动赋值
   也可以手动：net.IW{}=   ; net.bias{}=
2、一般来说输入归一化，那么w和b取0-1的随机数就行

递归神经网络RNN怎样加速

2. 如何有效的区分和理解RNN循环神经网络与递归神经网络

recurrent: 时间维度的展开，代表信息在时间维度从前往后的的传递和积累，可以类比markov假设，后面的信息的概率建立在前面信息的基础上，在神经网络结构上表现为后面的神经网络的隐藏层的输入是前面的神经网络的隐藏层的输出；recursive: 空间维度的展开，是一个树结构，比如nlp里某句话，用recurrent neural network来建模的话就是假设句子后面的词的信息和前面的词有关，而用recurxive neural network来建模的话，就是假设句子是一个树状结构，由几个部分(主语，谓语，宾语）组成，而每个部分又可以在分成几个小部分，即某一部分的信息由它的子树的信息组合而来，整句话的信息由组成这句话的几个部分组合而来。

3. rnn 是循环神经网络还是递归神经网络

RNN包括循环神经网络和递归神经网络

rnn 是循环神经网络还是递归神经网络

4. 如何用PyTorch实现递归神经网络

从 Siri 到谷歌翻译，深度神经网络已经在机器理解自然语言方面取得了巨大突破。这些模型大多数将语言视为单调的单词或字符序列，并使用一种称为循环神经网络（recurrent neural network/RNN）的模型来处理该序列。但是许多语言学家认为语言最好被理解为具有树形结构的层次化词组，一种被称为递归神经网络（recursive neural network）的深度学习模型考虑到了这种结构，这方面已经有大量的研究。虽然这些模型非常难以实现且效率很低，但是一个全新的深度学习框架 PyTorch 能使它们和其它复杂的自然语言处理模型变得更加容易。

虽然递归神经网络很好地显示了 PyTorch 的灵活性，但它也广泛支持其它的各种深度学习框架，特别的是，它能够对计算机视觉（computer vision）计算提供强大的支撑。PyTorch 是 Facebook AI Research 和其它几个实验室的开发人员的成果，该框架结合了 Torch7 高效灵活的 GPU 加速后端库与直观的 Python 前端，它的特点是快速成形、代码可读和支持最广泛的深度学习模型。

开始 SPINN

链接中的文章（https://github.com/jekbradbury/examples/tree/spinn/snli）详细介绍了一个递归神经网络的 PyTorch 实现，它具有一个循环跟踪器（recurrent tracker）和 TreeLSTM 节点，也称为 SPINN——SPINN 是深度学习模型用于自然语言处理的一个例子，它很难通过许多流行的框架构建。这里的模型实现部分运用了批处理（batch），所以它可以利用 GPU 加速，使得运行速度明显快于不使用批处理的版本。

SPINN 的意思是堆栈增强的解析器-解释器神经网络（Stack-augmented Parser-Interpreter Neural Network），由 Bowman 等人于 2016 年作为解决自然语言推理任务的一种方法引入，该论文中使用了斯坦福大学的 SNLI 数据集。

该任务是将语句对分为三类：假设语句 1 是一幅看不见的图像的准确标题，那么语句 2（a）肯定（b）可能还是（c）绝对不是一个准确的标题？（这些类分别被称为蕴含（entailment）、中立（neutral）和矛盾（contradiction））。例如，假设一句话是「两只狗正跑过一片场地」，蕴含可能会使这个语句对变成「户外的动物」，中立可能会使这个语句对变成「一些小狗正在跑并试图抓住一根棍子」，矛盾能会使这个语句对变成「宠物正坐在沙发上」。

特别地，研究 SPINN 的初始目标是在确定语句的关系之前将每个句子编码（encoding）成固定长度的向量表示（也有其它方式，例如注意模型（attention model）中将每个句子的每个部分用一种柔焦（soft focus）的方法相互比较）。

数据集是用句法解析树（syntactic parse tree）方法由机器生成的，句法解析树将每个句子中的单词分组成具有独立意义的短语和子句，每个短语由两个词或子短语组成。许多语言学家认为，人类通过如上面所说的树的分层方式来组合词意并理解语言，所以用相同的方式尝试构建一个神经网络是值得的。下面的例子是数据集中的一个句子，其解析树由嵌套括号表示：


( ( The church ) ( ( has ( cracks ( in ( the ceiling ) ) ) ) . ) )



这个句子进行编码的一种方式是使用含有解析树的神经网络构建一个神经网络层 Reduce，这个神经网络层能够组合词语对（用词嵌入（word embedding）表示，如 GloVe）、 和/或短语，然后递归地应用此层（函数），将最后一个 Reduce 产生的结果作为句子的编码：

X = Reduce(“the”, “ceiling”)
Y = Reduce(“in”, X)
... etc.


但是，如果我希望网络以更类似人类的方式工作，从左到右阅读并保留句子的语境，同时仍然使用解析树组合短语？或者，如果我想训练一个网络来构建自己的解析树，让解析树根据它看到的单词读取句子？这是一个同样的但方式略有不同的解析树的写法：

The church ) has cracks in the ceiling ) ) ) ) . ) )


或者用第 3 种方式表示，如下：

WORDS:  The church   has cracks in the ceiling         .
PARSES: S   S      R S   S      S  S   S       R R R R S R R


我所做的只是删除开括号，然后用「S」标记「shift」，并用「R」替换闭括号用于「reduce」。但是现在可以从左到右读取信息作为一组指令来操作一个堆栈（stack）和一个类似堆栈的缓冲区（buffer），能得到与上述递归方法完全相同的结果：

1. 将单词放入缓冲区。
2. 从缓冲区的前部弹出「The」，将其推送（push）到堆栈上层，紧接着是「church」。
3. 弹出前 2 个堆栈值，应用于 Reduce，然后将结果推送回堆栈。
4. 从缓冲区弹出「has」，然后推送到堆栈，然后是「cracks」，然后是「in」，然后是「the」，然后是「ceiling」。
5. 重复四次：弹出 2 个堆栈值，应用于 Reduce，然后推送结果。
6. 从缓冲区弹出「.」，然后推送到堆栈上层。
7. 重复两次：弹出 2 个堆栈值，应用于 Reduce，然后推送结果。
8. 弹出剩余的堆栈值，并将其作为句子编码返回。

我还想保留句子的语境，以便在对句子的后半部分应用 Reduce 层时考虑系统已经读取的句子部分的信息。所以我将用一个三参数函数替换双参数的 Reduce 函数，该函数的输入值为一个左子句、一个右子句和当前句的上下文状态。该状态由神经网络的第二层（称为循环跟踪器（Tracker）的单元）创建。Tracker 在给定当前句子上下文状态、缓冲区中的顶部条目 b 和堆栈中前两个条目 s1\s2 时，在堆栈操作的每个步骤（即，读取每个单词或闭括号）后生成一个新状态：

context[t+1] = Tracker(context[t], b, s1, s2)


容易设想用你最喜欢的编程语言来编写代码做这些事情。对于要处理的每个句子，它将从缓冲区加载下一个单词，运行跟踪器，检查是否将单词推送入堆栈或执行 Reduce 函数，执行该操作；然后重复，直到对整个句子完成处理。通过对单个句子的应用，该过程构成了一个大而复杂的深度神经网络，通过堆栈操作的方式一遍又一遍地应用它的两个可训练层。但是，如果你熟悉 TensorFlow 或 Theano 等传统的深度学习框架，就知道它们很难实现这样的动态过程。你值得花点时间回顾一下，探索为什么 PyTorch 能有所不同。

图论


图 1：一个函数的图结构表示

深度神经网络本质上是有大量参数的复杂函数。深度学习的目的是通过计算以损失函数（loss）度量的偏导数（梯度）来优化这些参数。如果函数表示为计算图结构（图 1），则向后遍历该图可实现这些梯度的计算，而无需冗余工作。每个现代深度学习框架都是基于此反向传播（backpropagation）的概念，因此每个框架都需要一个表示计算图的方式。

在许多流行的框架中，包括 TensorFlow、Theano 和 Keras 以及 Torch7 的 nngraph 库，计算图是一个提前构建的静态对象。该图是用像数学表达式的代码定义的，但其变量实际上是尚未保存任何数值的占位符（placeholder）。图中的占位符变量被编译进函数，然后可以在训练集的批处理上重复运行该函数来产生输出和梯度值。

这种静态计算图（static computation graph）方法对于固定结构的卷积神经网络效果很好。但是在许多其它应用中，有用的做法是令神经网络的图结构根据数据而有所不同。在自然语言处理中，研究人员通常希望通过每个时间步骤中输入的单词来展开（确定）循环神经网络。上述 SPINN 模型中的堆栈操作很大程度上依赖于控制流程（如 for 和 if 语句）来定义特定句子的计算图结构。在更复杂的情况下，你可能需要构建结构依赖于模型自身的子网络输出的模型。

这些想法中的一些（虽然不是全部）可以被生搬硬套到静态图系统中，但几乎总是以降低透明度和增加代码的困惑度为代价。该框架必须在其计算图中添加特殊的节点，这些节点代表如循环和条件的编程原语（programming primitive），而用户必须学习和使用这些节点，而不仅仅是编程代码语言中的 for 和 if 语句。这是因为程序员使用的任何控制流程语句将仅运行一次，当构建图时程序员需要硬编码（hard coding）单个计算路径。

例如，通过词向量（从初始状态 h0 开始）运行循环神经网络单元（rnn_unit）需要 TensorFlow 中的特殊控制流节点 tf.while_loop。需要一个额外的特殊节点来获取运行时的词长度，因为在运行代码时它只是一个占位符。


# TensorFlow
# (this code runs once, during model initialization)
# “words” is not a real list (it’s a placeholder variable) so
# I can’t use “len”
cond = lambda i, h: i < tf.shape(words)[0]
cell = lambda i, h: rnn_unit(words[i], h)
i = 0
_, h = tf.while_loop(cond, cell, (i, h0))

基于动态计算图（dynamic computation graph）的方法与之前的方法有根本性不同，它有几十年的学术研究历史，其中包括了哈佛的 Kayak、自动微分库（autograd）以及以研究为中心的框架 Chainer和 DyNet。在这样的框架（也称为运行时定义（define-by-run））中，计算图在运行时被建立和重建，使用相同的代码为前向通过（forward pass）执行计算，同时也为反向传播（backpropagation）建立所需的数据结构。这种方法能产生更直接的代码，因为控制流程的编写可以使用标准的 for 和 if。它还使调试更容易，因为运行时断点（run-time breakpoint）或堆栈跟踪（stack trace）将追踪到实际编写的代码，而不是执行引擎中的编译函数。可以在动态框架中使用简单的 Python 的 for 循环来实现有相同变量长度的循环神经网络。


# PyTorch (also works in Chainer)
# (this code runs on every forward pass of the model)
# “words” is a Python list with actual values in it
h = h0
for word in words:
    h = rnn_unit(word, h)

PyTorch 是第一个 define-by-run 的深度学习框架，它与静态图框架（如 TensorFlow）的功能和性能相匹配，使其能很好地适合从标准卷积神经网络（convolutional network）到最疯狂的强化学习（reinforcement learning）等思想。所以让我们来看看 SPINN 的实现。

代码

在开始构建网络之前，我需要设置一个数据加载器（data loader）。通过深度学习，模型可以通过数据样本的批处理进行操作，通过并行化（parallelism）加快训练，并在每一步都有一个更平滑的梯度变化。我想在这里可以做到这一点（稍后我将解释上述堆栈操作过程如何进行批处理）。以下 Python 代码使用内置于 PyTorch 的文本库的系统来加载数据，它可以通过连接相似长度的数据样本自动生成批处理。运行此代码之后，train_iter、dev_iter 和 test_itercontain 循环遍历训练集、验证集和测试集分块 SNLI 的批处理。

from torchtext import data, datasets
TEXT = datasets.snli.ParsedTextField(lower=True)
TRANSITIONS = datasets.snli.ShiftReduceField()
LABELS = data.Field(sequential=False)train, dev, test = datasets.SNLI.splits(
    TEXT, TRANSITIONS, LABELS, wv_type='glove.42B')TEXT.build_vocab(train, dev, test)
train_iter, dev_iter, test_iter = data.BucketIterator.splits(
    (train, dev, test), batch_size=64)

你可以在 train.py中找到设置训练循环和准确性（accuracy）测量的其余代码。让我们继续。如上所述，SPINN 编码器包含参数化的 Reduce 层和可选的循环跟踪器来跟踪句子上下文，以便在每次网络读取单词或应用 Reduce 时更新隐藏状态；以下代码代表的是，创建一个 SPINN 只是意味着创建这两个子模块（我们将很快看到它们的代码），并将它们放在一个容器中以供稍后使用。

import torchfrom torch import nn
# subclass the Module class from PyTorch’s neural network package
class SPINN(nn.Module):
    def __init__(self, config):
        super(SPINN, self).__init__()
        self.config = config        self.reduce = Reduce(config.d_hidden, config.d_tracker)
        if config.d_tracker is not None:
            self.tracker = Tracker(config.d_hidden, config.d_tracker)

当创建模型时，SPINN.__init__ 被调用了一次；它分配和初始化参数，但不执行任何神经网络操作或构建任何类型的计算图。在每个新的批处理数据上运行的代码由 SPINN.forward 方法定义，它是用户实现的方法中用于定义模型向前过程的标准 PyTorch 名称。上面描述的是堆栈操作算法的一个有效实现，即在一般 Python 中，在一批缓冲区和堆栈上运行，每一个例子都对应一个缓冲区和堆栈。我使用转移矩阵（transition）包含的「shift」和「reduce」操作集合进行迭代，运行 Tracker（如果存在），并遍历批处理中的每个样本来应用「shift」操作（如果请求），或将其添加到需要「reduce」操作的样本列表中。然后在该列表中的所有样本上运行 Reduce 层，并将结果推送回到它们各自的堆栈。

def forward(self, buffers, transitions):
# The input comes in as a single tensor of word embeddings;
# I need it to be a list of stacks, one for each example in
# the batch, that we can pop from independently. The words in
# each example have already been reversed, so that they can
# be read from left to right by popping from the end of each
# list; they have also been prefixed with a null value.
buffers = [list(torch.split(b.squeeze(1), 1, 0))
for b in torch.split(buffers, 1, 1)]
# we also need two null values at the bottom of each stack,
# so we can copy from the nulls in the input; these nulls
# are all needed so that the tracker can run even if the
# buffer or stack is empty
stacks = [[buf[0], buf[0]] for buf in buffers]
if hasattr(self, 'tracker'):
self.tracker.reset_state()
for trans_batch in transitions:
if hasattr(self, 'tracker'):
# I described the Tracker earlier as taking 4
# arguments (context_t, b, s1, s2), but here I
# provide the stack contents as a single argument
# while storing the context inside the Tracker
# object itself.
tracker_states, _ = self.tracker(buffers, stacks)
else:
tracker_states = itertools.repeat(None)
lefts, rights, trackings = [], [], []
batch = zip(trans_batch, buffers, stacks, tracker_states)
for transition, buf, stack, tracking in batch:
if transition == SHIFT:
stack.append(buf.pop())
elif transition == REDUCE:
rights.append(stack.pop())
lefts.append(stack.pop())
trackings.append(tracking)
if rights:
reduced = iter(self.reduce(lefts, rights, trackings))
for transition, stack in zip(trans_batch, stacks):
if transition == REDUCE:
stack.append(next(reduced))
return [stack.pop() for stack in stacks]


在调用 self.tracker 或 self.reduce 时分别运行 Tracker 或 Reduce 子模块的向前方法，该方法需要在样本列表上应用前向操作。在主函数的向前方法中，在不同的样本上进行独立的操作是有意义的，即为批处理中每个样本提供分离的缓冲区和堆栈，因为所有受益于批处理执行的重度使用数学和需要 GPU 加速的操作都在 Tracker 和 Reduce 中进行。为了更干净地编写这些函数，我将使用一些 helper（稍后将定义）将这些样本列表转化成批处理张量（tensor），反之亦然。

我希望 Reduce 模块自动批处理其参数以加速计算，然后解批处理（unbatch）它们，以便可以单独推送和弹出。用于将每对左、右子短语表达组合成父短语（parent phrase）的实际组合函数是 TreeLSTM，它是普通循环神经网络单元 LSTM 的变型。该组合函数要求每个子短语的状态实际上由两个张量组成，一个隐藏状态 h 和一个存储单元（memory cell）状态 c，而函数是使用在子短语的隐藏状态操作的两个线性层（nn.Linear）和将线性层的结果与子短语的存储单元状态相结合的非线性组合函数 tree_lstm。在 SPINN 中，这种方式通过添加在 Tracker 的隐藏状态下运行的第 3 个线性层进行扩展。


图 2：TreeLSTM 组合函数增加了第 3 个输入（x，在这种情况下为 Tracker 状态）。在下面所示的 PyTorch 实现中，5 组的三种线性变换（由蓝色、黑色和红色箭头的三元组表示）组合为三个 nn.Linear 模块，而 tree_lstm 函数执行位于框内的所有计算。图来自 Chen et al. (2016)。

5. RNN（循环神经网络模型）有什么不足的地方

RNN建立在与FNN相同的计算单元上，两者之间区别在于：组成这些神经元相互关联的架构有所不同。FNN是建立在层面之上，其中信息从输入单元向输出单元单向流动，在这些连通模式中并不存在不定向的循环。尽管大脑的神经元确实在层面之间的连接上包含有不定向循环，我们还是加入了这些限制条件，以牺牲计算的功能性为代价来简化这一训练过程。
因此，为了创建更为强大的计算系统，我们允许RNN打破这些人为设定强加性质的规定：RNN无需在层面之间构建，同时定向循环也会出现。事实上，神经元在实际中是允许彼此相连的。

RNN（循环神经网络模型）有什么不足的地方

6. 怎样使用PyTorch实现递归神经网络

1. 将单词放入缓冲区。
2. 从缓冲区的前部弹出「The」，将其推送（push）到堆栈上层，紧接着是「church」。
3. 弹出前 2 个堆栈值，应用于 Reduce，然后将结果推送回堆栈。
4. 从缓冲区弹出「has」，然后推送到堆栈，然后是「cracks」，然后是「in」，然后是「the」，然后是「ceiling」。
5. 重复四次：弹出 2 个堆栈值，应用于 Reduce，然后推送结果。
6. 从缓冲区弹出「.」，然后推送到堆栈上层。
7. 重复两次：弹出 2 个堆栈值，应用于 Reduce，然后推送结果。
8. 弹出剩余的堆栈值，并将其作为句子编码返回。

7. 如何用FPGA加速卷积神经网络

深度学习本身是一个非常庞大的知识体系。本文更多想从程序员的视角出发，让大家观察一下深度学习对程序员意味着什么，以及我们如何利用这样一个高速发展的学科，来帮助程序员提升软件开发的能力。
本文根据费良宏在2016QCon全球软件开发大会（上海）上的演讲整理而成。
前言
1973年，美国上映了一部热门的科幻电影《WestWorld》，三年之后又有一个续集叫做《FutureWorld》。这部电影在80年代初被引进到中国叫《未来世界》。那部电影对我来讲简直可以说得上是震撼。影片中出现了很多机器人，表情丰富的面部下面都是集成电路板。这让那时候的我觉得未来世界都是那么遥远、那么神秘。
时间到了2016年，很多朋友可能都在追看HBO斥巨资拍摄的同一题材的系列剧《WestWorld》。如果前两部电影还是局限在机器人、人工智能这样的话题，2016年的新剧则在剧情和人工智能的思考方面有了很大的突破。不再渲染机器人是否会威胁到人类，而是在探讨“Dreamsaremainlymemories”这一类更具哲理的问题。
“记忆究竟如何影响了智能”这个话题非常值得我们去思考，也给我们一个很好的启示——今天，人工智能领域究竟有了怎样的发展和进步。
今天我们探讨的话题不仅仅是简单的人工智能。如果大家对深度学习感兴趣，我相信各位一定会在搜索引擎上搜索过类似相关的关键字。我在Google上以deeplearning作为关键字得到了2,630万个搜索的结果。这个数字比一周之前足足多出了300多万的结果。这个数字足以看得出来深度学习相关的内容发展的速度，人们对深度学习的关注也越来越高。
从另外的一个角度，我想让大家看看深度学习在市场上究竟有多么热门。从2011年到现在一共有140多家专注人工智能、深度学习相关的创业公司被收购。仅仅在2016年这种并购就发生了40多起。
其中最疯狂的是就是Google，已经收购了 11 家人工智能创业公司，其中最有名的就是击败了李世石九段的 DeepMind。排名之后的就要数 Apple、Intel以及Twitter。以Intel 公司为例，仅在今年就已经收购了 3 家创业公司，Itseez、Nervana 和 Movidius。这一系列大手笔的并购为了布局人工智能以及深度学习的领域。
当我们去搜索深度学习话题的时候，经常会看到这样的一些晦涩难懂的术语：Gradient descent（梯度下降算法）、Backpropagation（反向传播算法）、Convolutional Neural Network（卷积神经网络）、受限玻耳兹曼机（Restricted Boltzmann Machine）等。
如打开任何一篇技术文章，你看到的通篇都是各种数学公式。大家看到如下左边的图，其实并不是一篇高水准的学术论文，而仅仅是维基百科关于玻耳兹曼机的介绍。维基百科是科普层面的内容，内容复杂程度就超过了大多数数学知识的能力。
在这样的背景之下，我今天的的话题可以归纳成三点：第一，我们为什么要学习深度学习；第二，深度学习最核心的关键概念就是神经网络，那么究竟什么是神经网络；第三，作为程序员，当我们想要成为深度学习开发者的时候，我们需要具备怎样的工具箱，以及从哪里着手进行开发。
为什么要学习深度学习
首先，我们谈谈为什么要学习深度学习。在这个市场当中，最不缺乏的就是各种概念以及各种时髦新技术的词汇。深度学习有什么不一样的地方？我非常喜欢AndrewNg（吴恩达）曾经用过的一个比喻。
他把深度学习比喻成一个火箭。这个火箭有一个最重要的部分，就是它的引擎，目前来看在这个领域里面，引擎的核心就是神经网络。大家都知道，火箭除了引擎之外还需要有燃料，那么大数据其实就构成了整个火箭另外的重要组成部分——燃料。以往我们谈到大数据的时候，更多是强调存储和管理数据的能力，但是这些方法和工具更多是对于以往历史数据的统计、汇总。
而对于今后未知的东西，这些传统的方法并不能够帮助我们可以从大数据中得出预测的结论。如果考虑到神经网络和大数据结合，我们才可能看清楚大数据真正的价值和意义。AndrewNg就曾经说过“我们相信（神经网络代表的深度学习）是让我们获得最接近于人工智能的捷径”。这就是我们要学习深度学习的一个最重要的原因。
其次，随着我们进行数据处理以及运算能力的不断提升，深度学习所代表的人工智能技术和传统意义上人工智能技术比较起来，在性能上有了突飞猛进的发展。这主要得益于在过去几十间计算机和相关产业不断发展带来的成果。在人工智能的领域，性能是我们选择深度学习另一个重要的原因。
这是一段Nvidia在今年公布的关于深度学习在无人驾驶领域应用的视频。我们可以看到，将深度学习应用在自动驾驶方面，仅仅经历了3千英里的训练，就可以达到什么样的程度。在今年年初进行的实验上，这个系统还不具备真正智能能力，经常会出现各种各样的让人提心吊胆的状况，甚至在某些情况下还需要人工干预。
但经过了3千英里的训练之后，我们看到在山路、公路、泥地等各种复杂的路况下面，无人驾驶已经有了一个非常惊人的表现。请大家注意，这个深度学习的模型只经过了短短几个月、3千英里的训练。
如果我们不断完善这种模型的话，这种处理能力将会变得何等的强大。这个场景里面最重要的技术无疑就是深度学习。我们可以得出一个结论：深度学习可以为我们提供强大的能力，如果程序员拥有了这个技术的话，无异于会让每个程序员如虎添翼。
神经网络快速入门
如果我们对于学习深度学习没有任何疑虑的话，接下来就一定会关心我需要掌握什么样的知识才能让我进入到这个领域。这里面最重要的关键技术就是“神经网络”。说起“神经网络”，容易混淆是这样两个完全不同的概念。
一个是生物学神经网络，第二个才是我们今天要谈起的人工智能神经网络。可能在座的各位有朋友在从事人工智能方面的工作。当你向他请教神经网络的时候，他会抛出许多陌生的概念和术语让你听起来云里雾里，而你只能望而却步了。
对于人工智能神经网络这个概念，大多数的程序员都会觉得距离自己有很大的距离。因为很难有人愿意花时间跟你分享神经网络的本质究竟是什么。而你从书本上读的到的理论和概念，也很让你找到一个清晰、简单的结论。
今天就我们来看一看，从程序员角度出发神经网络究竟是什么。我第一次知道神经网络这个概念是通过一部电影——1991年上映的《终结者2》。男主角施瓦辛格有一句台词：
“MyCPUisaneural-netprocessor;alearningcomputer.”（我的处理器是一个神经处理单元，它是一台可以学习的计算机)。从历史来看人类对自身智力的探索，远远早于对于神经网络的研究。
1852年，意大利学者因为一个偶然的失误，将人类的头颅掉到硝酸盐溶液中，从而获得第一次通过肉眼关注神经网络的机会。这个意外加速了对人类智力奥秘的探索，开启了人工智能、神经元这样概念的发展。
生物神经网络这个概念的发展，和今天我们谈的神经网络有什么关系吗？我们今天谈到的神经网络，除了在部分名词上借鉴了生物学神经网络之外，跟生物学神经网络已经没有任何关系，它已经完全是数学和计算机领域的概念，这也是人工智能发展成熟的标志。这点大家要区分开，不要把生物神经网络跟我们今天谈到的人工智能有任何的混淆。
90年代中期，由Vapnik等人提出了支持向量机算法（Support Vector Machines，支持向量机）。很快这个算法就在很多方面体现出了对比神经网络的巨大优势，例如：无需调参、高效率、全局最优解等。基于这些理由，SVM算法迅速打败了神经网络算法成为那个时期的主流。而神经网络的研究则再次陷入了冰河期。
在被人摒弃的十年里面，有几个学者仍然在坚持研究。其中很重要的一个人就是加拿大多伦多大学的Geoffery Hinton教授。2006年，他的在著名的《Science》杂志上发表了论文，首次提出了“深度信念网络”的概念。
与传统的训练方式不同，“深度信念网络”有一个“预训练”（pre-training）的过程，这可以方便的让神经网络中的权值找到一个接近最优解的值，之后再使用“微调”(fine-tuning)技术来对整个网络进行优化训练。这两个技术的运用大幅度减少了训练多层神经网络的时间。在他的论文里面，他给多层神经网络相关的学习方法赋予了一个新名词— “深度学习”。
很快，深度学习在语音识别领域崭露头角。接着在2012年，深度学习技术又在图像识别领域大展拳脚。Hinton与他的学生在ImageNet竞赛中，用多层的卷积神经网络成功地对包含一千个类别的一百万张图片进行了训练，取得了分类错误率15%的好成绩，这个成绩比第二名高了将近11个百分点。
这个结果充分证明了多层神经网络识别效果的优越性。从那时起，深度学习就开启了新的一段黄金时期。我们看到今天深度学习和神经网络的火热发展，就是从那个时候开始引爆的。
利用神经网络构建分类器，这个神经网络的结构是怎样的？
其实这个结构非常简单，我们看到这个图就是简单神经网络的示意图。神经网络本质上就是一种“有向图”。图上的每个节点借用了生物学的术语就有了一个新的名词 – “神经元”。连接神经元的具有指向性的连线（有向弧）则被看作是“神经”。这这个图上神经元并不是最重要的，最重要的是连接神经元的神经。每个神经部分有指向性，每一个神经元会指向下一层的节点。
节点是分层的，每个节点指向上一层节点。同层节点没有连接，并且不能越过上一层节点。每个弧上有一个值，我们通常称之为”权重“。通过权重就可以有一个公式计算出它们所指的节点的值。这个权重值是多少？我们是通过训练得出结果。它们的初始赋值往往通过随机数开始，然后训练得到的最逼近真实值的结果作为模型，并可以被反复使用。这个结果就是我们说的训练过的分类器。
节点分成输入节点和输出节点，中间称为隐层。简单来说，我们有数据输入项，中间不同的多个层次的神经网络层次，就是我们说的隐层。之所以在这样称呼，因为对我们来讲这些层次是不可见的。输出结果也被称作输出节点，输出节点是有限的数量，输入节点也是有限数量，隐层是我们可以设计的模型部分，这就是最简单的神经网络概念。
如果简单做一个简单的类比，我想用四层神经网络做一个解释。左边是输入节点，我们看到有若干输入项，这可能代表不同苹果的RGB值、味道或者其它输入进来的数据项。中间隐层就是我们设计出来的神经网络，这个网络现在有不同的层次，层次之间权重是我们不断训练获得一个结果。
最后输出的结果，保存在输出节点里面，每一次像一个流向一样，神经是有一个指向的，通过不同层进行不同的计算。在隐层当中，每一个节点输入的结果计算之后作为下一层的输入项，最终结果会保存在输出节点上，输出值最接近我们的分类，得到某一个值，就被分成某一类。这就是使用神经网络的简单概述。
除了从左到右的形式表达的结构图，还有一种常见的表达形式是从下到上来表示一个神经网络。这时候，输入层在图的最下方，输出层则在图的最上方。从左到右的表达形式以AndrewNg和LeCun的文献使用较多。而在Caffe框架里则使用的则是从下到上的表达。
简单来说，神经网络并不神秘，它就是有像图，利用图的处理能力帮助我们对特征的提取和学习的过程。2006年Hinton的那篇著名的论文中，将深度学习总结成三个最重要的要素：计算、数据、模型。有了这三点，就可以实现一个深度学习的系统。
程序员需要的工具箱
对于程序员来说，掌握理论知识是为了更好的编程实践。那就让我们看看，对于程序员来说，着手深度学习的实践需要准备什么样的工具。
硬件
从硬件来讲，我们可能需要的计算能力，首先想到的就是CPU。除了通常的CPU架构以外，还出现了附加有乘法器的CPU，用以提升计算能力。此外在不同领域会有DSP的应用场景，比如手写体识别、语音识别、等使用的专用的信号处理器。还有一类就是GPU，这是一个目前深度学习应用比较热门的领域。最后一类就是FPGA（可编程逻辑门阵列）。
这四种方法各有其优缺点，每种产品会有很大的差异。相比较而言CPU虽然运算能力弱一些，但是擅长管理和调度，比如读取数据，管理文件，人机交互等，工具也丰富。DSP相比而言管理能力较弱，但是强化了特定的运算能力。
这两者都是靠高主频来解决运算量的问题，适合有大量递归操作以及不便拆分的算法。GPU的管理能力更弱一些，但是运算能力更强。但由于计算单元数量多，更适合整块数据进行流处理的算法。
FPGA在管理与运算处理方面都很强，但是开发周期长，复杂算法开发难度较大。就实时性来说，FPGA是最高的。单从目前的发展来看，对于普通程序员来说，现实中普遍采用的计算资源就还是是CPU以及GPU的模式，其中GPU是最热门的领域。
这是我前天为这次分享而准备的一个AWS 上p2的实例。仅仅通过几条命令就完成了实例的更新、驱动的安装和环境的设置，总共的资源创建、设置时间大概在10分钟以内。而之前，我安装调试前面提到的那台计算机，足足花了我两天时间。
另外，从成本上还可以做一个对比。p2.8xLarge 实例每小时的费用是7.2美元。而我自己那台计算机总共的花费了是￥16,904元。这个成本足够让我使用350多个小时的p2.8xLarge。在一年里使用AWS深度学习站就可以抵消掉我所有的付出。随着技术的不断的升级换代，我可以不断的升级我的实例，从而可以用有限的成本获得更大、更多的处理资源。这其实也是云计算的价值所在。
云计算和深度学习究竟有什么关系？今年的8月8号，在IDG网站上发表了一篇文章谈到了这个话题。文章中做了这样一个预言：如果深度学习的并行能力不断提高，云计算所提供的处理能力也不断发展，两者结合可能会产生新一代的深度学习，将带来更大影响和冲击。这是需要大家考虑和重视的一个方向！
软件 
深度学习除了硬件的基础环境之外。程序员会更关心与开发相关的软件资源。这里我罗列了一些曾经使用过的软件框架和工具。
Scikit-learn是最为流行的一个Python机器学习库。它具有如下吸引人的特点：简单、高效且异常丰富的数据挖掘/数据分析算法实现； 基于NumPy、SciPy以及matplotlib，从数据探索性分析，数据可视化到算法实现，整个过程一体化实现；开源，有非常丰富的学习文档。
Caffe专注在卷及神经网络以及图像处理。不过Caffe已经很久没有更新过了。这个框架的一个主要的开发者贾扬清也在今年跳槽去了Google。也许曾经的霸主地位要让位给他人了。
Theano 是一个非常灵活的Python 机器学习的库。在研究领域非常流行，使用上非常方便易于定义复杂的模型。Tensorflow 的API 非常类似于Theano。我在今年北京的QCon 大会上也分享过关于Theano 的话题。
Jupyter notebook 是一个很强大的基于ipython的python代码编辑器，部署在网页上，可以非常方便的进行交互式的处理，很适合进行算法研究合数据处理。
Torch 是一个非常出色的机器学习的库。它是由一个比较小众的lua语言实现的。但是因为LuaJIT 的使用，程序的效率非常出色。Facebook在人工智能领域主打Torch，甚至现在推出了自己的升级版框架Torchnet。
深度学习的框架非常之多，是不是有一种乱花渐欲迷人眼的感觉？我今天向各位程序员重点介绍的是将是TensorFlow。这是2015年谷歌推出的开源的面向机器学习的开发框架，这也是Google第二代的深度学习的框架。很多公司都使用了TensorFlow开发了很多有意思的应用，效果很好。
用TensorFlow可以做什么？答案是它可以应用于回归模型、神经网络以深度学习这几个领域。在深度学习方面它集成了分布式表示、卷积神经网络(CNN)、递归神经网络(RNN) 以及长短期记忆人工神经网络（Long-Short Term Memory, LSTM）。
关于Tensorflow 首先要理解的概念就是Tensor。在辞典中对于这个词的定义是张量，是一个可用来表示在一些向量、标量和其他张量之间的线性关系的多线性函数。实际上这个表述很难理解，用我自己的语言解释Tensor 就是“N维数组”而已。
使用 TensorFlow, 作为程序员必须明白 TensorFlow这样几个基础概念：它使用图 (Graph) 来表示计算任务；在被称之为 会话 (Session) 的上下文 (context) 中执行图；使用 Tensor 表示数据；通过 变量 (Variable) 维护状态；使用 feed 和 fetch 可以为任意的操作(arbitrary operation) 赋值或者从其中获取数据。
一句话总结就是，TensorFlow 就是有状态图的数据流图计算环境，每个节点就是在做数据操作，然后提供依赖性和指向性，提供完整数据流。
TensorFlow安装非常简单，但官网提供下载的安装包所支持的CUDA 的版本是7.5。考虑到CUDA 8 的让人心动的新特以及不久就要正式发布的现状。或许你想会考虑立即体验CUDA 8，那么就只能通过编译Tensorflow源代码而获得。目前TensorFlow已经支持了Python2.7、3.3+。
此外，对于使用Python 语言的程序员还需要安装所需要的一些库，例如：numpy、protobuf等等。对于卷积处理而言，cuDNN是公认的性能最好的开发库，请一定要安装上。常规的Tensorsorflow的安装很简单，一条命令足矣：
$ pip3 install —upgrade 
如果想评估一下或者简单学习一下，还可以通过Docker进行安装，安装的命令如下：
$ docker run -it -p 8888:8888 gcr.io/tensorflow/tensorflow
TensorFlow有很多优点。首先，目前为止，深度学习的开发框架里面TensorFlow的文档做的最好，对程序员学习而言是非常好的一点。第二，TensorFlow有丰富的参考实例，作为参考学习起来非常容易。
第三，开发者社区活跃，在任何一个深度学习的社区里，都有大量关于TensorFlow的讨论。第四，谷歌的支持力度非常大，从2015年到现在升级速度非常快，这是其他开源框架远远达不到的结果。
参考TensorFlow的白皮书，我们会看到未来TensorFlow还将会有巨大的发展潜力。让我特别感兴趣是这两个方向。第一，支持跨多台机器的 parallelisation。尽管在0.8版本中推出了并行化的能力，但是目前还不完善。随着未来不断发展，依托云计算的处理能力的提升这个特性将是非常让人振奋的。
第二，支持更多的开发语言，对于开发者来说这是一个绝大的利好，通过使用自己擅长的语言使用TensorFlow应用。这些开发语言将会扩展到Java、Lua以及R 等。
在这里我想给大家展示一个应用Tensorflow 的例子。这个例子的代码托管在这个网址上 。白俄罗斯的现代印象派艺术家Leonid Afremov善于用浓墨重彩来表现都市和风景题材，尤其是其雨景系列作品。他习惯用大色块的铺陈来营造光影效果，对反光物体和环境色的把握非常精准。
于是我就找到了一张上海东方明珠电视塔的一张摄影作品，我希望通过Tensorflow 去学习一下Leonid Afremov 的绘画风格，并将这张东方明珠的照片处理成那种光影色彩丰富的作品风格。利用Tensorflow 以及上面提到的那个项目的代码，在一个AWS 的p2类型的实例上进行了一个一千次的迭代，于是就得到了下图这样的处理结果。
这个处理的代码只有350行里，模型使用了一个成名于2014年ImageNet比赛中的明星 VGG。这个模型非常好，特点就是“go depper”。
TensorFlow 做出这样的作品，并不仅仅作为娱乐供大家一笑，还可以做更多有意思的事情。将刚才的处理能力推广到视频当中，就可以看到下图这样的效果，用梵高著名的作品”星月夜“的风格就加工成了这样新的视频风格。
可以想象一下，如果这种处理能力在更多领域得以应用，它会产生什么样的神奇结果？前景是美好的，让我们有无限遐想。事实上我们目前所从事的很多领域的应用开发都可以通过使用神经网络和深度学习来加以改变。对于深度学习而言，掌握它并不是难事。每一个程序员都可以很容易的掌握这种技术，利用所具备的资源，让我们很快成为深度学习的程序开发人员。
结束语
未来究竟是什么样，我们没有办法预言。有位作家Ray Kurzweil在2005年写了《奇点临近》一书。在这本书里面他明确告诉我们，那个时代很快到来。作为那个时代曙光前的人群，我们是不是有能力加速这个过程，利用我们学习的能力实现这个梦想呢？
中国人工智能的发展
人工智能的时代无疑已经到来，这个时代需要的当然就是掌握了人工智能并将其解决具体问题的工程师。坦率的说，市场上这一类的工程师还属于凤毛麟角。职场上的薪酬待遇可以看得出来这样的工程师的抢手的程度。人工智能这门学科发展到今天，就学术自身而言已经具备了大规模产业化的能力。
所以说，对于工程师而言当务之急就是尽快的掌握应用人工智能的应用技术。当下在互联网上关于人工智能的学习资料可以说已经是“汗牛充栋”，那些具备了快速学习能力的工程师一定会在人工智能的大潮当中脱颖而出。
中国发展人工智能产业的环境已经具备。无论从创业环境、人员的素质乃至市场的机遇而言完全具备了产生产业变革的一切条件。与美国相比较，在人工智能的许多领域中国团队的表现也可以说是不逞多让。就人工智能的技术层面而言，中国的工程师与全球最好的技术团队正处于同一个起跑线上。
时不我待，中国的工程师是有机会在这个领域大展身手的。不过值得注意的是，要切忌两点：一是好高骛远，盲目与国外攀比。毕竟积累有长短，术业有专攻，我们要立足于已有的积累，寻求逐步的突破。二是一拥而上，盲目追求市场的风口。人工智能的工程化需要大量的基础性的积累，并非一蹴而就简单复制就可以成功。
中国的科研技术人员在人工智能领域的成就有目共睹。在王咏刚的一篇文章里面，他统计了从2013年到2015年SCI收录的“深度学习”论文，中国在2014年和2015年超已经超过了美国居于领跑者的位置。
另外一让我感到惊讶的事情，Google的JeffDean在2016年发表过一篇名为《TensorFlow:Asystemforlarge-scalemachinelearning》的论文。文章的22个作者里面，明显是中国名字的作者占已经到了1/5。如果要列举中国人/华人在人工智能领域里的大牛，吴恩达、孙剑、杨强、黄广斌、马毅、张大鹏……很容易就可以说出一大串。
对于中国来说目前的当务之急是人工智能技术的产业化，唯有如此我们才可以讲科研／智力领域的优势转化为整体的、全面的优势。在这一点上，中国是全球最大的消费市场以及制造业强国，我们完全有机会借助市场的优势成为这个领域的领先者。
硅谷创新企业
硅谷虽然去过许多回，但一直无缘在那里长期工作。在人工智能领域的市场我们听到的更多是围绕Google、Apple、Intel、Amazon这样的一些大型科技公司的一举一动。但是在美国市场上还有一大批小型的创业企业在人工智能这个领域有惊艳的表现。仅以硅谷区域的公司为例：
Captricity，提供了手写数据的信息提取；
VIVLab，针对语音识别开发了虚拟助手服务；
TERADEEP，利用FPGA提供了高效的卷积神经网络的方案；
还有提供无人驾驶解决方案的NetraDyne。
这个名单还可以很长，还有许许多多正在利用人工智能技术试图去创造历史的团队正在打造他们的梦想。这些团队以及他们正在专注的领域是值得我们去学习和体会的。

如何用FPGA加速卷积神经网络

8. elman神经网络和rnn有什么关系

深度学习是多层的神经网络。RNN和elman神经网络是深度学习的主要内容之一。深度学习绝不仅仅是多层的神经网络。网络必须拥有一定的”记忆能力”。为了赋予网络这样的记忆力，一种特殊结构的神经网络——递归神经网络(Recurrent Neural Network)便应运而生了。Elman神经网络是 J. L. Elman于1990年首先针对语音处理问题而提出来的，是一种典型的局部回归网络( global feed forward local recurrent)。