Siamese Network简介

摘要：

简单的说，SiameseNetwork用于评估两个输入样本的相似度。网络的框架如下图所示SiameseNetwork有两个结构相同，且共享权值的子网络。训练SiameseNetwork采用的训练样本是一个tuple，标签y=0y=0表示X1X1与X2X2属于不同类型。LSTMSiameseNetwork在文本方面，需要计算两个文本之间的相似度，或者仅仅判断是否相似，是否重复的场景也很多。还有定义两个孪生网络的时候，使用了不同的权值，根据SiameseNetwork的设计，在这里应该是要reuse_variable来共享权值的。

Siamese Network简介

Siamese Network 是一种神经网络的框架，而不是具体的某种网络，就像seq2seq一样，具体实现上可以使用RNN也可以使用CNN。

简单的说，Siamese Network用于评估两个输入样本的相似度。网络的框架如下图所示

这里写图片描述

Siamese Network有两个结构相同，且共享权值的子网络。分别接收两个输入 $X_{1}$

训练Siamese Network采用的训练样本是一个tuple $(X_{1}, X_{2}, y)$

LOSS函数的设计应该是
1. 当两个输入样本不相似( $y = 0$

用 $L_{+} (X_{1}, X_{2})$

L_{w} (X_{1}, X_{2}) = (1 - y) L_{-} (X_{1}, X_{2}) + y L_{+} (X_{1}, X_{2})

Siamese Network的基本架构、输入、输出以及LOSS函数的设计原则如上文所述，接下来就说一下在NLP的场景，具体的Siamese Network应该如何设计。

LSTM Siamese Network

在文本方面，需要计算两个文本之间的相似度，或者仅仅判断是否相似，是否重复的场景也很多。简单直接的方法可以直接从字面上判断，使用BOW模型，使用SimHash算法都行。但是有些场景，字面上看可能不相似，但是从语义上看是相似的，这就需要更复杂的模型来捕捉它的语义信息了。

比如Quora就有这方面的需求，问答类型的网站希望同样的问题只有一个就好，但表述问题的方式可以多种多样，因此需要能够捕捉到更多语义上的信息。

将Siamese Network架构中的用于表征 $X_{1}$

Learning Text Similarity with Siamese Recurrent Networks这篇文章介绍了这种网络的结构，也给出了具体的参数。网络的结构如下图所示
lstm siamese network architecture

这是论文中的截图，在文本输入与BILSTM之间还有一个embedding层。

论文中的LSTM Siamese Network用了4层hidden unit size为64的BILSTM，再将每一时刻的输出取平均作为输入 $X$

这里的相似度 $E$

E (X_{1}, X_{2}) = \frac{X_{1} X_{2}}{| X_{1} | | X_{2} |}

所以 $- 1 \leq E (X_{1}, X_{2}) \leq 1$

$y = 0$

具体的有

L_{+} (X_{1}, X_{2}) = \frac{1}{4} (1 - E_{w})^{2}

L_{-} (X_{1}, X_{2}) = E_{w}^{2}, E_{w} < m L_{-} (X_{1}, X_{2}) = 0, o t h e r w i s e

总的LOSS函数不变。 $m$

lstm siamese network loss function

LSTM Siamese Network总结起来就是
1. 将Siamese Network中的Encoder换成BILSTM
2. 将距离的计算改成余弦距离
3. 修改相应的LOSS函数

这个设计上还是有一些可以改进的，比如在BILSTM输出后，加一个attention，而不是直接average每个时刻的输出，这样可以更好的表征输入的文本。

代码实现

目前github上有一个开源实现，deep-siamese-text-similarity，但是代码稍微有点乱，并且有些地方实现的不对。

比如BILSTM模型的定义中

outputs, _, _ = tf.nn.bidirectional_rnn(lstm_fw_cell_m, lstm_bw_cell_m, x, dtype=tf.float32)
return outputs[-1]

将最后一个时刻的输出作为表征向量，这样就忽略了其它时刻的输出。

还有定义两个孪生网络的时候，使用了不同的权值，根据Siamese Network的设计，在这里应该是要reuse_variable来共享权值的。

自己实现了一个，也放到github上：https://github.com/THTBSE/siamese-lstm-network。

免责声明：文章转载自《Siamese Network简介》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

随便看看

Siamese Network简介