Papers
1. Transfer Learning for Sequence Labeling Using Source Model and Target Data
本文提出了一种渐进式的序列标注模型,模型主要分为两部分:
- 给定在source data $D_{s}$ 训练出的source model $M_{s}$(实际使用的是Bi-LSTM+CRF),使用其参数来初始化$M_{t}$,同时增加$M_{t}$输出层的维度,然后在target data $D_{t}$ 上fine-tuning。
- 增加了一个neural adapter来连接$M_{s}$和$M_{t}$,通过一个Bi-LSTM来实现,以$M_{s}$的最后线性层输出(未经过softmax)为Bi-LSTM的输入,它的输出作为$M_{t}$的额外输入。适配器adapter的主要作用是解决$D_{s}$和$D_{t}$中标签序列不一致的问题。
the surface form of a new category type has already appeared in the DSDS, but they are not annotated as a label. Because it is not yet considered as a concept to be recognized.
Related Work
-
Progressive Neural Networks: 本文主要解决的是迁移学习中知识遗忘的问题,传统的迁移学习仅仅利用预训练的权重参数然后finetuning,有可能导致之前任务中学到的知识丢失;同时多任务之间可能会存在正交和对抗的关系,简单的预训练权重无法解决。本文提出了一种渐进式学习的框架,核心是通过增加多个任务模型之间横向的连接,来获取之前任务的特征。结构图:
上图中的每一列对应一个任务,a代表adapter(这里实际上是MLP),在训练第k个任务时,前k-1个任务的参数是固定的。横向连接如下:
2. Adversarial Active Learning for Sequences Labeling and Generation
本文发表在IJCAI2018上,主要是关于active learning在序列问题上的应用,现有的active learning方法大多依赖于基于概率的分类器,而这些方法不适合于序列问题(标签序列的空间太大),作者提出了一种基于adversarial learning的框架解决了该问题。
与GAN类似,训练过程主要分两步:
- Encoder&&Decoder:Mathematically, it encourages the discriminator D to output a score 1 for both $z_{L}$ and $z_{U}$.
- Discriminator:
Therefore, the score from this discriminator already serves as an informativeness similarity score that could be directly used for Eq.7.
训练完成之后,将所有的未标注数据通过M和D,来获得匹配度:
Apparently, those samples with lowest scores should be sent out for labeling because they carry most valuable information in complementary to the current labeled data.
Related Work
3. Zero-Shot Adaptive Transfer for Conversational Language Understanding
本文提出的模型Zero-Shot Adaptive Transfer model (ZAT)借鉴于zero-shot learning,传统的序列标注任务把slot类型作为预测输出,而本文中的模型则是将slot描述信息作为模型输入,如下图:
针对于同一个utterance,需要独立的经过每一类slot type模型预测结果,之后再把结果合并得到最终的输出。作者假设,不同的领域可以共享slot描述的语义信息,基于此,我们可以在大量的源数据中训练源模型,之后在少量的目标数据上finetune,并且不需要显式地slot对齐。
Related Work
-
Frustratingly Easy Neural Domain Adaptation: 本文研究的是是NLU领域迁移问题,属于data-driven的方法。核心是将多个领域的序列标注任务当作多任务学习,然后进行联合训练。缺点是训练集的增大导致训练时间变长。conference: COLING2016
model architecture:
上图是两种变体,$x_{t}^{(k)}$代表手工构造的领域相关的特征,$x_{t}$代表领域无关的词向量。k代表第k个领域,$\theta$代表多个领域共享参数,$\theta^{(k)}$代表第k个领域所独有的参数:
-
Domain Attention with an Ensemble of Experts: 本文研究的是是NLU领域迁移问题,属于model-driven的方法。与data-driven将多个领域的序列标注任务当作多任务学习,然后进行联合训练的方法不同的是,model-driven的方法是将在已有的源数据集训练好的源模型作为额外的特征提取器,然后在训练target model时添加进去,本质上target data并没有增加,因此训练时间远远优于data-driven。conference: ACL2017
individual model architecture:
domain transfer architecture:
上图实际上对应两种变体:一是利用底层BiLSTM计算注意力作为额外特征,另一种是利用高层label embedding计算注意力作为额外特征。
4. Improving Domain Adaptation Translation with Domain Invariant and Specific Information
训练部分采用了不同的方式,需要关注。