Reading Notes on NLP Papers

date
Nov 17, 2024
slug
nlp-papers
status
Published
tags
NLP
summary
type
Post

Foundation Models

Positional Encoding

  • Self-Attention with Relative Position Representation
    • 使用相对位置编码,建模 token 之间的相对位置信息。
    • 原来的 变成 ,其中 编码了 i 和 j 之间的相对位置信息。
    • 原来的 变成
    • 可以学习两个矩阵 来得到相对位置编码
    • 直观理解:相对位置编码表示了一种非对称的二元关系,当 query i 和 key j 的时候,在使用 key 和 value 时加上其相对 query 的相对位置编码。
 

Normalization

  • Layer Normalization
    • 在 layer 内用 neuron-wise 的 mean 和 std 做 normalization,控制激活值的 scale
    • 相比于 batchnorm 适合序列数据的任务。

Instruction Fine-tuing

notion image
  • Self-Instruct: Aligning Language Models with Self-Generated Instructions (Yizhong Wang et.al, University of Washington)
    • 迭代地使用 llm 生成指令微调数据:从一组 seed tasks (175 个)以及对应的 instruction,input,output 开始,使用外部的 llm 生成新的 task 的 instructions,input 和 output,之后应用启发式规则去除低质量和重复的数据(比如相似度大于阈值的去掉,长度在某范围之外的去掉,包含某些关键词的去掉等),将过滤之后的新指令数据加入池子进行下一轮迭代,直到达到设定的停止条件(比如指令数据数量足够)
    • alpaca 使用了类似的方法生成数据,但是在生成新指令的时候在提示里面直接指出了要求;并且在 alpaca 中丢弃了分类任务和非分类任务的区别,简化了一点流程。
notion image
 

© Lifan Sun 2023 - 2025