一、大模型基础面试题
1. 目前主流的开源模型体系有哪些?
- GPT(Generative Pre-trained Transformer)系列:由OpenAI发布的一系列基于Transformer架构的语言模型。
- BERT(Bidirectional Encoder Representations from Transformers):由Google发布的一种基于Transformer架构的双向预训练语言模型。
- XLNet:由CMU和Google Brain发布的一种基于Transformer架构的自回归预训练语言模型。
- RoBERTa:由Meta发布的一种基于Transformer架构的改进版BERT模型。
- PyTorch Lightning:一个基于PyTorch的轻量级深度学习框架。
- TensorFlow Model Garden:TensorFlow官方提供的一系列预训练模型和模型架构。
- Hugging Face Transformers:一个流行的开源库,提供了大量预训练模型和工具。
2. Prefix LM 和 Causal LM 区别是什么?
- Prefix LM (前缀语言模型):在输入序列的开头添加一个可学习的任务相关的前缀,然后使用这个前缀和输入序列一起生成输出。
- Causal LM (因果语言模型):也称为自回归语言模型,它根据之前生成的token预测下一个token。
3. 涌现能力是啥原因?
涌现能力是指模型在训练过程中突然表现出的新的、之前未曾预料到的能力。这种现象通常发生在大型模型中,原因是大型模型具有丰富的参数和强大的学习能力。
二、大模型进阶面试题
1. Llama 输入句子长度理论上可以无限长吗?
理论上,Llama 输入句子长度可以无限长,但实际上,由于内存和计算资源的限制,输入句子长度通常有限制。
2. 什么是 LLMs 复读机问题?
LLMs 复读机问题是指模型在生成文本时重复使用之前生成的部分,导致文本出现重复或冗余。
3. 如何缓解 LLMs 复读机问题?
可以通过以下方法缓解LLMs 复读机问题:
- 使用更长的上下文窗口。
- 采用不同的采样策略。
- 使用更复杂的模型结构。
三、大模型微调面试题
1. 如果想要在某个模型基础上做全参数微调,究竟需要多少显存?
显存需求取决于模型的大小和输入数据的规模。一般来说,全参数微调需要大量的显存。
2. 为什么SFT之后感觉LLM傻了?
SFT(Supervised Fine-tuning)后,模型可能会变得“傻”是因为微调过程中,模型可能会丢失一些预训练时的知识。
3. SFT 指令微调数据如何构建?
SFT指令微调数据可以通过以下方法构建:
- 收集大量标注好的数据。
- 将数据转换为模型可接受的格式。
- 使用数据增强技术提高数据多样性。
四、总结
大模型面试涉及多个方面,包括模型基础知识、进阶应用、微调策略等。通过深入了解这些知识点,可以帮助你更好地应对大模型面试。