这个项目涉及两个主要部分:data.py 和 transformer.py。其中data.py 包含数据处理模块。 transformer.py包含transformer模型,训练和预测模块。 环境配置 运行pip install -r requirements.txt以安装额外的依赖包。其他都在标准库内。 文件结构 项目的文件结构如下: data.py ...
每个单词被编码为一个3维向量。虽然实际模型中的嵌入维度通常更高,但这个简化示例有助于我们理解嵌入的工作原理。 缩放点积注意力的权重矩阵 完成输入嵌入后,首先探讨自注意力机制,特别是广泛使用的缩放点积注意力,这是Transformer模型的核心元素。