Skip-gram 简单实现过程

本文展示了 Skip-gram 模型的一个简单实现过程。我们使用 text8 语料库进行训练，并利用一组人工标注的数据进行评估。评估方法采用了斯皮尔曼秩相关系数。以下是我们的评估结果：

Simlex-999:
- Statistic: -0.04806096603269743
- p-value: 0.22143454163727155
MEN:
- Statistic: 0.010008017771466165
- p-value: 0.7118103757696796
WordSim353:
- Statistic: 0.0076863773521402565
- p-value: 0.9029795856765185

注: 为了实验结果理想,斯皮尔曼秩相关系数（Statistic）的值应接近 1，表示高度正相关。p 值（p-value）应远小于 0.05，表示相关性显著。

尽管这些结果并不理想，但这只是一次简单的测试，旨在帮助理解 Skip-gram 模型的工作流程。结果的偏差可能是由于训练集规模过大所致。我们重新使用了原作者的训练数据，具体链接为：原作者训练文件。

关于 Skip-gram 模型的原理，请参考以下链接：Skip-gram 原理。

此外，text8 语料库经过简短 epoch 训练后的模型参数，请参考以下链接：模型参数-2epoch。

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
.idea		.idea
Introduction		Introduction
data		data
model		model
test_data		test_data
README.md		README.md
skip_gram.py		skip_gram.py

Provide feedback