其他
详情
引用
Bolucu N 和 Can Buglalilar B (2025) 一种受语素感知的儿童语言模型。第 30 届自然语言处理经验方法会议录:第 3 卷:BabyLM 计算语言学挑战协会。
摘要语言模型中的大多数标记化方法都依赖于缺乏明确语言对应性的子词单元。在这项工作中,我们研究了在小型语言模型中使用基于词素的标记的影响,并将其与广泛使用的基于频率的方法 BPE 进行比较。我们将基于语素的标记化方法应用于 BabyLM 挑战赛中的 1000 万和 1 亿单词数据集。我们的结果表明,使用形态分词器可将 EWoK(基本世界知识)性能提高约 20%,将实体跟踪提高约 40%,这凸显了形态信息在开发较小语言模型中的影响。我们还应用课程学习,在训练过程中逐渐引入形态信息,反映了形态处理之前婴儿的词汇积累阶段。结果与之前的研究一致:课程学习对某些任务产生了轻微的改善,但在其他任务中表现却有所下降。
状态 | 已接受 |
---|---|
资助者 | milan米兰体育 |
发布商 | 计算语言学协会 |
人 (1)
计算科学讲师,计算科学