文章
详情
引用
Johnston P、Nogueira K 和 Swingler K (2023) NS-IL:使用增量学习的小样本独立概率模型进行神经符号视觉问答。IEEE 访问,11,第 141406-141420 页。 https://doi.org/10.1109/access.2023.3341007
摘要本文的动机是为有关视觉场景的自然语言问题提供准确且与上下文相关的答案,特别是为有视觉障碍的个人提供支持。我们提出了一个能够逐步学习视觉概念和符号事实的系统,以通过丰富的概念回答有关视觉场景的自然语言问题。深度神经网络用于学习特征空间,从中将视觉类别学习为独立的概率分布,允许以小样本量任意添加新类别,并且不会出现与传统神经网络相关的灾难性遗忘的风险。视觉类不仅限于对象标签,还包括视觉属性。知识图谱用于表示有关对象的事实,例如它们的动作、位置以及不同对象之间的关系。这允许显式存储事实并增量添加事实。使用大语言模型在自然语言问题和知识图谱遍历查询之间进行翻译,提供自然的视觉问答过程。
关键字通用工程;普通材料科学;普通计算机科学;电气与电子工程
期刊IEEE 访问:第 11 卷
状态 | 已发布 |
---|---|
发布日期 | 07/12/2023 |
在线发布日期 | 07/12/2023 |
期刊接受日期 | 07/12/2023 |
发布商 | 电气和电子工程师协会 (IEEE) |
eISSN | 2169-3536 |