零样本学习(Zero-Shot Learning, ZSL)
发布时间:2025-07-28 15:29 浏览量:1
零样本学习(Zero-Shot Learning)是机器学习领域的一个前沿方向,核心目标是让模型在完全没有见过某个类别的训练样本的情况下,依然能对该类别的样本做出准确预测。它模拟了人类 “触类旁通” 的认知能力 —— 例如,即使从未见过 “独角兽”,但通过 “马的外形 + 头上有角” 的描述,人们也能在图片中识别出它。
传统分类的局限传统分类模型(如 CNN、SVM)只能识别训练时见过的类别(“有样本类别”),而现实世界中类别是无限的:新类别不断涌现(如每年新增的物种、网络流行词);部分类别样本极端稀缺(如已灭绝物种的图像、特定专业领域的术语);标注成本极高(如细粒度分类中的 “1000 种蝴蝶”,不可能为每种都收集样本)。
零样本学习正是为解决 “如何识别从未见过的类别” 这一问题而提出。零样本学习的定义
零样本学习的任务设置包含三个关键部分:源类别(Source Classes):模型训练时见过的类别,有标注样本;目标类别(Target Classes):模型训练时完全没见过的类别,无标注样本;类别属性 / 语义信息(Class Attributes/Semantics):连接源类别和目标类别的 “桥梁”,通常是对类别的描述(如 “鸟” 的属性是 “有羽毛、会飞、卵生”)。
模型通过学习源类别的样本与其属性的关联,将知识迁移到目标类别,实现对目标类别样本的识别。流程:为每个类别定义属性(如 “狗” 的属性:“有毛、四条腿、会吠叫”;“猫” 的属性:“有毛、四条腿、会喵喵叫”);训练阶段:学习从 “样本特征”(如图像的视觉特征)到 “属性向量” 的映射(例如,输入一张狗的图片,输出它的属性向量 [1,1,1],其中 1 表示具备该属性);测试阶段:对于目标类别的样本(如 “狼”),先提取其特征并映射为属性向量,再与目标类别 “狼” 的预定义属性向量(如 “有毛、四条腿、会嚎叫”)对比,相似度最高的即为预测类别。典型模型:属性分类器(Attribute Classifiers):为每个属性训练一个二分类器(判断样本是否具备该属性),再通过属性匹配识别目标类别。优势:解释性强(属性可人工定义),适用于属性明确的场景(如动物、物体分类)。2. 基于语义嵌入的方法(Semantic Embedding-Based)
利用预训练的语义空间(如词向量空间)作为中介,将样本特征和类别语义都映射到该空间,通过距离度量实现分类。
核心思想:类别语义可以用词向量表示(如用 Word2Vec 或 GloVe 将 “汽车”“自行车” 转化为向量);训练时,学习从 “样本特征” 到 “语义嵌入空间” 的映射(例如,将汽车图片的特征映射到 “汽车” 词向量附近);测试时,将目标类别样本的特征映射到语义空间,与目标类别的词向量计算距离(如余弦距离),距离最近的类别即为预测结果。典型模型:DEM(Deep Embedding Model):通过深度神经网络将样本特征和类别语义嵌入到同一空间,并最小化同类别的距离。优势:无需人工定义属性,语义空间可自动学习,适用于文本、图像等多模态场景。3. 基于生成模型的方法(Generative Model-Based)通过生成模型(如 GAN、VAE)从源类别样本和类别语义中学习分布规律,为目标类别 “生成虚拟样本”,再用传统分类器训练。
流程:训练生成模型:输入源类别的语义信息(如属性或词向量),生成该类别的样本特征(如模拟 “狗” 的视觉特征);对目标类别,用其语义信息驱动生成模型,生成大量 “虚拟样本”;用源类别真实样本 + 目标类别虚拟样本训练分类器,实现对目标类别的识别。典型模型:ZSL-GAN:通过对抗训练让生成器生成逼真的目标类别特征,解决目标类别无样本的问题。优势:将零样本学习转化为有监督学习,兼容传统分类模型,提升对复杂类别的适应能力。领域偏移(Domain Shift)源类别和目标类别的数据分布可能差异很大(如源类别是 “家养动物”,目标类别是 “野生动物”),导致模型在目标类别上泛化能力差。语义鸿沟(Semantic Gap)
样本特征(如图像的像素级特征)与类别语义(如抽象的属性或词向量)属于不同模态,难以建立精确的映射关系。长尾问题(Long-Tail Problem)
目标类别可能是 “长尾类别”(样本极少),而生成模型生成的虚拟样本可能偏离真实分布,导致分类错误。负迁移(Negative Transfer)
若源类别与目标类别的语义关联较弱(如从 “水果” 迁移到 “电器”),模型可能学到错误的规律,反而降低性能。维度零样本学习(ZSL)小样本学习(Few-Shot Learning)多模态语义融合
结合文本、图像、语音等多模态语义信息(如用图像 - caption 对增强类别描述),缩小语义鸿沟。大模型与零样本学习结合
利用 GPT、CLIP 等大模型的 “涌现能力”,通过提示词(Prompt)工程实现零样本迁移(如给模型一句描述 “长着长鼻子、大耳朵的灰色动物”,让其识别 “大象”)。鲁棒性提升
研究对抗领域偏移和负迁移的方法(如领域自适应技术、因果推理),让模型在差异较大的类别间也能稳定迁移。动态零样本学习
解决 “持续新增目标类别” 的场景(如实时识别网络上新出现的事物),避免模型对旧类别知识的遗忘。
零样本学习是突破 “有监督学习数据壁垒” 的关键技术,它的终极目标是让机器具备像人类一样 “通过已知推断未知” 的能力。随着大模型和语义理解技术的发展,零样本学习在低资源、高动态的真实场景中(如自动驾驶、智能客服)的应用潜力正不断释放。