基于五条标注数据快速完成快递单信息抽取
本项目将演示如何通过五条标注样本进行模型微调,快速且准确抽取快递单中的姓名、电话、省、市、区、详细地址等内容,形成结构化信息。辅助物流行业从业者进行有效信息的提取,从而降低客户填单的成本。
1. 任务介绍
如何从物流信息中抽取想要的关键信息呢?我们首先要定义好需要抽取哪些字段。
比如现在拿到一个快递单,可以作为我们的模型输入,例如'张三 18625584663 广东省深圳市南山区学府路东百度国际大厦',那么序列标注模型的目的就是识别出其中的'张三'为人名,'18625584663'为电话名,'广东省深圳市南山区百度国际大厦'分别是『省、市、区、街道』4 级地址)。
这是一个典型的命名实体识别(Named Entity Recognition,NER)场景,各实体类型及相应符号表示见下表:
| 抽取实体/字段 | 抽取结果 |
|---|---|
| 姓名 | 张三 |
| 电话 | 15209XX1921 |
| 省份 | 广东省 |
| 城市 | 深圳市 |
| 县区 | 南山区 |
| 详细地址 | 百度国际大厦 |
2. 方案设计
2.1 UIE 基于 Prompt 统一建模
Yaojie Lu 等人提出了开放域信息抽取的统一框架,这一框架在实体抽取、关系抽取、事件抽取、情感分析等任务上都有着良好的泛化效果。
PaddleNLP 基于这篇工作的 prompt 设计思想,提供了以 ERNIE 为底座的信息抽取模型,用于关键信息抽取。同时,针对不同场景,支持通过构造小样本数据来优化模型效果,快速适配特定的关键信息配置。
2.2 UIE 的优势
- 使用简单:用户可以使用自然语言自定义抽取目标,无需训练即可统一抽取输入文本中的对应信息。实现开箱即用,并满足各类信息抽取需求。
- 降本增效:以往的信息抽取技术需要大量标注数据才能保证信息抽取的效果,为了提高开发过程中的开发效率,减少不必要的重复工作时间,开放域信息抽取可以实现零样本(zero-shot)或者少样本(few-shot)抽取,大幅度降低标注数据依赖,在降低成本的同时,还提升了效果。
- 效果领先:开放域信息抽取在多种场景,多种任务上,均有不俗的表现。
2.3 应用场景示例
- 医疗场景 - 专病结构化
- 金融场景 - 收入证明、招股书抽取
3. 环境准备
! pip install --upgrade paddlenlp -i https://mirror.baidu.com/pypi/simple
! pip show paddlenlp
4. 开箱即用
from paddlenlp import Taskflow
schema = ["姓名", "省份", "城市", "县区"]
ie = Taskflow(, schema=schema)
ie()


