大模型在智能财务领域的应用思路与落地实践
1. 大模型的实践背景
在财务智能审核、记账、分析领域,企业长期面临两个核心痛点:一是'用人成本与岗位价值'不匹配,二是'业务流程与管理所需'不匹配。要彻底解决这两个问题,必须达成'三高'——高质量且全面的数据结构化、高标准且专业的规则自动化、高效率且灵活的运营数字化。
然而,在实现'三高'的过程中,传统技术路径存在两个主要卡点:
- 非标票据定向数据结构化难:财务审核的票据类型繁杂,尤其是酒店水单、手写收据等非标准票据。OCR 技术难以处理格式多变、字迹潦草的情况,导致指定信息提取困难。
- 系统自动理解纸面规则难:财务审核规则动态多变,将纸面上的规则话术转化为可执行的系统逻辑成本高,修改纸面规则往往需要重新配置系统,响应滞后。
这两个卡点导致系统自动化率难以达到 100%,部分环节仍需人工介入。早期的解决方案通常采用工具化应用提供生产力转换,例如通过众包平台处理 OCR 无法识别的票据,或通过规则引擎由交付团队配置复杂规则。但这并非终点,真正的目标是产品担负起全量生产力的输出,所有功能环节不依赖人的介入。大模型的出现为解决上述技术卡点提供了新的创新实践路径。
2. 大模型在智能财务领域的应用思路
大模型的能力要应用在智能财务,核心逻辑是'用强弃弱',即找到大模型和智能财务工作的最佳结合点。
2.1 智能财务流水线脉络
为了理解结合点,可以参考'三横一纵'智能财务流水线架构:
- 第一横:智能财务实务操作线(如报销、付款)。
- 第二横:智能财务业财融合线(业务数据与财务数据打通)。
- 第三横:智能财务风险管控线(合规性检查)。
- 一纵:智能财务管理支撑线(数据分析、决策支持)。
2.2 大模型应用的'四阶梯'评估
基于上述架构,可以将大模型在智能财务中的应用效果分为四个阶梯:
- 第一阶梯(效果好):智能提单和智能审单。大模型擅长语义理解和非结构化数据处理,可以足量发挥优势,替代大量人工录入和初审工作。
- 第二阶梯(效果一般):智能记账、智能风控、智能税务和数据池。这些场景涉及复杂的业务逻辑和多源数据整合,大模型目前表现尚可但需辅助校验。
- 第三阶梯(不足):司库管理、BI 分析。现阶段大模型对深度业务推理和实时数据聚合能力尚显不足。
- 第四阶梯(难以供给):智能报表、管理驾驶舱、业财一体。大模型暂时难以快速供给能量完成全盘优化,但在搜索体验等交互层面仍有结合空间。
2.3 强弱项分析
大模型的优势在于远超人类个体的渊博常识、人机对话能力以及自我进化的涌现性;劣势在于不了解大多数企业的具体业务流程、缺乏领导人格魅力、对多领域知识结合推理的认知较浅。
因此,偏常识、偏技能、偏沟通的财务工作,大模型几乎都可以完美赋能;而偏流程、偏业务、偏管理的事情,大模型表现得比较挣扎。市面上的大模型训练集中没有每家公司具体的运营条款、人力制度、财务规则,这些数据对大模型属于 OOD(Out-of-Distribution,分布外)数据。指望它全盘优化公司财务是不现实的,投入过大且试错成本高。务实的做法是优先让大模型介入财务提单、审单,这是能大范围替代人工的环节。
3. 大模型在非标票据定向数据结构化上的落地实践
非标票据定向数据结构化,是指对没有固定格式的票据中的特定信息做数据结构化处理。例如维修清单,各家修理厂格式各异,但企业需要的信息通常是维修单位、事项、日期、金额、签章等字段。这要求从成千上万种格式中找到财务需要的信息并做结构化转换。
对于传统 OCR 而言,这是非常困难的。大模型为此带来了天翻地覆的变化,实现了高精度输出置信度的同时,大幅提升了灵活性。
3.1 实践方法论
实现这一目标通常遵循以下五步法:
- 双模型调用策略:调用两个大模型,一个用于语料拆解和上下文位置抓取,另一个用于语料重新组装和结构化输出。这种分工提高了处理的精准度。
- 训练集构建:训练集来源于沉淀多年的众包补录数据。利用'一问一答'的对话逻辑引导数据提取,这种对话式训练集利于大模型吸收知识。使用 GAN(生成对抗网络)基于真实数据生成虚拟对话数据,以规避隐私问题。
- 提示词工程与标注:为训练集匹配提示词工程和标注脚本,完成众包数据、校准数据和数据所在票据位置的三者关系匹配,让大模型掌握在票据何处能找到结构化数据。
- 视角重构:通过训练集 Prompt 大模型,使其拥有类似人工补录商的视角和思维方式。同时重构 OCR 的输出语序,将大模型与机器视觉完成行为匹配。
- 人机协同落地:带有人类补录票据信息逻辑的大模型在机器视觉帮助下,像人一样从各式票据中找到内容并完成结构化输出。
3.2 技术特色
- 摆脱传统 OCR 弊端:不再依赖通体识别后关键词检索或定制训练重塑模型,而是直接根据需求提取信息,省时省力。
- 语义分析增强:大模型可利用语义分析优势,自动寻找意思相近的词进行匹配,无需死板的关键词库,极大提升提取灵活性。
- 常识与上下文结合:在处理合同等大文本时,大模型能结合附件说明、合同上下文区分总金额、阶段付款、违约金等不同概念,准确性显著提升。
- 直挂智能客服:若发票抬头错误,用户上传图片至对话框,大模型可告知修改位置及依据的规则条款,实现交互式纠错。
4. 大模型在系统自动理解纸面财务规则上的落地实践
财务规则库的建立是实现规则数字化的关键。将积累的费用、总账、税务、应收、应付等常见财务规则总结提炼,形成规则库,并灌输给大模型学习分析,使其能在一定程度上自动理解新发布的财务规则。
4.1 实践案例与特色
- 纸面到系统的自动化:将新财务规则丢给大模型,通过 Prompt 定位调整,化身'财务规则理解助手'。大模型抓取审核点后放入规则库,实现从纸面规则到生产环境的 100% 自动化。这标志着'财务规则数字化管理'迈出了重要一步。
- 规则管理的演变:未来完全基于大模型管理规则,不再依赖 Word、Excel 文档或传统规则引擎。财务规则的任何调整,人与系统直接联动。配合全量高准确率数据结构化,可实现无人工参与的智能审核、记账和分析。
- 人机协同发展:大模型具备客观的世界常识。例如调整差旅住宿标准时,大模型可提供基于行业数据的建议(如某城市标准是否合理),其建议往往比人工调研更客观。这实现了个体控制与全盘追踪的结合。
5. 大模型实践中的三大关键点
在大模型实践中,总结出的三大关键点对于成功落地至关重要。
5.1 全面的数据结构化积累
全面的数据结构化积累非常、非常重要,这是大模型落地的关键。能够在一夕之间取得突破,源于数年众包补录数据的沉淀、规则数据的沉淀,甚至包括将所有见过的票据样式脱敏留底。这些沉淀为技术层的爆发提供了炽热动能。没有高质量的历史数据,大模型很难在垂直领域发挥作用。
5.2 数据适应大模型与明确目的
训练的核心点是让数据适应大模型,并让大模型具有清晰的应用目的。很少有企业能自研成功的大模型,最好让自己的数据去匹配成熟的大模型,顺应其训练逻辑。将众包补录数据以对话形式提供给大模型,是应用大模型取得成果的捷径之一。同时,必须坚定训练大模型的目的,通过各种方法让大模型明白它要做什么,这是研发团队最重要的工作。
5.3 抛弃定制 AI 模型的旧思路
应抛弃曾经定制 AI 模型的思路,否则大模型的能力难以全面释放。有时会不自觉沿用老思路,比如试图把财务规则的意思直接标注出来让它去理解,结果越来越混乱。相反,依靠对语料的意义分析,大模型反而一点点掌握了如何理解财务规则。过去的 AI 模型常按人怎么想的训练机器,现在不适用了。把基础知识给它,它反而越来越像人。这种认知转变是释放大模型潜力的关键。
6. 结语
大模型在智能财务领域的应用正处于从探索走向深水区的关键阶段。虽然目前在管理驾驶舱、业财一体等深层场景仍面临挑战,但在提单、审单、规则理解等高频场景已展现出巨大潜力。企业应重视数据资产的积累,采用适配大模型特性的训练策略,逐步实现财务全流程的智能化升级。随着技术的进步,大模型将成为财务数字化转型的核心驱动力,推动财务职能从核算型向价值创造型转变。