各行业垂直领域 AI 大模型资源汇总
汇总了医疗、法律、金融、教育等 12 个垂直领域的 AI 大模型资源。内容涵盖 DoctorGLM、HuatuoGPT、ChatLaw、FinGPT 等知名开源项目,介绍了各模型的技术特点、应用场景及开源地址。同时列出了 PromptCBLUE、LEXTREME、FinEval 等权威评测基准。文章旨在为开发者提供全面的行业大模型选型参考,强调根据业务需求、数据隐私及模型性能指标进行评估的重要性。

汇总了医疗、法律、金融、教育等 12 个垂直领域的 AI 大模型资源。内容涵盖 DoctorGLM、HuatuoGPT、ChatLaw、FinGPT 等知名开源项目,介绍了各模型的技术特点、应用场景及开源地址。同时列出了 PromptCBLUE、LEXTREME、FinEval 等权威评测基准。文章旨在为开发者提供全面的行业大模型选型参考,强调根据业务需求、数据隐私及模型性能指标进行评估的重要性。

垂直领域大语言模型(Vertical LLMs)是指针对特定行业或场景进行预训练或指令微调的模型。相比通用模型,它们在专业术语理解、任务执行精度及合规性方面表现更优。以下整理了医疗、法律、金融、教育等关键领域的开源模型及评测基准。
基于 ChatGLM-6B 的卓越中文问诊模型,融合海量中文医疗对话数据集进行精准微调,采用 LoRA、P-tuningv2 等技术实现高效部署。 项目地址:https://github.com/xionghonglin/DoctorGLM 论文地址:https://arxiv.org/abs/2304.01097
开源多款经过中文医学指令微调的大语言模型,涵盖 LLaMA、Alpaca-Chinese、Bloom 等,以医学知识图谱和文献为基础,结合 ChatGPT API 打造,提升医疗问答准确性。 项目地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese 论文地址:https://arxiv.org/abs/2304.06975
基于中文医学指令微调,对 ChatGLM-6B 深度优化,微调数据与 BenTsao 一脉相承,确保医疗领域卓越表现。 项目地址:https://github.com/SCIR-HI/Med-ChatGLM
推出生活空间健康大模型,整合开源中文医疗问答数据集及自建健康对话大数据,构建千万级 BianQueCorpus,基于 ChatGLM-6B 初始化。 项目地址:https://github.com/scutcyr/BianQue
推出医疗大模型 HuatuoGPT,包含基于 Baichuan-7B 训练的 HuatuoGPT-7B 与基于 Ziya-LLaMA-13B-Pretrain-v1 的 HuatuoGPT-13B,提供全方位医疗智能服务。 项目地址:https://github.com/FreedomIntelligence/HuatuoGPT 论文地址:https://arxiv.org/abs/2305.15075
运用启真医学知识库构建中文医学指令数据集,在 Chinese-LLaMA-Plus-7B、CaMA-13B、ChatGLM-6B 等模型上调整指令,提升中文医疗环境实用效果。 项目地址:https://github.com/CMKRG/QiZhenGPT
发布中文医疗大模型 ChatMed-Consult,以超过 50 万条中文医疗在线问诊数据及 ChatGPT 回复为训练基石,基于 LlaMA-7b 通过 LoRA 技术微调。 项目地址:https://github.com/michael-wzhu/ChatMed
推出中文中医药领域模型,以中医药知识图谱为基础,运用实体为核心的自指令方法生成 2.6 万 + 中医药指令数据集,基于 LlaMA 底座借助 LoRA 微调。 项目地址:https://github.com/michael-wzhu/ShenNong-TCM-LLM
开创中文多模态医学数据集与模型先河,尤其在医学影像诊断与多轮交互对话中展现卓越潜能。 项目地址:https://github.com/WangRongsheng/XrayGLM
集成增量预训练、有监督微调、RLHF 和 DPO 等前沿技术,提供标准化医疗大模型服务。 项目地址:https://github.com/shibing624/MedicalGPT
以 baichuan-7B 和 ChatGLM-6B 为底座,在数十万条高质量中文医疗数据中微调。 项目地址:https://github.com/thomas-yanxin/Sunsimiao
汇集数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型,助力医疗 LLM 发展。 项目地址:https://github.com/itsharex/CareLlama
复旦大学发布,针对医疗健康对话式场景设计,通过 DISC-Med-SFT 数据集在 Baichuan-13B-Base 基础上微调,匹配人类偏好。 项目地址:https://github.com/FudanDISC/DISC-MedLLM 论文地址:https://arxiv.org/abs/2308.14346
公开前沿医疗大模型,包含 MedLLaMA_13B 预训练版本与 PMC_LLaMA_13B 指令微调版本。 项目地址:https://github.com/chaoyi-wu/PMC-LLaMA 论文地址:https://arxiv.org/abs/2304.14454
基于 LLaMA 训练的医疗大模型,开源特性便于社区探索医疗科技。 项目地址:https://github.com/Kent0n-Li/ChatDoctor 论文地址:https://arxiv.org/abs/2303.14070
基于 bloomz-7b 指令微调而成的医疗大模型,在医疗问答、智能问诊等方面性能卓越。 项目地址:https://github.com/189569400/MedicalGPT-zh
经过高质量医学问答数据监督微调和人类反馈强化学习训练,展现出色智能医疗处理能力。 项目地址:https://github.com/WangRongsheng/IvyGPT
开源中文医疗大模型,采用约 400 万个中文医学与通用领域指令微调数据进行优化,支持健康教育、医师考试、报告解读等任务。 项目地址:https://github.com/openmedlab/PULSE
中医大模型,融合中医教材、网站数据与 Ziya-LLaMA-13B-V1 基座,通过海量中医古籍指令对话数据微调。 项目地址:https://github.com/Zlasejd/HuangDI
旨在传承中医精髓与现代技术相结合,为医学领域提供可信赖工具。 项目地址:https://github.com/pariskang/CMLM-ZhongJing
实现中医临床辅助诊疗及中医药知识问答,发布 TCMLLM-PR 处方推荐大模型,整合真实病历、典籍与教科书数据。 项目地址:https://github.com/2020MEAI/TCMLLM
致力于开源多模态生物医学大模型,涵盖 BioMedGPT、DrugFM、MolFM 及 CellLM 等。 项目地址:https://github.com/PharMolix/OpenBioMed 论文地址:https://arxiv.org/abs/2308.09442
PromptCBLUE: 针对中文医疗场景的评测基准,将 16 种 NLP 任务转化为基于提示的语言生成任务。 项目地址:https://github.com/michael-wzhu/PromptCBLUE 论文地址:https://arxiv.org/abs/2308.04823
CMB: 综合性中文医疗模型评估基准,涵盖 CMB-Exam 选择题及 CMB-Clin 复杂临床诊断问题。 论文地址:https://arxiv.org/abs/2308.08833 项目地址:https://github.com/FreedomIntelligence/CMB
开源中文心理健康支持对话大模型与数据集,基于 ChatGLM-6B LoRA 16-bit 指令微调,构建 56k 个多轮对话数据集。 项目地址:https://github.com/qiuhuachuan/smile
源于 ChatGLM-6B,经过百万规模心理咨询领域长文本指令与多轮共情对话数据微调。 项目地址:https://github.com/scutcyr/SoulChat
开源心理大模型,清洗约 20 万条高质量多轮心理对话数据,涵盖工作、家庭、学习等多个层面。 项目地址:https://github.com/X-D-Lab/MindChat
儿童情感陪伴大模型,融合通用域人机对话及专为儿童设计的情感陪伴对话数据。 项目地址:https://github.com/HIT-SCIR-SC/QiaoBan
源自 ChatGLM-6B 与 LoRA 16-bit 指令融合,利用 self-Instruct 技术构建高质量法律文本问答数据。 项目地址:https://github.com/LiuHC0428/LAW-GPT
在通用中文基座模型基础上增添法律专有词表和大规模语料,结合司法考试数据集指令精调。 项目地址:https://github.com/pengxiao-song/LaWGPT
以 ChatGLM-6B 为架构基础,经过法律领域数据微调,展现卓越法律咨询性能。 项目地址:https://github.com/CSHaitao/LexiLaw
开源法律领域指令微调数据和基于 LLaMA 训练的中文法律大模型,搜集国家统一法律职业资格考试客观题分析数据。 项目地址:https://github.com/AndrewZhe/lawyer-llama 论文地址:https://arxiv.org/abs/2305.15062
国内首个全参数训练的法律大模型,参数量 7b,涵盖法律问答、多轮对话、文章撰写等。 项目地址:https://github.com/siat-nlp/HanFei
北京大学开源系列,依托海量法律新闻、法条、判决文书等原始文本,构建丰富对话数据。 项目地址:https://github.com/PKU-YuanGroup/ChatLaw 论文地址:https://arxiv.org/abs/2306.16092
基于 GLM-10B 模型的中文司法领域大模型,经过 30GB 中文法律数据指令微调。 项目地址:https://github.com/davidpig/lychee_law
浙江大学、阿里巴巴达摩院及华院计算打造,基于 Baichuan-7B 深度预训练与指令微调,设计知识增强推理流程。 项目地址:https://github.com/zhihaiLLM/wisdomInterrogatory
基于丰富中文法学语料库训练,包括 AI Judge 判决预测模型和 AI Lawyer 咨询模型。 项目地址:https://github.com/seudl/JurisLMs
以 ChatGLM 为基石,构建中文司法大模型,涵盖法条检索、案例分析、三段论推理等。 项目地址:https://github.com/irlab-sdu/fuzi.mingcha
LEXTREME: 多语言法律评测基准,覆盖 24 种语言,11 个评测数据集。 项目地址:https://github.com/JoelNiklaus/LEXTREME 论文地址:https://arxiv.org/abs/2301.13126
LexGLUE: 专注于英文法律评测,获得业界广泛认可。 项目地址:https://github.com/coastalcph/lex-glue 论文地址:https://arxiv.org/abs/2110.00976
开源中文金融领域语料库 BBT-FinCorpus,推出知识增强型大模型 BBT-FinT5 及评测基准 CFLEB。 论文地址:https://arxiv.org/abs/2302.09432 项目地址:https://github.com/ssymmetry/BBT-FinCUGE-Applications
挖掘公开和爬取的中文金融领域问答数据,构建指令数据集,对 LLaMA 系模型进行指令微调。 项目地址:https://github.com/jerry1993-tech/Cornucopia-LLaMA-Fin-Chinese
国内首个开源千亿级中文对话大模型,针对中文金融领域深度优化,基于 BLOOM-176B 预训练与微调。 项目地址:https://github.com/Duxiaoman-DI/XuanYuan 论文地址:https://arxiv.org/abs/2305.12002
公开金融领域指令微调数据集 FIT,以及大型模型 FinMA 与评估基准 FLARE。 项目地址:https://github.com/chancefocus/PIXIU 论文地址:https://arxiv.org/abs/2306.05443
贡献多个金融领域大模型,涵盖 ChatGLM2-6B+LoRA 和 LLaMA2-7B+LoRA,汇集金融新闻、财报等多维度数据。 项目地址:https://github.com/AI4Finance-Foundation/FinGPT 论文地址:https://arxiv.org/abs/2306.06031
倾力打造金融大模型 FLANG,为金融行业智能化发展添翼。 项目地址:https://github.com/SALT-NLP/FLANG 论文地址:https://arxiv.org/abs/2211.00083
专注金融知识的评测基准,汇聚 4,661 道高质量多项选择题,覆盖 34 个学术科目。 项目地址:https://github.com/SUFE-AIFLM-Lab/FinEval 论文地址:https://arxiv.org/abs/2308.09975
FLARE: 专为金融领域打造的评测基准,涵盖金融知识理解和预测等任务。 项目地址:https://github.com/chancefocus/PIXIU 论文地址:https://arxiv.org/abs/2306.05443
CFLEB: 面向中文金融领域的评测基准,包含语言生成与理解的多项任务。 项目地址:https://github.com/ssymmetry/BBT-FinCUGE-Applications 论文地址:https://arxiv.org/abs/2302.09432
FLUE: 金融评测基准新星,汇集 5 个金融领域数据集。 项目地址:https://github.com/SALT-NLP/FLANG 论文地址:https://arxiv.org/abs/2211.00083
引领国际中文教育潮流,汇集 500 余册教材教辅、HSK 试题等资源,构建 88000 条高质量问答数据集。 项目地址:https://github.com/blcuicall/taoli
在教育垂直领域展现卓越对话能力,融合多样化教育资源,服务于教师、学生和家长。 项目地址:https://github.com/icalk-nlp/EduChat 论文地址:https://arxiv.org/abs/2308.02773
展示中文自媒体领域新锐力量,在大规模自媒体语料上进行预训练,应用于抖音运营、短视频创作等领域。 项目地址:https://github.com/IMOSR/MediaGPT
推出的电商大模型,基于 BLOOMZ 在电商领域的指令微调数据集,在多个电商评测数据集上表现优异。 项目地址:https://github.com/Alibaba-NLP/EcomGPT 论文地址:https://arxiv.org/abs/2308.06966
多领域大模型,凭借百万级高质量领域数据和上百种自然语言指令任务,为媒体宣传、舆情分析等提供解决方案。 项目地址:https://github.com/wenge-research/YaYi
依托司天工程丰富语料与知识库,破解大语言模型在天文知识及前沿变星领域挑战。 项目详情:https://github.com/Yu-Yang-Li/StarGLM
地球科学大模型,灵感源于 LLaMA,融合地球科学文献与维基百科,在 GeoSignal 数据集滋养下微调。 项目链接:https://github.com/davendw49/k2 相关论文:https://arxiv.org/abs/2306.05064
GeoGLUE: 地理语义理解评测基准,由阿里巴巴达摩院与高德推出,涵盖地图搜索、物流等核心场景。 项目详情:https://modelscope.cn/datasets/damo/GeoGLUE/summary 相关论文:https://arxiv.org/abs/2305.06545
交通领域明星大模型,深植于真实交通行业,实现交通情况预测、智能咨询助手、自动驾驶辅助等功能。 项目链接:https://github.com/DUOMO/TransGPT
网络安全大模型,具备分析恶意代码、检测网络攻击、预测安全漏洞等能力。 项目链接:https://github.com/ddzipp/AutoAudit
科研领域巨星模型,专注于计算机科学、材料、机械等十余种专业领域,集成术语抽取、命名实体识别等功能。 项目地址:https://github.com/neukg/TechGPT
开源科技论文大模型,专为科技文献问答和情感分析设计。 项目地址:https://github.com/gmftbyGMFTBY/science-llm 论文地址:https://github.com/gmftbyGMFTBY/science-llm/blob/main/asset/mozi_technical_report.pdf
本文汇总了当前主流垂直领域模型与评测基准,涵盖 12 个领域,57 个领域微调模型及配套评测数据集。开发者在选择时应结合具体业务场景、数据隐私要求及模型性能指标进行评估。建议优先参考权威评测基准结果,并关注社区活跃度与更新频率,以确保技术选型的长期可行性。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online