【大模型科普】AIGC技术发展与应用实践(一文读懂AIGC)

【大模型科普】AIGC技术发展与应用实践(一文读懂AIGC)

【作者主页】Francek Chen
【专栏介绍】 ⌈ ⌈ ⌈人工智能与大模型应用 ⌋ ⌋ ⌋ 人工智能(AI)通过算法模拟人类智能,利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络(如ChatGPT),经海量数据训练后能完成文本生成、图像创作等复杂任务,显著提升效率,但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合,未来需平衡技术创新与伦理风险,推动可持续发展。

文章目录


一、AIGC概述

(一)什么是AIGC

AIGC,即“Artificial Intelligence Generated Content”,中文译为“人工智能生成内容”,是一种极具创新性的创作方式。它借助人工智能技术,能够生成文字、音乐、图像、视频等丰富多样的内容形式,标志着人工智能步入了全新的发展阶段。

AIGC的核心技术涵盖生成对抗网络(GAN,Generative Adversarial Networks)、大型预训练模型以及多模态技术等。其核心思想在于运用人工智能算法,生成兼具创意与质量的内容。通过对模型进行训练,并让其学习海量数据,AIGC能够依据输入的条件或指导,生成与之紧密相关的内容。比如,只需输入关键词、描述或样本,它就能创作出与之匹配的文章、图像、音频等。

AIGC技术的优势显著,它不仅能大幅提升内容生产的效率与质量,还能为创作者提供源源不断的灵感与有力支持。在文学创作、艺术设计、游戏开发等领域,AIGC可以自动创作出高质量的文本、图像和音频等内容,减轻创作者的负担。此外,它还能广泛应用于媒体、教育、娱乐、营销、科研等多个领域,为用户提供高质量、高效率且极具个性化的内容服务,推动各行业的创新与发展。

(二)AIGC与大模型的关系

大模型与AIGC之间的关系可以说是相辅相成、相互促进的。大模型为AIGC提供了强大的技术基础和支撑,而AIGC则进一步推动了大模型的发展和应用,具体如下:

  1. 大模型为AIGC提供了丰富的数据资源和强大的计算能力
  2. AIGC的需求也推动了大模型的发展
  3. 大模型和AIGC的结合,也带来了广泛的应用前景

(三)常见的AIGC应用场景

AIGC可以应用于各行各业,主要包括但不限于生成文字、图像、音频、视频等,具体如下:

表1 常见的AIGC应用场景

应用场景描述
电商生成商品标题、描述、广告文案和广告图。
办公写周报日报,写方案,写运营活动,制作PPT,写读后感,写代码。
游戏生成场景原画,生成角色形象,生成世界观,生成数值,生成3D模型,生成NPC对话,音效生成。
娱乐头像生成,照片修复,图像生成,音乐生成。
影视生成分镜头脚本,生成剧本脚本,台词润色,生成推广宣传物料,音乐生成。
动漫原画绘制,动画生成,分镜生成,音乐生成。
艺术写诗,写小说,生成艺术创作品,草图生成,艺术风格转换,音乐创作。
教育批改试卷,试卷创建,搜题答题,课程设计,课程总结,虚拟讲师。
设计UI设计,美术设计,插画设计,建筑设计。
媒体软文撰写,大纲提炼,热点撰写。
生活制定学习计划,做旅游规划。

(四)AIGC技术对行业发展的影响

AIGC技术对行业发展的影响广泛而深远,在多个维度上重塑着产业格局。主要体现在以下几个方面:

  • 内容创作领域的革新:AIGC带来了颠覆性革新。它能够自动生成高质量的文本、图像、音频和视频等内容,极大提升了创作效率。在新闻、广告、自媒体等行业,AIGC已得到广泛应用,助力创作者快速产出多样化、个性化的内容,精准契合市场需求。这一技术革新不仅降低了内容创作成本,更激发了创作者的创新灵感,为内容产业的蓬勃发展注入强大动力。
  • 生产力提升与成本降低:AIGC技术在多行业展现出巨大潜力。在游戏开发领域,它可用于场景构建、角色互动等环节,减少人工制作工作量,显著提高开发效率;在制造业中,AIGC技术能辅助设计、优化生产流程,有效降低生产成本。这些应用使企业能更迅速地响应市场变化,在激烈竞争中脱颖而出。
  • 用户体验的升级:AIGC技术实现了显著升级。在智能客服、在线教育等领域,它能依据用户需求和偏好提供精准服务,满足个性化需求。这种以用户为中心的服务模式,增强了用户的满意度和忠诚度,为企业创造了更多商业机会。
  • 推动行业创新与转型:AIGC为传统行业带来了转型升级的契机,通过与AIGC技术深度融合,传统行业可探索新的商业模式和服务模式。在零售业,AIGC技术可用于智能推荐、虚拟试衣等场景,提升购物体验,促进销售增长;在金融领域,它能应用于投资策略优化、风险管理等方面,提高金融机构的决策效率和准确性。

(五)AIGC技术对职业发展的影响

AIGC技术对职业发展产生了深远的影响,主要体现在以下几个方面:

  • 新兴职业的出现:随着AIGC技术迅猛发展,与之紧密相关的AI训练师、机器学习工程师、数据标注员等职业需求呈爆发式增长。这些新兴职业不仅要求从业者拥有坚实的技术功底,还需持续学习、紧跟AIGC技术的最新动态,方能在行业中立足。
  • 传统职业的转型升级:AIGC技术也为传统职业的转型升级提供了契机。在AIGC技术的助力下,编辑、设计师、教师等传统职业的工作效率和创作质量大幅提升。不过,这也促使从业者必须积极适应技术变革,掌握新的技能和工具,以契合市场需求的动态变化。
  • 工作方式的变革:工作方式发生显著变革。AIGC技术让远程工作、灵活办公成为现实,众多企业借助该技术优化工作流程,降低人力成本,提升工作效率。这一变革既为员工提供了更灵活的工作模式,也为企业创造了更大的经济效益。
  • 职业发展路径的多样化:职业发展路径更加多元化。AIGC技术的发展为从业者提供了更多选择,他们可依据自身兴趣和特长,规划适合自己的职业方向。比如,对AI技术感兴趣的从业者可投身AI训练师或机器学习工程师岗位,而具备创意和设计才能的从业者则能借助AIGC技术提升创作能力。
  • 持续学习与技能提升:面对AIGC技术的快速迭代,从业者需不断学习、提升技能。通过参加培训、阅读专业书籍、参与技术论坛等途径,他们才能紧跟技术前沿,在激烈的竞争中保持优势。

(六)常见的AIGC大模型工具

常见的AIGC大模型工具琳琅满目,如OpenAI的ChatGPT、DeepSeek、科大讯飞的讯飞星火、阿里的通义千问、百度文心一言、字节跳动豆包以及Kimi等。它们皆以大规模语言模型技术为基石,拥有文本生成、语言理解、知识问答、逻辑推理等多元能力。无论是写作辅助、内容创作,还是智能客服等领域,这些工具都能大显身手。而且,它们持续迭代优化,紧跟时代步伐,不断打磨自身性能,致力于为用户提供更为智能、高效的内容生成解决方案,助力各行业实现高效创新发展。

(七)AIGC大模型的提示词

AIGC大模型的提示词(Prompt)是指用户向大模型输入的文本内容,用于触发大模型的响应并指导其如何生成或回应。这些提示词可以是一个问题、一段描述、一个指令,甚至是一个带有详细参数的文字描述。它们为大模型提供了生成对应文本、图片、音频、视频等内容的基础信息和指导方向。

提示词的重要作用如下:引导生成、提高准确性、增强交互性。

使用提示词需要注意一些技巧,这样可以从大模型获得更加符合我们预期要求的结果,主要技巧如下:简洁明确、考虑受众、分解复杂任务、使用肯定性指令、示例驱动、明确角色、遵守规则、自然语言回答。

二、文本类AIGC应用实践

(一)案例1:与DeepSeek进行对话

1. 快速体验DeepSeek

访问DeepSeek官网(https://chat.deepseek.com/),会出现如图1所示对话界面,在提示词输入框的底部,有两个按钮,即“深度思考(R1)”和“联网搜索”,可以用鼠标点击来选中或取消,默认情况下,“深度思考(R1)”按钮是处于选中状态,“联网搜索”则处于未选中状态。两个按钮的功能如下:

  • 深度思考(R1):表示触发更复杂的多步推理能力,适合需要逻辑链分析的场景,典型使用场景包括数学题/物理题推导、文学作品的隐喻分析、编程问题的架构设计、需要分步骤解释的操作指南等。
  • 联网搜索:表示实时获取最新网络信息,适合时效性强的查询,典型使用场景包括查询实时股价/汇率、验证最新科研成果、获取突发事件进展、检索特定网页内容等。
在这里插入图片描述

图1 DeepSeek对话界面

在提示词输入框中输入“请模仿李白的《望庐山瀑布》做一首诗,题目是《望连云港花果山》”,然后回车,或者用鼠标点击提示词输入框右侧的箭头按钮,向DeepSeek发起提问。DeepSeek给出的回答如图2所示,需要注意的是,大模型属于概率模型,每次生成的回答内容可能不完全相同。

在这里插入图片描述

图2 DeepSeek生成《望连云港花果山》

2. DeepSeek的基本用法

(1)基本原则:简单直接,自然表达。
① 无需复杂结构。直接描述需求即可,无需添加“角色扮演”(如“假设你是专家”)或复杂指令(如“用学术语言分三点回答”)。比如,你可以直接向DeepSeek提问“什么是光合作用?”、“如何用Python写一个计算器程序?”,而不建议使用提示词“请以生物学教授的身份,用三个段落解释光合作用,每段不超过100字”。
② 多轮对话优化结果。如果首次回答不完整,可通过追问补充细节,无需一次性给出完美提示。比如,第一轮提问“写一首关于秋天的诗”,第二轮提问“加入一些悲伤的情绪”,第三轮提问“把‘落叶’换成比喻句”。

(2)不同场景的提问技巧(非必需,但可提升效率)。虽然简单提问即可满足大多数需求,但在复杂任务中,适当提供背景信息或明确需求会让结果更精准,具体技巧包括:
① 知识类问题。比如,基础提问是“量子力学的基本原理是什么?”,优化后的提问是“用通俗易懂的语言解释量子纠缠,适合高中生理解”。
② 创作类任务(写作、编程等)。比如,基础提问是“写一个关于人工智能的科幻短篇故事”,优化后的提问是“写一个反乌托邦主题的科幻故事,主角是女性工程师,结局有反转”。
③ 实用建议(学习、工作等)。比如,基础提问是“如何提高英语听力?”,优化后的提问是“我每天只有30分钟学习时间,有哪些高效的英语听力练习方法?”。
④ 复杂任务(数据分析、代码调试)。比如,基础提问是“这段Python代码报错了,帮我看看问题”,优化后的提问是“我的代码目标是爬取网页数据,但遇到SSL证书错误。报错信息如下:[粘贴代码]”。

作为初学者,DeepSeek的一些“魔法”指令也很有用,比如,你可以输入“/步骤 如何用手机拍摄旅游照片”,DeepSeek返回的回答结果就会按照步骤详细给出拍摄旅游照片的说明,再比如,你可以输入“请解释量子计算,然后/简化”,它就会返回比较简明扼要的回答。

表2 DeepSeek的"魔法"指令

指令功能
/续写当回答中断时⾃动继续⽣成
/简化将复杂内容转换成⼤⽩话
/⽰例要求展示实际案例(特别是写代码时)
/步骤让AI分步骤指导操作流程
/检查帮你发现⽂档中的错误

3. 使用DeepSeek处理文档

点击DeepSeek界面中的「回形针」图标上传⽂件,支持的文件类型包括文本类(PDF、DOCX、TXT、Markdown)、数据类(CSV、XLSX)和图像类(JPG、PNG)。然后,就可以在对话框中输入提示词,比如,可以输入“总结这份年报的三个核⼼要点”、“提取合同中的责任条款制成表格”、“对⽐⽂档A和⽂档B的市场策略差异”、“从实验报告中整理所有温度数据”、“请识别图片中的文字”等。也可以使用一些指令来处理文档,如表3所示。

表3 用于文档处理的DeepSeek指令

功能指令模板应用场景
内容摘要/总结 [文件名] 生成500字摘要快速把握长篇文档核心内容
问答提取/问答 [文件名] 第三章提到的技术参数是?精准定位特定信息
数据可视化/可视化 [文件名] 将销售数据生成折线图转化表格数据为图形分析
跨文档对比/对比 文件A vs 文件B 的政策差异合同/论文查重对比

还可以要求DeepSeek对回答结果进行结构化输出,比如,可以输入如下提示词:

/解析文件 年度报告.docx 输出要求: (1)按"营收/利润/成本"分类 (2)用Markdown表格对比近三年数据 (3)关键增长点用✅标注 

(二)案例2:与百度文心一言进行对话

1. 告诉文心一言你要的风格

访问文心一言官网(https://yiyan.baidu.com/),在输入提示词时,明确指定你希望生成的文本内容的风格。这样,文心一言在理解并处理你的请求时,会更有针对性地调整其生成内容的风格,以满足你的具体需求。比如,可以使用提示词:

请按照要求写一篇200字左右关于云计算的介绍。注意事项:文章的受众是中学生,需要通俗易懂,语言风格需要幽默、风趣一些 

想要生成不同语气风格的文字,可以在问题描述中加入你想要的语气风格作为限定条件,提示文心一言按照你的要求去输出。比如,如果你需要正式语气,可以在提示词中加入“请采用正式的词汇和语法结构,使内容显得庄重、严肃和专业”;如果你需要抒情语气,请在提示词中加入“请使用富有感情和表达感情的词汇,使内容产生共鸣和情绪共振”;如果你需要口语化语气,请在提示词中加入“请运用口语化的表达方式,例如俚语、俗语和口头禅,使内容更加轻松和亲切”。

2. 告诉文心一言你要的结构

在构建提示词时,应明确指定期望的输出结构。比如,如果是要求生成一篇文章,可以在提示词中明确指出“请按照引言-正文-结论的结构来撰写”。这样,文心一言在生成内容时,会遵循这一结构框架,使得输出更加条理清晰、逻辑严密。再比如,如果要撰写给上级领导的方案、报告、总结时,可以使用提示词:

请按照【现状/问题/解决方案,数据洞察/问题概览/调研方向,数据/亮点/问题/经验】这个结构撰写一份关于我国芯片行业的总结报告 

3. 告诉文心一言你要的角色

在提示词中可以设定具体的角色或视角。例如,在要求创作故事时,可以明确指定“以一位勇敢探险家的视角讲述这段经历”。这样的提示能引导文心一言在生成内容时,从特定角色的角度出发,赋予文本独特的情感色彩和叙事风格。此技巧有助于增强生成内容的代入感和故事性,使内容更加丰富和引人入胜。下面是一段提示词实例:

请你作为一个小红书文案撰写高手,为我生成一篇爆款小红书文案,要求:突出酒店的特色,包括海景房、豪华单间、最新装修、免费早餐、无线上网等 

下面是另一段提示词实例:

我希望你能扮演记者的角色,按照我的要求撰写一份新闻调查,要求:调查油罐车不清洗直接运送食用油的事情,不要出现具体企业名称,要给出政府部门的处理态度 

4. 告诉文心一言你的内容要求

可以通过详细具体的提示词明确表达内容要求。无论是希望生成的文章主题、关键词汇,还是期望涵盖的信息点、情感倾向,都应在提示词中清晰呈现。这样做能让文心一言更准确地理解用户需求,生成更符合期望的内容。比如,可以通过如下提示词表达自己的内容要求:

在6G专利申请方面,中国已经遥遥领先。2021年的数据显示,中国的6G专利申请量占比高达40.3%,稳坐世界第一的宝座。 请把上面的数据更新到目前最新的数据 

如果对输出的内容有比较多的要求或限制,不妨在输入框中将这些内容要求一条一条明确告诉文心一言,比如,可以采用类似如下的提示词:

请以小红书的风格,按照以下要求帮我为“海景美食餐厅”写一篇小红书种草文案; 内容要求: (1)要有标题、正文 (2)标题字数:不超过20个字;尽量简短精炼,要足够吸引眼球,用词浮夸 (3)正文分段,层次分明,每段最少100字 (4)要用“首先、其次、最后”这种模式 (5)整篇文案不要超过1000个字 

5. 告诉文心一言你想写的文体

明确指定文体,如散文、小说、诗歌、科技文等,让大模型理解并模拟该文体的语言特点、结构安排和表达习惯,从而输出更具针对性的文本。比如,可以采用提示词“请写一段[中秋赏月]的朋友圈文案,需要采用藏头诗的形式”。

在这里插入图片描述

图3 文心一言生成[中秋赏月]藏头诗

6. 指导文心一言分步解决问题

将复杂问题拆解成多个简单、具体的步骤,作为提示词输入给文心一言。这样不仅能降低问题的处理难度,使文心一言更容易理解和响应,还能确保解决问题的过程更加系统、有条理。通过逐步引导,可以逐步逼近问题的解决方案,提高答案的准确性和实用性。比如,如果想让文心一言帮你制定一份旅行规划,可以使用类似如下的提示词:

请为我规划一次为期一周的连云港自由行; (1)第1步:列出必去的景点,如江苏海洋大学、花果山、连岛景区、云台山、桃花涧风景区、海州古城; (2)第2步:根据景点位置安排每日行程,确保交通便利; (3)第3步:推荐几家当地的特色餐厅,包括早餐、午餐和晚餐; (4)第4步:提供一家性价比高的酒店住宿建议,并考虑其位置是否便于游览。 

7. 告诉文心一言你要的示例

明确沟通意图,通过具体示例引导大模型理解你的需求。这有助于文心一言更准确地捕捉你的思维框架和期望结果,减少误解。比如,可以使用类似如下的提示词:

我是一位高校学生,请帮我写一份实习周报,内容尽量简洁精炼,下面是我本周的实习内容: (1)完成了3个项目书的修改 (2)撰写了一篇博客“AIGC应用与实践” 输出要求示例: 【本周实习周报】 【本周实习进展】本周做了哪些事,产生了哪些结果 【下周实习安排】基于本周的结果下周要推进哪些事 【思考总结】简要说说本周的收获和反思 

8. 告诉文心一言你要的场景

在输入提示词时,应明确描述所需的上下文或环境背景,如“在科幻电影中描述一个未来城市的景象”或“请撰写一封给朋友的生日祝福信,场景设定在海边日落时”。这样做有助于文心一言更好地理解你的需求,生成更符合场景氛围和情境的内容,从而提升输出内容的贴切性和情感共鸣。

在这里插入图片描述

图4 文心一言描述未来城市

(三)案例3:使用讯飞智文生成PPT

讯飞智文是科大讯飞公司旗下的AI一键生成PPT/WORD的网站平台,是基于科大讯飞星火认知大模型技术基础上开发的一个具体应用,主要功能有文档一键生成、AI 撰写助手、多语种文档生成、AI自动配图、模板图示切换功能。这里介绍如何使用讯飞智文快速生成PPT。

请首先准备一个包含文本内容的PDF文件,比如,可以从网络新闻报道中复制一段关于2024年7月19日微软蓝屏事件的内容保存到一个WORD文档中,命名为“微软蓝屏.docx”,然后,使用WPS软件打开“微软蓝屏.docx”,把该WORD文档保存成PDF格式,生成“微软蓝屏.pdf”。

访问讯飞智文官网(https://zhiwen.xfyun.cn/),在首页(如图5所示)中点击“免费使用”,然后按照网页提示完成注册(推荐使用手机号注册)。

在这里插入图片描述

图5 讯飞智文官网

在页面中(如图6所示)选择AI PPT的“文档创建”。然后,在出现的页面中(如图7所示),点击“点击上传”,把本地文件“微软蓝屏.pdf”文件上传上去(当然,也可以上传“微软蓝屏.docx”)。

然后,在出现的页面中(如图8所示),点击“开始解析文档”。之后,页面会显示提示文字“好的,已收到您的要求,让我先为您生成PPT标题和大纲”。过一会儿,就会显示自动生成的PPT标题和大纲,如果你不满意,可以点击页面底部的“重新生成”,如果满意,可以直接点击“下一步”。

在这里插入图片描述

图6 选择AI PPT中的“文档创建”

在这里插入图片描述

图7 上传文件

在这里插入图片描述

图8 开始解析文档

在出现的页面中(如图9所示),选择你想要的模板配色,然后点击页面顶部的“开始生成”。经过一段时间以后,页面就会显示自动生成的PPT(如图10所示),点击页面右上角的“下载”,就可以把PPT保存到本地电脑中,然后,可以根据自己的需求,自己对PPT继续进行修改和完善。在本地电脑中打开自动生成的PPT,可以看出,AI制作PPT的水平非常专业,逻辑清晰,配图精美,超过了很多PPT初级者的制作水平,可以大大提高普通用户制作PPT的效率和水平。

在这里插入图片描述

图9 选择模板配色

在这里插入图片描述

图10 下载生成的PPT

三、图片类AIGC应用实践

(一)图片类AIGC应用场景

图片类AIGC是一种基于人工智能技术生成图片的方法,它利用深度学习、生成对抗网络(GAN)等先进算法,通过学习和模仿大量图像数据,能够自动创作出高度真实和艺术化的图片。AIGC在图像生成、修复、风格转换、艺术创作等领域展现出强大能力,为数字艺术、设计、游戏、电影等多个行业带来创新解决方案。其优势包括高效性、多样性和自动化,能够快速生成大量高质量的图像内容,满足各种复杂需求。

在这里插入图片描述

图11 AIGC作品图

图片类AIGC的应用场景非常广泛,‌主要包括图像生成、‌图像修复、‌图像增强和图像识别等方面:

  • 图像生成:AIGC‌能够生成高度逼真的图像,‌如人脸、‌动物、‌建筑物等。‌例如,‌OpenAI发布的DALL-E可以根据文本提示词创作出全新的、‌原创的图像,‌展示了AI在图像创作方面的强大能力。‌
  • 图像修复:AIGC还可以修复损坏的图像,‌如去除噪声、‌填充缺失的部分等。‌这项技术对于保护和恢复古老的艺术作品、‌修复损坏的照片等具有重要意义。
  • 图像增强:通过对图像进行增强处理,‌AIGC可以增加图像的饱满感和增强细节,‌使图像质量得到提升。‌这在提升照片的视觉效果、‌改善图像的清晰度和细节方面非常有用。
  • 图像识别:AIGC在图像识别方面也有广泛应用,‌可以识别图像中的对象、‌场景和特征,‌如人脸识别、‌车牌识别等。‌这项技术对于安防监控、‌智能搜索、‌自动驾驶等领域的发展至关重要。

(二)图片类AIGC案例实践

图片类AIGC大模型主要包括Midjourney、Stable Diffusion SDXL、百度文心一格等。这里以百度文心一格为例介绍图片类AIGC的使用方法。文心一格是一款由百度公司研发的AI绘画工具,‌为用户提供了丰富的创意空间。‌使用文心一格进行AI绘画的步骤包括注册账户、‌选择创作模式、输入提示词、设置画面类型、设置比例、设置数量以及生成图片等,具体如下:

  1. 注册账户:‌访问文心一格官网(https://yige.baidu.com/),‌点击“注册”按钮,‌完成注册过程。
  2. 选择创作模式:进入文心一格首页以后,‌点击“立即创作”。在出现的界面中,在界面左上角位置选择“AI创作”,可供选择的模式包括推荐、自定义、商品图、艺术字、海报,可以满足不同的创作需求。这里可以选择默认的模式“推荐”。
  3. 输入提示词:在提示词输入框中输入提示词,比如输入“请绘制一张图片,一个9岁的女孩子在海边沙滩上挖沙子”。
  4. 设置画面类型:可以选择智能推荐、唯美二次元、中国风等各种类型。
  5. 设置比例:可以选择竖图、方图、横图。
  6. 设置数量:设置想要生成的图片的数量,比如设置为1。
  7. 生成图片:点击“立即生成”,就可以生成相应的图片(如图所示)。图片生成以后,可以点击图片底部的“编辑本图片”,对图片进行编辑。
在这里插入图片描述

图12 文心一格操作界面

文心一格提供了丰富的AI编辑功能,可以对图片进行各种智能化处理,包括图片扩展、图片变高清、涂抹消除、智能抠图、涂抹编辑、图片叠加等。

在这里插入图片描述

图13 文心一格生成图片结果

四、语音类AIGC应用实践

语音类AIGC是一种利用人工智能技术(特别是语音识别、自然语言处理和语音合成技术),自动生成和处理语音内容的技术。它能够模拟人类语音,实现语音到文本的转换、文本到语音的合成,以及语音情感分析等功能,广泛应用于智能语音助手、智能客服、语音翻译等多个领域。

(一)语音类AIGC应用场景

语音类AIGC的应用场景非常丰富,涵盖了多个领域,从日常生活到专业应用,都展现出了其独特的价值和潜力,以下是一些主要的语音类AIGC应用场景:智能语音助手,智能客服,语音合成与转换,虚拟人物与数字人,语音翻译,语音分析与情感识别,智能驾驶舱与车载语音助手。

(二)语音类AIGC案例实践

豆包大模型的语音类功能用法

一般情况下,普通用户在手机上使用语音类AIGC大模型的场景比较多,因此,这里介绍手机版豆包的使用方法。

在智能手机上下载并安装“豆包APP”。启动进入豆包APP,会出现如图所示的对话界面,按住“语音按钮”(图中箭头指向的位置)不要松开,然后就可以对着手机说话,把自己的需求说出来,比如,可以说“请介绍一下苏州大学”,然后松开“语音按钮”,豆包就可以立即开始回答你提出的问题。豆包可以支持实时翻译,你可以语音输入“苏州大学的英文名称是什么”,豆包会马上给出翻译结果。

在这里插入图片描述

图14 豆包的对话界面

豆包不仅支持语音输入,也可以支持文字输入,只要在文字输入框内输入提示词,豆包就会给出回答。豆包也支持AI绘图功能,你可以用手指点击界面上的“图片生成”按钮,然后输入提示词,比如通过文字或者语音输入“请帮我绘制一张图片,一个9岁的小女孩在海边沙滩上玩沙子”,然后,豆包就会自动绘制生成满足你要求的图片。

在这里插入图片描述

图15 小女孩在海边沙滩上玩沙子

豆包还有一个很实用的功能,就是可以帮助你进行英语口语对话练习。在豆包的操作界面的底部,用手指点击“对话”,在出现的功能选择界面中,选择“英语口语聊天搭子”就可以进入英语口语聊天界面(如图16所示),按住界面右下角的“语音按钮”,就可以开始用英语语音聊天了,你说完一句英语,松开语音按钮,豆包就会自动用英语语音回答你,然后你可以继续输入语音进行后续对话。

在这里插入图片描述

图16 豆包的功能选择界面和英语口语聊天界面

五、视频类AIGC应用实践

视频类AIGC是指利用人工智能技术,特别是深度学习、机器学习等算法,自动创建或处理视频内容的技术。它能根据给定的文本、图像或其他数据,自动生成符合描述的视频内容,涵盖文生视频、图生视频、视频风格化、人物动态化等多个方向。这一技术在创意设计、影视制作等领域潜力巨大,极大地提升了视频内容的生产效率和质量。

(一)视频类AIGC应用场景

视频类AIGC在多个领域拥有广泛的应用场景,以下是一些主要的应用方向:

在这里插入图片描述

图17 视频类AIGC的应用场景

(二)代表性视频类AIGC大模型

视频类AIGC大模型发端于Sora。2024年2月,美国的Open AI发布了全球第一款文生视频大模型Sora(这里的“文生视频”是指由输入的文本内容生成相应的视频),迅速引起了业界的广泛关注和讨论,因其能够快速生成高质量的广告宣传视频及商品演示视频,从而大幅降低广告相关内容的制作成本及时间。我国的视频类AIGC大模型主要包括:

  • 可灵:由快手推出,被誉为中国版Sora,视频生成时长可达120秒,支持文生视频、图生视频、视频续写、镜头控制等功能,表现出色。
  • Vidu:生数科技联合清华大学发布,是中国首个长时长、高一致性、高动态性视频大模型,支持一键生成16秒高清视频,性能对标国际顶尖水平。
  • 书生·筑梦:由上海人工智能实验室研发,可生成分钟级视频,已用于央视AI动画片《千秋诗颂》的制作,具备中国元素和高清画质。

由于视频类AIGC大模型在使用时,会消耗大量的算力资源,使用成本很高,所以,目前国内的视频类AIGC大模型大多数没有免费开放给大众使用,即使是免费使用,也只能生成很短时间长度的视频。

(三)视频类AIGC案例实践

下面,我们使用通义万相2.1大模型演示文生视频的过程。

在这里插入图片描述

图18 通义万相官网主页

在页面左侧输入提示词。点击“生成视频”按钮,几分钟后在页面右侧生成视频。提示词如下:

视频以低角度仰拍开始,展现一名身穿银白色太空服的宇航员在月球表面行走的壮丽景象,四周是荒凉但神秘的月球地形,布满坑洞与崎岖不平的地貌。随着镜头缓慢推进,可以看到宇航员的手轻轻触摸到一颗悬浮在空中的星星,背景中,深邃的宇宙星河缓缓流转,星星闪烁,构成一幅令人惊叹的星际画卷。整个视频通过慢镜头和精心设计的镜头运动,营造出一种梦幻般的科幻氛围,引领观众一同踏上这场月球探索之旅。

在这里插入图片描述

图19 通义万相2.1文生视频

这样,视频就生成好了,我们可以点击“下载”图标,将视频另存到本地。

在这里插入图片描述

图20 通义万相2.1文生视频结果

六、AIGC在辅助编程中的应用

AIGC技术在辅助编程中的应用日益广泛,它能够自动生成高质量的代码,从而显著提高开发效率,主要包括以下几种应用场景:代码自动生成,代码优化与重构,代码补全与提示,代码风格统一。

能够提供辅助编程服务的AIGC大模型包括Codex、GitHub Copilot、CodeGeeX、aiXcoder、豆包、通义灵码等。这里以我国的字节跳动公司研发的豆包大模型为例介绍使用方法。

编程工作一般是在电脑上进行,所以这里使用电脑端的豆包大模型(手机端的豆包APP也提供了编程辅助功能)。

访问豆包大模型官网(https://www.doubao.com/),注册用户以后,进入大模型操作首页,点击“我的智能体”,再点击“编程助理”,然后,在页面中输入提示词,比如输入“请编写一段Python代码,使用turtle库,绘制一个五角星”,然后,豆包就会自动生成一段Python代码(如图21所示)。在Python中运行这段代码,就可以成功绘制一个五角星。

在这里插入图片描述

图21 豆包自动生成的Python代码

七、AI搜索

AI搜索,即人工智能搜索引擎,是一种利用先进的人工智能技术,特别是深度学习和自然语言处理(NLP),来理解和响应用户的查询需求的新型搜索工具。它不仅仅是传统搜索引擎(比如百度)的简单升级,而是通过模拟人类的思维方式和行为模式,为用户提供更加精准、个性化且高效的信息检索服务。AI搜索通过收集和分析用户的历史搜索数据和行为模式,构建用户画像,从而实现更加精准的个性化搜索服务。这种数据驱动的智能决策机制,使得AI搜索能够不断自我优化,提升用户体验。

纳米AI搜索(https://so.n.cn/)是360公司在2024年12月推出的全新AI搜索应用,结合了自然语言处理、机器学习以及专家协同技术,致力于打破传统搜索引擎的局限,提供智能化、多样化的搜索体验。其核心特点包括:
(1)多模态搜索:支持文字、语音、拍照、视频等多种输入方式,满足不同场景下的需求,实现“一切皆可搜索”。
(2)智能工具集成:内置16款顶尖大模型,如豆包、文心一言等,为用户提供一站式AI智慧体验。
(3)慢思考模式:通过专家协同和多模型协作,深入分析复杂问题,提供更专业、更全面的答案。

在这里插入图片描述

图22 纳米AI搜索入口

八、AI智能办公

在人工智能时代,AI智能办公正以前所未有的态势重塑我们的工作模式与体验,成为推动办公效率提升和办公方式变革的核心力量。AI智能办公将人工智能技术深度融入办公场景的各个环节,例如文档处理、数据分析、演示制作等。

在文档处理领域,AI智能办公带来了前所未有的变革。以往需要人工手动输入文字、排版以及校对纠错等工作需要耗费大量时间和精力,如今AI文档处理技术极大地提升了这些任务的效率与质量。具体如下:
(1)生成式文本。通过对大量文本数据的学习,AI能够根据用户提供的提示词、主题或简单描述,快速生成内容完整、逻辑连贯的文档初稿。无论是新闻稿件、公告通知还是学术论文,都能借助这一功能节省撰写时间。例如,市场调研公司在需要撰写季度报告时,AI可以迅速整合数据和市场趋势信息,生成报告框架与初步内容,供使用者进一步完善。
(2)文档智能排版。AI能够自动识别文档内容的结构,如标题、段落、列表等,并根据用户预设的格式模板进行快速排版。这不仅提高了排版效率,还确保了文档格式的一致性和规范性。对于需要处理大量文档的办公人员来说,这一功能大大减轻了工作负担。

数据分析是办公场景中的重要环节。传统的数据分析需要人工进行数据收集、清洗、分析和可视化,过程烦琐且容易出错。而借助人工智能技术,这些工作可以更加高效、精准地完成。通过大模型算法,AI能够从海量数据中发现潜在的模式、趋势和关联关系。例如,电商企业可以利用AI分析用户的购买行为、浏览记录和搜索关键词,挖掘出用户的潜在需求和消费偏好,从而制定精准的营销策略。自动数据可视化功能让数据分析结果的呈现更加直观、清晰。AI能够根据数据分析结果自动生成各种类型的表格图表和图形,如柱状图、折线图、饼图等,并进行合理的布局和配色。办公人员无需花费大量时间手动制作图表,就能快速将数据转化为易于理解的可视化信息,为决策提供有力支持。

WPS提供以下AI助手功能:

  • AI写作助手(帮我写、帮我改、AI伴写)
  • AI设计助手(AI排版、AI格式)
  • AI阅读助手(全文总结、文档问答、划词解释和翻译)
  • AI数据助手(AI写公式、AI数据分析)
在这里插入图片描述

图23 WPS AI功能

小结

本文系统梳理了人工智能生成内容(AIGC)的技术框架与实践路径,构建了"理论认知-场景应用-行业影响"的三维知识体系。在理论层面,开篇明确定义了AIGC作为新型内容生产范式的技术内涵,揭示其依托大模型突破传统AI任务边界的技术特征,通过列举文本生成、图像创作等六大典型应用场景,展现技术落地的广度与深度。更从产业变革角度,深入剖析AIGC对传统行业运作模式的重构逻辑,以及由此催生的新型职业机遇与技能转型需求。

实践维度则以“模态融合”为轴线,分设文本、图像、语音、视频四大应用板块,构建从基础对话到复杂创作的阶梯式案例矩阵。通过DeepSeek对话系统、讯飞智文PPT自动生成等具体案例,演示不同技术工具在办公场景中的协同应用。特别在跨模态创作领域,系统解构了Stable Diffusion等代表性模型的运作机理,呈现从文字描述到视觉表达的转化逻辑。

最后篇章聚焦AI搜索与智能办公的前沿融合,预示下一代人机协作的新图景。全文贯穿"工具理性与人文思考"的双重视角,既提供Prompt工程等实用技巧,也辩证分析技术应用中的伦理边界。通过构建"认知-操作-反思"的完整学习路径,为不同层次的读者搭建理解AIGC技术生态的认知框架,为数字化转型中的组织与个人提供可操作的实践指南。这种结构化知识体系,既可作为AIGC应用的入门导航,也可作为深度开发的技术图谱,展现人工智能时代内容生产革命的完整图景。

欢迎 点赞👍 | 收藏⭐ | 评论✍ | 关注🤗

Read more

Z-Image-ComfyUI网页端使用说明:无需代码也能玩转AI绘画

Z-Image-ComfyUI网页端使用说明:无需代码也能玩转AI绘画 在数字内容创作的浪潮中,AI绘画早已不再是极客圈里的小众实验。越来越多的设计师、自媒体人甚至普通用户都希望借助文生图技术快速产出高质量视觉素材。但现实往往令人却步:模型部署复杂、显存要求高、中文提示词“水土不服”……这些门槛让不少人望而却步。 有没有一种方式,能让非技术人员像搭积木一样轻松完成AI绘图?阿里巴巴推出的 Z-Image-ComfyUI 组合给出了肯定答案。它不仅把60亿参数的大模型压缩到8步就能出图,还通过可视化界面彻底抹平了代码障碍。更关键的是——对中文用户的理解能力做了深度优化。 这不再是一个“能跑就行”的技术演示,而是一套真正面向实战场景的生产力工具。 从噪声到图像:Z-Image如何做到又快又准? 说到文生图,绕不开扩散模型的基本原理:从一张全是噪声的画布开始,一步步“擦除”杂乱信息,最终还原出符合文本描述的图像。传统流程动辄需要20~50步采样,每一步都在消耗GPU资源和等待时间。 Z-Image 的突破在于,它用知识蒸馏的方式教会了一个轻量级学生模型,去模仿教师模型的高质量生

论文AI率多少算正常?各高校AIGC检测标准汇总解读

论文AI率多少算正常?各高校AIGC检测标准汇总解读

论文AI率多少算正常?各高校AIGC检测标准汇总解读 “我的论文AI率23%,能过吗?” 这可能是2026年毕业季被问得最多的一句话。问题在于,没有一个放之四海而皆准的答案——你在清华和在地方院校面临的标准完全不同,本科和硕士的要求也不一样,甚至同一所学校不同学院之间都可能存在差异。 本文将尽可能完整地梳理2026年各高校的AIGC检测标准,帮你准确判断自己的论文处于什么位置,以及需要达到什么水平。 一、先搞清楚一个前提:检测平台的差异 在讨论"多少算正常"之前,必须先明确一个经常被忽略的问题:不同检测平台对同一篇论文给出的AI率可能相差很大。 目前国内高校采用的AIGC检测平台主要有四家:知网、维普、万方、大雅。其中知网占据主导地位,大部分985/211院校和相当比例的普通本科院校都采用知网检测。 同一篇论文在不同平台上的检测结果可能差距悬殊。一篇文章在知网检测显示AI率28%,在维普上可能显示42%,在万方上又可能只有15%。这种差异源于各平台采用的检测算法和训练数据不同。 所以当你对照标准评估自己的论文时,一定要搞清楚你的学校用的是哪个平台,然后在对应平台上做检

什么是Agentic AI?Agentic AI 与传统 AIGC 有什么区别?

什么是Agentic AI?Agentic AI 与传统 AIGC 有什么区别?

什么是 Agentic AI?Agentic AI 与传统 AIGC 有什么区别? 1. 引言 近年来,人工智能(AI)技术飞速发展,其中以生成式 AI(AIGC,Artificial Intelligence Generated Content)和 Agentic AI(智能代理 AI)最为热门。AIGC 通过深度学习模型生成文本、图像、视频等内容,而 Agentic AI 则更进一步,能够自主感知、决策并执行任务。那么,Agentic AI 究竟是什么?它与传统的 AIGC 有何不同?在本文中,我们将深入探讨 Agentic AI 的概念、技术原理、