科技
设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机
当前位置:科技 > 快讯 >

ChatGPT实践问题分析与应用展望

ChatGPT实践问题分析与应用展望
2023-02-16 14:21:47 来源:财讯网

作者:零点有数数据科学家包利安 、零点有数算法经理吉文标

介绍

ChatGPT是OpenAI最新的语言模型,较其前身GPT-3有大幅提高。与其他大型语言模型一样,ChatGPT能够以不同的样式和目的生成文本,并且在准确度、叙述细节和上下文连贯方面表现更加优异。作为OpenAI最新一代的大型语言模型,ChatGPT的设计非常注重交互。为了调优ChatGPT,OpenAI使用了监督学和强化学的组合,其中强化学的组件使其独一无二。OpenAI使用了“人类反馈强化学”(RLHF)的训练方法,该方法在训练过程中利用人类反馈,以最小化无用、失真或有偏见的输出。

ChatGPT在实际测试与应用过程中的问题

1多场景出错问题

由于标注数据问题而引发的知识错误。诸如回答内容存在事实错误,对于确定的事实,其给出的答案无法达到高置信度。对于常识的知识问题不能高效地给出符合日常认知的答案。大模型训练所需语料涉及面非常广,仅就人文学科而言,就存在非常庞杂的知识的语料,因此,在标注过程中,相关任务对标注人员的知识面、逻辑思考能力等都有极高的要求。在此基础上,还需要针对更多语料中提及的知识进行自动抽取,反复校验,才可一步步改进上述错误。

图中,关于古诗《登鹳雀楼》的提问,ChatGPT未能给出符合常识的回答,包括古诗的原文和作者信息。

数据理解上的问题。对于简单的数据说明可以顺利地进行比较分析,但面对略复杂的语义理解要求,ChatGPT就会出现问题,对于中文丰富的词汇体系、语法和句法的特点,特别是涉及义词之间的差别和义程度的区分,还需要补充更多更广泛的训练数据、做进一步的训练和优化,才能修正相应问题。示例如下图。

1.3 基本的数据分析能力弱。由于基本的数据理解和分析能力较弱,ChatGPT目前无法正确有效地进行数理逻辑计算。

如下图所示,针对四人四天喝四桶水,八人八天喝多少桶水的数据计算问题,并没有一次形成合理的计算逻辑链路,给出正确的计算结果。

答复的生成内容不具备实时

知识库信息的时效不强。由于ChatGPT目前的版本仅支持2021年之前的语料信息提问,其回答的内容没有进行实时信息关联。训练一个模型的人力成本较大、时间周期较长,短期内难以有效地更新学即时的知识信息。

俄乌战争起始于2022年2月,而ChatGPT使用的最新训练数据只截止到2020年,因此对于最发生的俄乌战争事件,无法给出具有时效的情况分析。

模型能力覆盖广,但专业深度不足。模型复杂度,丰富和通用足够高,但对于某个专业领域方向的资深知识信息结构认知不足。

在上述的问答中ChatGPT对于网络通信中信息增益率公式只给出了概述的描述,并未有效地展示公式的符合化表示及解释说明。

ChatGPT的负   面影响分析

ChatGPT在不同的场景中,展示出其应用之便利、能之强大、前景之广阔,同时也凸显出一些值得关注的隐忧。从某种意义上而言,ChatGPT的出现,让诸多领域面临新的挑战,若未引起足够重视,可能会引发负 面的社会效应。

教育教学

在教育教学方面,最为直接的影响是学生在学过程中,缺乏足够的思考,直接询问ChatGPT,轻松地获取到相关的知识和解答,特别是在论文的写作过程中,直接查询或生成相关内容,不仅不利于学生有效掌握相关知识,无法锻炼问题研究能力,甚至会形成过度依赖,影响学生的创造力,不利于教育的发展。

公共安全

公共安全领域主要涉及社会治安和信息安全。就社会治安而言,利用ChatGPT模仿不同人员的对话惯,再结合语音合成功能,进而实现高仿真的人类交流和互动。相关功能如果应用在诈骗等场合,助长违法犯罪,影响社会稳定。就信息安全而言,数据治理面临更大风险,特别是关涉国家安全、商业机密、个人隐私等多方面的敏感数据。ChatGPT模型训练所使用的数据一般为大量可公开的数据和知识,但基于现有的技术研发数据管理体制,不一定能保证直接相关的敏感数据或基于公开数据研究所得的敏感数据不被泄露。

3、伦理道德

在伦理道德方面,无论是个人还是社会或国家同样受到一定的影响。从个人的角度来看,对于大多数未成年人,甚至部分成年人,尚未形成成熟且稳定的心智,在使用ChatGPT的过程中,个人想法很容易被直接或间接地带偏,进而做出不合适的行为;从社会或国家的角度来看,ChatGPT如果作为一个文化冲击的工具,对整个社会和国家将有可能产生不良影响。

以上这些方面,都亟待相关技术方在技术层面对相关内容进行完善,对各种使用方进行权限的控制和监控,同时相关职能部门应从国家层面进行立法,进行合理的限制和管控。

零点有数专家的思考与拓展

行业训练数据优势。如何整合行业历史沉淀数据转换为高质量、有效的训练数据集,更好提升行业应用模型的精度。

行业数据理解与解读更专业。我们在各行各业多年来沉淀了大量的行业内的专业知识库信息(如:12345政务服务便民热线),对各行业的数据特有更深度的理解与解读。

强化推理能力。我们可以基于对业务场景的了解出发,对未知业务场景做从规则、向量表示推理到prompt的范式多层次学推理过程。

线上更新机制。我们实时收集线上数据,并实时进行模式化的更新,动态反馈更新至模型中,形成模型长期反馈更新学的机制。

合理挖掘发现行业应用场景,并更深层次地将GPT与垂直业务行业做融合,构建行业化的GPT模型,并服务于业务实际需求,如政务业务中生成式日报等。

更安全的数据管理。我们在长期业务实践中积累了丰富的数据管理经验,特别是在政务业务中,形成了完善的数据安全管理机制,保证模型构建和应用等过程中数据的安全

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

关键词:

责任编辑:kj005

文章投诉热线:156 0057 2229  投诉邮箱:29132 36@qq.com
关键词:

春节红包封面大比拼,科技文化交相辉映,中国广电别具特色

2023-01-18 10:03:57春节红包封面大比拼,科技文化交相辉映,中国广电别具特色

SD-WAN是什么?详解三大优势及SD-WAN解决方案

2023-01-12 12:32:55SD-WAN是什么?详解三大优势及SD-WAN解决方案

打造操作系统“大生态” 筑牢数字经济底座 麒麟软件助推网信产业发展质效双提

2023-01-09 21:05:58打造操作系统“大生态” 筑牢数字经济底座 麒麟软件助推网信产业发展质效双提

易美教育前斯坦福招生官因卓尼女士 深刻剖析创作藤校文书的黄金法则

2023-01-07 17:21:39易美教育前斯坦福招生官因卓尼女士 深刻剖析创作藤校文书的黄金法则

第二届操作系统产业峰会将于1月9日盛大开幕 四大亮点抢先揭秘

2023-01-05 10:27:23第二届操作系统产业峰会将于1月9日盛大开幕 四大亮点抢先揭秘

中国广电2022盘点:让利于用户、5G网络下沉县乡,坚持差异化发展

2022-12-30 17:58:10中国广电2022盘点:让利于用户、5G网络下沉县乡,坚持差异化发展

相关新闻

最新资讯