作业帮首席AI架构师王岩：AI的普适性在于思路创新

2022-09-30 17:11:08 来源：财讯网

小大

人工智能被称为第四次工业革命，被社会各界寄予了无穷大的期望。它在改善人们生活的同时，提高了整个社会的运行效率。近年以来的大模型、多模态也再一次助推了相关研究的火热。而在聚光灯下，可能大家更多看到的是，业内正在将AI推向极致的一面，却往往忽略了它“水利万物”的另外一面。

技术的发展离不开实际的场景，AI研究热潮的多次起伏，始终伴随着应用落地这个难题。如何将“高大上”的技术稳步推向落地？如何看待AI与细分行业的深度融合？如何看待大模型的研究热？

怀揣着这些问题，我们采访了深耕教育场景的科技公司：作业帮。作为一家致力于用科技手段助力教育普惠的企业，运用人工智能、大数据等前沿技术，不论面向数亿规模的C端用户，还是成千上万的B端客户，都提供了一系列高效的学习和教育解决方案与产品。

尤其在教育领域，AI技术的探索和落地，不管是用户规模和技术选型都具有很好的代表性。这也为我们思考如何用人工智能推动行业变革，给出了重要的借鉴与参考。

我们有幸邀请到了作业帮智能技术实验室首席架构师王岩谈谈他对这些问题的见解。

PART 01

教育产品的基座：题库建设三板斧

提起作业帮，大家可能印象深刻的还是强大的题库功能。作业帮是全国最早建立题库的教育科技公司之一，到目前已经拥有5.4亿+的题库体量。如此庞大的题库是如何建设起来的？

据王岩介绍，题库建设的成功，得益于三个方面的条件。首先，源于作业帮的先天优势：众所周知，作业帮最开始是百度内部孵化的业务，最初定位于一个问答互助社区，后来推出搜索答疑业务。为了优化搜索答疑结果，作业帮通过组建全职教研和兼职老师团队，搭建起了线上最大的题库生产平台。

这也是源于百度知道的模式，在崇尚分享交流的社区氛围中，鼓励用户相互解决问题，也非常贴近网友实际的问答和交流场景。而不是当时别家的做法：让兼职大学生做题库。这样通过对用户产出的内容进行深入的分析挖掘，我们就逐渐清楚了在学习的场景中，用户到底最关注哪些问题，哪些是问题更难的、哪些问题是多数人都会遇到的。这是一个重要的前提，它明确了我们的建设方向。

第二，作业帮非常重视资源的价值与建设，对题库足够重视。题库不仅在用户交流中作用巨大，在答疑和教学中也是非常重要的一环。凭借众包的体系，将题库的建设拆分成难度较小的独立工艺环节，使得题库较好较快，也相对比较全面的建立起来，这样很好地保证了题库建设的规模性。

第三，光有一道道题目还不够，还需要将题目关联起来，比如：所考察的知识点、难易度以及所依赖的其他知识点等标签术语关联起来。这就涉及标签的加工，并与知识图谱、知识树等技术基础设施关联起来。这样才能让题库具备可被高效检索和筛选的能力，让题库的价值得以真正发挥出来。

当然，题库本身建设过程中有很多环节一开始都使用人工操作，后来不断引入了AI技术，比如题目拍照等大多数电子化录入步骤，AI将这些图像自动识别变成计算机可理解的格式化的数据和语言。通过自动打标签、格式化公式、AI纠错技术等AI能力来进行自动化辅助处理，准确率大幅提升，也大大降低了人工成本。得益于题库的建设以及对AI技术的不断深入和扩大，作业帮通过落地一系列AI加速技术，把搜索答疑的响应时间优化到1秒，而早期同类产品的响应时间都在8秒左右。

在对接公立学校的项目中，题库在辅助教学场景中发挥了很大的作用。一个亮点的场景就是具备个性化精准推题能力的高质量作业系统。该系统的本质是将基于不同的学生状态，比如做题时长，不同知识点掌握程度进行数据分析进行个性化推题。因为对学生而言，太容易和太难都会让题目失去价值。同样一道题目对于不同的学生而言价值就会不同。所以需要对学生有充分的了解，结合题库本身丰富的标签维度，精准匹配，题库在高质量作业产品设计中的辅助作用很大，有利于学生巩固真正需要巩固的知识。

PART 02

自动辅助批改：机器如何解图形题

作业场景方面，除了题库，比较重要的就是自动辅助批改技术。相较于客观题，主观题的批改就难度很大。以数学的解答题为例，利用多年积累的OCR技术对学生的作答内容进行精准的识别，在通过NLP技术进行结构化的分析，比如答题内容的逻辑分析，再根据答题规范识别错误点等；此外，还运用了知识图谱的能力，不仅指出学生哪里错了，还可以告诉学生为什么会错，再配合用户画像和推荐算法的能力生成学生专属的学习报告，帮助学生找出学习过程中的薄弱点。

同时，依赖于作业帮云原生、多云容灾的一套体系，为这套服务体系提供了高稳定性和高可靠性。因此这也就保证了即便很多学校同时用，也不会产生宕机的情况，保证了用户的稳定使用。

据王岩介绍，出于作业帮多年的大规模用户体量的积累，他们会定期对作业系统进行性能评测，评测结果也处于行业领先的地位，相较于市面上同类的产品，目前作业帮也支持更多的题型，准确率也更高。

1、步骤级自动辅助批改

知识的学习存在一个闭环：老师通过教学传授知识，学生通过做练习题检验自己哪些知识点是学会的，哪些是不会的，不会的知识又需要不断的学习与练习。在这个“讲题→做题→判题→讲题”的教学闭环中，老师反复批改大量的作业成为了一大痛点，老师过去很难精准地去辅导每个学生。用AI来辅助批改，可以帮教师有效降低批改负担，大幅减少不必要的时间和精力，同时让更多的学生有效提高成绩。

目前，作业产品系统有着很高的使用率，教师们几乎每天都在使用。而且，这套系统还可以融合老师的教学经验和风格，根据老师的不同需求做定制化。目前，主观题、应用题可以做到基于步骤级的批改。

后期的改进，还是以继续降低教师在批改作业中的人工占比为主要方向。

2、图形题的解答内有乾坤

相较于文字题而言，一般通过OCR、文字检索等就能在题库中识别和匹配出正确题目。然而，对于某一类题目比较特殊，那就是图形题。比如试卷上经常会有这样的题目：求下列图形的阴影面积，这时候需要提取的特征就不只是文字了，还需要提取图片的特征。因为仅通过文字检索，题库背后的检索系统可以搜到类似的题干，但得到的结果中每道题目的形状都不一样。

这时候我们就需要对图像进行向量化特征提取。数字化的向量表达，与大量题库的特征聚合起来，就形成了“文字+图像”的特征。尤其小学题目中的经常有许多图像文字混合的题目，不光需要理解题干文字，还需要理解框与框之间的结构化关系，包括“连线题”提取线条的特征的起始位置，提取轨迹来进行判定。画图题也是这样。

3、试卷还原：黑科技往往植根于现实

在辅助教学场景下，作业帮也积累了很多OCR、语音、图像识别、作业批改方面的技术专利。比如我们已经公开的人工智能高效矫正扭曲图像专利，这是一个在非常刚需的场景里研究出来的。众所周知，“错题重做”是教学场景下很重要的环节，学生家长与教师需要将试卷还原成未答题的状态，但给试卷拍照后，经常会出现字迹不平整，试卷题目扭曲的情况，所以需要技术来解决排版矫正的问题。

我们通过采用深度神经网络，将人的手写笔迹进行识别并与试卷字体区分开，结合图像增强的技术等，可以非常有效的还原试卷，目前这项技术已经在作业帮的App里上线，并且已应用到打印机产品，可以将纸质的试卷还原到初始的状态，从拍照到还原仅需几秒钟。

放到以前的做法，一般是需要学生把题目手动抄一篇，再重新做。这可以说是一种功能强大的“黑科技”了。

当然，这项技术不仅用于还原试卷，还可以用于网课提交作业之前，对拍照的作业进行矫正和美化，以还原成更好的排版状态，一方面利于保存，另一方面也是可以提高内容的识别精度。

4、知识图谱：专家知识的聚集地

知识图谱的建设离不开人类的经验体系，教育场景也是如此。我们的知识图谱能力更多的是在课程场景中积累起来的。大量的教研老师在教研过程中总结知识点的前后关系、依赖关系和学习路径。这些关系和路径可以将零散的知识点联结成网状，这样就有了知识图谱的雏形。

教研老师提供了丰富的专家经验和知识点体系，研发部门在这个过程中采用一系列自动化的AI机器学习能力来进行大范围的落地。有了图谱以后，我们就可以做出下一步个性化作业设计，比如推荐与能力相当甚至有一定挑战的题目，去学习更深层次的知识点。

目前知识图谱在作业帮的应用场景十分广泛：教学场景、作业批改、个性化学习、作业诊断、包括刚才介绍的题库中有关题目的关联，本质是让题目有了更精准的维度去做检索和推荐。

PART 03

从数字化到AI：尊重用户原有习惯

在过去教学场景中，一方面纸质的书、教师的板书、PPT等都没有做到数字化，另一方面，学生的作答内容，包括答题的正确与否、作业和考试成绩等也需要做数字化。为什么要做数字化？

因为如果没有把自然物理世界的内容转化成为计算机可以理解的数据信息，我们在计算机领域相关的先进技术研究不仅无法落地，甚至仅仅是提高效率的技术，比如检索和推荐等，都会无用武之地。

因此，不管说语音还是图像，都是传递教学思想和知识的重要媒介与载体，这些都需要做深度的数字化。近些年，随着教育信息化的不断推进，大部分的教室配备上了数字化大屏，日常上课所用的教学课件已经完成了数字化，而我们现在做的就是要推进作业场景完成数字化。

但值得注意的是，现阶段使用AI的能力，要尊重教师和学生的原来习惯，不宜轻易改变。比如原有的教学模式，大家都习惯了纸质试卷，如果你取消纸质试卷，全都搬到线上，就会出现“水土不服”的严重问题。虽然要求网上答题也可以数字化，但这就改变了习惯。而一改变习惯，就很难大规模使用。

基于此，出于尊重教师批卷和学生作答的真实习惯，作业帮创新了业务思路：在作业系统中引进了“原卷留痕”这个功能。

所以，在王岩看来，我们更多需要的是进行思路上的创新，去降低技术的使用门槛，以不改变习惯的情况下进行数字化。

从作业场景放大到教育场景，就会发现很多新场景下的新的需求。比如体育场景：体育老师在上课期间非常注重每位学生可以承受的运动强度，比如心率的监控。当学生运动时心率过高了，就应该提醒学生停下来休息。再比如“跳绳计数”，我们不用计数器，而是让摄像头去自动识别和计数会更加便捷。另外，肢体动作类的捕捉也是一个实用的技术，来帮助学生查看动作是否标准和规范，这些AI都可以做辅助纠正。

1、如何为AI寻找落地机会

作业帮是一家技术驱动的公司。开发团队经常会问这样的问题：还有哪些技术可以有用武之地？有没有好的技术可以让过去没有满足很好的需求现在可以满足、原来不可完成的现在可以完成？

基于此，如何为AI寻找落地机会，王岩总结了背后的逻辑：我们应清楚自己掌握了哪些技术，拥有哪些资源，然后再考虑如何把合适的技术应用到具体场景上。基于已有的技术资源，做场景匹配。下一步就是思考和权衡技术能做到什么程度，然后再去做试点和优化。

2、B端精准度要求更苛刻

作业场景下，相较于C端场景， B端客户的需求比较特殊，有定制化的要求。比如学校在准确率方面的要求会更高，像批改的环节，更不能出错。而C端产品更多的是突出功能的丰富度、使用体验，对精准度的预期并没有那么极致。

PART 04

关于AI行业的看法

1、基础研究是底座，前沿技术更香

基础研究是我们的技术底座，这些技术已经有相当的广泛的应用场景，对基础技术的优化，会带来相当大规模的应用性能的提升，所以对基础研究的投入，是必不可少的。而前沿技术的研究，带来的则可能是玩法的变化，随着技术不断发展创新，原来不能做的也许突然某一天就可以实现了，鼓励实验室的同学分配20%到30%的精力去关注和跟进。

对于候选人能力方面，希望具备一定的学术研究能力的同时，也会看重工程化能力。更强的工程化能力就意味着更强的落地能力，而要真正把AI技术推动落地，就需要不断在应用层面上做扎实。当然，理想情况下希望人才具备全栈的能力，可以独立完成实验设计和应用落地，去快速验证某些创新点在实际应用中带来的提升效果。

2、模型不能单纯追求大，惠及也要广

教育领域与通用行业的实践和发展经验，跟通用的技术还是有一定区别的。

AI现在已经应用到各行各业中，但细分到教育场景，基于通用场景的模型多数不能“普惠”到具体的场景。王岩为我们举了一个形象的例子，比如手写输入法中的手写字识别，算法模型有一个假定前提：成年人书写的字迹。但作业场景中，不同年龄段的学生写的字是不一样，工整度，整洁度没有那么大的要求。所以对于教育领域来说，AI需要基于具体的场景进行细化，需要下沉到具体场景里去沉淀，去解决掉通用领域不太好的地方，探索并发现新的业务需求，在解决实际问题的过程中去推动相关技术的发展。

被广泛使用的，必是大众可承担的。“大模型取得了公认的性能提升，但距离用户的广泛使用还是有很远的距离。”在王岩看来，大模型、多模态的研究确实可以带来的精度上提升，但往往一个任务的准确率的提升，比如从95提升到96，这一个点提升的背后是以巨大的算力牺牲为代价的。现在千亿、万亿级别参数规模的大模型，都需要非常庞大的集群去支撑和运行，这对于实际场景，如果没有庞大算力集群去使用，原本一秒内就可以跑出结果的大模型，可能就需要相当漫长的运行时间。

虽然集群硬件的性能在不断提升，对应的单位算力成本在不断降低，但能被广泛应用的技术一定是成本低廉的、可负担的。把精力全放在算力的追求上某种程度上看，有些舍本逐末。AI的广泛落地，更在于思路上的创新，在于追求技术本身的性价比。

如何将技术惠及到成千上万的用户，如何将噱头一样的功能在实际生活中广泛使用到，是一个关键的问题。我们目前用户量非常庞大，每秒钟都有非常多的用户在使用，所以如果用“堆算力”的方式去做，成本将是难以想象的。

目前在可负担的情况下，我们要做的是为用户提供尽可能丰富的功能和服务。一方面，我们思考如何将算力的利用率提高，让设备不闲着，另一方面，我们去探索如何在模型和工程架构做改进和优化，用最合理的成本去提供每秒数万次级别的大型AI服务。更重要的是，如何进行思路创新。只有从解决问题的思路上进行创新，让更多的人用户去切实触摸和感受技术带来的便利，才能释放出更大的价值。

嘉宾介绍

王岩，作业帮首席架构师，作业帮智能技术实验室负责人。曾任百度知道、百度百科技术负责人，目前担任作业帮智能技术实验室负责人，专注于人工智能、图像技术、大规模高并发在线架构等技术领域的相关研究及落地应用，主要负责作业帮搜索答疑、AI批改、题库等相关业务。

关键词：

责任编辑：kj005

文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com

关键词：