2025年初,开源大模型DeepSeek横扫全球科技界后迅速向所有经济领域扩散,成为经济效率和增长的新基座。麦肯锡的2023年6月报告认为,在大模型和生成式AI的影响下,AI每年可为全球带来生产力提高0.1%-0.6%。高盛在2025年3月发布观点,认为在DeepSeek-R1的影响下,未来十年AI的广泛普及,有望推动中国上市企业股票整体盈利每年提高2.5%。
大模型与生成式AI无疑已经成为实实在在的效率和增长引擎,而DeepSeek的问世则证明了算力和算法对于大模型普及的制约正在迅速降低,规模化的高质量标注数据特别是行业垂直领域(垂类)数据,正在成为大模型普及的下一个战场。2025年2月底,AI数据服务行业龙头企业澳鹏发布年报,2024年公司中国业务营收突破4.2亿,年增长达到71% ,其中的大模型/AIGC业务增长了526%,几乎所有AI龙头,特别是大模型 AI企业都成为了澳鹏的客户。
澳鹏Appen全球高级副总裁、大中华及北亚区总经理田小鹏博士表示,在大模型启动AI数据服务超级周期的大门时,全球“知识”资源+高速技术迭代+高安全合规正在重新定义AI数据服务行业,所有的供应商都被重新洗牌,传统人力资源型服务商正被迅速边缘化,全力投入高质量技术研发和产品、实现供给全球“知识”资源、确保国内外数据合规和安全的AI数据服务商才能真正接住超级周期的大盘。澳鹏中国将持之以恒地全力投入技术研发、垂直领域、全球资源布局和数据合规与安全等方向,与AI龙头企业一起夯实新十年的增长路径。
超级周期正式启动
2022年底,ChatGPT横扫全球,带来了全球AI超级周期的序幕。高盛2025年2月的研究指出,自2022年11月ChatGPT面市以来,美国股市飙升了50%,美国科技股市值增加了13万亿美元,以ChatGPT代表的大模型第一波浪潮催生了美国股市历史上最强劲的牛市之一,而开源大模型DeepSeek代表的第二波浪潮才真正启动了AI与经济的超级周期。
(图片来源:DeepSeek官网)
DeepSeek以更低的成本,实现了接近GPT-4和Claude等的高性能,而DeepSeek的开源模式直接推进了全社会采用大模型的进程。进入2025年2月,全球已经有超过200家公司宣布用上了DeepSeek,其中包括了各大互联网和云巨头,也包括了中国三大电信运营商、金融和科技企业、车企甚至政府部门,还有各行各业的企业都在踊跃接入DeepSeek。
澳鹏Appen全球高级副总裁、大中华及北亚区总经理田小鹏博士表示,与全球大模型更侧重通用性和多语言多语种模型泛化的模式不同,中国大模型更侧重“通用+垂直领域”,这意味着中国大模型在未来行业应用场景、特定垂直领域创新方面独树一帜,也更在“局部领域”更容易实现 AI 垂类实践的突破,对特定行业和社会生产力的大幅快速提升。
在通用领域,涌现了众多取得突破性成效的中国大模型。例如,根据智源研究院在2024年底进行的“百模”评测结果,在对文本、图片、视频、语音等多模态数据的处理时,豆包文生图模型、豆包视频生成模型“即梦P2.0 pro”分别在相应测试中位列全球第二,腾讯Hunyuan Image文生图水平全球第一,快手可灵1.5(高品质版)文生视频水平全球第一,阿里巴巴Qwen2-Audio语音语言水平全球第一……
在局部垂直领域,DeepSeek为代表的中国大模型,还在攻入更多的传统行业。例如,中国多地12345热线接入DeepSeek,实现了效率飙升,抓取信息从5分钟缩短到10秒;DeepSeek登陆镇江超级大脑,单日数据处理量相当于全市公务员10年工作量总和;天津地铁接入DeepSeek,有效降低了50%的突发故障发生率,故障处置效率提升40%,平均处理时间缩短20%……
在DeepSeek等一系列 AI 大模型创新影响下,技术进步、应用生态、生产关系和生产力变革这三者正在形成闭环共振,形成从技术进步到生产力提升的“超级周期”,其中包括了超级AI周期、超级经济周期以及激活的超级AI数据服务周期。Gartner在2025年2月发布预测,认为到2028年,中国企业对人工智能就绪型数据(特别是非结构化数据)的投资将达到2024年的20倍!
AI数据服务市场洗牌,行业龙头浮出水面
在ChatGPT阶段,大模型的瓶颈已经从算力和算法推进到了数据;在DeepSeek阶段,高质量数据进一步成为大模型的“燃料”。2024年底,就在DeepSeek即将横扫全球前夕,中国国家发改委等部门发布了《关于促进数据标注产业高质量发展的实施意见》,引发了全社会对于数据标注的关注,迅速引爆了数据标注行业的热度,市场认为数据标注行业井喷在即。
作为AI数据服务行业龙头企业,澳鹏Appen公司的2024年全年报显示,经调整后的公司年增长16%、2024年下半年大模型收入占28%。在澳鹏中国,大模型及大模型相关业务已经占据了营收的40%。澳鹏自2023年中旬推出大模型相关产品和服务,仅仅一年多的时间发展成为了第一大业务,用“爆发”形容并不为过。2024年,澳鹏中国全年实现了4.2亿人民币营收,其中大模型及大模型相关业务营收达到1亿人民币。
(图片来源:Appen公司2024年财报,单位:百万美元)
在被大模型“泼天富贵”砸中的同时,澳鹏清醒地看到了整个AI数据服务行业的洗牌。过去AI数据标注行业是手工作坊模式,国内有上千家服务商,主要是人力资源密集型,技术含量低,市场竞争激烈。
澳鹏Appen全球高级副总裁、大中华及北亚区总经理田小鹏博士表示,“大模型对于AI数据服务的综合能力的要求比过去上了几个台阶,亿量级别数据(知识)的采集标注、数据高质量的精细化管理、数据复杂度和多样性与模型泛化的矛盾、国内外数据安全与合规风险的升级、海外标注交付能力等等,都要求服务商具备更强的技术能力、平台与产品,‘全球+技术+管理+垂类知识’的多维AI数据服务模式将逐步淘汰过去的单纯的低端人力资源、单一区域密集型模式。”
“出海”和全球化是中国AI客户的战略布局之一。澳鹏中国目前在全球有9大高信安交付基地, 布局北美、欧洲、东南亚、中国等,同时更有覆盖170+国家,290+种语言的超百万的众包资源,已经是中国头部的AI客户在海外市场的“攻城略地”的长期和信任AI数据合作伙伴。田小鹏博士认为:“真正的AI市场,不仅在国内,更在广阔的全球。”
澳鹏是少数最早投资技术和技术平台的AI数据标注服务商之一,澳鹏中国自2019年成立以来十分坚定投资技术,成立5年来向技术研发投资了1.1亿人民币,先后开发了MatrixGo企业级高精度数据标注平台以及大模型智能开发平台,通过双技术平台的建设,实现了效率、质量和安全性方面的显著优势,抢得了市场先机。
对于2024年澳鹏的跨越式发展,田小鹏博士笑着说,“机会只留给有准备的人,与其说被‘砸中’,不如说澳鹏在行业内布局最早”。
大模型对于标注数据的范围、量级和复杂性要求,远远超过了之前的AI小模型。田小鹏博士认为:原先的AI小模型都是项目制,而大模型是一个世界通用模型,要解决所有人类的问题甚至是对未来的思考,涉及范围“匪夷所思”、远超想象;大模型对于标注数据量级要求则是上亿条甚至是几十亿条的海量级,远超之前AI小模型的几百、几千条;而基础大模型的学习速度非常快,一两年内就能消耗完所有的公开信息,接下来的难点在于专业和私域数据。
正是由于大模型对于标注数据的要求直接从TB级跃升到PB级、从单一模态和简单标注跨越到多模态数据(文本、图像、语音等)和复杂的标注任务(如多轮对话、思维链标注等),急需金融、法律、医疗、音乐、文学、数理、代码、美学艺术等垂直领域的更高水平的专业知识等,这些都要求数据标注服务商具有强大的技术平台和研发能力,通过智能化的标注平台承载大模型“匪夷所思”的需求。除了开发智能标注工具和平台外,澳鹏对技术的投资还包括构建多模态数据湖,统一管理文本、图像、音频等异构数据,支持灵活的数据组合与实验,以及强化伦理与合规框架等。
自2023年率先在AI数据服务行业中推出大模型智能开发平台以来,几乎所有的互联网、科技、AI和大模型头部客户都找到了澳鹏,与澳鹏团队捆绑式紧密合作,共同应对大模型的数据洪流。例如,基于澳鹏大模型平台多模态数据处理能力,澳鹏为某AI科技厂商提供图像文本描述数据服务工作,提供高质量图文对超过50亿对,充分满足了图文大模型的数据需求。正是“笨鸟先飞”,提前“押注”投资技术和研发,让澳鹏在行业洗牌中脱颖而出,跃升为行业龙头。
战略投资两大方向,布局新十年超级周期
虽然公司在2024年取得了跨越式发展,但澳鹏Appen全球高级副总裁、大中华及北亚区总经理田小鹏博士认为,以DeepSeek等大模型为代表的大模型红利才刚刚开始,AI数据服务行业将进入10-20年的景气周期,澳鹏中国将在技术、交付、安全和渠道等方向持续布局,其中的战略重点是技术和交付。而澳鹏作为AI数据服务行业的龙头,其面向未来十年超级周期的布局,也将影响整个行业的发展方向。
技术和研发是澳鹏中国持续性战略投资的重要方向。田小鹏博士表示,技术是绝对生产力,未来5年,澳鹏中国将向研发再投入2-3亿元人民币,以确保公司在大模型超级周期中的持续竞争力,公司也将持续转型为算法辅助型、深化垂直领域的数据服务能力,同时通过人机协同模式提升数据标注的专业性和准确性。
澳鹏中国的研发负责人、产品和工程副总裁钱程介绍,公司目前80%以上的研发人员都参与了大模型相关的研发任务,主要研发方向包括面向大模型的数据服务平台、面向大模型的数据标注工具以及大模型相算法的研发和应用等。2025年,澳鹏中国将投入研发资源打造智能化成品数据集生产管理平台,通过自动化的数据标注、清洗挖掘和质量评估快速构建大规模高质量成品数据集,为大模型的模型训练提供高质量数据养料。
此外,随着大模型应用向垂直领域的不断深入,澳鹏中国将结合自身在大模型和各垂直领域数据服务中积累的丰富经验,研发高精尖垂类数据标注平台,澳鹏中国计划在2025年上半年推出专业的大模型医疗数据标注平台和具身智能数据标注平台,进一步赋能垂直领域客户构建高质量模型训练数据。
当前正处于超级周期的启动阶段,大模型发展迅猛且竞争激烈。许多AI数据标注项目具有实验性质,澳鹏需要迅速调整相关的平台和资源以适应不同的数据需求。钱程指出,大模型的发展,尤其在后训练阶段非常迅速,客户不断尝试新方法以优化效果。澳鹏团队与客户紧密合作,支持模型训练的数据需求,助力模型能力的不断提升。
对于尝试性实验项目,澳鹏需要迅速构建数据处理工具和工作流程,采集和标注数据,并进行结果训练和验证。这需要一个灵活的平台工作流、自定义标注模板和敏捷的项目管理。澳鹏的大模型智能开发平台通过自定义模板引擎,能够在几分钟内快速配置数据标注模板,而定制化小型工具的开发则可在几天到一周内完成。
钱程指出,客户需求快速迭代,创意层出不穷,澳鹏的产品研发团队为深度参与在这一快速发展的赛道而感到兴奋。一方面,他们积极跟进国内外大模型模型训练的技术变化;另一方面,与客户实时交流前沿发展趋势,共同探讨数据服务的构建方法。
“以AI赋能AI”是澳鹏产品研发团队不断提升数据服务效率的宗旨,为了提升团队的生产力和效率,澳鹏在数据处理和生产管理中广泛应用大模型,替代传统算法。这不仅大幅提高了技术和工程团队的代码编写效率,还帮助数据交付部门提升了数据服务和项目管理的智能化水平。
在大模型时代,尽管之前有不少科技企业都有自己的数据标注工具或平台,但随着大模型和生成式AI需求的激增,企业越来越依赖澳鹏这样的外部专业数据平台和服务商,既能满足不断变化的工具和平台开发需求,又能结合垂直领域专业标注人员的RHLF强化学习,一体化满足大模型和生成式AI的持续迭代要求。
面向垂直领域的交付能力也是澳鹏的战略投资方向。继通用知识后,专业知识是大模型下一步的重点发展领域。澳鹏在已有垂直领域能力的基础上, 2024年开辟了金融、法律、音乐、多语种、文学、TTS、数学、医疗、代码等九个大模型垂直领域团队,专门负责开发和培养这些垂直领域的复合型人才,以及承担相应的数据服务项目。
什么是面向垂直领域的复合型人才?简单理解就是对传统垂直领域的人才进行培养,例如金融、法律、医疗、音乐等,让专业领域人才理解AI与大模型、AI数据与AI数据项目交付等技术和项目管理实践,将专业领域知识与AI和数据项目交付结合起来,从而更好地服务客户大模型对于多种垂直领域数据的需求。这些专业人才不仅能够完成更高质量、更专业的数据标注,更能从专业逻辑上满足大模型推理的连贯性要求。
医疗领域是澳鹏中国的传统优势领域,澳鹏在医疗AI领域布局接近5年,为国内最早在医疗AI领域大规模投入的公司。澳鹏在2021年就成立了一支由医疗专业人员组成的数据项目交付团队,交付项目管理负责人是具有医学背景和AI数据项目管理经验的复合型人才。澳鹏医疗组自有全职人员超过500人、专业众包团队1000人,涉及临床医学、中医、中西医、护理、药学、心理、营养学等专业,基本覆盖大健康领域所有专业和学科。目前,国内医疗大模型头部公司都是澳鹏的客户,澳鹏迄今共为国内30多个客户,交付了500+个医学项目、超1000万条数据。
澳鹏中国自2023年下半年开始搭建金融大模型业务团队,目前已有金融背景全职员工400+,其中拥有金融、经济或财会学本科及以上学历占比99%,拥有基金从业资格或证券从业资格人员占比70%,澳鹏的金融类交付管理团队具有传统金融行业专家背景和AI大数据项目管理能力,可支持风险管控、数据分析及金融产品管理等应用开发。该业务团队目前还持续在金融领域进行前置储备资源,可以迅速响应客户业务的新需求,团队在数据安全合规/质量体系认证各类资质方面也十分完备。
2024年,澳鹏在代码大模型领域取得了显著的业务增长和客户认可,拥有120+全职技术人员覆盖主流编程语言,提供多样化服务模式。澳鹏的大模型在代码生成、调试和优化方面展现了强大的能力,帮助客户显著降低了开发成本和时间。澳鹏持续积累高质量、行业特定的代码数据集,注重数据集的多样性与全面性,确保代码模型在多种编程场景和任务类型上的泛化能力。2024年,澳鹏从代码数据标注,逐渐演化出了能力评估、垂直领域、运维、测试、UI等的业务场景,代码大模型的业务人员也增长了近一倍。
此外,澳鹏在大模型各垂类领域都拥有丰富的专业人才资源:在法律领域,拥有专业的法律人才,涵盖法律检索、庭审、风控体系建设等核心能力;多语言领域,团队覆盖200+语种,具备丰富的多语言项目交付经验;音乐领域,拥有500+兼职音乐专业人员支持编曲、标注、制谱等任务;TTS领域,拥有数十个国家TTS采集经验,录音棚覆盖全国主要城市;文学领域,团队成员均具备深刻的文学理解与鉴赏能力,支持跨领域多模态融合与创新、情感交互与智能推荐系统等领域大模型的发展……澳鹏凭借强大的专业团队和丰富经验,持续为大模型提供高质量数据支持。
值得一提的是,在专业人才招聘方面,澳鹏面向各个垂直领域,不仅有强大的全职招聘团队,在中国无锡、大连、重庆,在海外菲律宾、越南、印度、马来西亚、英国、美国等部署高信安基地,还有独有海内外的众包资源和 2000+家供应商合作伙伴渠道,也与数百家学校展开深入合作,部署垂直领域人才的前置实训培养,从而更好地储备人才。
数据安全和合规一直是澳鹏的强项,特别是 2024 年澳鹏中国取得了中国 AI 数据行业首家 ISO 37301合规管理体系认证,覆盖 AI 数据采集、数据标注和劳动合规等领域,这是继澳鹏中国在 ISO 27001安全合规、ISO 27701个人和隐私安全合规、ISO45001 职业健康安全等进一步夯实和固守合规底线。澳鹏不断地强化安全合规举措,为所有客户提供安全、可持续的数据服务,田小鹏博士表示,2024 年澳鹏各个基地顺利通过了 50+多次的客户“飞检”和现场审计,为客户的大模型高数安要求保驾护航。
总结而言:随着以DeepSeek开源大模型为代表的大模型第二波浪潮刚刚开始,一个真正的技术、经济和数据的超级周期才正式启动。在大模型第一波浪潮中,启动的主要是AI和科技公司;而在大模型第二波浪潮中,启动的将是所有行业领域的公司和政府机构,并将从中国聚焦到全球拓展,形成了从技术进步到生产力提升再到营收增长以及更多技术投资的正向循环。
在超级周期的正向循环中,数据真正成为了经济增长的“燃料”,一个AI数据服务的多年期蓝海正在形成。田小鹏博士笑谈,“到2030 年,澳鹏中国制定了非常远大的营收目标——20+ 亿人民币,更重要的是澳鹏中国将不遗余力地成就我们中国 AI 客户,通过持续创新让中国的 AI 的产品和服务能领先于世界”。期待澳鹏这样的科技创新数据服务商展开新时代的“大航海”!
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
责任编辑:kj005