当前位置:网络安全 > 科技云报道:AI大模型终于进入数据争夺战

科技云报道:AI大模型终于进入数据争夺战

  • 发布:2023-09-30 10:34

  目前,大模型处于产业落地初期。高质量的数据是大模型产业化的关键要素。

  近日,Epoch AI Research团队的一项研究揭示了一个残酷的事实:模型不断增长,但数据还不够。

  研究人员预测了2022年至2100年间可用的图像和语言数据总量,并据此估计了未来大型模型训练数据集规模的增长趋势。

  结果表明,高质量语言数据存量将在2026年耗尽,低质量语言数据和图像数据存量将分别在2030-2050年和2030-2060年耗尽。

  这意味着,如果数据效率没有显着提高或没有新的数据源可用,到 2040 年,模型大小的增长将会放缓。

  是时候关注数据端的建设了。

  优质数据成为“抢手货”

  随着全球新一轮AI热潮的到来,大量的训练数据成为AI算法模型发展和进化的“燃料”。

  从GPT实验中,我们发现随着模型参数数量的增加,模型性能都有不同程度的提升。

  但值得注意的是,通过人类反馈强化学习(RLHF)生成的InstructGPT模型比参数规模100倍的无监督GPT-3模型表现更好,这也说明有监督标注数据量很大。模型应用成功的关键之一。

  如果上述预测正确,那么毫无疑问数据将成为模型继续增长的主要制约因素,而AI的进展也会随着数据量的耗尽而减慢。

  博士。阿里巴巴达摩院基础愿景团队负责人赵德利曾在接受采访时表示,数据端的建设将成为每个做大规模模型工作的组织必须考虑的问题。大模型的能力往往取决于有什么样的数据?

  据赵德利博士介绍,与大型文森特图片模型相比,大型文森特视频模型的制作难度要大得多。原因是视频数据的数量远远不及文本和图像,更不用说数据的质量了。因此,现有的Vincent视频模型的效果并不理想。

  结合上述研究结果,如果按照目前的趋势发展下去,人类现有的数据存量肯定会耗尽,高质量的数据也会越来越少。

  正因为如此,一场数据之战开始了。

   目前,Adobe 正在利用其数亿张照片数据库来构建自己的人工智能工具套件 Firefly。自 3 月份发布以来,Firefly 已被用来创建超过 10 亿张图像,Adobe 股票因此上涨了 36%。

  一些初创公司也纷纷涌入这个新领域。今年4月,专注人工智能的数据库公司Weaviate融资5000万美元,估值2亿美元。

  仅一周后,竞争对手 PineCone 以 7.5 亿美元的估值筹集了 1 亿美元。

   本月早些时候,另一家数据库初创公司 Neon 也获得了 4600 万美元的融资。

  在国内,百度智能云近期也升级了大模型数据服务能力,建成了全国首个专业的大模型数据标注库。百度智能云表示,已与全国地方政府合作,建设了10多个数据标注基地。

  显然,数据之争才刚刚开始。

  数据标注再次蓬勃发展

  AI大模型带来了大量的需求,伴随着中国数据标注行业的快速发展。

  招商证券认为,一方面,进入大数据时代后,人们各种行为的电子化、网络化带来了海量数据,但产生的数据只有1%能够被收集和保存,而收集的数据中 90% 是非结构化数据;另一方面,人工智能的兴起为模型训练带来了对结构化数据的巨大需求,数据标注的重要性逐渐凸显。

  有业内人士认为,今年10月份中国预计将迎来一大波类似chatGPT的大型模型的数据需求,而且这是海量的需求。从目前国内头部数据标注公司来看,目前产能不足以满足需求。

  艾瑞数据显示,AI基础数据服务市场,包括数据采集、数据处理(标注)、数据存储、数据挖掘等模块,未来几年将持续增长。

  到2025年,国内人工智能基础数据服务市场整体规模预计将达到101.1亿元,整体市场增速将达到31.8%(2024-2025年)。

  艾瑞数据显示,2019年我国数据标注市场规模为30.9亿元,预计2025年市场规模将突破100亿元,年复合增长率达14.6%。

  随着数据量的不断增长和数据结构的不断变化,数据标注行业涉及的领域越来越广泛。尤其是自动驾驶、AIGC等领域,数据标注的需求巨大。

  作为AI大语言模型高质量答案的基础,数据标注的生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原材料数据)、处理(数据标注)和质量检验(各环节的数据质量和处理质量检验)。

  其中,数据标注需要识别图像、文本、视频等原始数据,并添加一个或多个标签来指定机器学习模型的上下文,以帮助其做出准确的预测。

  目前,大多数数据标注任务仍然需要人工完成,各种数据类型和应用领域都需要相应领域的专业标注人员来完成标注任务。

  随着技术的发展,数据标准产业正在成为一个半人工智能、半人工的产业。

   面对往往有数百亿参数的大型语言模型的数据质量控制,需要利用标注平台将每个复杂的RLHF需求拆分成许多简单的工作流程,让机器做预处理,人做深入的分析。综合反馈可以减少人们在简单问题上的精力消耗,集中注释专业问题。

  行业普遍采用主动质检和被动质检。前者依靠人工质检,后者则依靠算法做一些预先识别。

  然而,目前的数据标注工具的准确率只有百分之几,而有些准确率可以达到80%或90%。机器标注的识别率越高,需要的人工就越少,成本、利润、速度、质量都可以更加可控。

  随着技术的不断发展,数据标注行业未来可能会实现更高程度的自动化。然而,不同的应用领域仍然需要一定数量的标注者来执行标注任务。

  传统数据标注需要升级

  值得注意的是,在大模型训练的火热浪潮下,传统数据标注的需求很可能会下降。

  让ChatGPT变得更加“人性化”的关键——强大的人工反馈RLHF,带来了又一个更高要求的数据标注需求。

  相关分析表明,在RLHF环节,模型首先在大数据集上进行预训练,然后与专业的人工智能训练师进行交互。专业注释者将对 ChatGPT 生成的答案进行注释、评估并提供反馈。给出答案的分数或标签。

  这些标注数据可以作为强化学习过程中的“奖励函数”,指导ChatGPT的参数调整,最终帮助模型进行强化学习和持续优化。

  换句话来说,让ChatGPT变得“更人性化”的精妙之处,大概就是它能够利用人工标注的反馈结果,不断优化自己的模型,实现更符合人类思维逻辑的表达方式。

  但是传统的数据标注模型很难满足RLHF的需求。

  过去,数据标注公司的主流商业模式主要是销售工具系统和标注服务。一方面,在缺乏自有数据的情况下,出售准确数据集的服务很少。另一方面,人才升级作为一项系统工程,对数据标注企业提出了更高的挑战。

  完成这一步之后,RLHF训练还涉及到很多事实判断和价值判断。其中,价值判断涉及公认的“公序良俗”,理论上是更容易与人工智能认知契合的部分,而事实判断则涉及各行业的Know-How。

  这往往需要行业专业人士,而不是传统的数据注释者,他们可以简单地注释词性和图片细节。

  也就是说,要跟上新一代AI的步伐,数据标注企业不仅需要在数据层面进行升级,人才的更替也同样重要。

  确实有标注公司已经开始自己写了《人员提升教程》。他们将重点培训标注者,让其了解“升级版”的标注要求以及答题方式的合规性。

  然而,在医疗等专业门槛很高的领域,数据标注仍然面临着人才困境。

  一家数据标注公司运营负责人曾表示,“尤其是医疗,有的科目经过培训后普通人就可以报考,有的则需要医生。这背后的人才招聘难度可想而知。”

  但即使困难重重,也不意味着数据标注公司会立即进行一波洗牌——至少,在大模型训练的几个阶段,半监督学习的初级阶段也有需要传统的数据注释。

  面对大车型和RLHF的机遇,大规模投资的回归似乎是必然的。

  有业内人士认为,数据标注公司如果希望在垂直领域提供更高水平的数据服务,可能需要建立新的产品线。事实上,具有AI研发背景的创始人会更适合数据标注创业者。

  面对AI新浪潮,没有人能坐视赚钱——这就是每一次技术迭代影响背后暗标的“价格”。

相关文章