谷歌大模型一出闹剧，揭开中文数据荒-虎嗅网

不久前，谷歌宣布对公众免费开放其Gemini Pro的API。然而，在API开放后不久，用户发现了一个有趣的现象。

当连续用简体中文询问Gemini Pro“你好”和“你是谁”这两个问题时，AI竟然回答“我是百度文心大模型”。更令人惊讶的是，当进一步询问“你的创始人是谁”，它干脆回答“李彦宏”。

这一现象引发了网友的热议和猜测。一种可能性是谷歌在训练Gemini Pro时，使用了百度文心一言的语料数据；另一种可能是，其训练所用的语料数据已经被其他AI“污染”。

在一系列事件引发热议的同时，也反映了大模型发展中难以回避的问题——数据匮乏。数据的重要性不言而喻，高质量数据更是稀缺品。但随着AI技术的迅猛发展，目前全球大模型都陷入了数据荒。

一、中文语料成全球数据荒重灾区

一项来自国外团队的研究结果表明，高质量的语言数据存量将在2026年耗尽，低质量的语言数据和图像数据的存量则分别在2030年至2050年、2030年至2060年枯竭。

更令人惊讶的是，目前的国际主流大模型，参数数据集以英文为主，此前中国工程院院士高文在演讲中提到，全球通用的50亿大模型数据训练集里，中文语料占比仅为1.3%。一些主流数据集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文为主，最流行的Common Crawl中文数据也只占其4.8%。

与此同时，中国在AI大模型方面的发展却十分活跃。11月29日发布的《北京市人工智能行业大模型创新应用白皮书（2023年）》显示，美国和中国发布的通用大模型总数占全球发布量的80%，成为大模型技术领域的引领者。

在国产大模型发展如火如荼的背后，对于高质量中文语料的需求却从未停止。

上海数交所总经理汤奇峰曾表示，大模型时代下的语料库建设存在供给不足、质量不高、多样性匮乏、标准欠缺等问题。但关于语料库建设的挑战，汤奇峰认为主要集中于开放程度和数据质量两方面：“能否有大模型企业所需的高质量语料？目标对象愿不愿意开放数据？”

据了解，目前全球70%的数据源仅停留在免费公开数据集的层面，离大模型成长所需的理想数据环境相差甚远，尤其是一些行业的垂类大数据。

有业内人士在接受媒体采访时透露：“垂类数据通常由政府和行业机构掌握，出于数据安全合规的考虑，愿意把核心数据拿出来开放共享的行业机构占极少数。从原生的数据资源到数据资产化再到形成数据产品，数据形态演变的过程，需要经历数据筛选、分级和标注，中间附着的人力成本和硬件成本都极为不菲，从初始收集的数据总量到最后可用的数据量可能只有70%，相比于算力，数据的稀缺性更为突出。”

为了应对这些问题，一些开源社区和组织开始积极推动中文数据集的开源和共享。除通用数据集外，针对编程、医疗等垂域也有专门的开源中文数据集发布。但目前整体数量质量和英文数据集相比可谓九牛一毛，并且其中相当一部分内容非常陈旧。

Hugging Face工程师、中国负责人王铁震曾表示，单纯比较开源数据集，高质量的中文语料数据可能比日语、韩语和西班牙语都要靠后。比如由于数据保护条例，人工智能工程师只能使用开源数据集，而开源的中文数据集非常少，并且数量和质量都远低于英文语料库。

二、AI训练AI或导致“退化”

实际上，使用其他大模型的语料数据进行训练的情况并不罕见。2023年3月，谷歌曾被曝出Bard的训练数据部分来自ChatGPT。不久前，OpenAI禁止字节跳动使用其API接口，原因是字节跳动在使用GPT训练自己的AI，违反了使用条例。

另一方面，在数据荒席卷全球的背景下，AI生成的内容已经开始进入人工智能工程师们所习惯于获取训练数据的领域。

2023年年初，来自香港大学、牛津大学和字节跳动的几名研究人员，就尝试使用高质量AI合成图片，来提升图像分类模型的性能。结果他们发现，不仅效果不错，有的AI在训练后，效果竟然比用真实数据训练还要好。

科技巨头们也已经在多个场景探索合成数据的应用。如英伟达的元宇宙平台Omniverse拥有合成数据能力omniverse replicator；亚马逊使用合成数据来训练、调试其虚拟助手Alexa，以避免用户隐私问题；微软的Azure云服务推出了airSIM平台，创建高保真的3D虚拟环境来训练、测试AI驱动的自主飞行器……

国内，腾讯自动驾驶实验室开发的自动驾驶仿真系统TADSim可以自动生成无需标注的各种交通场景数据；阿里巴巴自研的语音合成技术KAN-TTS可将合成语音与原始音频录音的接近程度提高到97%以上；百度也发布了多个数据合成与半自动标注工具。

当AI合成数据看似走向生成和丰富AI训练数据的第二条路，质疑的声音也未曾停止。2023年2月，美国华裔科幻文学家特德·姜发表文章称，用大语言模型生成的文本来训练新的模型，如同反复以JPEG格式存储同一图像，每次都会丢失更多的信息，最终成品质量只会越来越差。大语言模型生成的文本在网络上发布得越多，信息网络本身就变得越发模糊，难以获取有效真实的信息。

2023年6月，牛津大学、剑桥大学、伦敦帝国学院等高校的AI研究者发布的论文预印本《递归之诅咒：用生成数据训练会使模型遗忘》在业界流传开来。论文中用实验结果证明了特德·姜的预言：用AI生成数据训练新的AI，最终会让新的AI模型退化以至崩溃。

国家基础学科公共科学数据中心主任胡良霖表示，合成数据或许能在训练大模型的过程中起到一定作用，但并不能解决中文语料训练数据匮乏的问题。因为合成数据往往是基于已有的数据和场景进行模拟，很难涵盖到所有可能的场景和情况，也很难完全模拟真实世界的复杂性和多样性。

三、中文语料“危机”的出路

2023年12月21日，国内用于大模型的首批中文基础语料库发布，汇聚了一批高质量可信数据。经过去重、过滤等技术手段，形成并对社会发布首批120G中文基础语料，包括1亿余条数据，500亿个Token。

事实上，早在2015年国务院发布的《促进大数据发展行动纲要》就指出：目前（2015年），我国在大数据发展和应用方面已具备一定基础，拥有市场优势和发展潜力，但也存在政府数据开放共享不足、产业基础薄弱、缺乏顶层设计和统筹规划、法律法规建设滞后、创新应用领域不广等问题。

“这8年中，我国在大数据方面取得了快速进展，但目前看来，这些进展并没有满足大模型发展的需要。”在胡良霖看来，不管是早就号召布局的大数据，还是火热的大模型，许多学界和产业界的决策者都追逐快速的效果，以至于忽略了技术发展的规律性：任何重大技术的突破都需要长时间的积累和努力，数据更是如此。“建设高质量的中文语料资源，需要大量的人力物力财力，如果没有一个有远见的公司来支持，有远见的政府机构来布局，是做不成的。现在，大家要深度反思的是基础数据供应问题。”

另一个问题是，缺什么样的高质量数据？大模型依赖的NLP（自然语言处理）是处理文本数据的关键技术，这意味着大模型训练的数据样本主要来源于自然语言的文本。胡良霖表示，目前，高质量的中文数据源比较明确也很有限，主要集中在一些知名的学术机构、媒体机构等。相比之下，互联网上的数据虽然量大，但质量参差不齐，尤其是中文数据，在选择大模型训练的数据源时，也需要特别关注数据质量和来源。

然而，除了文本数据，大模型还需要其他类型的数据，如数字、图片等。这些数据与文本数据不同，无法直接通过NLP进行处理，且处理方式与文本数据也有明显区别。例如，一个人的身高和体重、各地的天气预报、风速等数字信息，无法直接通过自然语言处理技术进行训练。

数字数据是潜在的庞大数据资源，但因为表达形式较为简单，缺乏语言特征，无法应用于大模型训练，更多是利用关系数据库进行高效管理。因此，如何处理这一类的数据，提升高效利用，会成为未来在数据突破上的一个新命题，但胡良霖也坦言：“针对这个方向，目前还没有大模型企业有明显的成果或突破。”

本文来自微信公众号：IT时报（ID：vittimes），作者：贾天荣，编辑：潘少颖、孙妍