“想拿我的数据训练AI,那麻烦先把账结一下”
2024-03-29 14:08

“想拿我的数据训练AI,那麻烦先把账结一下”

本文来自微信公众号:果壳 (ID:Guokr42),作者:malt,编辑:卧虫,题图来自:视觉中国

文章摘要
Reddit是一家UGC平台,通过数据授权协议和AI公司签约来实现盈利。然而,用户们对于Reddit把他们的数据卖给AI公司表示不满。此外,Reddit作为一个语料库对于AI训练非常宝贵,而AI训练消耗数据的贪婪也可能导致数据短缺的问题。

• 💰 Reddit通过签约AI公司获得了2.03亿美元的收入。

• 📈 Reddit是全美流量前五的网站,每月活跃用户达3.3亿,日活达7310万。

• 🤖 Reddit作为一个语料库对于AI训练非常宝贵,但数据可能会在未来耗尽。

当我们感慨 AI 快把人类一锅端了时,有大聪明发现了 AI 的一生之敌——弱智吧。


于是,我们看到了类似《我教 AI 弱智吧问题,结果它疯了》《把 ChatGPT 和文心一言扔进弱智吧,谁可以先出院?》……这样的整活实验,俨然把弱智吧问题当成中国人自己的图灵测试。细瞅他们怎么问,发现问的是“蓝牙耳机坏了,应该去看耳科还是牙科”,都不用看 AI 怎么答,AI 在攻陷人类之前,弱智吧就是最后一座堡垒。


就这样,贴吧这么个老古董,和光鲜亮丽的 AI,连接在了一起。


2005 年,硅谷也诞生了自己的“贴吧”——Reddit。“苟”了 19 年的它,也终于迎来新叙事:当地时间 3 月 21 日,Reddit 在纽交所敲钟上市,较此前发行预计的 65 亿美元估值计算,收盘市值已增加 30 亿美元,涨幅达 46%。


要知道,这家公司从未盈利,且累计亏损超过 7 亿美元。那市场为何这么乐观?其中一个原因是,Reddit 和多家 AI 公司签了数据授权协议,收入合计有 2.03 亿美元。


“想拿我的数据炼 AI,那麻烦先把帐结一下。”这大概就是 Reddit 的心里话。


但对于一个 UGC(用户生成内容)平台,用户难道不是“衣食父母”吗?“Reddit 把我们卖了。”这是用户们在明面上的控诉。


关于 Reddit,我们有太多想问的了。


一、中国贴吧冷冷清清,为啥美国贴吧那么金贵?


Reddit 敢为人先。它是第一家公开向生成式 AI 新贵们叫板的公司,要求后者只要用到平台语料训练 AI 就必须付钱。


关键是,Reddit“得逞”了。据路透社报道,今年 2 月,它和 Google 谈好价码——6000 万美元(每年!)


再怎么说,Reddit 也是全美流量前五的网站,仅次于 Google、YouTube、Facebook 以及 Amazon。具体到更硬的指标,它在招股书里说月活跃用户有  3.3 亿,日活 7310 万,活跃着的讨论组(subreddit)有 10 万个。


二、Reddit 的语料为何珍贵?


回答这个问题之前,得先问“语料为何珍贵?”。


在 AI 时代,少不了数据、算力和算法这三大要素。数据是基础,算力作为支撑,算法相当于引擎,三者相互依存、促进。


早期大模型 GPT 训练所用的文本语料中,有书籍、网页爬取、社交媒体平台、百科、代码这几类。其中就有一个叫“WebText”的语料,这个资源爬取了 Reddit 上那些至少有三个赞的内容,等于说,经过了一层初筛,标准是“是否够流行”。


有意思的是,语料库的英文是“corpus”,这个词源自拉丁语,是“身体”的意思。将语料库形容为 AI 的身体不知道恰不恰当,但从“身体是革命的本钱”去理解倒是成立的,没有语料数据,就炼不了 AI。


三、还有个消息!数据可能快不够用了


a16z 创始人 Marc Andreessen 认为,这波 AI 浪潮之所以能兴起,正是因为互联网在过去二十几年来沉淀了大量的数据。但人工智能研究和预测组织 Epoch 指出,高质量的文本数据会在 2023 至 2027 年之间消耗殆尽。


虽然 Epoch 也指出其分析方法和模型的局限,但 AI 训练消耗数据的贪婪,是不言而喻的。


四、Reddit 这下更有底气了,因为它是独一份的存在


谁到 Reddit 上都能创建讨论组(subreddit),也可以设置“吧主”维护,这和我们知道的贴吧没什么不同。


图片来源:Reddit


Reddit 弱化了“大 V”的存在,谁都可以发言(匿名也行),谁都可以点赞、点踩,获赞数多的会被顶上去,这种排序是“民意”的反映。


你被点赞了,就能收获 Karma。这个指标,代表了用户的在社区的贡献价值以及活跃度。


目前,活跃着的讨论组有 10 万个。截至 2023 年 12 月,Reddit 上累计有 10 亿个帖子,160 亿条回复。


在这个大型贴吧里,你能找到热门冷门形形色色的组:


比如各种 r/xxxxPorn,xxxxPorn 并不是你想的那样,通常代表着人对 xxxx 的极度沉迷,组友喜欢发布相关的“让人极度舒适的内容”,比如 r/FoodPorn、r/RoomPorn、r/DesignPorn;


警察!有人往肉卷里塞垃圾食品|Reddit 截图


还有人热衷写两句话恐怖故事,以及讨论都市传说……


现任 CEO Steve Huffman 对《纽约时报》说,他认为 Reddit 的平台内容非常有价值,它们的新(newness)和相关性(relevance)对大模型训练都是“刚需”。


一个在美国流量排前五的平台,每分每秒都会有新的讨论产生。至于相关性,贴吧里人以群分,话题足够垂直,讨论足够深入……在各个细分话题里,都是不那么泛化的讨论,这可能就是 Huffman 说到的相关性。


图片来源:curiousgnu.com


攒了 19 年的人类对话实录,在 AI 公司眼里,就是“黄金”。


五、还听说 Reddit 没那么绿色?


最受欢迎的讨论组就是 r/funny,到哪都是乐子人最多|Reddit 截图


“Reddit 比互联网上任何地方都更容易发生、容纳真实的对话,”Huffman 说,“在这里,我们能看到人在心理治疗、戒酒阶段会说的那种心里话,或者在别的地方不会说的话。”


真实,也意味着人们会在这里释放恶意。


Reddit 上不乏宣扬暴力和有色情暗示的讨论组,比如曾有一个叫“r/FatPeopleHate”的组,超 15 万人关注,他们找来胖子的照片,还主要针对女性,会给照片写上刻薄的注文。


Reddit 前产品高级副总裁 Dan McComas ,是封禁“恶意组”的关键人物。后来,他也因此被人肉、威胁。


2015 年,McComas 出来做了一个类似 Reddit 的社区 Imzy,但绝对禁止血腥色情,可以打赏其他用户,0广告,但半年后就退场了。既不绿色也不友好的 Reddit 仍在高歌猛进。


六、但这个草根社会,也蛮有能量的


2017 年愚人节,Reddit 搞了一个线上实验。官方先放出一张 1000 × 1000 的像素画布,并设定规则:每名用户每五分钟可以往画布上放一个像素,也就是在小格子上涂抹任意一种颜色。这种“反人类”的规则,使得用户无法独自操作,只能拉帮结社、共同创作。


就这样,文化符号、公共事件等都微缩在了最终的成品上,也没有原本不少人预想的糟糕,相反,是一种杂乱中的和谐。


这些用户既可以为了认定的图腾作画,也能让华尔街惊掉下巴。


2021 年一月初,老牌游戏连锁店游戏驿站股票不过 20 美元,最后竟一度涨到了 400 美元,这迫使知名做空机构 Melvin Capital 紧急募资 37.5 亿美元平仓认输,而做空起家的香橼宣布不再做空,只做多。


而这一切仅仅只是从 Reddit 上的一个吐槽帖开始的。一大群在游戏驿站买过游戏,在金融危机期间认为自己是被华尔街“洗劫”的 Reddit 用户恼羞成怒,联合起来 all in 游戏驿站。“散户反击华尔街”一战,就此打响。


七、19年来,吧主无偿维护,用户添砖加瓦,Reddit把他们全卖了?


不少人在 Reddit 上说,“之所以免费,因为我们才是产品。”


Reddit 去年收紧了 API 授权,牢牢把握住自己平台的内容。埃隆·马斯克将 Twitter 改成 X 后,也这么干,有人去扒了隐私政策,发现在 2.1 条例中明确写道:“我们可能会使用收集到的信息和公开可用的信息来帮助训练我们的机器学习或人工智能模型。”


另外,也有人怀疑微博评论机器人 @评论罗伯特 就是通过平台内容训练出来的机器人。它的留言画风如下:



图片来源:微博 @罗伯特受害者联盟


但 Reddit 也做了点别的:给核心用户和版主、员工的亲朋好友们预留大约 176 万股股票,占发行总额 8%(Huffman 本人的持股也就 3.3%)。不同于其他投资者,这些用户不受锁定协议约束,可以在交易首日立即出售股份。


八、一个新的问题



有网友抱怨,Reddit 早已混入不少 AI 生成的内容,卖给 AI 公司训练,是 AI 训练 AI 吗?


本文来自微信公众号:果壳 (ID:Guokr42),作者:malt,编辑:卧虫

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定