OpenAI也为数据犯难！公司承认使用爬虫自我设限难消公众怀疑-南非商务网

OpenAI也为数据犯难！公司承认使用爬虫自我设限难消公众怀疑

来源：众赢智投时间：2023-08-10 10:08:50

数据、算力、算法，被视作生成式AI的三个核心要素，很难说哪个更重要。

但是，对于OpenAI这类明星公司来说，算力基本上是一个经济问题，大公司凭借“钞能力”囤积了大量昂贵的硬件，数据稀缺问题才更让其头疼，“不光彩”的数据获取方式总让它们陷入道德危机。

(资料图片仅供参考)

以OpenAI为例，其抓取公开数据训练AI模型的行为早就备受争议。据国外科技媒体Insider最新报道，OpenAI近日承认，其推出了名为GPTBot的网络爬虫机器人，用于抓取和收集数据用于大模型训练。

▌OpenAI被怀疑是“数据小偷”

网络爬虫，是一种模拟人（网络用户）的行为，自动浏览、收集网络信息的计算机程序。网络爬虫可以将自己所访问的数据保存下来，数据抓取者对这些数据进行分析等加工再利用，推测出互联网用户的偏好，再顺势推送给与之匹配的用户群体。

目前还不清楚OpenAI的爬虫机器人在网上潜伏了多久，有些人怀疑OpenAI已经秘密收集每个人的在线数据长达数月或数年。

面对这样的“指控”，OpenAI积极自辩，该公司表示，GPTBot将严格遵守任何付费墙的规则，不会抓取需要付费的信息，并且也不会收集能追踪到个人身份的数据。

此外，OpenAI上线了一种阻止GPTbot的方法，用户可以修改其robots.txt文件，或者屏蔽其IP地址，拒绝爬虫的造访。该公司最近还宣布与美联社达成一项协议，OpenAI将付费购买AI训练数据所需的美联社内容。

▌消失的信任

爬虫技术作为一种数据搜集的手段，本身并没有合法与非法之分。但OpenAI主动为其爬虫工具设限的举动，似乎并不能挽回公众对这家大模型头号公司的信任。

老牌科幻杂志《克拉克世界》的主编、雨果奖得主尼尔•克拉克（Neil Clarke）表示：“OpenAI和其他大模型公司一再用行动证明，他们不尊重作者、艺术家和其他创意人士的权利，他们的产品很大程度上基于他人受版权保护的作品。”

他还举例，CCBot是Common Crawl组织运营的另一种爬虫机器人，目前Common Crawl是人工智能模型训练数据的主要供应商，“据我所知，没有人成功让Common Crawl删除数据，”克拉克说，“我尝试过，没有得到任何回应。”

另一方面，在与大公司拉扯时，普通人大多时候处于弱势。正如克拉克所说，既然OpenAI愿意为（美联社）等大公司的数据付费，为什么它不为其他人的信息付费呢？“我就此询问了OpenAI，但没有得到回复。”

不过克拉克本身就站在OpenAI的对立面，其一手创办的《克拉克世界》正面临AI生成内容泛滥成灾的局面。克拉克曾指出，在ChatGPT于去年底开放后，AI生成的垃圾投稿激增，而检测这类作品的成本高昂，该杂志一度暂停征稿。

▌结语

此前，OpenAI已经因版权问题被多方状告，既有克拉克森律所推动的集体诉讼，也有保罗•崔布雷（Paul Tremblay）和莫纳•阿瓦德（Mona Awad）等畅销书作家在内的名人实名起诉。

随着生成式AI技术的进一步迭代，类似的纠纷只会多不会少。

大公司更容易成为众矢之的，即使它们敢于承担责任，但要做到数据获取完全合规，并不容易。由于参数量巨大，大模型需要借助分布式计算和云服务等技术来进行训练和部署，又增加了数据被窃取、篡改、滥用或泄露的风险。

如何平衡个人隐私保护和鼓励技术创新，如何找到企业生存与合规生产间的最优路径，已经是每个致力于生成式AI事业的公司绕不开的问题。

文章来源：科创板日报

关键词：

新闻推荐

OpenAI也为数据犯难！公司承认使用爬虫自我设限难消公众怀疑

数据、算力、算法，被视作生成式AI的三个核心要素，很难说哪个更重要。

来源：众赢智投时间：2023-08-10 10:08:50
荆楚楷模·最美健康守护者|她是国内ECMO的先行者，24小时待命不放弃每一个生命

极目新闻记者刘迅通讯员吕惠余宇实习生刘思璇她是国内ECMO的先行者，每

来源：众赢智投时间：2023-08-10 09:59:24
首船LNG到港接卸！广州发展LNG应急调峰气源站项目投入运营

8月9日，广州发展(600098)集团在小虎岛化工区隆重举行广州LNG应急调峰

来源：众赢智投时间：2023-08-09 23:06:19
雷电+降雨+大风！北京两区发布雷电蓝色预警！

北京市气象局消息，预计，当前至20时，延庆区、怀柔区有雷电活动，局地

来源：众赢智投时间：2023-08-09 21:53:09
假警察正打电话行骗，真民警及时止损10万元

假警察正打电话行骗，真民警及时止损10万元---民警和当事人及时赶到银

来源：众赢智投时间：2023-08-09 21:05:05
【窥业绩】创历史最佳业绩，股价却大跌！理想暗藏隐忧？

8月8日盘后，理想汽车(02015 HK)发布了其2023年第二季度及中期业绩。据

来源：众赢智投时间：2023-08-09 20:08:25
调派专业队伍赴吉林，调运物资支援天津！

国家防总办公室应急管理部滚动会商部署重点地区防汛工作继续调运中央物

来源：众赢智投时间：2023-08-09 19:20:39
广州曾有18座城门，其实你每天都路过

本文预计阅读时间为7分钟文末有粉丝福利，请耐心往下看哦~ 羊城曾

来源：众赢智投时间：2023-08-09 18:34:41
随着GoodNotes 6的推出GoodNotes成为全球首家AI驱动的数字纸张公司不断改进人们创作、学习、工作和记笔记的方式

【随着GoodNotes6的推出GoodNotes成为全球首家AI驱动的数字纸张公司不

来源：众赢智投时间：2023-08-09 18:11:24
乐裕民计划申请死因调查，李玟二姐风评反转，“全员恶人”局面正式形成

万万没想到，李玟都去世一个多月了，她那一家子的纠葛还在继续。8月8日

来源：众赢智投时间：2023-08-09 17:34:18
铯钾防火玻璃价格（防火玻璃价格）

今天小红来为大家带来的是铯钾防火玻璃价格，防火玻璃价格，让我们一起

来源：众赢智投时间：2023-08-09 17:00:51
山东青年政治学院几本专业山东青年政治学院几本

1、笨蛋。2、是二本。相信通过山东青年政治学院几本这篇文章能帮到你，

来源：众赢智投时间：2023-08-09 16:23:04
大连艺术学院有专科专业吗

大连艺术学院有专科专业，例如音乐表演、视觉传达设计、服装与服饰设计

来源：众赢智投时间：2023-08-09 16:00:00
联盟杯1/4决赛对阵：迈阿密国际vs夏洛特FC，费城联合vs克雷塔罗

联盟杯1 4决赛对阵：迈阿密国际vs夏洛特FC，费城联合vs克雷塔罗,费城,f

来源：众赢智投时间：2023-08-09 15:22:42
外媒：军火商称有欧洲国家大量购买二手豹1坦克，军援乌克兰

俄乌冲突已持续一年半，试图继续为乌克兰提供武器援助的西方国家开始寻

来源：众赢智投时间：2023-08-09 14:57:24
8月9日广电板块跌幅达2%

8月9日13点33分，广电板块指数报点，跌幅达2%，成交亿元，换手率%。

来源：众赢智投时间：2023-08-09 13:44:17
河北等16个受灾地区保险机构已赔付4.32亿元

据微信公众号“国家金融监督管理总局”消息，截至8月8日上午10时，河北

来源：众赢智投时间：2023-08-09 12:56:02
（成都大运纪事）大运会进入德国“莱茵-鲁尔时间” 将带来“水火共舞”的体育盛会

中新网成都8月8日电“我相信，2025年德国一定会成功举办一届难忘的大运

来源：众赢智投时间：2023-08-09 12:07:13
青海坎布拉国家地质公园丹山碧水景色怡人

8月8日，青海省黄南藏族自治州尖扎县的坎布拉国家地质公园内，造型奇特

来源：众赢智投时间：2023-08-09 11:25:02
今年最大IPO落地华虹公司上市首日仅上涨2%

公开信息显示，华虹公司是全球领先的特色工艺晶圆代工企业，也是行业内

来源：众赢智投时间：2023-08-09 11:07:33

物联网

建材

2021年度北京香山论坛专家视频会闭幕

第十三届中国舞蹈“荷花奖”民族民间舞评奖活动开幕

家居