《卫报》已经阻止OpenAI使用其内容为ChatGPT等人工智能产品提供动力。由于担心OpenAI使用未经授权的内容来创建其人工智能工具,一些作家对该公司和创意产业提起诉讼,要求保护他们的知识产权。
《卫报》证实,它已经阻止OpenAI部署收集其内容的软件。
自去年推出突破性版本的ChatGPT聊天机器人以来,生成式人工智能技术——即根据简单的人类提示生成令人信服的文本、图像和音频的产品——已经让公众眼花缭乱。然而,人们对潜在的大规模虚假信息生产以及制造这些工具的方式感到担忧。
ChatGPT和类似工具背后的技术是通过从开放的互联网(包括新闻文章)中挑选大量数据来“训练”的,这些数据使这些工具能够预测用户提示后最可能出现的单词或句子。
OpenAI没有透露帮助建立ChatGPT背后模型的数据,该公司在8月份宣布,它将使网站运营商能够阻止其网络爬虫访问其内容,尽管此举不允许从现有的训练数据集中删除材料。许多出版商和网站现在都在屏蔽GPTBot爬虫。
《卫报》和《观察家报》的出版商《卫报新闻与媒体》的一位发言人表示:“出于商业目的从《卫报》网站上抓取知识产权的行为一直违反了我们的服务条款。”《卫报》的商业授权团队与世界各地的开发商建立了许多互利的商业关系,并期待在未来进一步建立这样的关系。”
根据原创性。GPTBot爬虫从网页中获取数据,并将其输入到其人工智能模型中。包括CNN、路透社、《华盛顿邮报》、彭博社、《纽约时报》及其体育网站the Athletic在内的新闻网站现在都在屏蔽GPTBot爬虫。其他屏蔽GPTBot的网站包括孤独星球、亚马逊、招聘网站Indeed、问答网站Quora和dictionary.com。
本周,英国图书出版商敦促Rishi Sunak保护创意产业的知识产权,将其列入11月在英国主办的人工智能安全峰会的议程。英国出版商协会(Publishers Association)在一封信中要求首相明确表示,在构建人工智能系统时必须尊重知识产权法。该协会代表数字和印刷图书、研究期刊和教育内容的出版商。
今年7月,埃隆·马斯克(Elon Musk)对他的Twitter平台(现在更名为X)施加了限制,以解决他所称的人工智能公司在构建模型时“极端程度的数据抓取”问题。他在推特上表示,“几乎所有从事人工智能的公司”都在从推特上获取“大量数据”,马斯克表示,这迫使公司部署更多的服务器——这是有成本的——以应对需求。
然而,马斯克也证实,他将使用公开推文来训练他新成立的人工智能初创公司xAI开发的模型。
谷歌的隐私政策现在指出,该公司使用网络爬虫来帮助用户找到搜索结果,可能会收集公开的信息来训练谷歌人工智能产品的模型,其中包括巴德聊天机器人。本周,Facebook和Instagram的所有者、一家主要的人工智能开发商meta推出了一项新政策,允许用户说出他们是否希望自己的个人信息被用于训练人工智能模型。
记者联系了OpenAI请其置评。