有消息称已屏蔽谷歌k1体育3915娱乐、必应等搜索引擎
k1体育3915十年品牌近日有消息显示,目前已对谷歌、必应(Bing)等搜索引擎采取了屏蔽措施。对此有观点认为,这一举动是为了防止这些搜索引擎以及其他网络爬虫在未经授权的情况下、抓取其内容用于AI大模型的训练。
据的robots.txt文件(网络与爬虫的协议文件)显示,目前仅有百度搜索、、中国搜索(Chinaso)、YYSpider,以及宜搜搜索(EasonSpider)等搜索引擎被允许抓取内容,而谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider,以及其他一切非白名单搜索引擎爬虫均禁止抓取。
据了解,训练AI大模型及AIGC工具需要海量数据,部分AI企业会通过网络爬虫机器人来获取这些数据。事实上,除之外,其他公司、机构也已逐步不愿再免费向AI企业提供数据。自2023年8月以来,《》、路透社和《》等海外新闻机构均在自家平台安装,以防止内容被抓取。
此外,还有一些平台选择了加入收费的行列,例如X(原推特)、社交网站Reddit等。其中Reddit方面就曾在2023年4月宣布向相关企业收取数据使用费,其中包括微软、谷歌、OpenAI,因此也成为了首批公开要求付费使用数据的公司。在正式宣布与谷歌达成合作后,Reddit方面还在今年7月更新了网站的robots.txt文件,屏蔽了除谷歌搜索以外其他搜索引擎的检索。
需要注意的是,百度方面自2010年起便开始布局人工智能,2023年3月16日推出了自研大模型产品文心一言、并启动邀测。同年8月31日文心一言全面开放,开放首日便回复了用户超3342万个问题。自发布以来文心一言也在持续进行迭代升级,去年6月升至3.5版本、同年10月升至4.0版本。今年4月,百度方面还推出了文心大模型4.0工具版。
在不久前举办的WAVE SUMMIT深度学习开发者大会2024上,百度方面公开了文心一言的最新数据,并正式发布文心大模型4.0 Turbo、飞桨框架3.0等新品。