您的位置: 首页> 业界 > 正文

“AI数据被盗第一案”的真与假_每日快看

2023-06-25 07:53:28 来源:清元宇宙

来源 | 深AI(DeepAI2023)


(相关资料图)

作者 | 黎明 编辑 | 魏佳

一个叫作“一笔两划”的创业公司,公开声讨曾经的教培龙头“学而思”,说它用“扒库”的方式,“偷”走了自己辛辛苦苦攒下的数据。

故事的起因,是在今年4月中旬,“笔神作文”(一笔两划公司旗下产品)发现,服务器接口出现大量有规律的异常访问,导致服务器承载压力快速升高。

访问量远超日常平均值。笔神作文对深AI透露,平时的日访问量大约是几百或几千,那几天暴增至每天超过50万。一周之内,他们的数据被爬取了258万次。

笔神作文公布的数据库调用情况

通过查阅服务器日志,笔神作文发现,单一IP通过“爬虫”技术,高密度地爬取了他们的数据库。这个IP每次访问的搜索词,都是作文相关,系统会每页返回30篇作文,每次访问都是用搜索词从第一页逐页向后翻,基本上把库里同个题目的所有作文,全部抓取完了。

业内人士介绍,通常情况下,普通用户不会这么干。这种对数据库的搜刮式访问,也被称为“扒库”。

笔神作文认为,“扒库”的幕后黑手,是它的合作伙伴学而思。

“扒库”事件发生后没多久,笔神作文发现,学而思在进行数学大模型MathGPT的研发,并表示将于近期上线一款“AI助手”,其中一项功能,就是作文。

笔神作文被“扒库”,和学而思开发“作文AI助手”,这两起事件之间是否有关联,目前尚没有明确结论。

但笔神作文认为,自己的权益被侵犯了。它向对方发去律师函,并将这件事公之于众,试图讨要一个说法。学而思方面则给出公开回应,称对笔神素材内容的使用均符合合同要求,且其自研的MathGPT大模型和“作文AI助手”,没有使用笔神作文的任何数据。

此次事件中,值得探讨的不仅是作文素材。数据,对于大模型而言,意味着什么?

01

合作伙伴变成门口野蛮人?

双方各执一词

我们先简单介绍一下笔神作文。

这家公司成立于2017年,产品“笔神”是一款人工智能辅助写作软件,算是AI+教育的产物。一开始“笔神”面向内容创作平台和相关工具厂商,后来深入到垂直领域,用AI教学生写作文,于是就有了“笔神作文”。

你可以简单理解:它处在教育行业,面向的是学生群体,利用了人工智能技术,解决的是写作文的场景。

AI写作文,跟今天大火的ChatGPT,在技术上有很多共通之处。它们都涉及到自然语言处理、语义分析预测、机器学习等技术。笔神作文创始人宋嘉伟,曾担任过索尼高级系统架构师、奇点机智CTO。

早在五年前,宋嘉伟就说过,在考虑如何将bert或GPT-2这些预训练语言模型技术运用到应用中去。当时GPT尚未出圈,不像今天这样广为人知。

开始做AI作文之后,笔神作文正式进入教育赛道,跟教培龙头学而思踏进了同一条河流。

据笔神方面介绍,2020年12月,笔神作文跟学而思达成合作。笔神作文为学而思提供“笔神作文范文素材服务接口”,用于学而思相关服务中,按调用次数结算费用。为此,笔神作文为学而思开放了服务接口。

也就是说,学而思可以调用笔神作文数据库中的作文素材,并为之付费。

作文素材,是这项交易中的一个核心资产,也是笔神作文商业模式的基石。事实上,笔神作文最早就是从素材这个点切入的。它当年主打的“一键找素材”功能,用户通过搜索关键词,系统可以自动匹配素材,资源从古诗词经典、公文,到现代网文均有涵盖。在写作过程中,系统还可以实时推送素材。

这些素材不是来源于网络,而是笔神自有的数据库。通过AI技术的智能识别、翻译、匹配,笔神能向用户的搜索行为反馈回合适的素材。

当这些作文素材的量足够大、质量足够优质、匹配够精准,就具备了一定的商业价值,甚至可以对外售卖。这才有了跟学而思的合作。

问题是,这些素材有被“偷”走的风险,尤其是在开放部分接口的情况下。

按照笔神作文对深AI的介绍,他们对与学而思的合作范围进行了限定,“我们开放接口让他们调用我们的数据,显示在他们自己的APP里,但合同中并未包括存储数据或用于AI算法的权限。数据应仅供他们的用户调用,不能被存储在他们的机器上。”

相当于,当用户在学而思的产品端发起搜索,调用的作文范本来自笔神作文,学而思不能自己储存。

4月中旬的那次异常调用,让笔神作文认为,超出了正常的商业合作范围。“他们的行为触发了我们的防御机制,这才使我们发现了这一情况。”

笔神作文称,他们查看了后台的访问日志,发现是由单一IP通过“爬虫”技术发起的非法访问。“我们已经掌握了这个IP地址。”

笔神作文公布的IP地址情况(一部分)

国内某人工智能创业公司的CEO刘然对深AI分析,这种穷举关键词的方式,肯定是想要获取库里的数据,这是非常明显的行为。

笔神作文对深AI透露,事发后他们与学而思的运营人员求证,对方直接承认,是学而思的算法组在爬取数据并作为己用。不过,针对此说法,深AI尚未得到学而思方面的证实。

曾经的合作伙伴,突然变成了门口的野蛮人,让笔神作文非常愤怒,多次发出律师函。

学而思方面则在6月13日的公开回应中称,其对笔神作文接口的调用,并未超出双方合同范围,对笔神素材内容的使用均符合合同要求,未用于合同以外的任何用途。学而思专门强调,其自研的MathGPT大模型和“作文AI助手”,没有使用笔神作文的任何数据。

双方各执一词,目前未有定论。笔神作文称,该案件可能将会成为“AI大模型数据被盗第一案”。

一个值得探讨的问题是,数据,对于大模型而言,意味着什么?

02

数据从哪里来,是个大问题

算力、算法、数据,是人工智能进行机器学习的三大核心要素。

为了提升算力,很多科技公司都在花重金抢夺英伟达的GPU。在算法端,国内外的一些大厂将算法开源,大大降低了模型开发的门槛。

而在数据端,壁垒一直存在。去哪里找到高质量数据,是个关键问题。

生成式AI大模型需要使用大量且多样化的数据来进行训练,以提高模型的泛化能力和生成能力。不同的模型可能使用不同的数据来源。ChatGPT这类通用大模型,用了很多公开数据,如各类新闻网站、书籍、科学论文、网页等等。一些垂直领域的大模型,则需要找到有针对性的语料库和数据集。

国内某头部科技公司的大模型负责人对深AI表示,ChatGPT其实也用了很多非公开的数据,网上的公开数据很多都质量非常差,高质量的数据是有门槛的。数据的获得、清洗,都面临很大挑战。

好未来CTO田密在5月4日公开表示,“很多领域是有数据壁垒和行业know-how的,大模型还是得和领域知识深度结合,加上足够多的领域数据来训练领域大模型。”

就像田密说的,领域大模型要和领域知识深度结合。在AI作文领域,作文素材就是训练机器的重要数据。

早在2019年,笔神公司就开始有目的性地收集数据,训练自己的作文语料库,覆盖名人名言、诗词、公文、网络语言等。他们利用训练机器模拟人工标签的方式,对每条语料打标签。

在垂直语料库中,只有对数据打过标签,才能基于向量匹配、用户当前创作内容的语义分析和预测,进行精准的内容推送。

刘然对深AI说,建立模型需要大量经过验证的数据,如果这些数据已经整理好了,那么就可以节省大量的人力工作。笔神作文整理的作文,可能被当作标注数据使用。

这个过程是持续且漫长的。笔神作文称,创业六年,他们总共积累了超过500万篇作文素材,月批改量超3万篇。这些作文素材,是经过一篇篇人工审核、筛选投稿、打标签、分级、数据纠正,最后累积起来的。

这些数据不仅能在APP的页面以素材形式呈现,还能拿去在后台训练算法。所以在跟其他公司合作开放接口时,笔神作文在协议中专门加了一条——不得“缓存,存储,作为语料进行计算,训练”。

笔神作文认为学而思“盗”走了数据,揣测学而思将数据用于数学大模型MathGPT以及学而思学习机“作文AI助手”的训练和研发。但这似乎很难证明。

刘然认为,正常来讲,作文数据应该会提前设置一些限制,比如不接受高并发,在数据里加密,而且应该能追踪到数据的去向和用途。不过他同时认为,作文数据不像用户关键行为数据那么关键。

“你可以让AI学习什么是好的作文,然后让它按照这些标准生成。但我认为,其实不需要那么大量的数据。几万篇高质量的作文应该就够了。”他说。

03

“AI大模型数据被盗第一案”

立得住吗?

笔神作文态度强硬,连发两篇公告,要求学而思道歉,同时索赔1元。它甚至想给这次事件扣上“AI大模型数据被盗第一案”的帽子。

上海曼昆律师事务所主任刘红林律师对深AI表示,笔神作文自建的语料库或素材库,本身是有知识产权权益的。但是否属于著作权法上的作品,需要看独创性是否符合相关的判定标准。

“如果笔神作文有足够的证据能证明学而思恶意抓取了他们的数据,那么可以发起知识产权侵权或不正当竞争诉讼。”他说。

另外,笔神作文与学而思有合作协议,如果对知识产权的尊重和授权进行了约定,他们也可以通过合同违约来保护自己的权益。

值得注意的是,笔神作文素材库中的很多作文,是用户投稿而来。笔神作文自称,每个月都会收到30万篇作文投稿。因此,在认定是否侵权之前,先要厘清这些素材的知识产权归属。

刘红林分析,这要看作文的创作者(投稿人)与笔神作文之间,如何对知识产权进行约定。如果用户在投稿时对笔神作文进行了知识产权授权,那么笔神作文就享有对应的权益。

深AI查询笔神作文的用户服务协议,发现其中有这么一条:用户在笔神作文发表的内容(包括但不限于留言、评论、笔记),授予笔神作文免费且不可撤销的非独家使用许可。

也就是说,笔神作文对素材库拥有知识产权。

刘然想不明白的是,笔神作文为什么会与学而思合作。“如果是我,绝对不会跟学而思合作,因为我们是强竞争关系。”他认为,“在大模型时代,仅仅提供作文数据库的做法是没有机会的。”

有业内人士分析,学而思有流量,有场景,有知名度,尤其是在面向用户的前端产品方面,学而思的优势要比笔神作文大。而在后端收集数据、建设素材库的工作,费时费力,短期难见成效。对于学而思而言,直接拿现成的素材库接入是最方便的。笔神作文则靠出售素材库的调用权限,实现了商业变现。

但对笔神作文这种创业公司而言,这样的合作就像是带刺的玫瑰。因为巨头随时可能打进你的领地,甚至在业务层面形成直接竞争。

AI批改作文是笔神作文很重要的一项功能。而早在三年前,好未来(学而思母公司)也曾推出过“中英文作文批改解决方案”,通过AI实现智能化中英文作文批改。

现在,AI改作文只是好未来庞大AI产品矩阵的冰山一角。在其最新的产品介绍中,中文作文批改,属于中英文听写批改中的一个模块。好未来有更大的野心,它的触角已经伸向AI+教育的方方面面。

ChatGPT带火生成式AI之后,人工智能行业的创业者既兴奋又焦虑。他们兴奋的是,行业终于又热起来了;焦虑的是,ChatGPT实在是太强大了,很多垂直领域的创业项目一夜之间失去了壁垒。

像笔神作文这样的公司,竞争壁垒在哪里,如何与巨头对抗,是很现实的问题。而人工智能行业的加速内卷,同质化竞争的加剧,会让创业公司与巨头的对抗升级。

抢数据,或许只是新一轮争夺战的冰山一角。

*题图来源于视觉中国。应受访者要求,刘然为化名。

排版:孙可盈

图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~

清博旗下的产品大多开放免费试用权限,想体验我们的产品,欢迎咨询~

对咱们文章有兴趣或者有意见的朋友也可以扫码勾搭Q仔哦~

想找到志同道合,相互学习进步的朋友,欢迎大家扫码进群~

关键词:

资讯
业界
企业
骑闻
产品
直播形式不断创新 直播间专业化发展衍生新兴就业岗位
边看直播边买买买正在成为不少人的购物常态。数据显示,通过直播购物的国人数量达到4 6亿,年增长近20%。直播行业发展逐渐规范化、专业化,
2022-07-18
唐山曹妃甸推动京津冀协同发展 产业协同转移全面提速
春暖渤海湾,书写新画卷。位于唐山曹妃甸的金隅天坛(唐山)木业科技有限公司的生产车间内一片繁忙景象——铺装、压机、翻板等工作正紧张有序
2022-03-19
石家庄海关共签发RCEP原产地证书864份 货值3.9亿元
自今年1月1日RCEP(《区域全面经济伙伴关系协定》)正式实施以来,截至3月14日,石家庄海关共签发RCEP原产地证书864份,货值3 9亿元。据介绍
2022-03-19
蚌埠海关累计签发RCEP原产地证书35份 涉及金额2583.09万元
在蚌埠海关报关大厅原产地证办理窗口,海关关员仔细核对着递交过来的材料。十分钟后,一份RCEP原产地证书打印盖章后交到了企业业务员手中。
2022-03-19
昆明西山区:“双招双引”推动人才链和产业链融合发展
为激励党员干部在营商环境建设中担当作为,昆明市西山区深入实施人才强区战略和人才领跑工程,建立健全招商引资和招才引资并轨新模式,以产
2022-03-19
绥化望奎以工业化思维为引领 推动肉类加工制造产业腾飞
望奎县以工业化思维为引领,推动全县以生猪为主的肉类加工制造产业一年全面开局、三年基本成势、五年产业腾飞,聚焦五化做强做优肉类加工制
2022-03-19
“AI数据被盗第一案”的真与假_每日快看
来源|深AI(DeepAI2023)作者|黎明编辑|魏佳一个叫作“一笔两划”的创
2023-06-25
三星s3先锋版_三星s3 每日快看
三星GalaxyS3性能评测三星GalaxyS3手机是一款智能手机产品。它是一款中
2023-06-25
天天报道:谷歌或将其Pixel手机部分生产转移到印度
知情人士近日向媒体透露,谷歌已开始与印度代工厂商进行早期沟通,以将
2023-06-25
环球看点!耐张绝缘子串型号_耐张绝缘子串
1、直角挂板(Z-7)、球头(Q-7)、悬式绝缘子(XWP2-70)两片、碗头(
2023-06-25
神圣经典
1、神圣经典。2、网络文学作者;所著文学作品有:《大盗续》《步步皆杀
2023-06-25
快看点丨电脑主机能正常启动,为什么显示器不亮_电脑主机正常启动显示器不会亮_每日报道
相信目前很多小伙伴对于电脑主机正常启动,显示器不会亮都比较感兴趣,
2023-06-24
沧州:8个重大科技专项项目确定 引领经济社会高质量发展
为充分发挥科技在经济社会高质量发展中的引领和支撑作用,沧州市确定8个项目为2021年全市重大科技专项项目。这8个重大科技专项项目分别为:
2022-03-19
  中新网海口1月23日电(王子谦 符宇群)海南省高级人民法院院长陈凤超23日说,2021年海南法院为自贸港建设提供坚强司法保障,全年有效管
2022-01-24
  新华社武汉1月23日电(记者王贤)随着春节假期临近,从广州、深圳等地返回湖北的旅客较多。为此,23日,武汉站、汉口站、襄阳东站、十堰
2022-01-24
  1月22日0—24时,广东省新增本土确诊病例3例和本土无症状感染者1例,均为珠海报告。23日,珠海市疫情防控新闻发布会上,珠海市政府副秘
2022-01-24
青海海西州德令哈市发生3.7级地震
  据中国地震台网正式测定,1月23日11时58分在青海海西州德令哈市发生3 7级地震,震源深度9千米,震中位于北纬38 40度,东经97 35度。
2022-01-24
  北京2022年冬奥会和冬残奥会颁奖花束已于近期完成交付。与传统的鲜切花不同,这些花束全部采用上海市非物质文化遗产“海派绒线编结技艺
2022-01-24
  中新网宿迁1月23日电 (刘林 张华东)核酸检测是当下及时发现潜在感染者、阻断疫情传播的有效方法。23日,记者从宿迁市宿豫区警方获悉
2022-01-24
  记者从天津市人社局获悉,从明天(24日)起,天津2022年度第一期积分落户申报工作正式开始,这是新修订的《天津市居住证管理办法》《天津
2022-01-24
  中新社北京1月23日电 (记者 刘亮)记者23日从中国海关总署获悉,2021年,中国海关组织开展“国门绿盾”专项行动,在寄递、旅客携带物
2022-01-24
  记者从天津市疫情防控指挥部获悉,天津疫情第341—360例阳性感染者基本信息公布。  目前,这20例阳性感染者已转运至市定点医院做进一
2022-01-24
“最美基层民警”武文斌:案子破了最管用
  中新网吕梁1月23日电 题:“最美基层民警”武文斌:案子破了最管用  作者 高瑞峰  同事称他为“拼命三郎”。从警14年,武文斌破
2022-01-24
  据“西安发布”消息,截至2022年1月23日,雁塔区长延堡街道近14天内无新增本地病例和聚集性疫情。根据国务院联防联控机制关于分区分级
2022-01-24
  中新网西宁1月23日电 (记者 孙睿)据青海省地震台网测定,2022年1月23日10点21分(北京时间)在青海省海西州德令哈市(北纬38 44度,东经
2022-01-24
江西南昌:市民赏年画迎新年 书法家挥毫送春联
  (新春见闻)江西南昌:市民赏年画迎新年 书法家挥毫送春联  1月23日,“赏年画过大年”新年画作品联展江西南昌站活动在江西省文化馆
2022-01-24
  中新网成都1月23日电 (祝欢)成都市第十七届人民代表大会第六次会议23日在成都举行,成都市中级人民法院院长郭彦与成都市人民检察院检
2022-01-24
列车临时停车3分钟救旅客
  (新春见闻)列车临时停车3分钟救旅客  中新网广州1月23日电 (郭军 黄伟伟)“车长,车长,4号车厢有位旅客腹涨难忍,身体不舒服”…
2022-01-24
女子背负命案潜逃24年 因涉疫人员核查落网
  中新网湖州1月23日电(施紫楠 徐盛煜 赵学良)1998年7月,犯罪嫌疑人杜某因家庭琐事,用菜刀将自己的弟媳砍伤致死。案发后,她从老家河
2022-01-24
广东“00后”雄狮少年锤炼功夫迎新春
  (新春见闻)广东“00后”雄狮少年锤炼功夫迎新春  中新社广州1月23日电 题:广东“00后”雄狮少年锤炼功夫迎新春  作者 孙秋霞 
2022-01-24
03-19 2022岳阳国际旅游节开幕 特色农产品展销等系列活动目不暇接
2022岳阳国际旅游节开幕 特色农产品展销等系列活动目不暇接
今天,天下洞庭岳阳市君山区第九届良心堡油菜花节暨2022岳阳国际旅游节开幕,菊红、粉红、水红、桃红、紫色、白色等七色组成的4万亩花海在 [详细]
03-19 2022年郴州计划重点推进文旅项目101个 总投资354亿元
2022年郴州计划重点推进文旅项目101个 总投资354亿元
3月16日,我市举行全市文旅项目和城市大提质大融城项目集中开工仪式,市委书记吴巨培宣布项目开工。郴州嘉合欢乐世界、仙福路工地清风徐来 [详细]
03-19 宿州泗县深入推进文旅融合发展 擦亮城市品牌
宿州泗县深入推进文旅融合发展 擦亮城市品牌
近年来,泗县以争创安徽省文化旅游名县为目标,深入推进文旅融合发展,努力擦亮水韵泗州 运河名城城市品牌,全县文化旅游业实现高质量发展 [详细]
03-19 淡季不忘引流 京郊民宿市场有望迎来回暖
淡季不忘引流 京郊民宿市场有望迎来回暖
旅游淡季中的京郊民宿有望成为市场中最先复苏的板块。3月17日,北京商报记者调查发现,虽然正值旅游淡季,且受疫情变化的影响,不过各家民 [详细]
01-24 西安浐灞回应“社区领导怒怼咨询群众”:涉事社区主任已停职
西安浐灞回应“社区领导怒怼咨询群众”:涉事社区主任已停职
  西安浐灞回应“一社区领导在市民咨询离市政策时发生争执”事件 涉事社区主任已停职  西部网讯(记者 刘望)日前,网络上流传一条视频 [详细]
01-24 陕西:截至23日12时 西安56.5万大中专学生已离校返家
陕西:截至23日12时 西安56.5万大中专学生已离校返家
  1月23日,陕西省举行第45场疫情防控工作发布会,发布会上陕西省教育厅相关负责人通报,陕西全省疫情有效控制后,大中专学校能不能放假 [详细]
01-24 河北魏县发布北京一阳性人员在魏县的主要轨迹
河北魏县发布北京一阳性人员在魏县的主要轨迹
  魏县疾病预防控制中心关于紧急寻找丰台区新冠肺炎阳性检测者同时间同空间人员的公告  2022年01月22日,接到邯郸市疾控中心转北京市疾 [详细]