撰文 | 郑思芳
编辑 | 龚 正
(相关资料图)
全社会都在关注各公司推出的大模型,但鲜少关注大模型背后的训练数据来自于哪,是否征得了数据版权方的授权,以及是否付费。
日前,北京笔神作文公司计划起诉其多年的合作伙伴学而思,指其近期推出的数学大模型MathGPT和在学而思学习机上线的AI助手,在未经其授权和许可情况下,爬取了海量数据,要求学而思公开道歉、删除数据资源,求偿1元。
笔者通过笔神作文联系上了与其保持有业务沟通的学而思相关负责人,发去求证信息,不过截至发稿,学而思方面未给予回复。
01.一夜之间,数百万篇数据资源直接被爬
4月的一个周末,北京中关村笔神作文公司。
码农们都在家休息,办公室里空荡荡。然而直至周一,归来的程序员才发现,公司的海量数据,在周末这几天被一群“天外来客”爬了个遍,总爬取数超过两百万次。
事后,笔神作文的创始人及CEO宋嘉伟经过分析判断,并直接向他猜测的爬取方询问,才发现爬取者不是别人,正是与其保持有多年合作关系的学而思。
事件中的主角笔神作文,成立于2017年,是一个中小学生作文AI批改平台和投稿社区,隶属于北京一笔两划科技有限公司。
创始人宋嘉伟是一位技术达人,也是一位爱好写作的专业作家。经过过去6年的创业,笔神作文从以学生为主的用户那里,收集及沉淀了海量的作文资源。
官方宣传资料称,“笔神作文每月会收到超过30万篇作文投稿和超过40万次的点赞评论。6年来,笔神作文积累了超过数百万篇作文素材,月批改作文量超3万篇。”