如何重新认识人工智能时代的开源

OSI(国际开源许可组织)发布在AI时代 Open Source (开源) 的定义与IT时代的传统定义有所变化。AI时代对Open Source(开源)定义的要求是: 提供训练数据详细信息,完整构建和运行AI的代码,以及训练时的设置和权重。

我们(中国开源软件推进联盟 COPU)在去年年中,曾与荷兰学者、OSI讨论这个问题,今天,看到大家有兴趣,我们准备进一步讨论这个问题。下面把以前我们与荷兰学者、OSI讨论的简况发布出来供大家参考:

荷兰学者发表了ACM论文,主题是戳破大公司的开源谎言,在GenAI时代如何定义“开源模型”,采用开源闭源如何判断,谁更安全?他们认为,传统的开源指能够访问、修改源代码,并对程序的使用或发行不加限制。进入AI时代后,这个概念变得模糊,关于AI模型的开源如何界定。他们注意到AI行业“开源”定义的模糊性,于是发表论文讨论这个问题,论文概括下列问题:

①开放性不同程度的复合分级概念:开放(open)、部分开放(Partially Open)、封闭(Closed)。

②可用性:包括代码、数据、模型权重、指令微调数据、微调后的权重。

③文档:源代码、模型架构的说明文档、模型卡(model card)、数据表(date sheet)、是否发布了预印本和经过同行评审的论文。

④方向与许可:是否把模型放到公开代码库上作为软件包发行,是否提供API访问,以及模型的许可证。

他们还谈了开放性有不同程度和维护,在大多数情况下,开源依旧要好过闭源。这对于:①系统的风险分析(公众需要知道),②可审查性(评估人员需要知道),③科学可复现性(科研工作者需要知道),④法律责任(用户需要知道)。

再来谈谈与OSI的讨论:时至去年年中,OSI就感到对于开源代码和使用许可的传统观点不再适用于AI组件,已经不足以保证使用、研究、共享和修改系统的自由。他们早在2022年起便研究修改开源AI的定义,至去年年中已提出0.0.8版最新修改的版本(提供三方面信息):

①训练数据的详细信息:包括数据集、数据来源、数据范围和特征、获取和数据选择方式、标注程序、数据清理方法等。以便技术人员可以用相同或相似的数据复现模型的效果。

②用于训练和运行的源代码:包括支持库以及预处理、训练、验证和测试推理、模型架构等多步骤的代码。

③模型参数:包括训练阶段中间关键的检查点(check point),以及最终的优化器状态。

这样修改的结果,比我们平常认知系统的“开放源代码”要扩展不少内容。

图片[1]-如何重新认识人工智能时代的开源-大董学社-教程技术资源分享
图片[2]-如何重新认识人工智能时代的开源-大董学社-教程技术资源分享
© 版权声明
THE END
整理不易,喜欢就支持一下吧!
点赞123赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容