GitHub悄然修改数据使用政策:你的代码正在被用于AI训练

2026年3月26日

59

570

GitHub悄然修改数据使用政策:你的代码正在被用于AI训练

近日,GitHub悄然更新了其Copilot数据使用政策,引发了开发者社区的广泛关注。从2026年4月24日起,GitHub将默认使用Copilot Free、Pro和Pro+用户的交互数据来训练和改进AI模型。这意味着开发者在使用Copilot时产生的代码交互痕迹,可能被用于提升模型能力。

被收集的数据范围

根据GitHub官方公告,此次数据收集范围相当广泛。首先是用户接受或修改过的Copilot输出内容,包括你按Tab键采纳的建议或在AI生成代码基础上修改的内容。其次是你发送给Copilot的输入内容,包括展示给模型看的代码片段。此外,Copilot还会收集光标位置周围的代码上下文、注释和文档内容、文件名、仓库结构以及项目内的导航行为模式。

哪些数据不会被收集

当然,GitHub也划定了明确的红线。Copilot Business和Enterprise用户的数据不在收集范围内,企业拥有的仓库数据同样不会被使用。此外,已在隐私设置中选择退出数据收集的用户,其选择会被保留。静态状态下的私有仓库内容、Issues和Discussions也不会被用于训练。

在这个数据即资产的时代,了解并主动管理自己的数据隐私设置,已成为开发者不可忽视的必修课。

“编辑观点”

GitHub为何采取这一举措

GitHub在公告中解释,早期的Copilot模型使用公开数据和人工编写的代码样本训练。过去一年,他们开始使用微软员工的交互数据进行训练,观察到包括多种编程语言建议接受率在内的多项指标明显提升。GitHub认为,更大范围、更多样化的真实开发者交互数据将进一步提高模型表现。

数据流转与用户选择

值得注意的是,用于训练的数据可能在GitHub与微软旗下关联公司之间流转,但不会被分享给第三方AI模型提供商。对于已选择退出的老用户,其隐私选择会被保留。但新用户或从未修改过设置的开发者,默认处于同意状态。这种"默认同意"的做法虽然在互联网行业相当普遍,但引发了关于用户知情权和选择权的讨论。开发者可访问设置页面关闭数据训练开关,整个过程不到一分钟。

如有侵权,请联系删除。

Related Articles

联系我们 预约演示
小墨 AI