人工智能模型训练与数据抓取是现代人工智能系统开发工作中的重要环节。训练人工智能模型需要使用大型数据集来传授机器学习算法,并以此来识别出各种不同的模式、做出预测或生成新的内容。数据抓取是指从网站或数字来源处自动提取信息,通常是为了收集可用于高效训练人工智能的大量数据集。
随着上述这种训练方法变得越来越普遍,有关如何使用第三方内容(尤其是受版权保护的作品)的合法性问题也在变得越来越重要。在泰国,人工智能开发人员所面临的法律环境主要受到《版权法》的影响,由于缺乏涉及合理使用例外的条款,这部法律带来了独特的挑战。本文探讨了人工智能开发者在泰国现行版权法律和实践做法下要面临的版权风险和法律层面上的不确定性,并为应对这一复杂环境提供了战略指导。
人工智能抓取和训练中的版权风险
与美国等其他一些司法管辖区有所不同的是,泰国的《版权法》没有就合理使用或公平处理例外情形做出规定。这种缺失对人工智能的开发人员造成了重大影响:
无法就人工智能训练提供一般性的辩护:除非适用特定的、狭隘的法定例外情形或者获得权利所有人的明确许可,否则任何使用受版权保护材料进行人工智能模型训练的行为都会被视为侵权。未经授权便在人工智能训练中使用受版权保护的作品缺少法律依据。
权利许可负担的增加:开发人员必须为其训练数据集中所包含的每个受版权保护的作品确立并获得相应的许可。考虑到有效的人工智能模型所需的数据规模和多样性,这个过程可能既不切实际又成本高昂。
法律层面上的模糊性和诉讼风险:缺乏明确的法定指导或判例法使开发人员处于法律上的灰色地带。目前并没有明确的先例可用来确定将受版权保护的材料用于人工智能训练是否是可接受的或者可被视为是“微不足道的”。这种不确定性会让开发人员面临潜在的版权侵权指控,最终有可能收到禁令、提供损害赔偿或者接受刑事处罚。
对创新带来的寒蝉效应:责任风险与合规的复杂性可能会阻碍本地和外国实体在泰国开发或部署人工智能技术。这可能会扼杀创新并限制该国人工智能行业的增长。
国际合作的复杂性:人工智能的开发通常涉及跨境数据共享。如果在泰国部署或开展商业化活动,使用那些符合外国法律的数据训练出的模型仍可能违反泰国法律,从而使国际合作伙伴关系以及技术转让工作变得更加复杂。
数据抓取和侵犯版权
如果数据抓取工作涉及未经授权便擅自复制或提取受保护作品的行为,那么这本身就有可能构成版权侵权。在泰国,缺乏有关合理使用例外情形的法规进一步加剧了这种风险。即使是为了收集训练数据集而复制网站内容的行为也可能要面临指控,而且无论这种使用是属于商业用途还是非商业用途,情况都是如此。开发人员必须意识到,根据泰国的版权法律,抓取可公开访问的内容并不会自动变成合法的行为。
有关管辖权的各项因素以及转让模型的考量因素
如果根据在泰国境外实施的行为所产生的人工智能模型在泰国境内进行了部署、商业化或以其他方式提供给了人们,那么泰国的版权法律也可适用于上述在境外实施的行为。此外,如果训练数据包含未经批准便在泰国进行了使用的受版权保护作品的话,那么根据符合外国法律的数据展开训练的人工智能模型仍可能会在泰国法律的背景下构成侵权。这为国际合作和技术转让提出了额外的尽职调查要求。
给人工智能开发人员的建议
为了降低版权侵权风险,在泰国市场运营或锁定泰国市场的人工智能开发人员应考虑到以下因素:
进行全面的权利清理工作:找出并获得训练数据集中所有受版权保护作品的许可;
审查数据抓取的实践做法:避免在未经授权的情况下复制或抓取受保护的作品;尊重相关网站上的服务条款和版权声明;
开展全面的记录保存工作:维护好有关权利许可与合规工作的文件。;
监控法律动态:随时了解在泰国版权法律中出现的变化以及与人工智能和数据使用有关的任何新出现的指南;
参与风险评估:定期评估与新数据集、模型部署和国际合作有关的法律风险。
展望未来
泰国当前正在探索可用的监管改革与政策措施,以应对人工智能和新兴技术所带来的挑战。这些讨论包括制定人工智能专门法规的可能性、针对不同技术用途的版权例外的考量,以及数据保护法的可能更新。由于这些变化的方向和时间尚不清楚,因此利益相关者应随时了解情况,并在问题出现时开展公众咨询。
由于泰国《版权法》中缺乏合理使用例外情况,因此泰国的人工智能开发人员面临着重大的法律挑战。这增加了进行权利许可的负担,带来了更多的诉讼风险,并产生了不确定性,从而阻碍了创新与国际合作。积极主动地解决版权合规性问题,以及及时了解法律动态对于应对诸多挑战和支持人工智能发展而言是一件非常重要的事情。
尽管新加坡和日本等一些国家已经针对人工智能训练引入了文本和数据挖掘例外条款,但泰国尚未采取类似的措施。该行业仍在等待立法修正案或法院的判决,以提供更明确的指导。(编译自www.mondaq.com)
翻译:刘鹏 校对:王丹
经贸热点维权