AI應如何“合理”運用他人作品

行業動態

AI應如何“合理”運用他人作品

來源：中國新聞出版廣電報發布時間: 2024-03-21 15:21:16

隨著人工智能技術的快速發展與廣泛應用，其引發的法律風險也正逐步暴露在大眾視野中。其中，AI 開發者未經版權人同意而擅自使用其作品用于訓練模型行為的法律性質，已經成為目前頗受關注的核心焦點之一。

以去年年初美國3名藝術家與全球知名圖片運營商蓋蒂圖片分別對Stability AI公司提起訴訟為開端，到年末的美國《紐約時報》起訴微軟和Open AI公司，以及近日3位作家集體起訴知名芯片制造商英偉達擅自使用其擁有版權的書籍來訓練人工智能……與之相關大小訴訟已多達數起，由此引發的法律爭議正愈演愈烈。

未經許可使用受版權保護作品訓練AI模型具有較高侵權風險

從技術角度而言，AI模型的開發一般要經歷數據輸入與數據輸出兩大階段。數據依據應用目的的不同可以包括多種模態，如文本、圖片與音頻等，其中不乏受版權保護的文字作品、美術作品、攝影作品與音樂作品等。相較于輸出端的AI生成物的可版權性問題，輸入端的未經許可使用他人作品用于數據訓練行為的法律性質討論更具緊迫性，因為后者是關系AI產業能否正常發展的前提性問題，對技術的進一步研發存在直接影響。

通常情況下，訓練數據的獲取方式包括通過爬蟲協議抓取、通過破譯等技術手段直接復制、將非電子出版物進行數字化再現以及在用戶服務協議中設置強制許可條款四種。為了構建數據集，通過上述手段獲取的數據必將以一定的形式儲存并固定在服務器中，形成某種形態的副本，以供后續模型學習分析。此種通過大量復制、存儲并形成復制件的行為，符合《著作權法》中對于復制的內容和方式的規定，存在復制權侵權的風險。國外的Stability AI、Open AI和Meta（均為業內頭部AI公司），以及國內的行吟信息科技（上海）有限公司（社交平臺“小紅書”的主體公司）均因此被告上法庭。以后者為例，小紅書旗下的AI繪畫產品Trik未經授權使用了畫師的原創作品作為訓練數據，并生成了與原作高度相似的圖片，因而被畫師們以著作權侵權為由告上法庭。

此外，在AI模型數據集的構建及后續的模型訓練中，可能還會對數據予以翻譯、標記、匯總與分析——應當如何評價這些行為的法律性質，目前尚存在較大爭議。

有觀點認為，這些行為存在翻譯權、改編權、匯編權侵權風險；也有觀點認為，其可能落入“應當由著作權人享有的其他權利”，即兜底權利的范疇；還有觀點認為，這些行為都是模型的內部活動，并不受《著作權法》控制。

擅自使用作品訓練AI模型較難納入合理使用的范疇

2023年5月，美國國會就“人工智能和知識產權”召開聽證會，討論了版權保護作品在生成式人工智能模型訓練中的使用等話題。

其中，就輸入端數據訓練行為引發的侵權風險，以Stability AI為代表的人工智能公司主張其行為構成合理使用，聲稱“培訓這些模型是對現有內容的一種可接受的、變革性的和有益于社會的使用，受合理使用原則的保護”。

2023年12月27日，《紐約時報》宣布在紐約州曼哈頓聯邦法院向Open AI及微軟提起訴訟，指控這兩家公司非法使用《紐約時報》的數百萬篇文章以訓練他們的聊天機器人。而后在Open AI發布的官方回應中，其亦將“訓練行為構成合理使用”作為關鍵性的反駁理由之一。

所謂合理使用，是指在符合法定情形的條件下，可以不經著作權人許可并不向其支付報酬而使用其作品。在美國，在認定是否構成合理使用時一般采取“四要素判斷法”，其中“使用行為會對作品潛在市場或價值的影響”是關鍵考慮要素之一。以美國作家協會與Open AI公司之間的集體訴訟為例，被告利用網站爬取等方式復制了大量原告作家們的暢銷小說用于訓練ChatGPT模型，用戶可以通過ChatGPT獲取小說的內容，這將導致原作的市場價值受到極大減損。就這一點而言，AI公司的合理使用抗辯難以成立。

我國《著作權法》第24條規定了13種合理使用的情形。就AI模型的數據訓練行為而言，與之相關的情形包括“為個人學習研究目的使用”與“為科學研究目的的使用”兩種。然而，一方面，人工智能產品的開發一般是由大型科技公司組織，主體為公司而非自然人，不符合出于“個人學習研究”情形下的主體條件。另一方面，為了使模型生成的結果更加接近人類創作，其需要通過分析大量數據以不斷調整更新模型參數，此亦不符合“為科學研究目的”情形下對于“少量”使用作品的要求。

與此同時，大多數模型的訓練目的在于通過最終AI產品的推廣與應用實現商業盈利而非學習或科研，很難將其納入合理使用的范疇中。

傳統授權許可模式難以適應人工智能產業特點

在“未經許可使用他人作品訓練AI模型”的行為難以納入著作權合理使用的范疇之內的前提下，傳統的“授權許可”模式在適用上也存在一定的困境。

由上可知，目前對于AI大模型的訓練行為是否侵犯著作權、侵犯何種著作權尚未形成統一的認知，即所謂的“授權的基礎”仍處于一個模糊且不穩定的狀態。更重要的是，用于AI模型訓練的數據集內往往包含了成千上億份數據，即包括公有領域的資源與尚在著作權保護期內的作品。面對如此龐大的數據量，若要求人工智能開發者聯系每部作品的著作權人并與其一一簽訂授權許可協議，則會嚴重滯緩訓練數據集的搭建，從而導致整個人工智能產業直接夭折。

對此，有觀點提出可以利用著作權集體管理組織解決授權難題。著作權集體管理是指依據著作權人的授權，由特定的組織對著作權進行的集中管理。該組織是為著作權人的利益依法設立，根據其許可對著作權及其鄰接權予以統一管理的特定組織機構，我國目前已有音樂、音像、文字、攝影和電影5個著作權集體管理組織。

為了解決上述授權難的問題，人工智能開發者可以通過著作權集體管理組織獲得某一領域的作品授權，以此降低訓練前的搜索與溝通成本，同時也能降低數據來源的合法性風險。

此外，亦有學者創新提出借鑒計算機領域的開源許可模式以建立開放授權機制，即著作權人通過聲明作品使用者的權利和義務的方式，事前將授權予以任何滿足條件的主體，以此打破一對一的低效授權困境。

但是，上述觀點目前均處于理論論證階段，是否能夠解決AI訓練數據來源的合法性問題仍有待立法與實踐的進一步探索。

實現技術與藝術、法律良性互動與協同發展

目前，如何以法律手段維持人工智能產業發展與人類藝術創新之間的平衡，已成為世界各國未來立法與監管的重點方向之一。

就未經許可擅自使用他人作品訓練AI模型的行為定性，在日前歐盟公布的最終版《人工智能法案》中，對類似ChatGPT的生成式AI研發者給予了“發布用于訓練數據的受版權保護的數據摘要”的說明義務。

同樣，英國在今年2月初發布的《大型語言模型和生成式AI》報告中指出，科技公司未經許可或補償就將權利人的數據用于商業目的，并在此過程中獲得巨額經濟回報是不公平的；開發者應明確說明其網絡爬蟲是用于獲取數據進行人工智能生成訓練還是用于其他目的。此外，意大利政府也表示其正在制定一項人工智能監管法律，旨在確定一些原則與規則作為對《人工智能法案》的補充。其總理梅洛尼強調，人工智能技術只有在以“人類的權利和需求”為中心的道德規則范圍內發展，才能釋放出它所有的積極潛力。

今年兩會期間，人工智能是與會代表委員們熱議的一個重要話題。我國去年7月發布的《生成式人工智能服務管理暫行辦法》從價值規范、行為規制和過程監管等方面對生成式人工智能加強了治理，尤其是規定用于AI訓練的數據須具有合法來源，不得侵犯他人依法享有的知識產權。然而，隨著技術的廣泛應用和不斷演進，人工智能服務的開發者、提供者、使用者、監管者在未來實踐中都還將面臨不少的法律挑戰，上述指導性規范并不足以解決現實中的爭議與難題。因此，有兩會代表提出要加強人工智能領域的著作權保護，明確人工智能領域版權保護的原則性問題；也有代表建議應推動建立人工智能大數據開放創新平臺，支持開展專門的數據標注、清洗等預處理工作，為訓練大模型提供優質數據來源。

對此，我國應秉持《著作權法》鼓勵創新的立法宗旨，堅持“以人為本”理念，在確保作者的權利得到充分保障的前提下，促進人工智能產業發展。一方面，人工智能技術開發者應當推動建立“選擇退出”或“選擇加入”機制，給予著作權人充分的選擇決定是否將其作品用于人工智能訓練。這既能轉變人工智能開發者因權利人“不知情同意”授權而一勞永逸的行為，也可以從源頭上保證數據獲取的合法性，有利于人工智能后續的開發與應用。另一方面，政府部門也可以推動建立人工智能開發者與著作權人的良性對話機制，鼓勵企業、研究機構與著作權集體管理組織共同探索建設符合法律法規要求的正版高質量數據庫，以此實現著作權人的利益保障與人工智能企業的合規發展。

在全球競相發展人工智能技術的時代背景下，我國首次將“人工智能+”寫入2024年政府工作報告中，這標志著我國將進一步加強人工智能領域的頂層設計，并加快其與其他行業領域的多維度深度融合。

但是，人工智能發展的前提離不開法律與政策的規范與指引，堅持“以人為本”的治理原則，實現技術與藝術、法律良性互動與協同發展，是加快打造人工智能治理的中國模式和國際樣板的關鍵。

（作者于波、應雨晴、程得琳于波系華東政法大學知識產權學院副院長；應雨晴系華東政法大學知識產權學院2022級碩士研究生；程得琳系北京師范大學法學院研究生）

行業動態

AI應如何“合理”運用他人作品

網站聲明

網站導航

意見反饋

聯系我們