ChatGPT’ye Açılan İlk Veri Davası

Mona Awad (Bunny, 13 Ways of Looking at a Fat Girl) ve Paul Tremblay (The Cabin at the End of the World) adlı yazarlar, kitaplarının OpenAI’in yapay zeka yazılımı ChatGPT’yi eğitmek için izinsiz olarak kullanıldığını iddia ederek, geçtiğimiz hafta OpenAI’ye dava açtılar. Esasında bu davalar ressamlarda, müzisyenler vb sanatçı gruplarından daha önce de açılmıştı ve açılmaya da devam edecektir.

The Guardian‘ın bildirdiği üzere, ChatGPT’ye yönelik telif hakkı konusunda açılan ilk dava oldu.

Bu davaların da nasıl sonuçlanacağını bilmek imkansız. Özellikle gelecek ile ilgili oldukça önemli olan ve dünya için bir dönem noktası olduğumuz bir zamanda mahkemenin nasıl bir karar vereceğini öngörmeye çalışmak kahinlik olacaktır.

ChatGPT Nasıl Eğitilir?

İnsanlar, büyük dil modelleri (LLM’ler) hakkında genel bir yanılgı içerisindeler. Sofistike otomatik tamamlama uygulamaları, tüm insan bilgisinin depoları veya gelişmiş düşünce makineleri olarak düşünüyor gibi görünüyor. Gerçekte LLM’ler, anlaması, analiz etmesi, manipüle etmesi ve hatta potansiyel olarak insan dilini, bir insan okuyucusu için anlamlı bir şekilde oluşturabilen istatistiksel dil modelleridir. OpenAI, GPT (Generative Pre-trained Transformer) adı verilen bir mimari kullanır. Bu mimari, modelin bir cümledeki tüm diğer kelimelere göre kelimeleri işleyerek tahmini metin oluşturmasını sağlar.

Büyük dil modellerindeki “büyük”, bu modellerin üzerinde eğitildiği veri miktarına ve kullanılan sinir ağının boyutuna atıfta bulunur. Büyük miktarda metin verisi üzerinde eğitilirler; bu metinler kitaplar, makaleler ve web sitelerinden, diğer tüm yazılı materyallere kadar değişebilir. Ancak model, asıl eğitim metnini saklamaz, model veri belirteçlerinden oluşur, bunlar genellikle eğitim metni derlemesinde bir arada bulunan karakter dizileridir, genellikle 4 harf veya numaradan oluşur. Bu yüzden GPT-3 veya GPT-4 gibi bir eğitilmiş model, hangi belirtecin bir diğerini takip etme olasılığına dair bilgi içerir.

Modeli eğitmek için, büyük miktarda metin içeren bir veri setine ihtiyaç vardır, bu tek bir veri seti veya çeşitli veri setleri olabilir. Metin önceden işlenir, bu verileri temizleme, gereksiz veya uygunsuz içerikleri kaldırma ve metni modelin anlayabileceği bir formata dönüştürme işlemidir.

Model, denetimli öğrenme adı verilen bir yöntemle eğitilir. GPT gibi bir dil modeli için bu, eğitim verilerinden bir cümle almak, bir kelimeyi kaldırmak ve modelin eksik kelimeyi diğer kelimeler tarafından sağlanan bağlama dayalı olarak ne olabileceğini tahmin etmesini istemek anlamına gelir.

Burada, daha sonraki hukuki analiz için önemli olan, bir model eğitmeni olan OpenAI’in büyük miktarda metine erişimi olması gerektiğidir, bu yüzden bu veri nereden geliyor? Aslında GPT-3 için bazı kaynakları yayınladılar, ancak GPT-4 için bunu yapmadılar. GPT-3, çoğunlukla web metni (tüm ağırlıkların %85’i) kullanılarak eğitildi. Bu metin, üçüncü taraf veri setlerinden, özellikle büyük bir çevrimiçi web tarama metni veri seti olan Common Crawl’dan; Reddit tartışmalarının metnini içeren OpenWebText2’den ve Vikipedi’den geliyor. Diğer %15, Books1 ve Books2 adlı iki kitap veri setinden geliyor. Herkes, Books1’in Project Gutenberg tarafından toplanan kamuya açık eserlerin bir veri seti olduğunda hemfikir ve toplam eğitim veri ağırlıklarının %8’ini oluşturuyor. Kalan %7 ise Books2’den geliyor ve bunun içinde ne olduğunu ya da nereden geldiğini bilmiyoruz. Tüm telif hakkı korumalı ticari kitaplar muhtemelen Books2’de bulunmaktadır.

OpenAI eserlerin kopyalarını mı oluşturdu?

Davacılar, OpenAI tarafından ChatGPT’nin eğitiminde iki yazarın kitaplarının kullanıldığını ve bunu yapmak için kitapların kopyalarını oluşturmuş olmaları gerektiğini ileri sürdüler. Bir kopyalamanın olduğunu kanıtlamak için, ‘Dünyanın Sonundaki Kulübe’, ‘Bir Şişman Kıza 13 Bakış Açısı’ ve ‘Bunny’ adlı davacının kitaplarının üçünün özetini sağlaması istendiğinde, ChatGPT’nin bazı özetler verebildiğine dair kanıtlar sundular. Ancak bazı durumlarda, özetlerin ayrıntılarında yanlışlık olduğunu da kabul ediyorlar.

Dava da OpenAI’nin yasadışı olarak binlerce telif hakkı korumalı eseri yayınlayan “gölge kütüphaneler” kullandığını ileri sürüyor. Deliller arasında OpenAI’nin 2020’deki bir makalesi de yer alıyor; bu makale, eğitim veri setlerinin %15’inin “iki internet tabanlı kitap korpusundan” geldiğini ortaya koyuyor.

Kitapların geldiği tek kaynak, Books2’dir. Bu veri setinin hangisi olduğuna dair çevrimiçi spekülasyonlar var, davacılar bunun, torrent sitelerinde bulunan yasadışı kopyalanmış kitaplardan oluşan bir kitap külliyatı olabileceğini iddia ediyorlar, bu da “gölge kütüphane” olarak adlandırılıyor. Bu iddiaya dair hiçbir kanıt, şikayette sunulmamıştır. Ancak belki de en önemlisi, kitaplar OpenAI tarafından kopyalanmamış olabilir, üçüncü bir taraf tarafından kopyalanmış olabilirler, sonuçta OpenAI zaten tamamen üçüncü taraf veri setlerini web tarama içeriği için kullanıyor, yani aslında kendileri herhangi bir çoğaltma yapmıyorlar. Hala dolaylı olarak sorumlu olabilirler, ama bu bir telif hukuku anlamında çoğatlama değil.

Ama gizemli Books2’nin kimliğinden ve kaynağından bağımsız olarak, dava tamamen davacıların kitaplarının aslında o veri setinde bulunduğu varsayımına dayanıyor, ama bu aslında büyük bir varsayım. ChatGPT’nin bazı kitapların özetini sağlayabilmesi, gerçek kitapların eğitim verilerinde olduğuna dair bir kanıt değil. Aslında, ‘Dünyanın Sonundaki Kulübe’ nin detaylı bir konu özeti olan bir Wikipedia girişi var ve biliyoruz ki tüm eğitim ağırlıklarının %3’ü çevrimiçi ansiklopediden geliyor.

OpenAI kitapları kopyalamadı, açıkça eserlerin kopyalarını kamuya sergilemiyorlar ve aynı zamanda eserlerin kopyalarını dağıtmıyorlar. Peki eserlerin türevleri var mı? Bu, diğer davalarla benzerdir, davacılar, bir eserin eğitim verisinde bulunduğu teorisi altında çalışıyor gibi görünüyorlar, sonra üretilen tüm çıktılar orijinalden türetilmiştir. Bu argüman mantıklı değil, milyarlarca tokenimiz var, bu teoriye göre Reddit’e gönderi yapan herkes türev olarak telif hakkı ihlali iddiasında bulunabilir.

Ayrıca, ChatGPT, kelimenin her anlamında eyleme geçirilebilir bir türev üretmiyor, en fazla bir özet üretiyor, ki bu bir türev değil, aksi takdirde dünyanın dört bir yanındaki milyonlarca öğrenci, atanan kitap raporlarında türevler üretiyor ve dolayısıyla telif hakkını ihlal ediyor.

Davanın temeli, OpenAI’nin romanlar üzerinde eğittiği ve talep edildiğinde eserlerinin doğru özetlerini ürettiği iddiasına dayanıyor. Fakat romanlarının hangi spesifik bölümlerinin yasadışı olarak kopyalandığı ve özetlerin yeniden üretildiği konusunda belirli bir bilgi içermiyor.

Olayda bir çıktı olarak birebir eser sahiplerinin kitapları bulunmuyor, yani bizim hukuk sistemimiz açısından bir çoğatlma var diyemiyoruz. Diğer yandan ChatGPT eser sahiplerinin kimliklerini de gizlemiyor. Kitap hakkında soru sorulduğunda eser sahiplerine bir atıf yapıyor.

Sonuç

Buradaki zor soru, eğitim sürecinde kitapların sistemin eğitilmesinde kullanılmış olması halinde yazarların telif hakkı ihlal edilmiş midir? Sonuçta ihlal çıkarsa bu veriler sistemden çıkartılamayacağına göre eser sahiplerine nasıl bir ödeme yapılacaktır? Devamında bütün eser sahiplerini de hesaba katmak gerekecektir elbette.

Bu zor soruların cevapları telfi hakkı sahipliği iddia edenlerin lehine olması halinde yapay zeka yatırımcılarını zor günler bekleyecektir ve bu büyük gelişim duraksama yaşacaktır. Bu sebeple mahkemelerin olumlu bir yanıt vermesi kolay görünmüyor. Bununla birlikte yapay zeka sistemlerinin bu üretim verisinden gelir elde ettiğinin anlaşılması halinde burada da hak sahiplerine makul bir bedelin ödenmesi gerekecektir. Ve bir lisans sisteminin kurgulanması gündeme gelecektir.

ChatGPT’ye Açılan İlk Veri Davası

ChatGPT Nasıl Eğitilir?

OpenAI eserlerin kopyalarını mı oluşturdu?

Sonuç

İlginizi Çekebilir

Bilişim ve Teknoloji İçin Hukuk Gündemi #2

Bilişim ve Teknoloji İçin Hukuk Gündemi #1

E-Ticaret Kanunu Değişiklik