.code-block-default {margin: 8px 0; clear: both;} .code-block- {} .ai-align-left * {margin: 0 auto 0 0; text-align: left;} .ai-align-right * {margin: 0 0 0 auto; text-align: right;} .ai-center * {margin: 0 auto; text-align: center; }

Microsoft Teliti Cara Menghitung Pengaruh Data Latihan pada AI Generatif: Langkah Menuju Kompensasi Kontributor?

Heri Herdy (Mertadinata)

1 bulan ago

Daftar Isi Toggle

Pernahkah Anda bertanya-tanya dari mana datangnya ide-ide brilian yang dihasilkan oleh AI generatif? Ternyata, ada banyak data yang “melatih” otak digital ini. Nah, menurut laporan dari TechCrunch, Microsoft sedang melakukan penelitian menarik untuk melacak jejak data-data ini dan menghitung seberapa besar pengaruhnya terhadap hasil akhir yang kita lihat (teks, gambar, video, dan lainnya).

Mengapa Microsoft Melakukan Ini?

Saat ini, kita tidak tahu pasti “siapa” yang berjasa dalam sebuah kreasi AI. Arsitektur jaringan saraf yang digunakan sangat kompleks dan sulit untuk diurai. Microsoft ingin mengubah ini. Bayangkan jika kita bisa memberi penghargaan kepada para kreator data yang karyanya berkontribusi pada model AI yang sukses. Ini akan membuka peluang insentif, pengakuan, dan bahkan pembayaran bagi mereka.

Masalah Hak Cipta dan Gugatan Hukum

Inisiatif ini muncul di tengah gelombang gugatan hukum terkait hak cipta yang menimpa perusahaan-perusahaan AI. Mereka seringkali melatih model mereka dengan data publik dalam skala besar, termasuk materi yang dilindungi hak cipta. Argumennya adalah “penggunaan wajar” (fair use) melindungi praktik ini, tetapi banyak kreator (seniman, programmer, penulis) tidak setuju. Microsoft sendiri sedang menghadapi setidaknya dua gugatan hukum terkait hal ini.

The New York Times menggugat Microsoft dan OpenAI karena melatih model mereka dengan jutaan artikel Times tanpa izin. Beberapa pengembang perangkat lunak juga menggugat terkait penggunaan karya mereka dalam pelatihan GitHub Copilot, asisten koding AI milik Microsoft.

“Provenance” Data Latihan: Melacak Asal-Usul Ide

Proyek penelitian Microsoft ini disebut “training-time provenance,” yang kurang lebih berarti melacak asal-usul data selama pelatihan. Jaron Lanier, seorang ilmuwan interdisipliner terkemuka di Microsoft Research, terlibat dalam proyek ini. Lanier menekankan pentingnya “martabat data” (data dignity), yaitu menghubungkan karya digital dengan manusia yang membuatnya.

Dalam sebuah artikel opini di The New Yorker, Lanier menjelaskan bahwa pendekatan martabat data akan menelusuri kontributor paling unik dan berpengaruh ketika sebuah model AI menghasilkan sesuatu yang berharga. Sebagai contoh, jika Anda meminta model untuk membuat “film animasi anak-anak saya dalam dunia lukisan minyak kucing yang berbicara,” maka pelukis minyak, pelukis potret kucing, aktor suara, dan penulis tertentu mungkin dianggap sangat penting dalam menciptakan mahakarya baru ini. Mereka akan diakui dan diberi motivasi. Bahkan, mereka mungkin akan dibayar!

Perusahaan Lain Sudah Bergerak

Beberapa perusahaan sudah mencoba mewujudkan ide ini. Bria, pengembang model AI yang baru-baru ini mengumpulkan modal ventura sebesar Rp 620 miliar (40 juta USD), mengklaim dapat memberikan kompensasi kepada pemilik data berdasarkan “pengaruh keseluruhan” mereka. Adobe dan Shutterstock juga memberikan pembayaran rutin kepada kontributor dataset, meskipun jumlahnya seringkali tidak transparan.

Tantangan dan Keraguan

Sebagian besar laboratorium besar belum memiliki program pembayaran kontributor individu, kecuali melalui perjanjian lisensi dengan penerbit, platform, dan broker data. Sebagai gantinya, mereka memberikan cara bagi pemegang hak cipta untuk “menolak” (opt out) dari pelatihan. Namun, proses opt-out ini terkadang rumit dan hanya berlaku untuk model di masa depan, bukan model yang sudah dilatih.

Tentu saja, proyek Microsoft ini mungkin hanya akan menjadi bukti konsep. OpenAI pernah mengatakan akan mengembangkan teknologi serupa yang memungkinkan kreator menentukan bagaimana karya mereka ingin disertakan (atau dikecualikan) dari data pelatihan. Namun, hampir setahun kemudian, alat ini belum juga terwujud dan seringkali tidak dianggap sebagai prioritas internal.

Motif Tersembunyi?

Ada juga kemungkinan bahwa Microsoft sedang mencoba melakukan “ethics wash” (mencitrakan diri secara etis) atau mencegah keputusan regulasi dan/atau pengadilan yang dapat mengganggu bisnis AI-nya. Namun, fakta bahwa perusahaan ini sedang menyelidiki cara untuk melacak data pelatihan adalah sesuatu yang penting, terutama mengingat posisi laboratorium AI lain tentang fair use.

Beberapa laboratorium terkemuka, termasuk Google dan OpenAI, telah menerbitkan dokumen kebijakan yang merekomendasikan agar pemerintahan Trump melemahkan perlindungan hak cipta terkait pengembangan AI. OpenAI secara eksplisit menyerukan kepada pemerintah AS untuk mengkodifikasi fair use untuk pelatihan model, yang menurut mereka akan membebaskan pengembang dari batasan yang memberatkan.

Sampai saat ini Microsoft belum memberikan komentar lebih lanjut.

Microsoft Teliti Cara Menghitung Pengaruh Data Latihan pada AI Generatif: Langkah Menuju Kompensasi Kontributor?

Mengapa Microsoft Melakukan Ini?

Masalah Hak Cipta dan Gugatan Hukum

“Provenance” Data Latihan: Melacak Asal-Usul Ide

Perusahaan Lain Sudah Bergerak

Tantangan dan Keraguan

Motif Tersembunyi?

Terkait:

Oppo Find X8 dan Find X8 Pro: Spesifikasi dan Harga Terbaru

Tecno Spark Slim: Smartphone Tertipis yang Menakjubkan

Sekarang, Mode Suara ChatGPT Gratis – Apakah Masih Layak Berlangganan ChatGPT Plus?

Microsoft Tambah Agresif Mengintegrasikan Copilot ke Dalam Edge dan Windows

Chromecast (2nd Gen) dan Chromecast Audio Menghadapi Masalah "Untrusted Device"

Gmail Ditingkatkan dengan AI untuk Memprioritaskan Pencarian Berdasarkan Relevansi