Munculnya kecerdasan buatan (AI) telah mengganggu. Banyak hal berubah dengan cepat. Dan sepertinya teknologi ini mengajukan pertanyaan moral, etika, dan eksistensial baru setiap hari.
Ada banyak cerita dan pendapat untuk dipilih. Tapi satu insiden baru-baru ini tertangkap mata saya.
Seorang pemilik situs web mengklaim bahwa situs mereka sedang “dipalu” oleh bot pengikis konten. Alat img2datasetkatalog gambar dalam jumlah besar untuk digunakan dalam alat AI seperti Difusi Stabil.
Pemilik situs membuka masalah pada repositori GitHub alat tersebut. Dia disarankan untuk memilih keluar dari gesekan. Untuk melakukannya, dia harus menambahkan tajuk khusus ke situs webnya.
Ini adalah realitas baru kita. Alat-alat ini mengambil segala macam konten – termasuk gambar berhak cipta. Mereka memuntahkannya ke pengguna mereka. Memang, itu mash-up terbesar di dunia.
Terlebih lagi, terserah pemilik situs web untuk menentukan bahwa mereka jangan ingin berpartisipasi. Apakah ini keterlaluan seperti kedengarannya? Mari kita periksa masalahnya dan apa artinya bagi pemilik situs web.
Menggores Konten Situs Web untuk Untung bukanlah hal baru
Di satu sisi, alat yang menggores situs web Anda bukanlah ide baru. Mesin pencari telah mengindeks konten dan menampilkan bit yang relevan dalam hasil selama bertahun-tahun. Selain itu, RSS memungkinkan untuk mengambil teks dan gambar sejak awal web.
Dan perusahaan seperti Google mendapat untung besar dari upaya ini. Semakin banyak data yang mereka kumpulkan, semakin baik hasil yang mereka berikan. Dengan demikian, semakin banyak bola mata yang mereka tarik. Itu menghasilkan pendapatan iklan yang lebih besar.
Sudah menjadi cara dunia selama beberapa dekade sekarang. Oleh karena itu, tidak mengherankan jika perusahaan lain mengambil pendekatan serupa.
Lagi pula, pengembang AI membutuhkan sumber konten yang bagus untuk “melatih” alatnya. Apa cara yang lebih baik untuk melakukannya selain dengan mengumpulkan data sebanyak mungkin? Bagi mereka, web adalah hadiah yang terus memberi.
Jadi, fakta bahwa bot mengunjungi situs web Anda dan membuat katalog konten bukanlah masalah besar. Tapi mungkin di situlah kesamaan berakhir.
Apakah Ada Manfaat untuk Pemilik Situs Web?
Perbedaan besar terletak pada siapa yang diuntungkan. Ketika mesin pencari mengindeks situs web Anda, Anda akan mendapatkan sesuatu. Peringkat yang lebih baik berarti lebih banyak pengunjung – dan berpotensi lebih banyak pelanggan. Dan jika Anda mempraktikkan pengoptimalan mesin telusur (SEO), Anda meminta Google untuk berkunjung.
Bot AI mungkin tidak naik ke level tamu tak diundang. Tapi mereka juga tidak benar-benar menguntungkan Anda.
Misalnya, ketika Anda meminta ChatGPT untuk menulis kode, itu tidak memikirkan kembali kursus ilmu komputer yang diambil di perguruan tinggi. Alat ini memanfaatkan konten yang sudah di-scrape sebelumnya. Benar, ini mungkin bukan salinan baris demi baris (meskipun terkadang begitu). Tetapi model bahasa menggunakan apa yang telah “dipelajari” untuk menghasilkan jawaban.
Demikian pula, menghasilkan gambar Elon Musk mengendarai unicorn bukanlah sihir (maaf merusak kesenangannya). Berbagai komponen visual harus datang dari suatu tempat. Gambar asli (dan berpotensi memiliki hak cipta) adalah bahan utama.
Dalam kedua skenario, penerima manfaat adalah alat AI dan pengguna akhir. Sumber yang digunakan untuk menghasilkan konten ini? Mereka memiliki lebih banyak lalu lintas bot yang ditambahkan ke penggunaan bandwidth bulanan mereka.
Pengembang img2dataset memiliki pandangan yang sedikit berbeda. Di antara mereka tanggapan untuk kekhawatiran tentang keharusan menyisih:
“Anda akan memiliki banyak peluang di tahun-tahun mendatang untuk memanfaatkan AI. Saya harap Anda melihatnya lebih cepat daripada nanti. Sebagai kreator, Anda memiliki lebih banyak peluang untuk memanfaatkannya.”
Logika mereka tampaknya menunjukkan bahwa kita semua akan mendapat manfaat dari AI di beberapa titik. Jadi, mengizinkan alat untuk mengikis konten Anda baik untuk kemanusiaan. Atau semacam itu.
Blokir atau Tidak Blokir?
Keputusan apakah akan memblokir AI agar tidak mengorek situs web Anda itu rumit. Atau setidaknya membutuhkan beberapa tahap.
Mungkin bagian termudah adalah mengidentifikasi filosofi Anda. Apakah Anda setuju dengan konten Anda yang tergores? Jika demikian, lanjutkan. Jika tidak, bagian lain dari persamaan akan lebih rumit.
Pertama, tidak ada cara universal untuk memilih keluar dari semua pengikisan AI. Header untuk memblokir image2dataset berfungsi hanya untuk alat itu. Itu berarti melacak alat populer dan menemukan metode untuk memblokirnya.
Dan perusahaan seperti Google dan Microsoft semakin memperumit percakapan. Keduanya memiliki mesin pencari. Anda mungkin ingin mereka mengindeks situs web Anda. Tetapi mereka juga memiliki alat AI. Di mana garis ditarik antara produk yang berbeda ini?
Untuk bagian ini, Penyair Google mengklaim bahwa itu tidak mengikis konten dari situs web (saya bertanya!). Namun dalam percakapan yang sama, ia juga mengatakan bahwa situs web adalah bagian dari tempat ia mendapatkan data. Buat apa yang Anda mau dari jawaban itu.
Jika Anda ingin memblokir segala macam alat AI, itu tidak akan mudah. Tapi mungkin tidak lama. Saya dapat membayangkan layanan yang akan melayani pemilik situs web yang tidak ingin berurusan dengan pengikisan konten. Mereka memungkinkan kita melakukannya dengan lebih efisien.
Tapi sampai saat itu, ini sepertinya kalah. AI tidak bisa dihindari. Dan siapa yang punya waktu untuk membuat katalog setiap aplikasi baru yang masuk ke pasar? Plus, mungkin sulit untuk memblokir alat-alat ini tanpa juga berdampak negatif pada SEO.
Pemilik Situs Web Harus Menjaga Diri Sendiri
Tidak semua orang akan terpengaruh seperti pengguna yang frustrasi dalam pengantar kami. Dalam hal ini, tampaknya image2dataset mengindeks sejumlah besar gambar. Kecuali Anda berada di kapal yang sama, situs Anda mungkin tidak akan mengalami masalah.
Tapi masalahnya jauh lebih dalam. Itu harus membuat kita berpikir tentang bagaimana kita menghargai konten kita. Dan kita harus mempertanyakan hak apa (jika ada) yang dimiliki alat ini. Bisakah mereka mengambil apa yang mereka inginkan? Atau haruskah ada pedoman yang menguraikan apa yang boleh dan tidak boleh?
Regulasi industri yang berarti bisa berbulan-bulan atau bahkan bertahun-tahun lagi. Untuk sementara, pemilik situs web dibiarkan berjuang sendiri.
Sebagai bagian dari upaya, penting untuk membuat suara Anda didengar. Dorong perusahaan untuk memilih keluar dari proses yang transparan. Ungkapkan kekhawatiran Anda kepada pejabat terpilih dan orang lain yang berpengaruh.
Itu mungkin tidak memperlambat serangan alat AI. Tapi itu bisa mencegah hal-hal menjadi terlalu jauh dari kendali. Itu akan menguntungkan kita semua.