Latif Anshori Kurniawan

Menyiapkan Regulasi Lokal untuk Teknologi LLMs

Diterbitkan pada dalam Blog.

Sebagai pendahuluan, kami mengawali dari kabar bahwa kecerdasan buatan (artificial intelligence, A.I.) milik Google telah dapat mengubah deskripsi teks ke dalam format audio. Namun, bisa jadi produk AI mereka ini tidak dirilis untuk publik, tereksperimentali hanya untuk laboratorium AI Google. Pendek kata, seseorang dapat mengetikkan beberapa deskripsi kata dalam sebuah teks dan AI Google, melalui teknologi MusicLM, menggeneralisasi deskripsi tersebut menjadi sebuah audio. Perinciannya dapat dibaca pada artikel dari tim Google: arxiv.org/abs/2301.11325 (PDF: arxiv.org/pdf/2301.11325.pdf).

Tidak sedikit para kritisi yang mempermasalahkan MusicLM tersebut, terutama berkait dengan apakah melanggar hak karya/cipta seseorang ataukah memang berdasar dataset yang murni kreasi engine MusicLM. Hal ini dipertanyakan sebab cara kerja AI pada umumnya masih dalam tahap mempelajari dari sesuatu terlebih dahulu, diolah sedemikian rupa, kemudian dirilis dalam luaran yang dirancang pengguna. Apakah mesin AI dalam MusicLM tersebut memang meng-generate dari nol, ataukah mempelajari dari pelbagai audio yang telah terproduksi di dunia sehingga dikhawatirkan terdapat potensi untuk melanggar copyright, dua hal ini di antara isu yang masih hangat didiskusikan.

Isu legalitas atas kehadiran teknologi AI-generatif tergaungkan oleh pelbagai pihak. Tidak dapat dimungkiri bahwa terdapat potensi-potensi, atau bahkan pelbagai dampak yang dimungkinkan menjadi negatif di kemudian hari, terutama apakah terdapat unsur pelanggaran hak karya atas pemrosesan hingga produksi akhir luaran yang dihasilkan. Apakah mencukupkan diri dengan konsepsi fair-use menjawab isu yang ada. Hal ini diperkuat dengan temuan terpublikasi pada Desember tahun lalu yang mendapati bahwa pemodelan AI yang meng-generate citra (image-generating AI models) yang entah dari mana asalnya, selaik DALL-E 2 dan Stable Diffusion, dapat mereplikasi pelbagai aspek dari citra-citra berdasar data yang dilatih (training data) sedemikian rupa (PDF: arxiv.org/pdf/2212.03860.pdf).

Sebagaimana yang telah disebutkan pada beberapa pos sebelumnya, kehadiran alat/bantu/mesin yang dapat mengkreasi teks tulis—masyaallah, salah satunya menggunakan teknologi ChatGPT, sempat dirisaukan sebagian kalangan. Kekhawatiran yang ada justru tidak berdasar, apalagi bila kita mendasarkan sekadar pada media massa daring/digital yang interpretasinya dapat mewujud dalam pelbagai rupa. ChatGPT tidak semengerikan yang didramatisasi. Bahkan, salah satu grup peneliti menegaskan bahwa ChatGPT kurang mampu menyampaikan state-of-the-art dalam sebuah paper (arxiv.org/abs/2301.04655). Atas Izin-Nya pula, muncul pengembangan mesin (dalam konteks perangkat lunak) yang dapat membantu mendeteksi teks tulis yang dikaryakan dari mesin, salah satunya adalah DetectGPT (arxiv.org/abs/2301.11305).

Eric A. Mitchell (mahasiswa doktoral di Stanford, diketahui pula berkontribusi di Lab AI dan Grup NLP) menandaskan bahwa DetectGPT dapat mendeteksi apakah sebuah teks (diproduksi secara) tertulis dengan mesin (machine-written) atau memang secara alami dari ketikan seseorang. DetectGPT menggunakan metode pemodelan bahasa dalam skala besar (large language models, LLMs) dengan kurvatur probabilitas (probability curvature). Menariknya, DetectGPT tidak memerlukan pelatihan terklasifikasi secara terpisah (separate classifier), menghimpun dataset dari paragraf versi ter-generate atau aslinya, atau bahkan melabeli secara eksplisit teks tergenerasi dengan markah tirta (watermark). Metode DetectGPT ini hanya menggunakan probabilitas (dari kumpulan) log yang terkomputasi oleh pemodelan yang ada.

DetectGPT merupakan salah satu dari sekian tool yang telah terkreasi semenjak kemunculan ChatGPT oleh OpenAI kepada publik. Inilah yang kami maksud bahwa, apabila memang ChatGPT berpotensi mengerucut pada pelbagai dampak yang lebih bermudarat, atas Izin-Nya, dunia ini tidak kekurangan orang-orang yang lebih kreatif. Telah lahir kit kreatif yang dapat mendeteksi apakah sebuah teks dikreasi ChatGPT atau selainnya, sebagaimana yang dikonsepsikan oleh Eric dan tim tersebut. Chatbot berbasis AI telah lama tergaungkan, mengapa baru kekinian bergelisah dengan ChatGPT dari OpenAI?

Muara Pengembangan AI: Bisnis

OpenAI merilis ChatGPT Plus dengan sistem berlangganan $20 per bulan. Tentu banyak pihak akan dengan mudah makin dapat mempelajari hal ini, kita pun elok tentu bersiap mendalaminya pula. Versi berbayar ini tentu memiliki fitur-fitur yang lebih ditingkatkan, dijanjikan pula memperoleh privilese akses prioritas untuk fitur terbaru dan beberapa peningkatan lebih dini. Berdasar hal ini, teramat diketahui publik bahwa pengembangan ChatGPT memang tidak jauh dari dunia bisnis, bukan?

ChatGPT Plus masih dalam tahap invitasi sehingga tidak semua pengguna yang sebelumnya telah memperoleh akses free memperoleh undangan dari OpenAI. Namun, dikabarkan pula bahwa OpenAI tetap masih menyediakan versi free bagi pengguna yang ingin menjajal terlebih dahulu, dan pengguna berbayar tentu sejatinya membantu pula memberi kesempatan akses free tersebut bagi makin banyak kalangan mempelajari dan menggunakannya. Kami suka ChatGPT sebab ia open-source dan lebih dapat dipotensikan untuk hal-hal positif alih-alih pemberitaan platform warta digital yang sekadar ingin memperoleh klikbait. Well, memfaedahi ChatGPT pun dapat semenyenangkan berinteraksi dengan kucing (catgpt.wvd.io)? Alhamdulillah, khair—insyaallah.

Sebagian kalangan masih keliru pahami perihal ChatGPT lantaran hanya mendapati warta perihal tool kecerdasan buatan tersebut terutama dari media umum, bukan media teknis spesifik. Mereka belum menelusuri artikel ilmiah, bahkan jurnal ilmiah yang membahas khusus dan disampaikan akademisi/peneliti yang memang bergelut di bidang kecerdasan buatan. Menyimpulkan terlalu dini bagaimana ChatGPT di kemudian hari barangkali kurang elok disampaikan sekarang, lebih-lebih kadar tool ini juga masih dalam dalam tahap pengembangan.

Kita perlu menandaskan kepada masyarakat bahwa diperlukan filter diri berlebih atas pelbagai informasi yang terdistribusi sedemikian rupa. Apa pun itu, tidak hanya perihal ChatGPT. Perlu tidak letih untuk diingatkan guna melakukan saring sebelum sharing. Tidak perlu mengikuti semua pemberitaan berlebih, dikhawatirkan otak kita terbebani berlebih pula sehingga memengaruhi penafsiran. Kita perlu acap memeriksa atau meriset ulang atas substansi yang tersaji. Tidak jarang media yang dirujuk melakukan update ralat atau revisi atas pemberitaan yang disampaikan, dan bisa jadi kita pun terluput mendapatinya.

Mari acap merujuk ulang atas informasi yang kita terima—yang tidak dijamin pula terbebas dari keterluputan sehingga mencuatkan kekelirupahaman. Barangkali, tidak sampai mislead, tetapi impak berdasar daya tangkap antarkita yang beraneka ragam tentu dapat memantik paradigma yang berlainan pula. Literasi informasi masih menjadi salah satu pekerjaan rumah kita, serta salah satu solusinya adalah mengetengahkan data yang diikhtiari absah dan reliabel. Sekali lagi, memang masih tiada jaminan luput dari kekeliruan, tetapi paling tidak kita telah berupaya, serta tidak jemu meralat, merevisi, dan/atau mengklarifikasi bila memang terjadi kekeliruan.

Bersiap dengan Regulasi Khusus

Sebagai penandasan, konsepsi ChatGPT adalah berbasis LLMs. LLMs merupakan alat bantu kecerdasan buatan yang dapat membaca, merangkum, serta menerjemahkan dan memprediksi beberapa kata dalam sebuah teks wacana yang mengizinkan menggeneralisasi kalimat-kalimat yang ada serupa dengan bagaimana seseorang menerapkan keterampilan berbahasa produktif (berbicara dan menulis). Shobita Parthasarathy, Guru Besar Kebijakan Publik dan Direktur Program Ilmu, Teknologi, dan Kebijakan Publik (STPP) Universitas Michigan menandaskan bahwa kita memerlukan pengawasan publik yang lebih luas (broader public scrutiny) untuk regulasi teknologi pemodelan bahasa ini yang dapat memberikan dampak bagi masyarakat. Hal ini tentu perlu didukung kesiapan regulasi sehingga dampak yang terjadi dapat dikendalikan sedemikian rupa.

AI menyeruak nyaris pada banyak hal, tidak terkecuali teknologi LLMs. Apakah kita akan menyalahkan kehadiran implementasi LLMs, yang sejatinya justru dapat lebih membantu peri kehidupan kita pada masa mendatang? Alangkah elok tidak perlu menyudutkan pula kepada pihak-pihak yang mengembangkan di baliknya. Tidak perlu mempertajam kekurang-bersepakatan kita, kita dapat memantik hal-hal kolaboratif, serta hingga merembugkan regulasi terbaru atas kehadirannya. Publikasi dan pemasaran ChatGPT terlalu acap diperbincangkan sebagai ancaman sehingga menjadi pusat perhatian yang justru dinilai negatif alih-alih lebih tertandaskan pada ranah konstruktif-positif.

Berdasar asal gabungan kata yang tersusun, dapat dimaknai bahwa LLMs dimungkinkan terealisasi dari beberapa pemodelan yang dilakukan. Dalam LLMs, tidak sekadar mengait perihal big-data, tetapi pada data bahasa yang lebih luas (large). Jadi, konsepsinya cenderung pada data ranah bahasa, bukan sekadar mendasar pada data secara umum. Data bahasa menjadi bagian dari dataset yang dipelajari oleh algoritma yang tersusun sedemikian rupa, kemudian data bahasa tersebut dilatih seakan menjadi bagian dari konversasi normatif. Oleh karena itu, luaran LLMs pun tidak berbatas pada satu bahasa umum, yakni bahasa Inggris, tetapi juga dapat dimungkinkan dapat mengorelasikan dengan pelbagai bahasa lainnya. Saat ini, pengembangan LLMs masih berkutat pada data bahasa berupa teks, bukan tidak mungkin data verbal nonteks berbasis suara dapat terakomodasi, lebih-lebih tervisualisasikan sehingga lebih atraktif.

Bagaimanakah pandangan sebagian pengembang perangkat lunak di dunia open-source perihal LLMs? Pada dasarnya, menarik sebab terdapat inovasi lebih dari sekadar soal big-data. Kalau kita mencermati beberapa kajian programmer dan akademisi/peneliti di platform GitHub, ChatGPT menjadi salah satu hal yang memantik pengembangan LLMs berikutnya, hal ini mengingat ia bukan sekadar pengembangan lebih lanjut dari chatbot. Apabila kita berkenan menelisik produk OpenAI yang tidak kalah seru lainnya (selain ChatGPT), salah satunya adalah Whisper, sebuah program transkripsi percakapan berbasis open-source yang menampakkan kepada kita bagaimana konsepsi pemelajaran mesin (machine-learning, ML) bekerja. Pendek kata, konsepsi ML, dan juga deep-learning (DL), semestinya yang perlu menjadi perhatian (bukan sekadar produk bernama ChatGPT, Whisper, ataupun lainnya).

Produk AI dapat berupa apa pun, bahkan tidak perlu dilatih (didesain mampu belajar secara mandiri), dan tidak berbatas a.n. ChatGPT atau berbasis LLMs, justru yang perlu kita siagai. Terutama sebagaimana disebut soal regulasi, barangkali perlu dikuatkan oleh beberapa pihak berwenang dan berkepentingan untuk bersiap-segera merancang regulasi yang tepat sebelum produk/teknologi AI yang jamak dari luar tersebut memasuki Indonesia. Hal ini lebih dari sekadar mendukung good geovernance sebelum terlambat menyesuaikan diri. Dengan demikian, kita tidak berhenti pada pesan-pesan kritik, tidak perlu pula sampai keluhan yang sekadar menguras tenaga dan waktu, tetapi juga dapat menggayung-sambutkan fenomena yang ada diselaraskan dengan nilai-nilai yang terdapat di negeri tercinta. Untuk apa bilamana terjadi penolakan atas ChatGPT di negeri ini, tetapi kita menerima teknologi yang tidak kalah serupa dengan nama berbeda (masih) dari luar pula.

Pengembangan chatbot dalam negeri telah lama digaungkan, terutama oleh beberapa perusahaan teknologi rintisan (startup). Kecenderungannya untuk melayani kebutuhan industri. Dari hulu ke hilir, dari pemanfaatan untuk kebutuhan melayani pelanggan hingga mendukung analisis data yang dapat dijadikan pijakan insight dan putusan policy perusahaan. Tidak dapat dimungkiri bahwa pengembangan LLMs yang ada justru disambut baik oleh startup lokal yang berfokus pada chatbot tersebut. Oh iya, tersebutlah beberapa startup lokal yang membidangi industri pengembangan konsepsi AI selaik chatbot atau rupa lainnya (tepatnya pengembangan teknologi berbasis NLP), di antaranya terdapat Prosa.ai, Kata.ai, Datasaur.ai, Qlue, Nodeflux, Konvergen.ai, dan lain-lain. Belum bila perusahaan rintisan tersebut juga membasiskan pengembangan mereka pada blockchain, yang pada intinya juga melibatkan prosesi AI.

Menghadapi Situating Search

Terdapat hal yang, pada dasarnya, sedikit terlewat dari pandangan kita. Entah itu ChatGPT atau apa pun yang digadang-gadang akan mendukung pengembangan kecerdasan buatan tidak lebih dari sekadar bermuara pada ranah bisnis melalui pengimplementasiannya pada mesin pencari. Seolah ada perang yang terjadi antara Microsoft dan Google. Microsoft bersama ChatGPT dan Google dengan teknologi yang terus dikembangkan dalam basis engine mesin pencari mereka yang nyaris mendominasi pasar yang ada. Mau tidak mau, konsepsi AI yang ada akan banyak melibatkan data kita. Banyak hal, dalam skala luas, terjaring dan terlibatkan pada sistem dasar AI mesin pencari yang kita gunakan (bahan bacaan menaarik, yakni artikel Situating Search dari Chirag Shah dan Emily M. Bender). Personalisasi iklan yang muncul pada pelbagai platform yang digunakan masih belum meredam polemik perihal privasi, lebih-lebih AI yang makin ditingkatkan dengan dalih meningkatkan pengalaman pengguna dalam menelusuri pelbagai informasi yang seolah diharapkan. Beberapa hal ini perlu regulasi, regulasi, dan regulasi, sehingga win-win-solutions bagi semua. Kita akui kita masih menjadi pasar bagi “mereka”, dan kita perlu bersikap dengan elegan melalui regulasi.

Sekecil pemasangan iklan untuk pengguna di Indonesia tentu elok tetap teregulasikan sedemikian rupa. Pengadaan infrastruktur internet di Tanah Air juga tidaklah gratis. Dikesankan bahwa layanan mesin pencari yang ada bersifat gratis, tetapi esensinya, menukil kalam populer dalam kehidupan kita bahwa tiada makan siang gratis, bukan? Histori aktivitas pencarian kita pun dianjurkan untuk diaktifkan dengan maksud supaya terpersonalisasikan sedemikian rupa. Namun, bukankah histori tersebut bagian dari aspek privatif kita? Sebuah risiko dari penggunaan platform yang ada memang, tetapi tentu kita pun lebih nyaman bila terdapat aturan atau code-of-conduct antarsemua pihak.

Regulasi perlu disiapkan sedini mungkin dengan tentu melibatkan pelbagai pihak pemangku kepentingan dan dari pelbagai bidang yang teramat krusial (pendidikan, kesehatan, ekonomi—makro-mikro, agraria-perkebunan-maritim, industri/manufaktur elektronik-nonelektronik, infrastruktur, serta pertambangan). Ini adalah keniscayaan, masyaallah, serbaneka produk teknologi informasi kekinian telah menyeruak di segala sendi sehingga dampaknya pun tidak main-main, dapat mempengaruhi—atas Izin-Nya—laku berkehidupan kita.

Kita perlu belajar berdasar pengalaman terdahulu, bagaimana kita sempat kelabakan dengan isu pangkalan data (data-center), tetapi sejatinya sudah lama dikelola oleh beberapa perusahaan swasta lokal. Benteng pertahanan data negeri kita perlu diperketat sedemikian rupa sebab tidak selamanya pula kita bergantung dengan teknologi dari luar. Hal ini sekaligus berjalin kelindan dengan penyiapaan sumber daya dan infrastruktur yang matang sehingga kita pun dapat berdaya saing.

Tidaklah mungkin kita selamanya bergantung dengan insinyur-insinyur dari India dan Tiongkok. Syukur kita pun dapat berkontribusi bagi dunia, berlimpah engineer kita yang berdikari dan terandalkan. Miris memang bila kita dapat perusahaan teknologi lokal diisi oleh para programer dari India misalnya. Mengutip judul artikel Pak I Made Wiryana pada majalah InfoLINUX satu dekade lampau (yang masih terngiang di benak kami): “Kurang apa, sih, kita?”—saat beliau mengetengahkan bahasa pemrograman skrip Lua yang dikreasi oleh akademisi-peneliti di Brazil.

Kita pun sama-sama belajar. Terlepas bakal menjadi negara maju atau tidak, nan pokok, kita masih berkenan belajar dan bertransformasi dengan realita yang terjadi. Kami pun masih antusias dengan pengembangan kecerdasan buatan, padahal dunia AI ini barangkali bukan menjadi keseharian di departemen kami. Sejatinya, ia lebih dekat dengan dunia bahasa pula, tetapi barangkali tidak menjadi bahan diskusi harian. Pada bidang kami, terdapat pula pembahasan perihal neuorlinguistik, yang berjalin kelindan dan dapat mengarah pada dunia komputasi. Tepatnya untuk neural language processing (NLP).

Tentu, NLP bukanlah hal baru, dan cenderung dikembangkan oleh segenap peneliti yang tertarik dengan bahasa dan ilmu komputer (computer science, CS). Bidang untuk mengakomodasi hal ini disebut dengan linguistik komputasional (computational linguistics, CL). Kami tidak seratus persen CL. Hal ini mengingat bidang utama kami, pada dasarnya, adalah berkait dengan pendidikan bahasa dan sastra Indonesia. Namun, menyelaraskan dengan renjana kami atas dunia komputasi, terkhusus pada ranah pengembangan perangkat lunak sumber-terbuka (open-source), kami mencabangkan diri menjadi beberapa subbagian: pendidikan, bahasa/linguistik, dan ilmu komputer sekaligus, serta CL menjadi bagian yang teramat menyenangkan pula. Kombinasi keseluruhan mengantarkan kami kepada beberapa grup peneliti yang membidani hal-hal yang tidak kalah serupa.

Barangkali, kami masih berfokus pada bahasa komputasi R, tetapi sudah tidak lagi berkonsentrasi penuh pada Python, mengingat keberbatasan yang ada. Mempelajari R sudah menyita energi berlebih. Lebih-lebih, kami mempelajari hal baru bersama Rust untuk statistika dalam penelitian dengan pendekatan mixed-method terbantukan pemodelan dari Rasch (salah satunya adalah untuk menakar kadar aksesibilitas butir instrumen). Belum lagi, kami tergoda migrasi yang dilakukan Tomás Aragón dari R ke Julia, berikut artikel Tomás sebelum menutup pos ini.

Berbicara mengenai regulasi, tentu kita barangkali sekadar dapat menyampaikan usulan. Putusan final tetaplah pada pemangku kepentingan selaku sebagai pihak yang berwenang. Kita berharap semoga regulasi memang dapat direalisasikan untuk disiapkan sedemikian rupa. Laju perkembangan yang ada begitu cepat terpacu, diiringi dengan mencuatnya hal-hal pengembangan baru yang barangkali juga memerlukan kebijakan yang tidak kalah baru. Tidak bermaksu terburu, tetapi paling tidak kita pun dapat memburu.