
Versi aslinya dari cerita ini muncul di majalah Quanta.
Model bahasa besar bekerja dengan baik karena sangat besar. Model terbaru dari Openai, Meta, dan Deepseek menggunakan ratusan miliar “parameter” – tombol yang dapat disesuaikan yang menentukan koneksi antara data dan dapat di -tweak selama proses pelatihan. Dengan lebih banyak parameter, model lebih mampu mengidentifikasi pola dan koneksi, yang pada gilirannya membuatnya lebih kuat dan akurat.
Tetapi kekuatan ini datang dengan biaya. Melatih model dengan ratusan miliar parameter membutuhkan sumber daya komputasi yang sangat besar. Untuk melatih model Ultra Gemini 1.0 -nya, misalnya, Google dilaporkan menghabiskan $ 191 juta. Model Bahasa Besar (LLM) juga membutuhkan kekuatan komputasi yang cukup besar setiap kali mereka menjawab permintaan, yang menjadikannya babi energi terkenal. Satu kueri untuk chatgpt mengkonsumsi sekitar 10 kali lebih banyak energi dari pencarian Google tunggal, menurut Electric Power Research Institute.
Sebagai tanggapan, beberapa peneliti sekarang berpikir kecil. IBM, Google, Microsoft, dan OpenAI baru -baru ini merilis model bahasa kecil (SLM) yang menggunakan beberapa miliar parameter – sebagian kecil dari rekan LLM mereka.
Model kecil tidak digunakan sebagai alat serba guna umum seperti sepupunya yang lebih besar. Tetapi mereka dapat unggul pada tugas -tugas spesifik yang lebih sempit, seperti merangkum percakapan, menjawab pertanyaan pasien sebagai chatbot perawatan kesehatan, dan mengumpulkan data di perangkat pintar. “Untuk banyak tugas, model 8 miliar -parameter sebenarnya cukup bagus,” kata Zico Kolter, seorang ilmuwan komputer di Universitas Carnegie Mellon. Mereka juga dapat berjalan di laptop atau ponsel, bukan pusat data yang sangat besar. (Tidak ada konsensus tentang definisi persis “kecil,” tetapi model baru semuanya memaksimalkan sekitar 10 miliar parameter.)
Untuk mengoptimalkan proses pelatihan untuk model -model kecil ini, para peneliti menggunakan beberapa trik. Model besar sering mengikis data pelatihan mentah dari internet, dan data ini dapat tidak terorganisir, berantakan, dan sulit diproses. Tetapi model-model besar ini kemudian dapat menghasilkan set data berkualitas tinggi yang dapat digunakan untuk melatih model kecil. Pendekatan, yang disebut distilasi pengetahuan, mendapatkan model yang lebih besar untuk secara efektif meneruskan pelatihannya, seperti seorang guru yang memberikan pelajaran kepada seorang siswa. “Alasannya [SLMs] Dapatkan begitu baik dengan model sekecil itu dan sedikit data adalah bahwa mereka menggunakan data berkualitas tinggi alih-alih hal-hal yang berantakan, ”kata Kolter.
Para peneliti juga telah mengeksplorasi cara untuk membuat model kecil dengan memulai dengan yang besar dan memotongnya. Salah satu metode, yang dikenal sebagai pemangkasan, mensyaratkan menghapus bagian yang tidak perlu atau tidak efisien dari jaringan saraf – jaringan luas titik -titik data yang terhubung yang mendasari model besar.
Pemangkasan terinspirasi oleh jaringan saraf kehidupan nyata, otak manusia, yang mendapatkan efisiensi dengan memotong koneksi antara sinapsis seiring bertambahnya usia seseorang. Pendekatan pemangkasan hari ini melacak kembali ke makalah 1989 di mana ilmuwan komputer Yann Lecun, sekarang di Meta, berpendapat bahwa hingga 90 persen dari parameter dalam jaringan saraf yang terlatih dapat dihapus tanpa mengorbankan efisiensi. Dia menyebut metode itu “kerusakan otak yang optimal.” Pemangkasan dapat membantu para peneliti menyempurnakan model bahasa kecil untuk tugas atau lingkungan tertentu.
Bagi para peneliti yang tertarik pada bagaimana model bahasa melakukan hal -hal yang mereka lakukan, model yang lebih kecil menawarkan cara yang murah untuk menguji ide -ide baru. Dan karena mereka memiliki parameter lebih sedikit daripada model besar, alasan mereka mungkin lebih transparan. “Jika Anda ingin membuat model baru, Anda perlu mencoba berbagai hal,” kata Leshem Choshen, seorang ilmuwan riset di Lab MIT-IBM Watson AI. “Model kecil memungkinkan para peneliti untuk bereksperimen dengan taruhan yang lebih rendah.”
Model besar dan mahal, dengan parameter yang semakin meningkat, akan tetap berguna untuk aplikasi seperti chatbots umum, generator gambar, dan penemuan obat. Tetapi bagi banyak pengguna, model kecil yang ditargetkan akan bekerja dengan baik, sementara menjadi lebih mudah bagi peneliti untuk berlatih dan membangun. “Model yang efisien ini dapat menghemat uang, waktu, dan menghitung,” kata Choshen.
Cerita asli dicetak ulang dengan izin dari Berapa banyak majalah, publikasi editorial independen dari Yayasan Simons yang misinya adalah untuk meningkatkan pemahaman publik tentang sains dengan meliput perkembangan penelitian dan tren matematika dan ilmu fisik dan kehidupan.