Skip to content
JUAL DOMAIN AGED

JUAL DOMAIN AGED

JASA BACKLINK MALANG

Categories

  • Business
  • Politic
  • Technology
  • Home impairment
  • Travel
  • News
  • Gadget
  • Books
  • Entertainment
  • Movies
  • Music
  • TV
  • Comic
  • Farming
  • Hobby
  • Games
  • PC
  • Console
  • Home
  • About us
  • Contact
  • Home
  • Uncategorized
  • Model bahasa kecil adalah kemarahan baru, kata para peneliti

Model bahasa kecil adalah kemarahan baru, kata para peneliti

Model bahasa kecil adalah kemarahan baru, kata para peneliti

Versi aslinya dari cerita ini muncul di majalah Quanta.

Model bahasa besar bekerja dengan baik karena sangat besar. Model terbaru dari Openai, Meta, dan Deepseek menggunakan ratusan miliar “parameter” – tombol yang dapat disesuaikan yang menentukan koneksi antara data dan dapat di -tweak selama proses pelatihan. Dengan lebih banyak parameter, model lebih mampu mengidentifikasi pola dan koneksi, yang pada gilirannya membuatnya lebih kuat dan akurat.

Tetapi kekuatan ini datang dengan biaya. Melatih model dengan ratusan miliar parameter membutuhkan sumber daya komputasi yang sangat besar. Untuk melatih model Ultra Gemini 1.0 -nya, misalnya, Google dilaporkan menghabiskan $ 191 juta. Model Bahasa Besar (LLM) juga membutuhkan kekuatan komputasi yang cukup besar setiap kali mereka menjawab permintaan, yang menjadikannya babi energi terkenal. Satu kueri untuk chatgpt mengkonsumsi sekitar 10 kali lebih banyak energi dari pencarian Google tunggal, menurut Electric Power Research Institute.

Sebagai tanggapan, beberapa peneliti sekarang berpikir kecil. IBM, Google, Microsoft, dan OpenAI baru -baru ini merilis model bahasa kecil (SLM) yang menggunakan beberapa miliar parameter – sebagian kecil dari rekan LLM mereka.

Model kecil tidak digunakan sebagai alat serba guna umum seperti sepupunya yang lebih besar. Tetapi mereka dapat unggul pada tugas -tugas spesifik yang lebih sempit, seperti merangkum percakapan, menjawab pertanyaan pasien sebagai chatbot perawatan kesehatan, dan mengumpulkan data di perangkat pintar. “Untuk banyak tugas, model 8 miliar -parameter sebenarnya cukup bagus,” kata Zico Kolter, seorang ilmuwan komputer di Universitas Carnegie Mellon. Mereka juga dapat berjalan di laptop atau ponsel, bukan pusat data yang sangat besar. (Tidak ada konsensus tentang definisi persis “kecil,” tetapi model baru semuanya memaksimalkan sekitar 10 miliar parameter.)

Untuk mengoptimalkan proses pelatihan untuk model -model kecil ini, para peneliti menggunakan beberapa trik. Model besar sering mengikis data pelatihan mentah dari internet, dan data ini dapat tidak terorganisir, berantakan, dan sulit diproses. Tetapi model-model besar ini kemudian dapat menghasilkan set data berkualitas tinggi yang dapat digunakan untuk melatih model kecil. Pendekatan, yang disebut distilasi pengetahuan, mendapatkan model yang lebih besar untuk secara efektif meneruskan pelatihannya, seperti seorang guru yang memberikan pelajaran kepada seorang siswa. “Alasannya [SLMs] Dapatkan begitu baik dengan model sekecil itu dan sedikit data adalah bahwa mereka menggunakan data berkualitas tinggi alih-alih hal-hal yang berantakan, ”kata Kolter.

Para peneliti juga telah mengeksplorasi cara untuk membuat model kecil dengan memulai dengan yang besar dan memotongnya. Salah satu metode, yang dikenal sebagai pemangkasan, mensyaratkan menghapus bagian yang tidak perlu atau tidak efisien dari jaringan saraf – jaringan luas titik -titik data yang terhubung yang mendasari model besar.

Pemangkasan terinspirasi oleh jaringan saraf kehidupan nyata, otak manusia, yang mendapatkan efisiensi dengan memotong koneksi antara sinapsis seiring bertambahnya usia seseorang. Pendekatan pemangkasan hari ini melacak kembali ke makalah 1989 di mana ilmuwan komputer Yann Lecun, sekarang di Meta, berpendapat bahwa hingga 90 persen dari parameter dalam jaringan saraf yang terlatih dapat dihapus tanpa mengorbankan efisiensi. Dia menyebut metode itu “kerusakan otak yang optimal.” Pemangkasan dapat membantu para peneliti menyempurnakan model bahasa kecil untuk tugas atau lingkungan tertentu.

Bagi para peneliti yang tertarik pada bagaimana model bahasa melakukan hal -hal yang mereka lakukan, model yang lebih kecil menawarkan cara yang murah untuk menguji ide -ide baru. Dan karena mereka memiliki parameter lebih sedikit daripada model besar, alasan mereka mungkin lebih transparan. “Jika Anda ingin membuat model baru, Anda perlu mencoba berbagai hal,” kata Leshem Choshen, seorang ilmuwan riset di Lab MIT-IBM Watson AI. “Model kecil memungkinkan para peneliti untuk bereksperimen dengan taruhan yang lebih rendah.”

Model besar dan mahal, dengan parameter yang semakin meningkat, akan tetap berguna untuk aplikasi seperti chatbots umum, generator gambar, dan penemuan obat. Tetapi bagi banyak pengguna, model kecil yang ditargetkan akan bekerja dengan baik, sementara menjadi lebih mudah bagi peneliti untuk berlatih dan membangun. “Model yang efisien ini dapat menghemat uang, waktu, dan menghitung,” kata Choshen.


Cerita asli dicetak ulang dengan izin dari Berapa banyak majalah, publikasi editorial independen dari Yayasan Simons yang misinya adalah untuk meningkatkan pemahaman publik tentang sains dengan meliput perkembangan penelitian dan tren matematika dan ilmu fisik dan kehidupan.

Tags: Adalah bahasa Baru Kata kecil kemarahan Model Para Peneliti

Continue Reading

Previous: Potongan anggaran NASA yang diusulkan 'akan memusnahkan kepemimpinan Amerika di luar angkasa'
Next: 'Kami tidak diprogram ke,' kata penerima Nobel Venki Ramakrishnan

Related Stories

SpaceX menguji perbaikan kapal luar angkasa setelah kegagalan back-to-back SpaceX menguji perbaikan kapal luar angkasa setelah kegagalan back-to-back

SpaceX menguji perbaikan kapal luar angkasa setelah kegagalan back-to-back

May 14, 2025
EPA kemungkinan akan menggali tim yang mempelajari risiko kesehatan dari bahan kimia EPA kemungkinan akan menggali tim yang mempelajari risiko kesehatan dari bahan kimia

EPA kemungkinan akan menggali tim yang mempelajari risiko kesehatan dari bahan kimia

May 12, 2025
Kecerdasan di Bumi berevolusi secara mandiri setidaknya dua kali Kecerdasan di Bumi berevolusi secara mandiri setidaknya dua kali

Kecerdasan di Bumi berevolusi secara mandiri setidaknya dua kali

May 11, 2025

Recent Posts

  • SpaceX menguji perbaikan kapal luar angkasa setelah kegagalan back-to-back
  • EPA kemungkinan akan menggali tim yang mempelajari risiko kesehatan dari bahan kimia
  • Kecerdasan di Bumi berevolusi secara mandiri setidaknya dua kali
  • Membongkar NOAA mengancam kemampuan dunia untuk memantau kadar karbon dioksida
  • Diabetes meningkat di Afrika. Bisakah itu menyebabkan terobosan baru?

Categories

Archives

  • May 2025
  • April 2025
  • March 2025
  • February 2025
  • January 2025
  • December 2024
  • November 2024
  • October 2024
  • May 2024

 

You may have missed

SpaceX menguji perbaikan kapal luar angkasa setelah kegagalan back-to-back SpaceX menguji perbaikan kapal luar angkasa setelah kegagalan back-to-back

SpaceX menguji perbaikan kapal luar angkasa setelah kegagalan back-to-back

May 14, 2025
EPA kemungkinan akan menggali tim yang mempelajari risiko kesehatan dari bahan kimia EPA kemungkinan akan menggali tim yang mempelajari risiko kesehatan dari bahan kimia

EPA kemungkinan akan menggali tim yang mempelajari risiko kesehatan dari bahan kimia

May 12, 2025
Kecerdasan di Bumi berevolusi secara mandiri setidaknya dua kali Kecerdasan di Bumi berevolusi secara mandiri setidaknya dua kali

Kecerdasan di Bumi berevolusi secara mandiri setidaknya dua kali

May 11, 2025
Membongkar NOAA mengancam kemampuan dunia untuk memantau kadar karbon dioksida Membongkar NOAA mengancam kemampuan dunia untuk memantau kadar karbon dioksida

Membongkar NOAA mengancam kemampuan dunia untuk memantau kadar karbon dioksida

May 10, 2025
Copyright © All rights reserved. | DarkNews by AF themes.