Iseng Menjalankan Local LLM di Laptop Tua: Seru, Lambat, Tapi Menyenangkan
Beberapa waktu terakhir saya cukup sering melihat pembahasan tentang AI, khususnya Large Language Model (LLM). Rasanya hampir setiap hari selalu ada model baru, tools baru, atau pendekatan baru yang bermunculan. Dari situ saya mulai kepikiran: gimana sih rasanya menjalankan LLM sendiri secara lokal?
Bukan untuk sesuatu yang serius sebenarnya. Lebih ke rasa penasaran saja. Takut ketinggalan teknologi juga mungkin.
Masalahnya, perangkat yang saya punya bukan mesin monster. Justru sebaliknya.
Laptop yang saya gunakan hanya memiliki spesifikasi:
- AMD Ryzen 5 2500U
- RAM 8GB DDR4
- SSD NVMe 512GB
- Tanpa GPU dedicated
Jadi ini benar-benar eksperimen “apa yang bisa dilakukan dengan perangkat seadanya”.
Dan ternyata… cukup seru juga.
Mulai Dari Awal: Install Linux
Karena tujuan saya adalah membuat semacam server kecil untuk eksperimen AI, saya memutuskan untuk langsung menggunakan Linux.
Pilihan saya jatuh ke Ubuntu Server 24.04.
Alasannya simpel:
- stabil
- familiar
- tidak banyak hal aneh
- ringan karena tanpa GUI
Installasinya juga standar saja, tidak ada konfigurasi yang aneh. Setelah selesai install, saya langsung melakukan update package seperti biasa.
sudo apt update
sudo apt upgrade
Laptop ini kemudian saya perlakukan seperti mini server kecil untuk eksperimen.
Install Docker (Supaya Hidup Lebih Mudah)
Hampir semua eksperimen server saya sekarang selalu menggunakan Docker. Alasannya sederhana: praktis dan mudah dibersihkan kalau gagal.
Install Docker di Ubuntu juga sudah sangat umum langkahnya.
Setelah Docker siap, saya bisa menjalankan berbagai service tanpa harus “mengotori” sistem utama.
Install Ollama: Mesin untuk Menjalankan Model
Langkah berikutnya adalah menginstall Ollama.
Ollama ini bisa dibilang seperti engine untuk menjalankan model LLM secara lokal. Dia menangani proses download model, menjalankan inference, sampai menyediakan API yang bisa dipakai aplikasi lain.
Installasinya juga sangat mudah.
curl -fsSL https://ollama.com/install.sh | sh
Setelah itu kita langsung bisa menarik model dengan perintah sederhana seperti:
ollama pull llama3
Dan di sinilah bagian yang menurut saya paling menarik.
Dunia Model yang Sangat Luas
Saat mulai melihat daftar model yang tersedia, saya langsung sadar satu hal:
Pilihan model itu banyak sekali.
Tidak hanya model general seperti chat biasa, tapi juga model yang lebih spesifik, misalnya:
- model untuk coding
- model untuk reasoning
- model kecil yang sangat ringan
- model besar dengan kualitas lebih tinggi
- model yang di-fine tune untuk tugas tertentu
Beberapa contoh yang populer misalnya:
- Llama
- Mistral
- Phi
- Code model untuk programming
Kita bisa memilih model berdasarkan:
- ukuran parameter
- kebutuhan
- performa hardware kita
Karena laptop saya sangat terbatas, saya tentu harus memilih model yang kecil.
Biasanya model di kisaran 1B sampai 3B parameter masih cukup masuk akal untuk perangkat seperti ini.
Supaya Lebih Enak Dipakai: Install Open WebUI
Berinteraksi dengan LLM lewat terminal sebenarnya bisa saja, tapi rasanya kurang nyaman.
Makanya saya juga menambahkan Open WebUI yang berjalan menggunakan Docker.
Dengan ini saya mendapatkan interface web yang mirip seperti chat AI pada umumnya.
Keuntungannya:
- bisa chat seperti ChatGPT
- bisa memilih model
- history tersimpan
- bisa diakses dari browser perangkat lain di jaringan
Jadi laptop ini berubah menjadi semacam server AI kecil di rumah.
Saatnya Mencoba Chat
Setelah semuanya berjalan, saya langsung mencoba beberapa interaksi sederhana:
- tanya pertanyaan umum
- minta rangkuman
- minta penjelasan teknis
- sedikit eksperimen coding
Dan hasilnya sebenarnya cukup mengejutkan.
Model kecil tetap bisa menjawab dengan cukup baik. Memang tidak secerdas model besar di cloud, tapi masih sangat usable.
Yang paling terasa sebenarnya bukan kualitas jawabannya.
Melainkan kecepatannya.
Realita Hardware: 4 – 6 Token per Detik
Dengan spesifikasi laptop:
- Ryzen 5 2500U
- RAM 8GB
- tanpa GPU
Kecepatan yang saya dapatkan rata-rata sekitar:
4 – 6 token per detik.
Artinya jawabannya muncul pelan seperti orang mengetik.
Kalau jawabannya panjang, kita harus sabar menunggu beberapa detik sampai selesai.
Tapi jujur saja, ini masih cukup menyenangkan untuk dilihat. Ada sensasi tersendiri saat tahu bahwa semua proses itu benar-benar berjalan di laptop kita sendiri, tanpa cloud.
Tidak ada API.
Tidak ada server luar.
Semua berjalan lokal.
Hal Menarik dari Local LLM
Dari eksperimen kecil ini, ada beberapa hal yang menurut saya menarik:
1. Privasi
Semua data tetap berada di perangkat sendiri.
Kalau kita ingin mengolah dokumen pribadi, log server, atau data sensitif, ini jauh lebih aman.
2. Bebas Eksperimen
Kita bisa:
- mencoba berbagai model
- mengubah parameter
- mengintegrasikan dengan aplikasi lain
Tanpa takut kena limit API atau biaya.
3. Ekosistemnya Sangat Aktif
Tool seperti:
- Ollama
- Open WebUI
- berbagai model open source
berkembang sangat cepat.
Hampir setiap minggu selalu ada update baru.
Limitasi yang Sangat Terasa
Tentu saja proyek ini tidak sempurna.
Batasan terbesar jelas ada pada hardware.
RAM 8GB sangat terasa sempit untuk dunia AI. Banyak model yang bahkan tidak bisa dijalankan.
CPU laptop juga bukan dirancang untuk inference AI.
Kalau punya GPU seperti:
- RTX 3060
- RTX 4060
- atau bahkan GPU server
pengalamannya pasti jauh lebih baik.
Tapi Justru Itu yang Membuatnya Seru
Karena hardware terbatas, saya jadi harus:
- memilih model dengan hati-hati
- mengatur resource
- mencoba berbagai optimasi
Dan itu membuat eksperimen ini terasa seperti mini lab AI pribadi.
Project Selanjutnya
Setelah berhasil menjalankan chat AI lokal, saya mulai kepikiran sesuatu yang lebih menarik.
Saya ingin mencoba membuat AI lokal yang terintegrasi dengan workflow coding.
Misalnya seperti:
- integrasi dengan editor
- auto assist coding
- atau semacam AI helper di VS Code
Ide dasarnya adalah membuat AI lokal yang bisa:
- membantu menulis kode
- menjelaskan error
- atau membaca project
Tanpa perlu bergantung pada layanan cloud.
Tapi itu sepertinya akan menjadi project berikutnya.
Kesimpulan
Eksperimen menjalankan LLM di laptop lama ini sebenarnya dimulai dari rasa penasaran saja.
Tidak ada tujuan besar.
Hanya ingin tahu:
“Gimana sih rasanya punya AI sendiri di rumah?”
Dan jawabannya:
Seru. Lambat. Tapi sangat menarik.
Walaupun hanya mendapatkan 4-6 token per detik, pengalaman melihat model AI berjalan langsung di mesin sendiri tetap terasa menyenangkan.
Setidaknya sekarang saya tidak hanya membaca tentang AI — tapi juga sedikit ikut memainkannya secara langsung.
Dan mungkin, ini baru awal dari eksperimen-eksperimen berikutnya.
