March 10, 2026

Iseng Menjalankan Local LLM di Laptop Tua: Seru, Lambat, Tapi Menyenangkan

Beberapa waktu terakhir saya cukup sering melihat pembahasan tentang AI, khususnya Large Language Model (LLM). Rasanya hampir setiap hari selalu ada model baru, tools baru, atau pendekatan baru yang bermunculan. Dari situ saya mulai kepikiran: gimana sih rasanya menjalankan LLM sendiri secara lokal?

Bukan untuk sesuatu yang serius sebenarnya. Lebih ke rasa penasaran saja. Takut ketinggalan teknologi juga mungkin.

Masalahnya, perangkat yang saya punya bukan mesin monster. Justru sebaliknya.

Laptop yang saya gunakan hanya memiliki spesifikasi:

AMD Ryzen 5 2500U
RAM 8GB DDR4
SSD NVMe 512GB
Tanpa GPU dedicated

Jadi ini benar-benar eksperimen “apa yang bisa dilakukan dengan perangkat seadanya”.

Dan ternyata… cukup seru juga.

Mulai Dari Awal: Install Linux

Karena tujuan saya adalah membuat semacam server kecil untuk eksperimen AI, saya memutuskan untuk langsung menggunakan Linux.

Pilihan saya jatuh ke Ubuntu Server 24.04.

Alasannya simpel:

stabil
familiar
tidak banyak hal aneh
ringan karena tanpa GUI

Installasinya juga standar saja, tidak ada konfigurasi yang aneh. Setelah selesai install, saya langsung melakukan update package seperti biasa.

sudo apt update
sudo apt upgrade

Laptop ini kemudian saya perlakukan seperti mini server kecil untuk eksperimen.

Install Docker (Supaya Hidup Lebih Mudah)

Hampir semua eksperimen server saya sekarang selalu menggunakan Docker. Alasannya sederhana: praktis dan mudah dibersihkan kalau gagal.

Install Docker di Ubuntu juga sudah sangat umum langkahnya.

Setelah Docker siap, saya bisa menjalankan berbagai service tanpa harus “mengotori” sistem utama.

Install Ollama: Mesin untuk Menjalankan Model

Langkah berikutnya adalah menginstall Ollama.

Ollama ini bisa dibilang seperti engine untuk menjalankan model LLM secara lokal. Dia menangani proses download model, menjalankan inference, sampai menyediakan API yang bisa dipakai aplikasi lain.

Installasinya juga sangat mudah.

curl -fsSL https://ollama.com/install.sh | sh

Setelah itu kita langsung bisa menarik model dengan perintah sederhana seperti:

ollama pull llama3

Dan di sinilah bagian yang menurut saya paling menarik.

Dunia Model yang Sangat Luas

Saat mulai melihat daftar model yang tersedia, saya langsung sadar satu hal:

Pilihan model itu banyak sekali.

Tidak hanya model general seperti chat biasa, tapi juga model yang lebih spesifik, misalnya:

model untuk coding
model untuk reasoning
model kecil yang sangat ringan
model besar dengan kualitas lebih tinggi
model yang di-fine tune untuk tugas tertentu

Beberapa contoh yang populer misalnya:

Llama
Mistral
Phi
Code model untuk programming

Kita bisa memilih model berdasarkan:

ukuran parameter
kebutuhan
performa hardware kita

Karena laptop saya sangat terbatas, saya tentu harus memilih model yang kecil.

Biasanya model di kisaran 1B sampai 3B parameter masih cukup masuk akal untuk perangkat seperti ini.

Supaya Lebih Enak Dipakai: Install Open WebUI

Berinteraksi dengan LLM lewat terminal sebenarnya bisa saja, tapi rasanya kurang nyaman.

Makanya saya juga menambahkan Open WebUI yang berjalan menggunakan Docker.

Dengan ini saya mendapatkan interface web yang mirip seperti chat AI pada umumnya.

Keuntungannya:

bisa chat seperti ChatGPT
bisa memilih model
history tersimpan
bisa diakses dari browser perangkat lain di jaringan

Jadi laptop ini berubah menjadi semacam server AI kecil di rumah.

Saatnya Mencoba Chat

Setelah semuanya berjalan, saya langsung mencoba beberapa interaksi sederhana:

tanya pertanyaan umum
minta rangkuman
minta penjelasan teknis
sedikit eksperimen coding

Dan hasilnya sebenarnya cukup mengejutkan.

Model kecil tetap bisa menjawab dengan cukup baik. Memang tidak secerdas model besar di cloud, tapi masih sangat usable.

Yang paling terasa sebenarnya bukan kualitas jawabannya.

Melainkan kecepatannya.

Realita Hardware: 4 – 6 Token per Detik

Dengan spesifikasi laptop:

Ryzen 5 2500U
RAM 8GB
tanpa GPU

Kecepatan yang saya dapatkan rata-rata sekitar:

4 – 6 token per detik.

Artinya jawabannya muncul pelan seperti orang mengetik.

Kalau jawabannya panjang, kita harus sabar menunggu beberapa detik sampai selesai.

Tapi jujur saja, ini masih cukup menyenangkan untuk dilihat. Ada sensasi tersendiri saat tahu bahwa semua proses itu benar-benar berjalan di laptop kita sendiri, tanpa cloud.

Tidak ada API.
Tidak ada server luar.
Semua berjalan lokal.

Hal Menarik dari Local LLM

Dari eksperimen kecil ini, ada beberapa hal yang menurut saya menarik:

1. Privasi

Semua data tetap berada di perangkat sendiri.

Kalau kita ingin mengolah dokumen pribadi, log server, atau data sensitif, ini jauh lebih aman.

2. Bebas Eksperimen

Kita bisa:

mencoba berbagai model
mengubah parameter
mengintegrasikan dengan aplikasi lain

Tanpa takut kena limit API atau biaya.

3. Ekosistemnya Sangat Aktif

Tool seperti:

Ollama
Open WebUI
berbagai model open source

berkembang sangat cepat.

Hampir setiap minggu selalu ada update baru.

Limitasi yang Sangat Terasa

Tentu saja proyek ini tidak sempurna.

Batasan terbesar jelas ada pada hardware.

RAM 8GB sangat terasa sempit untuk dunia AI. Banyak model yang bahkan tidak bisa dijalankan.

CPU laptop juga bukan dirancang untuk inference AI.

Kalau punya GPU seperti:

RTX 3060
RTX 4060
atau bahkan GPU server

pengalamannya pasti jauh lebih baik.

Tapi Justru Itu yang Membuatnya Seru

Karena hardware terbatas, saya jadi harus:

memilih model dengan hati-hati
mengatur resource
mencoba berbagai optimasi

Dan itu membuat eksperimen ini terasa seperti mini lab AI pribadi.

Project Selanjutnya

Setelah berhasil menjalankan chat AI lokal, saya mulai kepikiran sesuatu yang lebih menarik.

Saya ingin mencoba membuat AI lokal yang terintegrasi dengan workflow coding.

Misalnya seperti:

integrasi dengan editor
auto assist coding
atau semacam AI helper di VS Code

Ide dasarnya adalah membuat AI lokal yang bisa:

membantu menulis kode
menjelaskan error
atau membaca project

Tanpa perlu bergantung pada layanan cloud.

Tapi itu sepertinya akan menjadi project berikutnya.

Kesimpulan

Eksperimen menjalankan LLM di laptop lama ini sebenarnya dimulai dari rasa penasaran saja.

Tidak ada tujuan besar.

Hanya ingin tahu:

“Gimana sih rasanya punya AI sendiri di rumah?”

Dan jawabannya:

Seru. Lambat. Tapi sangat menarik.

Walaupun hanya mendapatkan 4-6 token per detik, pengalaman melihat model AI berjalan langsung di mesin sendiri tetap terasa menyenangkan.

Setidaknya sekarang saya tidak hanya membaca tentang AI — tapi juga sedikit ikut memainkannya secara langsung.

Dan mungkin, ini baru awal dari eksperimen-eksperimen berikutnya.

Iseng Menjalankan Local LLM di Laptop Tua: Seru, Lambat, Tapi Menyenangkan

Mulai Dari Awal: Install Linux

Install Docker (Supaya Hidup Lebih Mudah)

Install Ollama: Mesin untuk Menjalankan Model

Dunia Model yang Sangat Luas

Supaya Lebih Enak Dipakai: Install Open WebUI

Saatnya Mencoba Chat

Realita Hardware: 4 – 6 Token per Detik

Hal Menarik dari Local LLM

1. Privasi

2. Bebas Eksperimen

3. Ekosistemnya Sangat Aktif

Limitasi yang Sangat Terasa

Tapi Justru Itu yang Membuatnya Seru

Project Selanjutnya

Kesimpulan

Leave a Reply Cancel reply

You may also like

Mulai Dari Awal: Install Linux

Install Docker (Supaya Hidup Lebih Mudah)

Install Ollama: Mesin untuk Menjalankan Model

Dunia Model yang Sangat Luas

Supaya Lebih Enak Dipakai: Install Open WebUI

Saatnya Mencoba Chat

Realita Hardware: 4 – 6 Token per Detik

Hal Menarik dari Local LLM

1. Privasi

2. Bebas Eksperimen

3. Ekosistemnya Sangat Aktif

Limitasi yang Sangat Terasa

Tapi Justru Itu yang Membuatnya Seru

Project Selanjutnya

Kesimpulan

Leave a Reply Cancel reply

You may also like

Memanfaatkan STB Bekas Jadi Mini Home Server (Armbian + CasaOS)

Setup WordPress di Docker (Plus Drama Reverse Proxy)