Quantcast
Channel: Mis Chorradas
Viewing all articles
Browse latest Browse all 84

Ollama con TensorRT en Ubuntu

$
0
0

Recientemente he instalado Ollama para ejecutar un “ChatGPT” en local y que haga uso de mi RTX 3060 que tiene 12GB de RAM.

Detalles importantes de la instalación que no se indica en la guía de instalación de Linux:

1. Aquí se indica cómo hacer para que la web escuche en 0.0.0.0, aunque esta es mi configuración:

cat /etc/systemd/system/ollama.service.d/override.conf 

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_KEEP_ALIVE=15m"

2. Para instalar CUDA yo recomiendo la instalación “deb (network)” porque así podremos instalar después TensorRT demanera fácil desde paquete (Ubuntu 22.04).

3. Instalar el paquete de TensorRT que permite la ejecución usando los núcleos dedicados para IA. Esto es tan sencillo como ejecutar:

apt-get install tensorrt

Aunque pareza que tendría que ejecutarse en CUDA y con los núcleos Tensor de manera igual, no es así, hay diferencias. En unas pruebas mías sobre código, era la diferencia entre que la respuesta fuese correcta vs incorrecta.

Yo mucha idea no tengo, pero tengo la intuición de que podría estar relacionado con que los núcleos Tensor estén realizando cálculos en punto flotante internamente, vs aritmética entera de CUDA para el caso de los modelos Q8/Q6_K (cuantización en INT8/INT6) que uso.

Aquí las pruebas:

4. nvidia-smi es un comando interesante para ver las estadísticas de memoria y uso de la GPU.

Edit: Ahora el modelo llama3, que antes me había dado una respuesta correcta, me muestra una respuesta incorrecta. Me siento confundido. Tal vez este post no sirva de nada 🤷‍♀️.


Viewing all articles
Browse latest Browse all 84

Trending Articles