Estoy empezando a jugar con cosas, y yo se que lo voy a echar a andar.
Lo que me lleva a probar cosas, a mirar cada uno de sus límites, y a buscar ese golpe de endorfina que me da el hecho de conseguir algo que no está documentado, que pocos han trabajado.
Y es que un LLM es tan rápido como la capacidad de inferencia que pude obtener del hardware donde se lo hace funcionar.
Para la prueba, no he ido por los caminos ni siquiera normales para Windows.
La primera prueba la hice sobre Windows IoT pero su inestabilidad en esta tarea me hizo cambiar de dirección. No sin antes fijarme en que el consumo de tokens durante la inferencia no cambia casi nada, pero si su duración.
Me explico:
Dispongo de un hardware reducido. Del que compramos en cualquier mercado de segunda mano de empresas de reciclaje.
En este caso un portátil, Intel i7-10610u con 16GB de RAM y una GPU integrada Intel UHD Graphics.
Esa primera prueba arrojó unos datos modestos, interesantes, pero modestos. Y dupliqué la RAM, a 32 GB 2667 MT/s.
De la primera prueba, con 16 gb, la memoria destinada a la gráfica es de unos 7'5 GB, y con 32 GB, la memoria destinada a la gráfica es de unos 15 GB.
En ambos casos el modelo apenas consume 6 GB, y cargarla en RAM, da igual que sea de uso general que de la gráfica, recordemos que es compartida, no cambia nada.
No tengo los pantallazos de la primera. No recuerdo donde los he puesto, pero la diferencia de tiempos me llamó la atención hizo que ampliase la RAM.
El punto de origen
Empiezo por un planteamiento común.
Sobre LM Studio y con un modelo GUFF gemma 3 4b, que es un modelo de 4 mil millones de parámetros, y que se puede ejecutar en una GPU de 2 GB. El modelo se carga en la RAM, y se ejecuta en la GPU.
El modelo tiene acceso a herramientas de visión, es decir, que es capaz de ver y procesar imágenes, y herramientas de fichero, que no va a usar.
Un modelo con herramientas puede, en el caso de los GUFF, usar herramientas siempre que estén autocontenidas. Es decir, que no requieran de una conexión a internet, o de un servicio externo.
Todo empieza con esto:

Pido desde un fichero pegado de portapapeles, una captura de pantalla del panel de control inmersivo, y su traducción.
No me voy a centrar en la precisión en este momento, si no en otros parámetros.
Driver Intel UHD Graphics de Windows update
La primera prueba, con 32 GB de RAM, y el driver de Windows update, instalado por Windows, tiene fecha de del 13/11/2023, y es el que se muestra en la captura del Task Manager.
El resultado que arroja el modelo a través de LM Studio, es el siguiente:

Y el comportamiento vemos que es un uso de memoria de 5,1 GB y un tiempo de uso del 100% del procesador de 3D de la GPU durante los 125 segundos que tarda en procesar la imagen y responder.

Un consumo total de 323 tokens a 4,98 tokens por segundo.
Driver Intel UHD Graphics de Intel de Intel
Vale, pues actualizando el driver, de la versión de Windows update, a la versión de Intel, del 28/08/2025 no la del 17/02/2026 (recordemos la política de estabilidad de ultimo driver -1), y que se muestra en la captura del Task Manager, el resultado que arroja el modelo a través de LM Studio, es el siguiente:

Y el comportamiento vemos que es un uso de memoria de 5,2 GB diferencia irrelevante la verdad, y un tiempo de uso del 100% del procesador de 3D de la GPU durante los 119 segundos que tarda en procesar la imagen y responder.

El consumo de tokens en este caso cambia, se reduce, de 323 a 215, manteniendo casi el tiempo, pero con un consumo de 4,56 tokens por segundo.
¿Es relevante? No lo se, pero es curioso que el cambio de driver, sin cambiar nada más, haya reducido el consumo de tokens, y que el tiempo se mantenga casi igual. Hubiera preferido que el tiempo se redujese, pero no ha sido así.
Otras pruebas futuras
Bueno, pues quiero seguir probando cosas, y no voy a bajar de versión de driver. Lo que haré será probar inferencia con otros modelos y ver como aplicar esto a un uso real.
Hay mucho mundo ahí fuera sin Linux, sin mac, sin nvidia, sin amd, sin cuda, sin rocm, sin opencl, sin vulkan, sin directml… y quiero jugar con eso.
Lo mismo me arremango y juego con WSL pero no espero obtener mejores resultados que en nativo.
YoVirtualizador en formato podcast. Ahora también en Sospechosos Habituales: https://wt.territoriolinux.es/rss/short.xml
Y sin más, os dejo los enlaces:
Web: https://www.yovirtualizador.com
Grupo de telegram: https://t.me/grupovirtualizador
Podcast: https://feeds.ivoox.com/feed_fg_f1563806_filtro_1.xml y YouTube https://www.youtube.com/playlist?list=PLrnymu_aoVL6nk1-FcZ220P65tyHV6djV Canal de YouTube: https://youtube.com/@yovirtualizador
Enlaces afiliados:
Amazon: https://amzn.to/3gX3HmK
Asociación Podcast: https://www.asociacionpodcast.es/registrarse/socio/?coupon=SB6A70
iVoox Plus: https://www.ivoox.vip/plus?affiliate-code=323d07d8569f044513746a1be4724b40
iVoox Premium: https://www.ivoox.vip/premium?affiliate-code=03d0efe2be3b55e4cd6df6dc3f6a6dbc
iVoox Premium anual: https://www.ivoox.vip/premium?affiliate-code=9feb8e44ecb4c97148e227100af9223b
