🤖Inteligencia Artificial

📖 Artículo especializadoRun a vLLM Server onHF Jobs in One Command

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

Autor

Julian Geller

📅

Publicado

26 de junio de 2026

⏱️

Tiempo de lectura

11 min lectura

Continúa leyendo

Home Blog

⏱️

Tiempo de lectura

11 min lectura

🎯

Nivel

Intermedio

📊

Última edición

26 de jun de 2026

💡

Guía de Inteligencia Artificial

Para profesionales tecnológicos

Este artículo está diseñado específicamente para empresarios y responsables de IT que buscan implementar soluciones de inteligencia artificial de manera práctica y efectiva en sus empresas.

🤖 IA🏢 PyMEs🇦🇷 Argentina

Despliegue Express de un Servidor vLLM en Hugging Face Jobs: Una Guía Técnica para ML Engineers

En el vertiginoso mundo del Machine Learning y la Inteligencia Artificial, la capacidad de iterar rápidamente sobre nuevos modelos de lenguaje a gran escala (LLMs) es un factor crítico. Ya sea para la evaluación de modelos recién fine-tuneados, la generación de grandes volúmenes de datos sintéticos, o la integración y prueba de LLMs en complejos pipelines de RAG o sistemas de agentes, la agilidad en el despliegue es fundamental. Tradicionalmente, esto ha implicado la gestión de infraestructura de hardware con GPUs, configuración de entornos Docker, orquestación con Kubernetes, y la inevitable fricción que surge de estos desafíos operacionales.

Hugging Face Jobs emerge como una solución poderosa y pragmática para este dilema. Ofrece a los desarrolladores de ML e IA una plataforma para ejecutar cargas de trabajo computacionales de forma aislada y bajo demanda, eliminando la necesidad de provisionar servidores o gestionar clústeres. Este artículo detalla cómo desplegar un servidor vLLM compatible con la API de OpenAI en la infraestructura de Hugging Face Jobs con un solo comando, transformando la compleja tarea de puesta en marcha en un proceso fluido, eficiente y con facturación por segundo. Esta aproximación es ideal para escenarios de desarrollo, experimentación y procesamiento por lotes, marcando una clara distinción con los servicios de inferencia gestionados y siempre activos como Hugging Face Inference Endpoints.

Ventajas Estratégicas para el Desarrollador de ML/IA

La adopción de esta estrategia de despliegue de LLMs en HF Jobs ofrece múltiples beneficios para el flujo de trabajo de un ingeniero de ML:

Prototipado e Iteración Acelerada: La capacidad de levantar un endpoint de LLM en minutos significa que las ideas se pueden probar y validar mucho más rápido. En lugar de esperar por la infraestructura, el foco se mantiene en la lógica del modelo y la aplicación.
Eficiencia en Costos para Cargas de Trabajo Intermitentes: Para tareas como la evaluación de modelos, el benchmarking o la generación de datos que no requieren un servicio 24/7, la facturación por segundo es significativamente más económica que mantener una GPU dedicada o un endpoint siempre activo. Esto es especialmente relevante en contextos como Argentina, donde el acceso a hardware especializado puede ser limitado y los costos de infraestructura en la nube, sensibles.
Escalabilidad para Experimentación y Procesamiento por Lotes: Cuando se necesita ejecutar un modelo sobre miles o millones de ejemplos para evaluación o data augmentation, HF Jobs permite escalar la capacidad de cómputo de forma transitoria, pagando solo por el tiempo de ejecución de la tarea.
Simplificación de la Infraestructura: Al abstraer las complejidades de Kubernetes, configuración de VMs y gestión de drivers de GPU, los equipos de ML pueden concentrarse en el modelado y la aplicación, reduciendo la carga de MLOps.
Endpoints Privados y Seguros: Los servidores desplegados son accesibles a través de un proxy seguro de Hugging Face y requieren un token de autenticación, asegurando que sus modelos y datos permanezcan privados durante el desarrollo y la experimentación.
Compatibilidad con OpenAI API: La adopción del estándar de la API de OpenAI por parte de vLLM simplifica la integración con la mayoría de las librerías y herramientas existentes en el ecosistema de LLMs.

Prerrequisitos Técnicos

Antes de proceder, asegúrese de tener los siguientes componentes y configuraciones listos:

Método de Pago o Crédito Prepago: Hugging Face Jobs se factura por minuto de uso de hardware. Una cuenta con un método de pago configurado o un saldo de crédito prepago positivo es indispensable.
huggingface_hub Library: Instale o actualice la librería huggingface_hub a la versión 1.20.0 o superior. Esta librería es el puente principal para interactuar programáticamente con el ecosistema de Hugging Face, incluyendo Jobs:
```
pip install -U "huggingface_hub>=1.20.0"
```
Autenticación Local: Inicie sesión en Hugging Face desde su terminal. Esto generará un token de autenticación local que hf jobs utilizará para interactuar con la plataforma y para asegurar el acceso a su endpoint vLLM:
```
hf auth login
```

Despliegue del Servidor vLLM: Un `docker run` para la Nube

El comando hf jobs run es análogo a docker run, pero en lugar de ejecutar un contenedor localmente, lo orquesta en la infraestructura de Hugging Face. Para desplegar un servidor vLLM, utilizaremos la imagen oficial vllm/vllm-openai, especificaremos el tipo de GPU con --flavor, y expondremos el puerto de vLLM con --expose.

Consideremos el siguiente comando:

hf jobs run --flavor a10g-large --expose 8000 --timeout 2h \
  vllm/vllm-openai:latest \
  vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000

Analicemos cada componente clave:

--flavor a10g-large: Esta opción selecciona el tipo de hardware de GPU para su job. Una a10g-large es una GPU NVIDIA A10G con una cantidad considerable de VRAM (típicamente 24GB), adecuada para correr modelos como Qwen3-4B e incluso algunos modelos de hasta 13B parámetros dependiendo de la cuantización. Elegir el flavor adecuado es crucial para equilibrar rendimiento y costo. Para modelos más grandes, podrían ser necesarios a100-80gb.
--expose 8000: Esta bandera instruye a Hugging Face Jobs para que cree un proxy público y seguro que redirija el tráfico hacia el puerto 8000 dentro del contenedor Docker. Este proxy es la forma en que su endpoint se vuelve accesible desde fuera de la infraestructura de HF. Es importante destacar que el acceso a este endpoint proxy requiere autenticación con su token de Hugging Face.
--timeout 2h: Un aspecto crítico para la gestión de costos. Este parámetro establece un límite de tiempo máximo para la ejecución del job. Pasadas dos horas, el job se detendrá automáticamente. Esto previene gastos inesperados si olvida detener un job, una buena práctica en entornos de desarrollo y experimentación.
vllm/vllm-openai:latest: Esta es la imagen Docker que contiene vLLM y su capa de compatibilidad con la API de OpenAI. Utilizar una imagen pre-construida simplifica enormemente la configuración, ya que incluye todas las dependencias necesarias.
vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000: Este es el comando que se ejecuta dentro del contenedor Docker.
- vllm serve: Inicia el servidor de inferencia de vLLM.
- Qwen/Qwen3-4B: Especifica el modelo de Hugging Face Hub que vLLM debe cargar. Qwen3-4B es un modelo relativamente pequeño y eficiente, ideal para pruebas rápidas. Puede sustituirlo por cualquier otro modelo compatible con vLLM disponible en el Hub.
- --host 0.0.0.0: Configura vLLM para escuchar conexiones en todas las interfaces de red dentro del contenedor.
- --port 8000: Especifica el puerto en el que vLLM escucha, coincidiendo con el puerto expuesto por el proxy de HF Jobs.

Al ejecutar el comando, la terminal le proporcionará un id de job y una url de acceso. Tome nota de su job_id, ya que lo usaremos como <job_id> de placeholder.

✓ Job started
  id: 6a381ca1953ed90bfb947332
  url: https://huggingface.co/jobs/qgallouedec/6a381ca1953ed90bfb947332
Hint: Exposed ports are reachable at (requires an HF token with read access to the job):
  https://6a381ca1953ed90bfb947332--8000.hf.jobs

Espere unos minutos. El sistema descargará los pesos del modelo (Qwen/Qwen3-4B en este caso) y el servidor vLLM iniciará. Podrá monitorear los logs del job a través de la interfaz web de Hugging Face. Una vez que vea el mensaje "Application startup complete" en los logs, su endpoint estará activo y listo para recibir peticiones.

Consulta del Endpoint desde Cualquier Lugar

La gran ventaja de vLLM en este contexto es su compatibilidad con la API de OpenAI. Esto significa que puede interactuar con su servidor de la misma manera que lo haría con la API de OpenAI, simplemente redirigiendo la base_url y utilizando su token de Hugging Face como Bearer token.

Consulta con `curl`

Para una prueba rápida desde la terminal, curl es la herramienta ideal:

curl https://<job_id>--8000.hf.jobs/v1/chat/completions \
  -H "Authorization: Bearer $(hf auth token)" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-4B",
    "messages": [{"role": "user", "content": "Hola! ¿Cómo estás?"}],
    "chat_template_kwargs": {"enable_thinking": false}
  }'

Aquí, $(hf auth token) inyecta dinámicamente su token de autenticación de Hugging Face en la cabecera Authorization. El model especificado en el payload JSON debe coincidir con el modelo cargado por el servidor vLLM. chat_template_kwargs permite pasar parámetros específicos al chat_template del modelo, útil para configuraciones avanzadas. La respuesta será un JSON con el formato estándar de OpenAI.

Consulta con el Cliente Python de OpenAI

Para una integración programática en sus scripts de Python o notebooks de Jupyter, el cliente oficial de OpenAI es la opción más conveniente:

from huggingface_hub import get_token
from openai import OpenAI

# Reemplaza <job_id> con el ID de tu job
job_id = "6a381ca1953ed90bfb947332" # Ejemplo, usa tu ID real

client = OpenAI(
    base_url=f"https://{job_id}--8000.hf.jobs/v1",
    api_key=get_token(),
)

resp = client.chat.completions.create(
    model="Qwen/Qwen3-4B",
    messages=[{"role": "user", "content": "Necesito información sobre la economía de Argentina."}],
    extra_body={"chat_template_kwargs": {"enable_thinking": False}},
)

print(resp.choices[0].message.content)

En este snippet:

get_token() recupera su token de Hugging Face de forma segura.
base_url se configura para apuntar directamente a su endpoint proxy de HF Jobs.
api_key se asigna al token de Hugging Face, ya que el servidor vLLM lo espera en esta posición.
extra_body se utiliza para pasar argumentos que no son parte del esquema estándar de la API de OpenAI, como chat_template_kwargs.

Aplicaciones Prácticas para Desarrolladores de ML/IA en Contextos Reales

Este enfoque tiene implicaciones directas en múltiples escenarios de desarrollo:

Evaluación y Benchmarking de Modelos: Permite a los investigadores y equipos de ML evaluar rápidamente el rendimiento de diferentes LLMs o variantes del mismo modelo (e.g., fine-tuned con datos específicos de la industria agropecuaria argentina) sobre un conjunto de datos de evaluación estandarizado, sin preocuparse por la gestión de la infraestructura subyacente.
Generación de Datos Sintéticos: Para tareas de baja disponibilidad de datos, como la creación de chatbots para dominios muy específicos del mercado argentino (servicios financieros, regulaciones locales), se pueden generar grandes volúmenes de datos sintéticos con diferentes prompts y modelos.
Desarrollo de Sistemas RAG (Retrieval Augmented Generation): Facilita la prueba de la interacción entre componentes de recuperación de información y el LLM. Un desarrollador puede probar cómo diferentes fuentes de datos o estrategias de chunking impactan la calidad de las respuestas generadas por el LLM desplegado.
Prototipado de Agentes de IA: Los ingenieros pueden experimentar rápidamente con arquitecturas de agentes, sus herramientas y ciclos de razonamiento, utilizando un LLM como el "cerebro" del agente, sin el overhead de una infraestructura compleja.
Modelos Localizados y Culturalmente Relevantes: Permite a equipos en Argentina probar modelos fine-tuneados con modismos, jerga o contextos históricos y culturales específicos, asegurando que las respuestas sean más relevantes y precisas para el público local.

Cuándo Elegir HF Jobs vs. Inference Endpoints

Es crucial entender la distinción entre Hugging Face Jobs e Inference Endpoints para tomar la decisión correcta para su caso de uso:

Hugging Face Jobs:
- Ideal para: Cargas de trabajo transitorias, desarrollo, pruebas, evaluación por lotes, generación de datos sintéticos, experimentación a gran escala, prototipado rápido.
- Modelo de Costo: Pay-per-second, altamente eficiente para uso intermitente.
- Nivel de Control: Mayor control sobre el entorno de ejecución (imagen Docker, comandos).
- Disponibilidad: Bajo demanda, no garantizada 24/7 sin monitoreo y reinicio manual o scripts de automatización.
Hugging Face Inference Endpoints:
- Ideal para: Despliegues de producción, servicios de inferencia con alta disponibilidad y baja latencia, APIs en tiempo real, aplicaciones que requieren un servicio 24/7.
- Modelo de Costo: Generalmente basado en tiempo de instancia, optimizado para disponibilidad continua.
- Nivel de Control: Más gestionado, con menos control directo sobre el entorno Docker, pero con características como autoescalado y monitoreo integrado.
- Disponibilidad: Servicio gestionado y optimizado para uptime y rendimiento en producción.

En resumen, HF Jobs es su "laboratorio" o "sala de pruebas" de cómputo en la nube, mientras que Inference Endpoints es su "línea de producción" gestionada.

Conclusión

La capacidad de desplegar un servidor vLLM en Hugging Face Jobs con un solo comando representa un salto cualitativo en la agilidad para los desarrolladores de Machine Learning e IA. Esta herramienta no solo democratiza el acceso a la inferencia de LLMs con GPUs de forma eficiente en costos y tiempo, sino que también libera a los ingenieros de la carga operativa, permitiéndoles enfocar su energía en la innovación y la resolución de problemas de negocio. Desde el prototipado rápido hasta la evaluación rigurosa de modelos a escala, esta aproximación es un activo invaluable en el toolkit de cualquier profesional de IA moderno, adaptable a las necesidades específicas de cualquier mercado, incluyendo el argentino, donde la optimización de recursos y la agilidad son claves para el éxito en el desarrollo tecnológico.

Fuente: Fuente

🎯

¿Te resultó útil este artículo?

En Grupo La Red nos especializamos en ayudar a PyMEs argentinas a implementar soluciones tecnológicas seguras y eficientes. Nuestro equipo de expertos puede ayudarte a evaluar y mejorar la ciberseguridad de tu empresa.

💬 Consulta gratuita 🛡️ Nuestros servicios

Ver todos los artículos

Explora nuestro blog completo

Más de Inteligencia Artificial

¿Te gustó este artículo?

¡Compártelo en tus redes sociales!

WhatsApp LinkedIn Facebook X Instagram Telegram

Enlaces Útiles

Recursos y enlaces relacionados que podrían ser útiles para ti

Nuestros Servicios

Desarrollo de Aplicaciones

Apps móviles y web personalizadas

desarrolloaplicacionesappsmóviles

Soporte IT para PyMEs

Mantenimiento y soporte técnico especializado

soporte ITmantenimientotécnicoPyMEs

Automatización de Procesos

Optimiza tu empresa con automatización

automatizaciónprocesoseficienciaworkflow

Recursos Externos

OpenAI

Plataforma oficial de OpenAI

OpenAIChatGPTIAinteligencia artificial

ChatGPT

Asistente de IA conversacional

ChatGPTchatbotIAconversacional

Contenido Relacionado

Descubre más artículos que podrían interesarte, seleccionados por nuestro algoritmo de similitud.

3 artículos relacionados

Algoritmo inteligente

#1 relacionado

Japón vive una crisis insólita: la de "voyeurs" que sacan fotos a chicas por debajo de la falda

🤖

9 min lectura

Inteligencia Artificial

26 jun

Japón vive una crisis insólita: la de "voyeurs" que sacan fotos a chicas por debajo de la falda

La estación ferroviaria JR Hakata de Fukuoka es ni más ni menos que eso: una terminal de las muchas (muchísimas) que se reparten por todo Japón. A finales del...

Delfina Geller

Leer

#2 relacionado

Al enclave más turístico de Italia le quedan dos telediarios. Es todo un aviso para media costa española

🤖

9 min lectura

Inteligencia Artificial

20 jun

Al enclave más turístico de Italia le quedan dos telediarios. Es todo un aviso para media costa española

El avance del cambio climático está dejando señales más o menos evidentes que van desde la maduración de árboles frutales antes a olas de calor intensas...

Delfina Geller

Leer

#3 relacionado

Marketing de Contenidos y SEO: La Dupla Dinámica que Domina el Escenario Digital Argentino

📱

4 min lectura

Marketing Digital

26 dic

Marketing de Contenidos y SEO: La Dupla Dinámica que Domina el Escenario Digital Argentino

Un análisis sobre cómo la combinación estratégica de marketing de contenidos y SEO está transformando la presencia digital de las empresas argentinas en el competitivo mercado online.

🏷️Marketing de Contenido 🏷️SEO

Delfina Geller

Leer

🤖 Algoritmo de Similitud Inteligente

Estos artículos fueron seleccionados usando nuestro algoritmo que analiza categorías, tags, títulos y contenidopara encontrar los artículos más relevantes para ti.

¿Quieres implementar IA en tu empresa?

Nuestro equipo de especialistas en IA está disponible para consultas gratuitas sobre automatización y transformación digital.

Contactanos gratis

ℹ️ Información del Contenido

Contenido adaptado: Los artículos y posts publicados en esta sección han sido adaptados y procesados a partir de información de sitios de marketing y tecnología reconocidos. Hemos seleccionado, estructurado y adaptado el contenido para facilitar su comprensión y acceso específicamente para PyMEs argentinas.

Generación con IA: Parte del contenido mostrado en esta página ha sido generado o procesado con inteligencia artificial para mejorar la experiencia del usuario y proporcionar información estructurada y actualizada.

Responsabilidad: Grupo La Red no se hace responsable por la exactitud del contenido original ni por las opiniones expresadas en los artículos adaptados. Recomendamos verificar la información directamente en la fuente original y consultar con profesionales cuando sea necesario.

Para más información sobre nuestro uso de IA, consulta nuestra política de términos.

Despliegue Express de un Servidor vLLM en Hugging Face Jobs: Una Guía Técnica para ML Engineers

Ventajas Estratégicas para el Desarrollador de ML/IA

La adopción de esta estrategia de despliegue de LLMs en HF Jobs ofrece múltiples beneficios para el flujo de trabajo de un ingeniero de ML:

Prototipado e Iteración Acelerada: La capacidad de levantar un endpoint de LLM en minutos significa que las ideas se pueden probar y validar mucho más rápido. En lugar de esperar por la infraestructura, el foco se mantiene en la lógica del modelo y la aplicación.
Eficiencia en Costos para Cargas de Trabajo Intermitentes: Para tareas como la evaluación de modelos, el benchmarking o la generación de datos que no requieren un servicio 24/7, la facturación por segundo es significativamente más económica que mantener una GPU dedicada o un endpoint siempre activo. Esto es especialmente relevante en contextos como Argentina, donde el acceso a hardware especializado puede ser limitado y los costos de infraestructura en la nube, sensibles.
Escalabilidad para Experimentación y Procesamiento por Lotes: Cuando se necesita ejecutar un modelo sobre miles o millones de ejemplos para evaluación o data augmentation, HF Jobs permite escalar la capacidad de cómputo de forma transitoria, pagando solo por el tiempo de ejecución de la tarea.
Simplificación de la Infraestructura: Al abstraer las complejidades de Kubernetes, configuración de VMs y gestión de drivers de GPU, los equipos de ML pueden concentrarse en el modelado y la aplicación, reduciendo la carga de MLOps.
Endpoints Privados y Seguros: Los servidores desplegados son accesibles a través de un proxy seguro de Hugging Face y requieren un token de autenticación, asegurando que sus modelos y datos permanezcan privados durante el desarrollo y la experimentación.
Compatibilidad con OpenAI API: La adopción del estándar de la API de OpenAI por parte de vLLM simplifica la integración con la mayoría de las librerías y herramientas existentes en el ecosistema de LLMs.

Prerrequisitos Técnicos

Antes de proceder, asegúrese de tener los siguientes componentes y configuraciones listos:

Método de Pago o Crédito Prepago: Hugging Face Jobs se factura por minuto de uso de hardware. Una cuenta con un método de pago configurado o un saldo de crédito prepago positivo es indispensable.
huggingface_hub Library: Instale o actualice la librería huggingface_hub a la versión 1.20.0 o superior. Esta librería es el puente principal para interactuar programáticamente con el ecosistema de Hugging Face, incluyendo Jobs:
```
pip install -U "huggingface_hub>=1.20.0"
```
Autenticación Local: Inicie sesión en Hugging Face desde su terminal. Esto generará un token de autenticación local que hf jobs utilizará para interactuar con la plataforma y para asegurar el acceso a su endpoint vLLM:
```
hf auth login
```

Despliegue del Servidor vLLM: Un `docker run` para la Nube

Consideremos el siguiente comando:

hf jobs run --flavor a10g-large --expose 8000 --timeout 2h \
  vllm/vllm-openai:latest \
  vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000

Analicemos cada componente clave:

--flavor a10g-large: Esta opción selecciona el tipo de hardware de GPU para su job. Una a10g-large es una GPU NVIDIA A10G con una cantidad considerable de VRAM (típicamente 24GB), adecuada para correr modelos como Qwen3-4B e incluso algunos modelos de hasta 13B parámetros dependiendo de la cuantización. Elegir el flavor adecuado es crucial para equilibrar rendimiento y costo. Para modelos más grandes, podrían ser necesarios a100-80gb.
--expose 8000: Esta bandera instruye a Hugging Face Jobs para que cree un proxy público y seguro que redirija el tráfico hacia el puerto 8000 dentro del contenedor Docker. Este proxy es la forma en que su endpoint se vuelve accesible desde fuera de la infraestructura de HF. Es importante destacar que el acceso a este endpoint proxy requiere autenticación con su token de Hugging Face.
--timeout 2h: Un aspecto crítico para la gestión de costos. Este parámetro establece un límite de tiempo máximo para la ejecución del job. Pasadas dos horas, el job se detendrá automáticamente. Esto previene gastos inesperados si olvida detener un job, una buena práctica en entornos de desarrollo y experimentación.
vllm/vllm-openai:latest: Esta es la imagen Docker que contiene vLLM y su capa de compatibilidad con la API de OpenAI. Utilizar una imagen pre-construida simplifica enormemente la configuración, ya que incluye todas las dependencias necesarias.
vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000: Este es el comando que se ejecuta dentro del contenedor Docker.
- vllm serve: Inicia el servidor de inferencia de vLLM.
- Qwen/Qwen3-4B: Especifica el modelo de Hugging Face Hub que vLLM debe cargar. Qwen3-4B es un modelo relativamente pequeño y eficiente, ideal para pruebas rápidas. Puede sustituirlo por cualquier otro modelo compatible con vLLM disponible en el Hub.
- --host 0.0.0.0: Configura vLLM para escuchar conexiones en todas las interfaces de red dentro del contenedor.
- --port 8000: Especifica el puerto en el que vLLM escucha, coincidiendo con el puerto expuesto por el proxy de HF Jobs.

Al ejecutar el comando, la terminal le proporcionará un id de job y una url de acceso. Tome nota de su job_id, ya que lo usaremos como <job_id> de placeholder.

✓ Job started
  id: 6a381ca1953ed90bfb947332
  url: https://huggingface.co/jobs/qgallouedec/6a381ca1953ed90bfb947332
Hint: Exposed ports are reachable at (requires an HF token with read access to the job):
  https://6a381ca1953ed90bfb947332--8000.hf.jobs

Consulta del Endpoint desde Cualquier Lugar

Consulta con `curl`

Para una prueba rápida desde la terminal, curl es la herramienta ideal:

curl https://<job_id>--8000.hf.jobs/v1/chat/completions \
  -H "Authorization: Bearer $(hf auth token)" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen/Qwen3-4B",
    "messages": [{"role": "user", "content": "Hola! ¿Cómo estás?"}],
    "chat_template_kwargs": {"enable_thinking": false}
  }'

Consulta con el Cliente Python de OpenAI

Para una integración programática en sus scripts de Python o notebooks de Jupyter, el cliente oficial de OpenAI es la opción más conveniente:

from huggingface_hub import get_token
from openai import OpenAI

# Reemplaza <job_id> con el ID de tu job
job_id = "6a381ca1953ed90bfb947332" # Ejemplo, usa tu ID real

client = OpenAI(
    base_url=f"https://{job_id}--8000.hf.jobs/v1",
    api_key=get_token(),
)

resp = client.chat.completions.create(
    model="Qwen/Qwen3-4B",
    messages=[{"role": "user", "content": "Necesito información sobre la economía de Argentina."}],
    extra_body={"chat_template_kwargs": {"enable_thinking": False}},
)

print(resp.choices[0].message.content)

En este snippet:

get_token() recupera su token de Hugging Face de forma segura.
base_url se configura para apuntar directamente a su endpoint proxy de HF Jobs.
api_key se asigna al token de Hugging Face, ya que el servidor vLLM lo espera en esta posición.
extra_body se utiliza para pasar argumentos que no son parte del esquema estándar de la API de OpenAI, como chat_template_kwargs.

Aplicaciones Prácticas para Desarrolladores de ML/IA en Contextos Reales

Este enfoque tiene implicaciones directas en múltiples escenarios de desarrollo:

Evaluación y Benchmarking de Modelos: Permite a los investigadores y equipos de ML evaluar rápidamente el rendimiento de diferentes LLMs o variantes del mismo modelo (e.g., fine-tuned con datos específicos de la industria agropecuaria argentina) sobre un conjunto de datos de evaluación estandarizado, sin preocuparse por la gestión de la infraestructura subyacente.
Generación de Datos Sintéticos: Para tareas de baja disponibilidad de datos, como la creación de chatbots para dominios muy específicos del mercado argentino (servicios financieros, regulaciones locales), se pueden generar grandes volúmenes de datos sintéticos con diferentes prompts y modelos.
Desarrollo de Sistemas RAG (Retrieval Augmented Generation): Facilita la prueba de la interacción entre componentes de recuperación de información y el LLM. Un desarrollador puede probar cómo diferentes fuentes de datos o estrategias de chunking impactan la calidad de las respuestas generadas por el LLM desplegado.
Prototipado de Agentes de IA: Los ingenieros pueden experimentar rápidamente con arquitecturas de agentes, sus herramientas y ciclos de razonamiento, utilizando un LLM como el "cerebro" del agente, sin el overhead de una infraestructura compleja.
Modelos Localizados y Culturalmente Relevantes: Permite a equipos en Argentina probar modelos fine-tuneados con modismos, jerga o contextos históricos y culturales específicos, asegurando que las respuestas sean más relevantes y precisas para el público local.

Cuándo Elegir HF Jobs vs. Inference Endpoints

Es crucial entender la distinción entre Hugging Face Jobs e Inference Endpoints para tomar la decisión correcta para su caso de uso:

Hugging Face Jobs:
- Ideal para: Cargas de trabajo transitorias, desarrollo, pruebas, evaluación por lotes, generación de datos sintéticos, experimentación a gran escala, prototipado rápido.
- Modelo de Costo: Pay-per-second, altamente eficiente para uso intermitente.
- Nivel de Control: Mayor control sobre el entorno de ejecución (imagen Docker, comandos).
- Disponibilidad: Bajo demanda, no garantizada 24/7 sin monitoreo y reinicio manual o scripts de automatización.
Hugging Face Inference Endpoints:
- Ideal para: Despliegues de producción, servicios de inferencia con alta disponibilidad y baja latencia, APIs en tiempo real, aplicaciones que requieren un servicio 24/7.
- Modelo de Costo: Generalmente basado en tiempo de instancia, optimizado para disponibilidad continua.
- Nivel de Control: Más gestionado, con menos control directo sobre el entorno Docker, pero con características como autoescalado y monitoreo integrado.
- Disponibilidad: Servicio gestionado y optimizado para uptime y rendimiento en producción.

En resumen, HF Jobs es su "laboratorio" o "sala de pruebas" de cómputo en la nube, mientras que Inference Endpoints es su "línea de producción" gestionada.

Conclusión

Fuente: Fuente

Guía de Inteligencia Artificial

Despliegue Express de un Servidor vLLM en Hugging Face Jobs: Una Guía Técnica para ML Engineers

Ventajas Estratégicas para el Desarrollador de ML/IA

Prerrequisitos Técnicos

Despliegue del Servidor vLLM: Un docker run para la Nube

Consulta del Endpoint desde Cualquier Lugar

Consulta con curl

Consulta con el Cliente Python de OpenAI

Aplicaciones Prácticas para Desarrolladores de ML/IA en Contextos Reales

Cuándo Elegir HF Jobs vs. Inference Endpoints

Conclusión

¿Te resultó útil este artículo?

¿Te gustó este artículo?

Enlaces Útiles

Nuestros Servicios

Desarrollo de Aplicaciones

Soporte IT para PyMEs

Automatización de Procesos

Recursos Externos

OpenAI

ChatGPT

Contenido Relacionado

Japón vive una crisis insólita: la de "voyeurs" que sacan fotos a chicas por debajo de la falda

Al enclave más turístico de Italia le quedan dos telediarios. Es todo un aviso para media costa española

Marketing de Contenidos y SEO: La Dupla Dinámica que Domina el Escenario Digital Argentino

🤖 Algoritmo de Similitud Inteligente

¿Quieres implementar IA en tu empresa?

ℹ️ Información del Contenido

Despliegue Express de un Servidor vLLM en Hugging Face Jobs: Una Guía Técnica para ML Engineers

Ventajas Estratégicas para el Desarrollador de ML/IA

Prerrequisitos Técnicos

Despliegue del Servidor vLLM: Un docker run para la Nube

Consulta del Endpoint desde Cualquier Lugar

Consulta con curl

Consulta con el Cliente Python de OpenAI

Aplicaciones Prácticas para Desarrolladores de ML/IA en Contextos Reales

Cuándo Elegir HF Jobs vs. Inference Endpoints

Conclusión

Despliegue del Servidor vLLM: Un `docker run` para la Nube

Consulta con `curl`

Despliegue del Servidor vLLM: Un `docker run` para la Nube

Consulta con `curl`