Proyecto Llama-3.2-3B-ONNX-INT8-StrongTowerApps-Research (Cuantizado)

Llama-3.2-3B ONNX
ONNX
Hugging Face Model Llama 3.2 License

🛡️ Descripción del Proyecto:


Es una versión cuantizada del modelo Llama-3.2-3B de Meta, como parte de una investigación independiente. El modelo ha sido transformado al formato ONNX y cuantizado dinámicamente a Int8, logrando una reducción drástica de tamaño de un estado intermedio de ~27GB a solo 3.4GB.


🧠 Proceso de Transformación: De Código Dinámico a Grafo Estático

Para lograr la portabilidad y eficiencia necesarias en entornos locales, el modelo pasó por una fase crítica de "compilación" de su arquitectura:


  • Conversión a Grafo Estático: La lógica de ejecución dinámica (PyTorch) fue transformada en un grafo matemático estático ONNX. Esto significa que cada una de las operaciones y conexiones entre las 28 capas del modelo fue definida explícitamente, eliminando la dependencia del intérprete de Python durante la inferencia.
  • Integración de KV Cache: Se incorporó la tarea text-generation-with-past, integrando la lógica de memoria (past_key_values) directamente en el grafo. Esto permite que el modelo sea significativamente más rápido al mantener el contexto de la conversación.
  • Expansión Técnica Intermedia: Durante este proceso, el modelo original de ~12GB se expandió a 27GB. Este crecimiento fue un paso técnico necesario debido al desenrollado de bucles para optimizar el rendimiento de la CPU y a la serialización exhaustiva del formato Protobuf. Esta versión "expandida" fue la base esencial para la poda posterior y la cuantización final.

⚙️ Detalles Técnicos

  • Base: meta-llama/Llama-3.2-3B
  • Formato Final: ONNX (External Data)
  • Técnica: Cuantización Dinámica (QUInt8)
  • Uso: Especialmente diseñado para ejecución local en CPU utilizando onnxruntime.

⚖️ Licencias

Los procesos de cuantización, la tubería de procesamiento (pipeline), incluyendo la transformación a grafo estático y la compilación técnica, fueron desarrollados por Strong Tower Apps™. Esta distribución utiliza ONNX Runtime para una inferencia de alto rendimiento, mientras que la inteligencia del modelo subyacente sigue siendo propiedad de Meta bajo la Licencia Llama 3.2 Community License.