Proyecto Llama-3.2-3B-ONNX-INT8-StrongTowerApps-Research (Cuantizado)
🛡️ Descripción del Proyecto:
Es una versión cuantizada del modelo Llama-3.2-3B de Meta, como parte de una investigación independiente. El modelo ha sido transformado al formato ONNX y cuantizado dinámicamente a Int8, logrando una reducción drástica de tamaño de un estado intermedio de ~27GB a solo 3.4GB.
🧠 Proceso de Transformación: De Código Dinámico a Grafo Estático
Para lograr la portabilidad y eficiencia necesarias en entornos locales, el modelo pasó por una fase crítica de "compilación" de su arquitectura:
- Conversión a Grafo Estático: La lógica de ejecución dinámica (PyTorch) fue transformada en un grafo matemático estático ONNX. Esto significa que cada una de las operaciones y conexiones entre las 28 capas del modelo fue definida explícitamente, eliminando la dependencia del intérprete de Python durante la inferencia.
- Integración de KV Cache: Se incorporó la tarea text-generation-with-past, integrando la lógica de memoria (past_key_values) directamente en el grafo. Esto permite que el modelo sea significativamente más rápido al mantener el contexto de la conversación.
- Expansión Técnica Intermedia: Durante este proceso, el modelo original de ~12GB se expandió a 27GB. Este crecimiento fue un paso técnico necesario debido al desenrollado de bucles para optimizar el rendimiento de la CPU y a la serialización exhaustiva del formato Protobuf. Esta versión "expandida" fue la base esencial para la poda posterior y la cuantización final.
⚙️ Detalles Técnicos
- Base: meta-llama/Llama-3.2-3B
- Formato Final: ONNX (External Data)
- Técnica: Cuantización Dinámica (QUInt8)
- Uso: Especialmente diseñado para ejecución local en CPU utilizando
onnxruntime.
⚖️ Licencias
Los procesos de cuantización, la tubería de procesamiento (pipeline), incluyendo la transformación a grafo estático y la compilación técnica, fueron desarrollados por Strong Tower Apps™. Esta distribución utiliza ONNX Runtime para una inferencia de alto rendimiento, mientras que la inteligencia del modelo subyacente sigue siendo propiedad de Meta bajo la Licencia Llama 3.2 Community License.
STRONG TOWER APPS™