Avances en Modelos de Lenguaje para Escritura Creativa y Profesional: Introduciendo Weaver

Weaver es un modelo de lenguaje de gran escala (LLM que se especializa en la generación de texto, y que tiene mejor desempeño que modelos generalistas como GPT-4 en situaciones de escritura creativa y profesional.

Resumen

Weaver es la primera familia de modelos de lenguaje grandes (LLMs) desarrollada por Tiannan Wang, Jiamin Chen, Qingrui Jia, entre otros, enfocada en la creación de contenido.
El modelo ha sido preentrenado en un corpus seleccionado cuidadosamente para mejorar las capacidades de escritura de los LLMs.
Se ha afinado específicamente para propósitos de escritura creativa y profesional, alineándolo con las preferencias de escritores profesionales mediante métodos novedosos para la síntesis de datos de instrucción y alineación de LLM.
Weaver incluye modelos de diferentes tamaños: Mini (1.8B), Base (6B), Pro (14B) y Ultra (34B), adecuados para diversas aplicaciones y que pueden ser asignados dinámicamente según la complejidad de la consulta para equilibrar calidad de respuesta y costo computacional.
Evaluaciones en benchmarks diseñados para medir capacidades de escritura muestran que los modelos Weaver superan a LLMs generalistas de mayor tamaño.
El modelo más capaz, Weaver Ultra, supera a GPT-4 en varios escenarios de escritura, destacando la ventaja de entrenar LLMs especializados para propósitos de escritura.
Weaver soporta generación aumentada por recuperación (RAG) y llamadas a funciones (uso de herramientas), permitiendo la integración de bases de conocimiento externas, herramientas o APIs y ofreciendo asistencia personalizada para escritura.
Se presentan varios casos de uso de estas capacidades para mejorar sistemas de escritura asistidos por IA.
Además, se revisan y sintetizan las guías y mejores prácticas para el preentrenamiento y afinamiento de LMMs especializados en un dominio.

Fuente:

https://arxiv.org/abs/2401.17268