Avances en Modelos de Lenguaje para Escritura Creativa y Profesional: Introduciendo Weaver 

Weaver es un modelo de lenguaje de gran escala (LLM que se especializa en la generación de texto, y que tiene mejor desempeño que modelos generalistas como GPT-4 en situaciones de escritura creativa y profesional.

Resumen 

  • Weaver es la primera familia de modelos de lenguaje grandes (LLMs) desarrollada por Tiannan Wang, Jiamin Chen, Qingrui Jia, entre otros, enfocada en la creación de contenido. 
  • El modelo ha sido preentrenado en un corpus seleccionado cuidadosamente para mejorar las capacidades de escritura de los LLMs. 
  • Se ha afinado específicamente para propósitos de escritura creativa y profesional, alineándolo con las preferencias de escritores profesionales mediante métodos novedosos para la síntesis de datos de instrucción y alineación de LLM. 
  • Weaver incluye modelos de diferentes tamaños: Mini (1.8B), Base (6B), Pro (14B) y Ultra (34B), adecuados para diversas aplicaciones y que pueden ser asignados dinámicamente según la complejidad de la consulta para equilibrar calidad de respuesta y costo computacional. 
  • Evaluaciones en benchmarks diseñados para medir capacidades de escritura muestran que los modelos Weaver superan a LLMs generalistas de mayor tamaño. 
  • El modelo más capaz, Weaver Ultra, supera a GPT-4 en varios escenarios de escritura, destacando la ventaja de entrenar LLMs especializados para propósitos de escritura. 
  • Weaver soporta generación aumentada por recuperación (RAG) y llamadas a funciones (uso de herramientas), permitiendo la integración de bases de conocimiento externas, herramientas o APIs y ofreciendo asistencia personalizada para escritura. 
  • Se presentan varios casos de uso de estas capacidades para mejorar sistemas de escritura asistidos por IA. 
  • Además, se revisan y sintetizan las guías y mejores prácticas para el preentrenamiento y afinamiento de LMMs especializados en un dominio. 

Fuente:

https://arxiv.org/abs/2401.17268