Desarrolla tu unicornio con IA generativa

Desarrolla tu unicornio con IA generativa

14/11/2023
**Laura Lacarra estará en el Samsung Dev Day 2023 contandonos más sobre Inteligencia Artificial**

 

Nuevos modelos de negocio derivadas a la IA Generativa

Las IAs generativas, como ChatGPT, Bard, Dall·e o Midjourney, han irrumpido en el mercado de forma espectacular, y hay quien asemeja su llegada a la llegada de internet o el smartphone, al ser tecnologías disruptivas que pueden cambiar el mercado, la economía y la sociedad. Mientras algunos están adaptando estas herramientas a su día a día para hacer el trabajo más fácil, otros están pensando en qué unicornio -startup de éxito- montar para subirse a la ola de la innovación.  Y, es que, lo nuevo está por hacer, y si eres de los primeros, un early-adopter, estás de suerte porque tienes una gran ventaja competitiva.

En este artículo pretendo analizar el panorama actual de las IAs generativas (AGI) con perspectiva de negocio, impulsando que se te ocurra esa idea para cambiar el mundo… o tu economía personal. 

Sintetizando la definición de la Wikipedia sobre Inteligencia Artificial, el propósito de la IA es la creación de máquinas que imitan la inteligencia humana para realizar tareas. Sin embargo, esta definición es tan amplia que engloba desde las máquinas inteligentes, como un coche autónomo, hasta las no tan inteligentes, como los robots que siempre realizan una misma función. La diferencia entre ambos, y lo que les hace ser inteligentes, es la función de aprender.

De aquí viene el concepto de machine learning como la disciplina que tienen las máquinas para aprender. A este aprendizaje se llega por medio de algoritmos estadísticos y matemáticos que, en base a un entrenamiento, consiguen predecir con cierta exactitud una necesidad. Por ejemplo, imaginemos que hemos aplicado algoritmos para conseguir que cuando preguntemos por el animal que hay en una imagen, nos conteste con un 95% de precisión qué es un gato. Vamos a ver este ejemplo con el siguiente esquema.

 

 

El entrenamiento es un proceso en el que se enseña al algoritmo a interpretar de manera correcta los datos y a tomar decisiones precisas de forma que, por ejemplo, solucione la tarea de identificar un gato. Para ello, se está utilizado un gran volumen de imágenes clasificadas por un humano que confirma en las fotos que hay un gato. Cuando le preguntemos por una imagen que es nueva, es decir, que no esté clasificada, podrá hacer la predicción. Este entrenamiento se conoce como entrenamiento supervisado, pues en él se selecciona la representación matemática más adecuada para dicho entrenamiento. En este caso, es común usar redes neuronales siendo un entrenamiento que puede durar horas o días, dependiendo de la computación.   

Cuando ya tenemos nuestro modelo entrenado, podemos usarlo para hacer la predicción en segundos. Al hablar de modelo nos referimos a una representación matemática de la relación entre la entrada y la salida de un sistema pudiendo permanecer inamovible o, si se desea, se puede reentrenar con nuevos datos. Generalmente esto se suele hacer porque la tendencia cambia o porque se desea mejorar para cubrir nuevos casos de uso.

Las AGIs funcionan igual que el esquema anterior. En este caso, la predicción es la afinidad de una palabra o un pixel en su contexto, llegando a generar nuevos datos. Los modelos que ayudan a generar contenido basado en texto son los llamados Large Language Models (LLM) y están de moda siendo el más conocido es el modelo GPT (Generative Pre-trained Transformers). Mediante el producto ChatGPT, haciendo uso de un prompt, se puede generar un artículo con la longitud y entonación que se desee.

Pero esto es solo el principio ya que existen AGIs que generan diseños, dibujos, música, vídeo, voz e incluso hablan el lenguaje de las proteínas. Este abanico de posibilidades es el que vamos a tratar en este post y rascaremos dónde encontrar el modelo de negocio. 

 

Construye un negocio centrado en la creación de un modelo al estilo de GPT

Un modelo LLM puede crearse en base al entrenamiento de muchos datos de textos, algo que les sobra a las empresas. Por lo que, crear tu modelo único les dará un conocimiento extra a tus datos y será una fuente de ingresos si lo abres a terceros.

Aunque los primeros registros de los modelos estilo GPT datan del 2018, su popularidad no llega hasta noviembre de 2022 con el lanzamiento de ChatGPT. Pese a desconocerse el coste total del proyecto, en una entrevista el propio CEO de Open AI, Sam Altman, afirmó que había costado más de 100 millones de dólares hacer GPT4 debido, principalmente, a que los entrenamientos del modelo implicaron el uso de las más potentes tarjetas gráficas del mercado, lo que encareció notablemente la factura. 

Bajo esta premisa, si consigues tener tu propio modelo disruptivo, estarás en ventaja respecto a tus competidores, ya que podrás generar un producto que explote el modelo y, así, cobrar por suscripción o créditos por uso. También puedes abrir una API de pago para que otros generen sus productos en base a tu modelo. Un ejemplo de esto es Open AI que ha creado el famoso producto ChatGPT. Actualmente es gratuito en una versión que utiliza el modelo GPT3.5 y de suscripción para el uso del modelo superior GPT4-Turbo. 

Por su parte, en cuanto a la generación de imágenes, los modelos más populares cuyo negocio se centra en el pago por uso o suscripción son: Dall·e, que se lanzó en septiembre de 2023, y Midjourney. Asimismo, también podemos encontrar Stable Diffusion, un popular y muy logrado modelo Open Source bajo la licencia Apache Licence 2.0 que da al usuario el poder de usar, modificar, distribuir y sublicenciar el software sin ninguna restricción. En estos momentos Stable Diffusion es similar a la versión de Dall·e 2.

En la parte de generación de voz o text to speech, que permite convertir texto escrito en voz hablada, hay grandes avances a nivel de Open Source. Ante este escenario, muchas empresas líderes han desarrollado sus propios modelos y algunas de ellas, como Open AI, lo han compartido públicamente. En este caso concreto, Open AI lo ha hecho a través de su modelo Whisper, el cual puede transcribir y traducir cualquier audio con una precisión casi humana.

Como resumen, en la siguiente tabla, se muestran los modelos disponibles en el mercado por empresa y tipo de generación. En el caso de Meta, el modelo de generación de imagen se encuentra cerrado, aunque tienen algo trabajado, y está enmascarado bajo un producto. 

*Tabla de los nombres de los modelos en función de la empresa y del tipo de generación. 

 

Esta tabla muestra la asociación del nombre del modelo con el producto estrella. 

*Tabla para asociar modelo con producto

Aunque hay empresas que están en una situación aventajada por ser pioneros, como es el caso de OpenAI, Google y Meta, todavía es posible que encuentres alguna rama que no esté tan explotada como, por ejemplo, la inteligencia artificial generativa en proteínas.

Sea como sea, lo que está claro es que la gran inversión que se está realizando, se está rentabilizando con creces. 

 

Genera modelos a partir de recursos de open source

En el caso de que no seas tú el que haya generado el modelo, no te preocupes, porque puedes crear el tuyo a partir de uno ya hecho cuya licencia te permita usarlo y venderlo. Hablamos de lo que comúnmente se conoce como Open Source. Por ejemplo, se rumorea que Midjourney está basado en Stable Diffusion, modelo Open Source de generación de imagen, aunque ahora ya es un modelo independiente con un ciclo de vida distinto. 

En Hugging Face hay un catálogo de modelos que ya han sido creados y madurados. Algunos de ellos están en fase de experimentación, pero otros son muy válidos, como el conocido modelo Transformers, Whisper, Stable Diffusion u Open Assistant. Hugging Face tiene modelos, datasets (conjunto de datos etiquetados), métricas y documentación súper interesantes con los que podríamos crear nuestro propio modelo reentrenando los ya existentes para hacerlo más robusto o específico. Por ejemplo, si queremos que una imagen la haga con un estilo nuevo podemos reentrenarlo para que lo tenga en cuenta en la generación de imágenes. 

Un modelo popular en Hugging Face alternativo a GPT es Open Assistant, un modelo de Open Source con la licencia Apache 2.0. Al ser abierto puedes hacer tu propio ChatGPT o una API o un nuevo producto y cobrar por ello, pero es importante saber que vas a tener que invertir en una arquitectura que dé cabida al volumen de tus llamadas cosa que, con una llamada a un API de un tercero, te lo ahorrabas. 

No es casualidad que todo lo que está open source no sea tan atractivo como lo que está cerrado. Pese a ello, a veces, no hace falta tener y pagar por un Ferrari. Analiza bien tus necesidades antes de tomar cualquier decisión.

 

Desarrolla un negocio en torno a productos que hacen uso de AGI

Meses después del lanzamiento de ChatGPT, salieron “chats” como setas. ¿Ya tenían un modelo similar a GPT3? No se sabe con certeza si tenían un acuerdo comercial o no, pero se sospecha que llamaban a la API de Open AI. 

Actualmente hay innumerables ejemplos, entre los que particularmente destaco los siguientes:

  • Bing chat de Microsoft es un producto que ofrece la última versión del modelo GPT de forma gratuita. 
  • Writesonic fue de los primeros productos similares a ChatGPT que incorporaba generación de imágenes. Ahora ofrece templates donde puedes desde generar un hilo en X (Twitter) hasta generar un artículo para un Blog dentro de su chat.  
  • ChatPDF  es una herramienta gratuita en la que subes un PDF y puedes preguntarle lo que quieras del PDF. “Hazme un resumen”, “cuáles son las conclusiones”, son ejemplos de instrucciones que es capaz de ejecutar. 
  • Compare lanza el prompt a diferentes modelos y te muestra la salida para que compares resultados. 

Compare es un ejemplo clarísimo de cómo crear un producto que nos puede generar ingresos a través de las llamadas a APIs de otros modelos. No nos saldrá gratis, pero sí reducirá enormemente los costes, como puedes comprobar en los costes por tokens de OpenAI. 

 

 

Se utiliza el término token porque, a nivel de computación interna, los modelos hacen uso de tokens que suelen ser una parte más pequeña de la palabra. Por ejemplo, “entrenamiento" se divide en los tokens "entren" y "amiento". 

Otra forma de sacar partido a estas APIs es crear una herramienta que se especialice en un área de acción. Un ejemplo podría ser generar contenido específico de marketing y media para una marca usando herramientas como Copy.ai y AI Writer. En esta misma línea ChefGPT se ha especializado en recetas, con tan sólo indicarle los alimentos disponibles y tus requisitos personales te dice qué puedes cocinar con ellos. 

La generación de imágenes también ha encontrado un nicho de mercado. Por ejemplo, AvatarAI y Lensa son apps para crear avatares a partir de la subida de unas fotos o PlayGround AI  que es una herramienta de dibujo profesional potenciada con IA. Si cambiamos a la generación de voz, han surgido muchas herramientas, como por ejemplo Murf.ai o speechify , que a partir de un texto ponen voz. Ya no es solo el modelo en sí, sino que te ofrece una interfaz web para que selecciones tus requisitos para elaboración. Volviendo al ejemplo anterior, estas herramientas podrían ser de utilidad a la hora de poner la voz en off en tu vídeo de marketing.

Sin embargo, la verdadera joya de la corona es la generación de vídeo. Hoy en día, existen herramientas como Synthesia en la que puedes elegir una imagen de una persona, una voz y un texto para generar un video en el que la persona escogida narre lo que le indiques. Aunque Runway es la que lleva la delantera permitiendo hacer edición de vídeo al más alto nivel y pudiendo cambiar el fondo de un vídeo o eliminar un obstáculo.

Mientras tanto en la generación de código aún falta mucho por hacer. Actualmente puedes generar código de programación usando Github Copilot y chats como ChatGPT, Bard y Bing. Un ejemplo del potencial negocio que existe es 10web.io, una herramienta que te permite hacer una web con solo una descripción de texto. Imagina todo lo que se podría hacer reprogramando a robots a viva voz o automatizando todo el ciclo de puesta a producción del software. 

Todas estas herramientas que hemos visto son sólo una pincelada del potencial de la IA para generar nuevas apps al servicio de los usuarios. Y, todas ellas, tan sólo son una interfaz para crear un producto específico usando los modelos ya existentes que vimos anteriormente.  

Pronto tendremos una novedad y es que ahora ChatGPT puede ver, escuchar y hablar. Open AI aún no ha liberado esta potente característica, pero eso no impide que visualicemos el producto que podemos construir con ella. En la demo de Open AI vimos cómo poniendo una imagen de un sillín de la bicicleta daba los pasos para bajarlo, indicando qué herramienta usar y confirmando que estamos usando la herramienta correcta. Esta funcionalidad, que estará disponible vía API, permitirá, por ejemplo, que ChefGPT (que vimos anteriormente) te indique qué cocinar a través de la foto de tu nevera. 

 

Constuye tu chatGPT específico 

El 6 de noviembre Open AI anunció una tienda online de GPTs para que cualquier persona o empresa pueda crear su chatGPT con GPT Builder. Esta funcionalidad estará disponible a finales del mes de noviembre y en la demo vimos como genera un chat usando lenguaje natural, entrenado con tus propios documentos, manteniendo la privacidad de los datos y con el mismo poder que chatgpt en su última versión.

Aunque aún no podemos probar esta funcionalidad y ver todo el potencial, supone una revolución ya que, sin tener conocimientos de programación, puedes conseguir un producto como chatGPT para comercializar o dar ese plus a tu negocio.

 

Potencia tus productos con la integración de AGI

Hay empresas que están integrando herramientas generativas en sus propios productos como por ejemplo Google Docs o Microsoft Copilot 365 que es la AGI para crear presentaciones a partir de una idea, analizar los datos de Excel con solo pedirlo o hacer un resumen de una reunión de Teams sólo por el audio.  

En el mundo de la imagen, otro gigante como Photoshop ha incorporado Generative Fill para sustituir el fondo con otra imagen pudiendo escribir directamente qué quieres que te genere para que la IA lo sustituya. 

Estos casos de uso generan la atracción de nuevos usuarios, pero también, y más importante, evita la fuga de usuarios a la nueva competencia. 

Para integrar AGIs en tu herramienta puedes hacer uso de las APIs disponibles o usar un modelo Open Source, si tu herramienta está en cloud. Actualmente los proveedores de cloud más conocidos ofrecen componentes para integrar fácilmente la funcionalidad. 

 

La oportunidad empresarial alrededor de AGI 

En este artículo hemos visto distintas formas de generar ingresos a través de las AGIs:

  • Generando un modelo de forma que paguen por uso, API o la herramienta que creemos. 
  • Creando nuestra propia herramienta ya sea por un modelo Open Source o usando los modelos existentes
  • Creando nuestro chatgpt específico.
  • Adaptando nuestras herramientas a AGI. 

Las AGI son una tecnología disruptiva que van a impactar de lleno en nuestra vida, la sociedad y la economía. Igual que las webs se adaptaron a los smartphones, es hora de adaptar todas las herramientas a AGI. Hay mucho trabajo por hacer y muchas oportunidades de crear nuevas aplicaciones para generar ingresos. Lo nuevo aún está por hacer y adaptar y estoy segura de que en tu día a día en el trabajo ves siempre algo que se puede automatizar.

 

Ahora es el momento, ¿te unes a desarrollar el nuevo unicornio en esta revolución? 

 

Samsung Dev Spain es la comunidad oficial de Samsung para desarrolladores españoles. Si te das de alta, puedes conseguir entrar en nuestro programa de préstamos - y conseguir dispositivos para desarrollar apps para nuestro ecosistema -, acceder a material gratuito como la Guía de optimización de apps para foldables, participar en promociones como dispositivos por apps o acudir gratis a eventos formativos como Samsung Dev Day o disfrutar de ventajas exclusivas en Samsung PLUS.