-
Turing: Maquina universal
Con este aparato extremadamente sencillo es posible realizar cualquier cómputo que un computador digital sea capaz de realizar.
Mediante este modelo teórico y el análisis de la complejidad de los algoritmos, fue posible la categorización de problemas computacionales de acuerdo a su comportamiento, apareciendo así, el conjunto de problemas denominados P y NP, cuyas soluciones pueden encontrarse en tiempo polinómico por máquinas de Turing deterministas y no deterministas, respectivamente. -
1° Computadora
Alan Turing y su equipo contruyeron el primer computador electromecánico -
Zuse: Computadora programable de proposito general
Estaba basada en relés de teléfono y trabajó satisfactoriamente. Así la fue la primera computadora funcional controlada mediante programas. En muchas de sus características era bastante similar a las máquinas modernas, abriendo numerosos avances, tales como el uso de la aritmética binaria y números de coma flotante. El duro trabajo de reemplazar el sistema decimal por el sistema binario, más simple, significó que las máquinas de Zuse fuesen más fáciles de construir y potencialmente más fiables -
Asimov publica sus tres leyes de la robótica
1.- Un robot no puede dañar a un ser humano ni, por inacción, permitir que éste sea dañado.
2.- Un robot debe obedecer las órdenes dadas por los seres humanos excepto cuando estas órdenes entren en conflicto con la Primera Ley.
3.- Un robot debe proteger su propia existencia hasta donde esta protección no entre en conflicto con la Primera o la Segunda Ley. -
Modelo de Neuronas Artificiales
Warren McCulloch y Walter Pitts presentaron su modelo de neuronas artificiales, el cual se considera el primer trabajo del campo de inteligencia artificial, aun cuando todavía no existía el término. -
Eckert y Mauchley: ENIAC
La ENIAC fue construida en la Universidad de Pennsylvania por John Presper Eckert y John William Mauchly, ocupaba una superficie de 167 m² y operaba con un total de 17.468 válvulas electrónicas o tubos de vacío que a su vez permitían realizar cerca de 5000 sumas y 300 multiplicaciones por segundo. Físicamente, la ENIAC tenía 17.468 tubos de vacío, 7.200 diodos de cristal, 1.500 relés, 70.000 resistencias, 10.000 condensadores y 5 millones de soldaduras. -
Shannon: Programa que juega al ajedrez
El 9 de Marzo de 1949 Claude E. Shannon, un investigador científico de los laboratorios Bell de New Jersey, presentó un paper en una convención en Nueva York. Éste se denominaba "Programming a Computer for Playing Chess" [68] y su enorme significancia recae en que muchas de las ideas originales expresadas en él son aún utilizadas en los programas de ajedrez de la actualidad -
Test de Turing
Es una prueba propuesta por Alan Turing para demostrar la existencia de inteligencia en una máquina. Fue expuesto en 1950 en un artículo (Computing machinery and intelligence) para la revista Mind, y sigue siendo uno de los mejores métodos para los defensores de la Inteligencia Artificial. Se fundamenta en la hipótesis positivista de que, si una máquina se comporta en todos los aspectos como inteligente, entonces debe ser inteligente. -
Se define el término AI (Inteligencia Artificial)
Se declara el término "inteligencia artificial" en Dartmouth durante una conferencia convocada por McCarthy, a la cual asistieron, entre otros, Minsky, Newell y Simon. En esta conferencia se hicieron previsiones triunfalistas a diez años que jamás se cumplieron, lo que provocó el abandono casi total de las investigaciones durante quince años. -
Rosenblatt: Perceptrón
La red tipo Perceptrón fue inventada por el sicólogo Frank Rosenblatt en el año 1957. Su intención era ilustrar algunas propiedades fundamentales de los sistemas inteligentes en general, sin entrar en mayores detalles con respecto a condiciones específicas y desconocidas para organismos biológicos concretos. -
John McCarthy desarrollo lenguaje de alto nivel: "LISP"
En 1958 John McCarthy y sus colaboradores en el Instituto Tecnológico de Massachusetts crearon LISP, considerado por algunos el segundo lenguaje de programación de alto nivel (tras FORTRAN). LISP ha cambiado mucho desde sus comienzos y han gran número de dialectos. LISP está considerado el primer lenguaje de programación funcional y, depende de las opiniones, también de programación declarativa. -
Programa para Ajedrez y enfrentar retadores
Arthur Samuel escribe el primer programa para jugar al ajedrez capaz de enfrentarse a jugadores de primera fila mundial. Se funda la primera industria de fabricación de robots. -
Weizenbaum: ELIZA
ELIZA es un programa informático diseñado en el MIT entre 1964 y 1966 por Joseph Weizenbaum. Eliza fue uno de los primeros programas en procesar lenguaje natural. El mismo parodiaba al psicólogo Carl Rogers e intentaba mantener una conversación de texto coherente con el usuario. -
Hearsay I - Reconocimiento del habla
El sistema Hearsay I, construido por la CMU
(Carnegie Mellon University) en 1973 era capaz de
emplear información de tipo semántico para
reducir el número de posibles alternativas que el
reconocedor debía evaluar -
Hopfield. Redes Neuronales
La red neuronal de Hopfield es una arquitectura
formada por una sola capa principalmente
que se utiliza principalmente como
memoria autoasociativa, para almacenar y
recuperar informacion. -
Razonamiento probabilístico en sistemas inteligentes
Judea Pearl, un informático, publicó “Razonamiento probabilístico en sistemas inteligentes" en este año. También se le dio el crédito por inventar redes bayesianas, un formalismo matemático para definir modelos de probabilidad complejos y los algoritmos primarios adoptados para la inferencia en estos modelos. -
Jabberwacky, un chat humano natural
Rollo Carpenter, un programador, construyó Jabberwacky con el objetivo de simular el chat humano natural de una manera atractiva. Este fue uno de los primeros enfoques para generar IA a través de la interacción humana. -
Rodney Brooks publicó "Los elefantes no juegan al ajedrez"
El libro propuso un nuevo enfoque para la IA, en el desarrollo de sistemas inteligentes desde cero y basado en la interacción física continua con el medio ambiente. -
Arquitectura de red neuronal recurrente
Jürgen Schmidhuber y Sepp Hochreiter propusieron la memoria larga a corto plazo ( LSTM ), un tipo de arquitectura de red neuronal recurrente ( RNN ) que actualmente se adopta para el reconocimiento del habla y la escritura a mano. -
Deep Blue Ajedrez: La Maquina logra ganar!
Una computadora desarrollada por IBM "deep blue" derrotó a Garry Kasparov, el campeón mundial de ajedrez en ese momento. El primer juego en 1996 lo perdió una máquina. Pero la versión mejorada venció al ajedrecista ruso en 1997. -
Kismet, un robot con gestos
El expresivo robot humanoide “Kismet ” fue construido por la profesora del MIT Cynthia Breazeal. Es un robot que puede detectar y simular emociones a través de su cara. El robot estaba estructurado como un rostro humano equipado con ojos, labios, párpados y cejas. -
AIBO (Artificial Intelligence Robot)
Siguiendo los pasos de Furby, Sony debutó con AIBO (Artificial Intelligence Robot), que fue diseñado para aprender a través de la interacción con su entorno y sus propietarios humanos. El robot tenía la capacidad de comprender y responder a más de 100 comandos de voz. -
ASIMO fue lanzado por Honda
Un robot humanoide artificialmente inteligente, ASIMO fue lanzado por Honda. El robot es capaz de caminar tan rápido como los humanos y entregar bandejas a los clientes en restaurantes. -
Ahora limpia Roomba!!
El popular Roomba fue lanzado por i-Robot, que era una aspiradora robot autónoma que limpia mientras esquiva obstáculos. -
La NASA lanza los exploradores en Marte
Los exploradores robóticos de la NASA, Spirit y Oportunity navegaron por la superficie de Marte en ausencia de intervención humana. Operativos hasta 2018. -
ImageNET Base de Datos de Imagenes
En 2007, Fei Fei Li y sus colegas de la Universidad de Princeton comenzaron a ensamblar ImageNet, una gran base de datos de imágenes anotadas diseñada para ayudar en la investigación de software de reconocimiento visual de objetos. -
Deep Learning sin supervisión por GPU
Rajat Raina, Anand Madhavan y Andrew Ng publicaron “Large-scale Deep Unsupervised Learning using Graphics Processors”. Argumentaron que los procesadores gráficos modernos “ superan con creces las capacidades computacionales de las CPU multinúcleo y tienen el potencial de revolucionar la aplicabilidad de los métodos de aprendizaje profundos sin supervisión. ” -
Watson compite en Jeopardy!
Watson de IBM, una computadora que responde preguntas en lenguaje natural, participó en Jeopardy! y los campeones derrotados, Ken Jenning y Brad Rutter. El juego televisado marcó el notable progreso de AI hacia el centro de las conversaciones humanas. -
Siri / Google Now / Cortana
Apple lanzó Siri en 2011 como un asistente personal controlado por voz para usuarios de iPhone. El asistente de voz se basa en una interfaz de usuario de lenguaje natural para comprender, observar y responder a los usuarios humanos. El lanzamiento de Siri fue seguido por el debut de Google Now en 2012 y Microsoft Cortana en 2014. -
Red Neuronal detecta Gatos
En el año 2012, los investigadores de Google, Jeff Dean y Andrew Ng, informaron sobre un experimento en el que demostraron que una red neuronal muy grande con 16.000 procesadores detectaba imágenes de gatos sin ninguna información previa a partir de 10 millones de imágenes sin etiquetar tomadas al azar de videos de YouTube. -
Se supera el Test de Turing
"Eugene Goostman", el programa convenció al 33% de los jueces humanos en un evento en la Royal Society de que en realidad era un humano. La prueba de Turing, que fue ideada en 1950 por el científico informático pionero y el segundo descifrador de códigos de guerra Alan Turing es un punto de referencia clásico en inteligencia artificial – determina la capacidad de una máquina para mostrar un comportamiento inteligente equivalente o indistinguible del de un humano. -
Se propone el Método Denoising Diffusion
Un modelo de difusión de eliminación de ruido es un proceso de dos pasos: el proceso de difusión directa y el proceso inverso o la reconstrucción. En el proceso de difusión directa, el ruido gaussiano se introduce sucesivamente hasta que los datos se convierten en todo ruido. El proceso de reconstrucción inversa deshace el ruido aprendiendo las densidades de probabilidad condicional utilizando un modelo de red neuronal. -
Sophia debuta como la primera ciudadana robot
Hanson Robotics presenta Sophia tiene inteligencia artificial (IA), procesamiento de datos visuales y reconocimiento facial. Imita gestos humanos y expresiones faciales y es capaz de contestar ciertas preguntas y tener conversaciones sencillas sobre temas predefinidos. -
AlphaGo vence al Campeón de Go
AlphaGo de Google DeepMind logró derrotar al campeón de Go Lee Sedol en 2016. La victoria de AlphaGo obligó a Sedol a retirarse del juego de mesa asiático. -
Asistente Google Home
fue lanzado por Google, un orador inteligente que adopta IA para servir como asistente personal para ayudar a los usuarios en tareas como recordar tareas, crear citas e información de aprendizaje mediante el uso de la voz. -
Diálogo entre dos chatbots
Investigadores de FAIR (Laboratorio de investigación de Inteligencia Artificial de Facebook) describen la capacitación de sus agentes de diálogo de chatbot. Utilizaron un modelo que permitía a los chatbots conversar libremente, usando el aprendizaje automático para mejorar gradualmente sus estrategias de negociación conversacional mientras conversaban. -
DeepL: Revoluciona la traducción
Permite descubrir todo el poder de la tecnología de traducción entre los idiomas alemán, español, francés, inglés, italiano, neerlandés y polaco. En menos de dos años incorpora nuevos idiomas, alcanzando 31 lenguas. -
Transformers: Una nueva arquitectura de redes neuronales
En el paper “Atención es todo lo que necesitas”, presentamos el Transformer, una nueva arquitectura de red neuronal basada en un mecanismo de autoatención. Esta arquitectura supera los modelos recurrentes y convolutivos; requiere menos cálculo para entrenar y es mucho mejor para el hardware moderno de aprendizaje automático. -
IA de Google llamado BERT (Modelo de Lenguaje)
Representación de Codificador Bidireccional de Transformadores es una técnica basada en redes neuronales para el pre-entrenamiento del procesamiento del lenguaje natural (PLN) desarrollada por Google. Google está aprovechando BERT para comprender mejor las búsquedas de los usuarios. Se publica Open Source el modelo de entrenamiento. -
Artbreeder: Breeder Artístico
Una herramienta para descubrir imágenes a través de la reproducción (breeder) y el intercambio en el navegador. La combinación de espacios latentes con la evolución interactiva colaborativa tiene mucho potencial como herramienta de diseño. -
AlphaFold consigue el 1° del CASP13
DeepMind de Google ha convertido su inteligencia artificial en uno de los problemas más difíciles de la ciencia. derrotado a todos los recién llegados en una tarea particularmente diabólica: predecir las formas 3D de proteínas -
OpenAI lanza GPT-2
GPT-2 crea un texto adaptándose al texto introducido por el usuario a través de sus redes neuronales, ciñéndose al estilo, el contexto, y el sentido del texto inicial.
Entrenado con 40GB de texto en Internet, lo que sería 1.5 millones de parámetros. Solo deja en Beta cerrada un versión pequeña del modelo. -
Nvidia libera StyleGAN
los investigadores de Nvidia introdujeron StyleGAN.
Phillip Wang, un ingeniero de Uber, utilizó el software para crear This Person Does Not Exist. -
Facebook prueba los Transformers con RoBERTa
RoBERTa se basa en la estrategia de enmascaramiento de lenguaje de BERT, en la que el sistema aprende a predecir secciones de texto intencionalmente ocultas dentro de ejemplos de lenguaje sin anotaciones. Publica los modelos y su código que usaron para demostrar la efectividad. -
Se publica StyleGAN-2
Elimina artefactos característicos y mejoras en la calidad de imagen -
Nvidia apunta a lo grande con Megatron LM
Modelo NPL entrenado con 8.3B de parámetros. A diferencia de BERT, la posición de la normalización de la capa y la conexión residual en la arquitectura del modelo (GPT-2) se intercambian, lo que permite que los modelos sigan mejorando a medida que se amplían. Este modelo alcanza puntajes más altos en comparación con BERT en una variedad de tareas de procesamiento de lenguaje natural (NLP). -
BlenderBot 1.0 (chatbot) Facebook AI
Facebook AI ha creado y abierto BlenderBot, el chatbot de dominio abierto más grande de la historia. Este es el primer chatbot que combina un conjunto diverso de habilidades conversacionales, que incluyen empatía, conocimiento y personalidad, en un solo sistema. -
Beta Cerrada de GTP-3
GPT-3 se actualiza con 175 mil millones de parámetros, adapta y escala la arquitectura GPT-2, también implica inicialización ajustada, prenormalización y tokenización cambiante. Puede ejecutar un ancho de banda sorprendente de tareas de procesamiento de lenguaje natural, incluso sin requerir un ajuste fino para una tarea específica. Es capaz de realizar traducción automática, contestar preguntas, leer tareas conceptuales, escribir poemas y matemáticas elementales. -
GPT-3 escribe una columna "The Guardian"
El diario britanico puso a escribir a GPT-3 un ensayo en formato columna ensayo. ¿La asignación? "Para convencernos de que los robots vengan en son de paz" -
Primeros resultados con los Modelos de Difusión / Ruido
Utiliza la difusión reversible para mejorar la calidad de las imágenes y permite la generación de imágenes a partir de una distribución de ruido. El modelo utiliza una red neuronal para modelar la difusión de probabilidad de las imágenes y muestra mejores resultados que los modelos de generación adversarial (GAN) en la síntesis de imágenes. -
DALL·E: Imágenes a partir de texto
Una red neuronal desarrolla por OpenAI llamada DALL·E que crea imágenes a partir de subtítulos de texto para una amplia gama de conceptos expresables en lenguaje natural. Es una versión de 12 mil millones de parámetros. Tiene un conjunto diverso de capacidades, incluida la creación de versiones antropomórficas de animales y objetos, la combinación de conceptos no relacionados de manera plausible -
OpenAI, publica y liberá CLIP
Contrastive Language-Image Pre-training es una red neuronal entrenada en la relación entre imagen y texto. CLIP es un modelo de código abierto, multimodal y sin disparos. Dada una imagen y descripciones de texto, el modelo puede predecir la descripción de texto más relevante para esa imagen, sin optimizarla para una tarea concreta. -
Entender el 3D con TensorFlow 3D
El objetivo de TensorFlow Graphics es poner a disposición de la comunidad funciones gráficas útiles; combina un conjunto de capas de gráficos diferenciables y la funcionalidad de un visor 3D, que puedes usar en los modelos de aprendizaje automático que elijas. -
Amazon lanzó Lookout
Un servicio en la nube que analiza imágenes usando visión por computadora para detectar defectos y anomalías en productos o procesos en productos manufacturados. Se puede entrenar un modelo de IA utilizando tan solo 30 imágenes de referencia. -
Azure Percept de Microsoft
Microsoft lanzó Azure Percept, una plataforma de hardware y servicios destinada a simplificar las formas en que los clientes pueden usar las tecnologías de inteligencia artificial. -
StyleGAN-3 muestra todo su potencial
Mejora la consistencia entre los detalles finos y gruesos del generador. Resolviendo el problema de "pegado de la textura". Permite hacer interpolaciones fluidas. -
Grid, plataforma para entrenar
plataforma que permite a los investigadores y científicos de datos entrenar modelos de IA en la nube. La compañía dice que Grid permite el desarrollo y la capacitación “a escala ” sin requerir habilidades avanzadas en ingeniería de aprendizaje automático. -
Nvidia Omniverse Enterprise
La primera plataforma tecnológica del mundo que permite a los equipos globales de diseño 3D que trabajan en múltiples suites de software colaborar en tiempo real en un espacio virtual compartido. Permite simular para admitir una amplia gama de casos de uso habilitados para IA, como planificación virtual de fábrica, robots autónomos, mantenimiento predictivo y análisis de big data -
Google se destaca con LaMDA 137B
Al igual que muchos modelos de lenguaje recientes, incluidos BERT y GPT-3, se basa en Transformer , una arquitectura de red neuronal que Google Research inventó y abrió en 2017. Esa arquitectura produce un modelo que se puede entrenar para leer muchas palabras (una oración o párrafo, por ejemplo), preste atención a cómo esas palabras se relacionan entre sí y luego prediga qué palabras cree que vendrán después.
Pero a diferencia de los otros modelos de lenguaje, LaMDA fue entrenado en diálogo. -
Modelos multimodales Chinos
Desarrollados en Alibaba y Ant Group. Método de preentrenamiento intermodal llamado M6 (Multi-Modality to Multi-Modality Multitask Mega-transformer). investigaciones y aplicaciones de edición de imágenes con redes generativas antagónicas (GAN) preentrenadas. -
China muestra su poder
Wu Dao tiene 1,75 billones de parámetros, desarrollada por la Academia de Inteligencia Artificial de Beijing (BAAI). Se entrenó en 4,9 terabytes de imágenes y textos (que incluían 1,2 terabytes de texto en chino y 1,2 terabytes de texto en inglés). Arquitectura similar a la implementada por OpenAI con GPT3. El modelo no solo puede escribir ensayos, poemas y coplas en chino tradicional, sino que también puede generar texto alternativo basado en una imagen estática e imágenes. -
DeepMind con Gopher
A través Gopher presentan consideraciones éticas, y con su capacidad de abordar multiples tareas, incluso en un ambiente conversación aparecen los planteos de responsabilidad corporativa.
El modelo cuenta con 280 mil millones de parámetros -
1° CLIP Guided Diffusion
Aunque es un término general para los modelos de difusión que funcionan con CLIP, este CLIP Guided Diffusion fue el primero. Creado por Katherine Crowson -
Google Med, Radiografías de tórax
Servir como una primera herramienta de respuesta en entornos de emergencia donde los radiólogos experimentados no están disponibles. -
LLM Open Source
GPT-J 6B es un modelo publico de EleutherAI, laboratorio de investigación sin fines de lucro. "GPT-J" se refiere a la clase de modelo, mientras que "6B" representa el número de parámetros entrenables. No funciona como producto, sino como una base para un posterior finetunning o entrenamiento dedicado. -
Codex: GPT para Código
Un modelo de lenguaje natural para la creación de código,
diseñado para facilitar la vida a los programadores profesionales sin que tengan que picar código básico.
Es un Modelo GPT de 12B de parámetros perfeccionado con el código disponible públicamente de GitHub. -
Base de Datos de AlphaFold
Cubre más de 350,000 estructuras, incluido el proteoma humano – todas las proteínas conocidas ~ 20,000 expresadas en el cuerpo humano – junto con los proteomas de 20 organismos adicionales importantes para la investigación biológica, incluida la levadura, la mosca de la fruta y el ratón. el 28 de julio de 2022, amplía esta base de datos de casi 1 millón de estructuras a más de 200 millones de estructuras. -
LAION 400M Dataset Abiertos
Un conjunto de datos abiertos de pares texto-imagen de páginas web aleatorias entre 2014 y 2021, filtrados mediante CLIP de OpenAI. -
Un plataforma para Fine tuning de Modelos
Jurassic-1 es un conjunto de modelos de referencia inspirados en el trabajo pionero de OpenAI en GPT-3. consta de modelos autorregresivos entrenados en una combinación de corpus en inglés que escala hasta parámetros 178B. -
Un Gigante Chino: PLATO-XL de Baidu
Baidu lanza el PLATO-XL con hasta 11B de parámetros, logrando nuevos avances en las conversaciones en chino e inglés. Demuestra un rendimiento significativamente mejor que los chatbots comerciales convencionales -
Alianza de NVIDIA + Microsoft
"Megatron-Turing" MT-NLG es el sucesor de Microsoft Turing NLG 17B y NVIDIA Megatron-LM 8.3B. El modelo MT-NLG es tres veces más grande que GPT-3 (530B frente a 175B). Siguiendo el trabajo original de Megatron, NVIDIA y Microsoft entrenaron el modelo en más de 4000 GPU. -
Disco Diffusion
Evolucionado a partir de la difusión guiada CLIP de Crowson, Disco Diffusion es un popular modelo de texto a imagen que crea imágenes pictóricas. -
Anthropic demuestra el RLHF
En el modelo aplicaron un sistema de preferencias y aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF) afinando el modelo de lenguaje para que actúe como asistente útil e inofensivo. Demuestran que este entrenamiento de alineación mejora el rendimiento en casi todas las evaluaciones de NLP y es totalmente compatible con habilidades especializadas como código de Python. -
GLIDE: Modelo de difusión de OpenAI
Un modelo de difusión de OpenAI. Será una de las bases de la arquitectura de DALLE 2. -
ERNIE 3.0 Titan con 260B parámetros
ERNIE 3.0 Titan, de Baidu, es el modelo preentrenado denso chino más grande hasta el momento. Los resultados empíricos muestran que ERNIE 3.0 Titan supera a los modelos de última generación en 68 conjuntos de datos de NLP. -
Gen de RunwayML para videos
Una herramienta video2video de RunwayML para editar videos con visuales generativos a través de texto o imagen. Su lanzamiento público fue el 27 de marzo de 2023. El 20 de marzo anunciaron Gen-2, una herramienta text2video que enlaza con el mismo documento. -
ControlNet, poses como prompts
Una estructura de red neuronal para controlar modelos de difusión a través de diferentes técnicas. Permite un mayor control sobre la estructura de la imagen a través de img2img. Las diferentes técnicas incluyen detección de bordes, mapas de profundidad, mapas de segmentación, poses humanas. -
GPT-3.5 – text-davinci-002
Hemos entrenado modelos de lenguaje que son mucho mejores que GPT-3 a la hora de seguir las intenciones del usuario, a la vez que los hacemos más veraces y menos tóxicos, utilizando técnicas desarrolladas a través de nuestra investigación sobre alineación. Estos modelos InstructGPT, que se han entrenado con la participación de personas, se utilizan ahora como modelos lingüísticos por defecto en nuestra API. -
Cohere lanza Extremely Large
A pesar de su estado Beta, el modelo Extremely Large de Cohere supera a nuestro modelo más grande existente, Large, en una tonelada de diferentes tareas como análisis de sentimiento, reconocimiento de entidad nombrada (NER), y razonamiento de sentido común, según lo medido por nuestros puntos de referencia internos basados en tareas. -
Midjourney crea comunidad
Anteriormente beta cerrada, Midjourney es una beta abierta de texto a imagen, que funciona con un modelo de suscripción a través de su servidor Discord. -
Chinchilla de Deepmind
Chinchilla ha demostrado que necesitamos utilizar 11 veces más datos durante el entrenamiento que los utilizados para GPT-3 y modelos similares. Esto significa que necesitamos obtener, limpiar y filtrar unos 33 TB de datos de texto para un modelo de 1T de parámetros. -
PaLM 540B de Google Research
Modelo lingüístico Pathways (PaLM): Escalado a 540.000 millones de parámetros para un rendimiento sin precedentes. Google Research anunció su visión de Pathways, un modelo único que podría generalizarse a través de dominios y tareas, a la vez que sería altamente eficiente. un modelo Transformer de 540 billones de parámetros y decodificador denso y descubrimos que alcanza un rendimiento puntero en la mayoría de las tareas, con márgenes significativos en muchos casos. -
DALL·E 2 Hace mainstream la "Inteligencia Artificial"
El mayor lanzamiento de OpenAI de un modelo de texto a imagen hasta la fecha. Se mantiene por unos meses en beta abierta y limitada para luego lanzarse mediante un sistema de créditos de pago. -
DALL·E Mini (Craiyon)
Un modelo de texto a imagen por Boris Dayma que intentaba ser una versión de código abierto de DALL-E 2. Ganó popularidad fuera de la comunidad de IA a través de memes. Tras la atención tuvo que cambiar de nombre a Craiyon debido a disputas legales con OpenAI. -
GATO 1.18B Agente General
El agente, al que llamaremos Gato, funciona como una política generalista multimodal, multitarea y multiempresa. política generalista multimodal, multitarea y multiempresa. La misma red con los mismos pesos puede jugar al Atari, subtitular imágenes, chatear, apilar bloques con un brazo robótico real y mucho más. decidir en función de su contexto si debe emitir texto, pares de torsión de las articulaciones, pulsaciones de botones u otros tokens. -
Imagen de Google Research
Google muestra su modelo generativo de imágenes, el rival perfecto para DALL-E, aunque no lo hace disponible para el público. -
LAION-5B Open source
El mayor conjunto de datos abiertos de LAION hasta la fecha, con 5.850 millones de pares imagen-texto filtrados por CLIP y 14 veces mayor que su predecesor, LAION-400M. -
OPT, META apuesta a modelos Abiertos
Un conjunto de transformadores preentrenados sólo para decodificadores que van de 125M a 175B parámetros, y que pretendemos compartir de forma completa y responsable con los investigadores interesados. -
Minerva resuelve problemas complejos
Un modelo de lenguaje de Google Research capaz de resolver cuestiones matemáticas y científicas utilizando el razonamiento paso a paso. Demostramos que, centrándonos en la recopilación de datos de entrenamiento relevantes para los problemas de razonamiento cuantitativo, entrenando modelos a escala y empleando las mejores técnicas de inferencia de su clase, conseguimos mejoras significativas de rendimiento en diversas tareas difíciles de razonamiento cuantitativo. -
Make-A-Scene de META
Una versión más potente de GauGAN. Modelo de texto a imagen de Meta con mapas de etiquetas. Permite delimitar una silueta como adicional al prompts -
Stable Diffusion, lanzamiento público
Es un modelo de aprendizaje automático desarrollado por Runway y LMU Munich1para generar imágenes digitales de alta calidad a partir de descripciones en lenguaje natural. Es de código abierto y no limita artificialmente las imágenes que produce. Se entrenó con pares de imágenes y subtítulos extraídos de la base de datos LAION-5B. -
DreamBooth, fine-tuning con imágenes propias
Fine-tuning de texto a imagen para obtener un objeto coherente específico, por Google. -
Make-A-Video by META
El modelo experimental de texto a vídeo de Meta. -
ERNIE ViLG 2.0 (China)
Modelo de texto a imagen de Baidu. Tiene menos parámetros que DALLE o Stable Diffusion, pero supera en comprensión espacial y correspondencia de colores. -
GPT-3.5 – text-davinci-003
Un conjunto de modelos que mejoran GPT-3 y pueden comprender y generar lenguaje natural o código. Lográ establecer una nueva calidad y estados que todos toman de referencia -
Bloom 176B de Open Source - BigScience
Entrenamiento de un modelo multilingüe de 176.000 millones de parámetros en el código abierto. Workshop colaborativo en torno al estudio y la creación de modelos lingüísticos muy grandes que reúne a más de 1000 investigadores de todo el mundo. -
Stable Diffusion 2, nadie lo detiene
Una versión actualizada de Stable Diffusion, que a diferencia de la v1 todo es de código abierto. Mientras que la v1 utiliza CLIP de OpenAI, la v2 utiliza OpenCLIP desarrollado por LAION con el apoyo de Stability AI. -
ChatGPT, el motivo del Mainstream
El formato de diálogo hace posible que ChatGPT responda a preguntas de seguimiento, admita sus errores, cuestione premisas incorrectas y rechace peticiones inapropiadas.
Entrenamos este modelo utilizando el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF). Mediante un ajuste fino supervisado: entrenadores humanos de IA proporcionaron conversaciones en las que interpretaban a ambas partes. Un modelo de recompensa para el aprendizaje por refuerzo. -
AlphaCode y competir en Programación
Utiliza modelos de lenguaje basados en transformadores para generar código a una escala sin precedentes. -
Riffusion, música en imágenes
Un modelo de difusión estable text2image afinado en imágenes de espectrogramas traducibles en archivos de audio. -
LLaMA: Modelos Lingüísticos Abiertos y Eficientes
Publicado por Meta, LLaMA es una colección de modelos de lenguaje básico que van desde parámetros 7B a 65B. Utilizando conjuntos de datos disponibles públicamente exclusivamente, sin recurrir a conjuntos de datos propietarios e inaccesibles. -
Jurassic-2 y API de tareas específicas
modelos de base con mejoras significativas en calidad y nuevas capacidades que incluyen seguimiento de instrucciones de disparo cero, latencia reducida, y soporte en varios idiomas. proporcionar a los desarrolladores API líderes en la industria que realicen tareas especializadas de lectura y escritura fuera de la caja. -
Alpaca 7B de Stanford
Un modelo de lenguaje sólido y preentrenado y datos de seguimiento de instrucciones de alta calidad. Alpaca es un modelo de lenguaje ajustado que utiliza el aprendizaje supervisado de un modelo LLaMA 7B en demostraciones de seguimiento de instrucciones 52K generadas a partir del texto-davinci-003 de OpenAI. -
Med-PaLM 2 de Google
inteligencia artificial (IA) para la atención sanitaria, estudiando cómo puede ayudar a detectar enfermedades en una fase temprana, ampliar el acceso a la atención y mucho más. puede mejorar la atención materna, los tratamientos contra el cáncer y la detección de la tuberculosis. -
Antropic publica su Chat: Claude
Antropic, respaldado por Google, lanzó su competidor de ChatGPT.
Antropic puso a disposición del público una versión estándar y ligera de Claude. Los usuarios han comentado que Claude es más "conversacional que ChatGPT" y "más interactivo y creativo en su narración". -
MidJourney V5
el nuevo modelo admite una mayor resolución de imagen y relaciones de aspecto. Ya no hay que esperar a que las imágenes se escalen manualmente: ahora se pueden escalar instantáneamente. El modelo V5 responde ahora mejor a las instrucciones y genera una gama más amplia de estilos, lo que facilita la creación de la estética exacta que se busca. -
ModelScope Text2Video Synthesis
Un modelo text2video que genera vídeos de 2 segundos a través de indicaciones en inglés. Está publicado por la biblioteca china Model-as-a-Service del mismo nombre, propiedad de Alibaba. -
GPT-NeoXT-Chat Open Source de Together
Se basa en el modelo GPT-NeoX de ElutherAI y está ajustado con datos que se centran en interacciones de estilo de diálogo. Un modelo de moderación de parámetros de 6 mil millones, y un sistema de recuperación extensible para incluir respuestas actualizadas de repositorios personalizados -
NUWA-XL, text2video de Microsoft
Un modelo multimodal text2video que puede generar vídeos largos mediante una arquitectura de diferentes modelos de difusión. -
GPT-4, Aumenta la capacidad
el último hito en el esfuerzo de OpenAI por ampliar el aprendizaje profundo. GPT-4 es un gran modelo multimodal (que acepta entradas de imágenes y texto, y emite salidas de texto) que, si bien es menos capaz que los humanos en muchos escenarios del mundo real, exhibe un rendimiento a nivel humano en varios puntos de referencia académicos y profesionales. -
StableLM 65B Stability AI
StableVicuna es un ajuste fino de RLHF de Vicuna-13B v0, que en sí mismo es un buen tono de LLaMA-13B. Es nuestro intento de crear un Chatbot RLHF LLM de código abierto. -
PaLM 2 de Google
es un modelo basado en transformadores entrenado utilizando una mezcla de objetivos similar a UL2 (Tay et al., 2023). Mediante evaluaciones exhaustivas en inglés inglés y multilingües, y tareas de razonamiento, ha mejorado significativamente la calidad en en diferentes tamaños de modelos, a la vez que muestra una inferencia más rápida y eficiente que PaLM. PaLM 2 permite el control de la toxicidad en tiempo de inferencia sin sobrecarga adicional o impacto en otras capacidades.