Acceder al contenido
Blog España

AI

Google I/O 2023: una IA más útil para todo el mundo



Nota del editor: Este texto es un extracto del discurso inaugural de Sundar Pichai, CEO de Google, en Google I/O 2023. Todos los anuncios realizados durante el Google I/O pueden consultarse en nuestro archivo.

La IA de nuestros productos

Llevamos siete años trabajando de forma prioritaria en la Inteligencia Artificial (IA), y nos encontramos en un emocionante punto de inflexión. Ahora, tenemos la oportunidad de hacer que la IA resulte más útil para las personas, las empresas, la sociedad... en definitiva, para todos.
También llevamos un tiempo aplicando la IA a nuestros productos, para hacerlos fundamentalmente más útiles. La IA generativa nos ha permitido dar un nuevo paso. Estamos reimaginando nuestros principales productos, entre ellos, el Buscador, con un planteamiento a la vez ambicioso y responsable.

"Ayúdame a escribir" en Gmail

Me gustaría empezar con algunos ejemplos de lo que la IA generativa está aportando a la evolución de nuestros productos, empezando por Gmail. En 2017, lanzamos Smart Reply, respuestas cortas que podíamos seleccionar con un ‘clic’. Después llegó Smart Compose, que iba ofreciendo sugerencias de escritura mientras uno escribía y dio paso a funciones de escritura más avanzadas, asistidas por IA. Solo en el último año, estas funciones se han utilizado más de 180.000 millones de veces en Workspace. Ahora tenemos un modelo generativo mucho más potente y hemos ido un paso más allá en Gmail con "Ayúdame a escribir".
Supongamos que recibes un correo electrónico informándote de que se ha cancelado tu vuelo. La compañía aérea te envía un bono, pero lo que tú quieres es que te devuelvan lo que has pagado por el billete. Podrías responder con "Ayúdame a escribir".
Solo tendrías que escribir en la barra de prompt lo que quieres —un correo electrónico pidiendo el reembolso de un billete de avión—, y pulsar “Crear”. Al instante aparece un borrador. Como podemos ver, la IA ha entresacado los detalles del vuelo del correo electrónico de la aerolínea. El resultado se acerca bastante a lo que querríamos enviar. A lo mejor podemos elaborarlo un poco más, para aumentar las posibilidades de obtener el reembolso que queremos. Ya lo tenemos, yo creo que está listo para enviarlo. "Ayúdame a escribir" empezará a desplegarse dentro de las actualizaciones de Workspace . Y, como ya ocurrió con Smart Reply, mejorará con el tiempo.

Nueva Vista Inmersiva de las rutas en Maps

Desde los primeros días de Street View, la IA se ha encargado de ensamblar miles de millones de imágenes panorámicas que hacen posible explorar el mundo desde nuestros dispositivos. En la I/O del año pasado presentamos la Vista Inmersiva, que utiliza IA para crear una representación altamente fiel de un lugar, para que puedas ver cómo es antes de visitarlo.
Ahora, estamos ampliando esa misma tecnología para incorporarla a lo que mejor sabe hacer Maps: ayudarte a llegar a donde quieres ir. Cada día, Google Maps proporciona indicaciones como para recorrer 20.000 millones de kilómetros. Muchísimos desplazamientos. Imaginad que pudiéramos ver todo nuestro desplazamiento antes de iniciarlo. Ahora es posible con la Vista Inmersiva de rutas, tanto si vas andando como en bicicleta o en coche.
Supongamos que estoy en Nueva York y quiero dar un paseo en bici. Maps me propone un par de opciones cerca de mi ubicación. Me gusta esta, que recorre la costa, vamos a explorarla. Parece una ruta con buenas vistas, pero quiero hacerme primero una idea. Hago ‘clic’ en la Vista inmersiva de rutas, que es una forma totalmente nueva de ver el recorrido.
Pero es que hay información adicional. Podemos ver cuál es la calidad del aire hoy, el estado del tráfico y el tiempo, y ver cómo pueden evolucionar en las próximas horas.
Empezaremos a desplegar la Vista Inmersiva de rutas durante el verano y, para finales de año, la habremos lanzado en 15 ciudades, entre ellas Londres, Nueva York, Tokio y San Francisco.

La nueva experiencia del Editor Mágico de Google Fotos

Google Fotos es otro producto que hemos mejorado gracias a la IA. Lo presentamos en la edición de 2015 de I/O y fue uno de nuestros primeros productos con IA nativa. En aquel momento, los avances en el aprendizaje automático hicieron posible buscar entre nuestras fotos imágenes en las que aparecieran, por ejemplo, personas, puestas de sol o cascadas.
Pero, por supuesto, no es suficiente con buscar fotos: también ayudamos a mejorarlas. Cada mes se editan 1.700 millones de imágenes en Google Fotos. Con los avances en IA, ahora hay formas más potentes de hacerlo. Por ejemplo, el Borrador Mágico, que se lanzó inicialmente en Pixel, utiliza la fotografía computacional asistida por IA para eliminar distracciones no deseadas de las imágenes. Antes de que termine el año, podremos hacer mucho más, con una nueva experiencia llamada Magic Editor, que combina la comprensión semántica con la inteligencia artificial generativa.

Una IA más útil para todo el mundo

Estos ejemplos de Gmail, Fotos y Maps son una pequeña muestra de cómo puede ayudarnos la IA en momentos importantes. Pero aún podemos hacer mucho más para ofrecer todo el potencial de la IA en los productos que ya conocéis y utilizáis.
A día de hoy, tenemos 15 productos con más de 500 millones de usuarios, entre personas y empresas. Seis de esos productos dan servicio a más de 2000 millones de usuarios, cada uno. Ese grado de penetración nos abre posibilidades enormes para avanzar en nuestra misión de organizar la información del mundo y hacerla accesible y útil para todos.
Es una misión que no tiene límites temporales y que, cada año que pasa, gana más relevancia. De cara al futuro, hacer que la IA sea útil para todos nos parece la manera más profunda de avanzar en nuestra misión. Estamos haciendo avances en cuatro líneas:

  • La primera, mejorar las posibilidades de aprender y adquirir conocimientos de los usuarios, ayudándoles a entender el mundo en mayor profundidad.
  • La segunda, potenciar la creatividad y la productividad para que podamos expresarnos mejor y hacer más cosas.
  • En tercer lugar, ayudar a los desarrolladores y las empresas a crear sus propios productos y servicios transformadores.
  • Por último, construir e implantar la IA de forma responsable, para que todos se beneficien de ella por igual.

PaLM 2 + Gemini

Vemos con ilusión las oportunidades que tenemos por delante. No obstante, la clave para hacer que la IA resulte útil a todo el mundo es el avance de nuestros modelos básicos. Por ello, quiero dedicar un momento a explicar cómo los planteamos.
El año pasado hablamos de PaLM, que ha dado lugar a muchas mejoras en nuestra gama de productos. Hoy podemos anunciar nuestro modelo PaLM más avanzado en producción: PaLM 2.
PaLM 2 se apoya en nuestra propia investigación de base y en nuestras infraestructuras más avanzadas. Tiene una alta capacidad para realizar un amplio espectro de tareas y es fácil de implantar. Hoy anunciamos más de 25 productos y funciones basados en PaLM 2.
Los modelos PaLM 2 se encuentran disponibles en varios tamaños, todos ellos con excelentes capacidades básicas, a los hemos bautizado cariñosamente como ‘Gecko’, ‘Otter’, ‘Bison’ y ‘Unicorn’. Gecko es tan liviano que puede funcionar en dispositivos móviles... pero lo bastante rápido como para integrarse en aplicaciones interactivas de calidad en el dispositivo, incluso sin conexión de datos. Los modelos PaLM 2 tienen una mayor potencia lógica y de razonamiento porque se han sometido a un entrenamiento más intenso en aspectos científicos y matemáticos. También los hemos entrenado con textos multilingües, en más de 100 idiomas, de modo que entiendan los matices y puedan también generar resultados matizados.
Al mismo tiempo, PaLM 2 tiene una potente capacidad de escritura de código de programación, y puede ayudar a los desarrolladores que trabajan de forma colaborativa. Veamos un ejemplo. Supongamos que trabajamos con un colega en Seúl y estamos depurando código. Podemos pedirle a PaLM 2 que corrija un error y que, para facilitar el trabajo a nuestro colega, agregue comentarios en coreano al código. En primer lugar, PaLM 2 reconoce que el código es recurrente; a continuación, sugiere una solución. Además, explica el razonamiento de la corrección y, como podemos ver, añadir comentarios en coreano, tal y como le hemos pedido.
Aunque PaLM 2 tiene grandes capacidades, cuando brilla de verdad es cuando lo ajustamos para un campo específico. Recientemente hemos lanzado Sec-PaLM, afinado para aplicaciones de ciberseguridad. Sec-PaLM utiliza la IA para detectar con mayor precisión fragmentos de código maliciosos y puede ayudar a los expertos en ciberseguridad a entender mejor las amenazas y eliminarlas.
Otro ejemplo es Med-PaLM 2. En este caso, lo hemos enfocado a los conocimientos médicos. Tras realizar un ajuste de precisión, redujimos en un factor de 9 los errores de razonamiento en comparación con el modelo, y obtuvimos resultados cercanos a los de médicos expertos que respondían a las mismas baterías de preguntas. Es más, Med-PaLM 2 ha sido el primer modelo lingüístico en obtener resultados de nivel "experto" ante preguntas del estilo de las que se hacen en el examen para obtener la licencia médica en Estados Unidos. Actualmente es el más avanzado del mundo.
Estamos trabajando para añadirle nuevas funciones, de modo que sea capaz de sintetizar información de pruebas de imagen, como radiografías y mamografías. Imaginaos cómo sería un colaborador de IA capaz de ayudar a los radiólogos a interpretar las imágenes y comunicar resultados. Estos son algunos ejemplos del uso de PaLM 2 en ámbitos especializados. Estamos impacientes por ver cómo se comporta en otras aplicaciones. Por eso, me complace anunciar que ya se encuentra disponible una versión preliminar de PaLM 2.
PaLM 2 es el último paso en el viaje que iniciamos hace una década para acercar la IA de forma responsable a miles de millones de personas. Se basa en los avances realizados por dos equipos de investigación de primerísima clase, el Brain Team y DeepMind.
Si echamos la vista atrás y observamos los grandes avances de la IA en la última década, veremos que estos equipos han hecho grandes aportaciones: AlphaGo, Transformers, modelos de secuencia, etc. Todo ello ha contribuido a crear las condiciones para el punto de inflexión en el que nos encontramos hoy.
Recientemente, hemos fusionado estos dos equipos en una sola unidad, llamada Google DeepMind, para que trabaje en la construcción de sistemas de mayor capacidad, de una forma segura y responsable, aprovechando los recursos de computación de Google.
En ese sentido, quiero hablar de Gemini, nuestro modelo básico de nueva generación, que todavía se encuentra en fase de entrenamiento. Gemini se ha creado desde cero para que sea multimodal, para que se integre de una manera muy eficiente en herramientas y API, y para que haga posibles futuras innovaciones, como la memoria o la planificación. Aunque todavía es pronto, ya estamos viendo capacidades multimodales impresionantes que no existían en los modelos anteriores.
Una vez que termine su puesta a punto y que supere pruebas rigurosas de seguridad, Gemini estará disponible en varios tamaños y capacidades, igual que PaLM 2.

IA responsable: herramientas para identificar contenidos generados

No solo invertimos en modelos más capaces; en paralelo, también trabajamos en la responsabilidad de la IA. Por ejemplo, que los usuarios tengan las herramientas necesarias para identificar contenidos generados de forma sintética cada vez que se los encuentren.
En este sentido, dos enfoques importantes son las marcas de agua y los metadatos. Las marcas de agua incrustan información en el contenido de una forma que se mantiene incluso después de una moderada edición de la imagen. Los modelos que estamos construyendo de cara al futuro incluirán estas marcas de agua desde el principio.El realismo de las imágenes sintéticas es impresionante. Es fácil imaginar la importancia que va a tener esta cuestión en el futuro.
Los metadatos permiten a los creadores de contenidos asociar contexto adicional a los archivos originales. Eso nos proporciona más información cada vez que nos encontramos con una imagen. Por nuestra parte, haremos lo necesario para que todas las imágenes generadas mediante nuestra IA incorporen esos metadatos. Más sobre nuestro planteamiento ambicioso y responsable.

Novedades en Bard + Workspace A medida que los modelos mejoran y ganan en capacidades, una de las oportunidades más interesantes es ponerlos a disposición del público para que las personas interaccionen con ellos directamente.
Esa es la oportunidad que ofrece Bard, nuestro experimento de IA conversacional que lanzamos en marzo. Bard está evolucionando con rapidez. Ya ha adquirido capacidades de programación muy variadas, y da respuestas mucho más inteligentes a preguntas de razonamiento y de contenido matemático. Desde hoy, utiliza PaLM 2 al 100%. Más sobre las últimas novedades de Bard.
Igualmente, estamos introduciendo nuevas funciones en Workspace, además de “Help me write” en Docs y Gmail, de la mano de Duet AI , un nuevo colaborador de IA.

Presentamos Labs y nuestra nueva “Search Generative Experience”

Nuestro objetivo es transformar los rápidos avances de la IA en funciones que tengan utilidad para nuestros usuarios. Desde hoy, ofrecemos una nueva vía para previsualizar algunas de esas experiencias en Workspace y otros productos. Se llama Labs . He dicho nueva, pero lo cierto es que en Google tenemos una larga tradición de utilizar Labs como una vía de acceso preliminar para recibir feedback. Podéis registraros desde hoy mismo.
Además de las funciones de Workspace, que ya hemos visto, una de las primeras experiencias que se pueden probar en Labs tiene que ver con nuestro producto más emblemático, el Buscador de Google. Precisamente, la razón por la que hace muchos años empezamos a invertir de forma masiva en IA es porque vimos su potencial para mejorar el Buscador. Y con cada avance, lo hemos hecho más útil e intuitivo.
Las mejoras en la comprensión del lenguaje permiten hacer preguntas de una manera más natural y, como resultado, acceder a contenidos de la web más relevantes. Los avances en la visión artificial han abierto nuevas posibilidades a las búsquedas visuales. Ahora puedes buscar cualquier cosa que veas con Google Lens, aunque te falten las palabras para describirla. De hecho, el uso de Lens se ha multiplicado por 4 en apenas dos años, hasta 12.000 millones de búsquedas visuales al mes. La combinación entre Lens y la multimodalidad dio lugar a la búsqueda mixta, es decir, la posibilidad de hacer búsquedas combinando imágenes y texto.
De cara al futuro, la comprensión de la información a un nivel más profundo, combinada con las extraordinarias posibilidades de la IA generativa, pueden transformar de nuevo el funcionamiento del Buscador. Podrá contestar preguntas que hasta ahora no podía y crear experiencias aún más útiles, que conecten a los usuarios con toda la riqueza de internet.
De todos modos, la aplicación de la IA generativa a las búsquedas está todavía en sus inicios. El Buscador es una herramienta en la que confían muchísimas personas, en todo el mundo y en momentos importantes. Somos conscientes de que, para seguir mereciendo esa confianza, es esencial hacer las cosas bien. Esa ha sido siempre nuestra máxima prioridad.
Por ello, nuestra actitud hacia la innovación es siempre responsable para ofrecer siempre información de la máxima calidad, como llevamos haciendo desde el principio. Ese es el motivo por el que nuestra nueva Search Generative Experience se presenta en primer lugar en Labs.

Facilitamos la innovación de los demás

La IA no es solo un factor facilitador. También representa un gran cambio de plataforma. Todas las empresas y organizaciones están pensando en cómo canalizar esa transformación. Por eso, una de nuestras prioridades es facilitar y hacer escalables a los demás las innovaciones con un componente de IA.
Para ello, se necesita una infraestructura de computación más avanzada —lo que incluye TPU y GPU de última generación— y un acceso generalizado a los modelos básicos de Google más avanzados, que hemos probado rigurosamente en nuestros propios productos. También estamos trabajando para ofrecer herramientas de la máxima calidad, con las que nuestros clientes puedan entrenar, adaptar y ejecutar sus propios modelos. Con toda la seguridad, protección y privacidad que exigen las aplicaciones empresariales. Thomas Kurian, CEO de Google Cloud, ha hablado recientemente sobre estas cuestiones.

Democratizar los avances con Android

Como ya hemos dicho hoy, nuestro planteamiento ambicioso y responsable de la IA puede ser un impulso para la creatividad y para liberar todo el potencial de las personas. Naturalmente, queremos que estas herramientas prácticas lleguen a cuanta más gente, mejor. El camino para ello son nuestras plataformas, como Android. Precisamente hoy hemos hablado de avances de la IA que convierten los teléfonos en herramientas aún más personales, como Creative Compose, Cinematic Wallpapers y Generative AI Wallpapers.

Nuevos dispositivos Pixel de bolsillo y para el hogar

Hemos aprovechado la ocasión para presentar un completo ecosistema de dispositivos con IA diseñados por Google, formado por los Pixel 7a, Pixel Fold y Pixel Tablet. Pixel 7a se puede comprar desde hoy. Asimismo, hoy también se abren las reservas de Pixel Fold y Pixel Tablet.

Construir juntos el futuro

Como conclusión, hoy he hecho algunas reflexiones sobre los grandes cambios tecnológicos de los que todos nosotros hemos sido parte. La transformación que trae consigo la IA tiene unas dimensiones colosales. Por eso, es tan importante que la IA sea útil para todos. Nosotros abordamos este desafío con ambición y emoción. Pero también con una visión responsable, que subraya nuestro firme compromiso de hacer las cosas bien. Ninguna empresa puede hacerlo por sí sola. Nuestra comunidad de desarrolladores es esencial para hacer realidad las enormes oportunidades que tenemos por delante. Queremos trabajar juntos y construir juntos.