OpenAI ha lanzado su nueva herramienta de rastreo web llamada «GPTBot», diseñada para recopilar datos públicos en la web y mejorar futuras iteraciones de modelos como ChatGPT. Esta iniciativa podría impulsar la precisión y las capacidades de las tecnologías de lenguaje natural desarrolladas por OpenAI.
La reciente entrada en el blog de OpenAI destaca que las páginas web rastreadas por GPTBot podrían servir como valiosa fuente de datos para mejorar futuros modelos de inteligencia artificial, como ChatGPT. Los rastreadores web, también conocidos como «web spiders», son robots que indexan contenido web y son utilizados por motores de búsqueda para presentar resultados relevantes.
OpenAI asegura que GPTBot recopilará únicamente datos públicos de la web. Sin embargo, se implementarán medidas para filtrar fuentes que requieran pago para acceder al contenido, recopilen información personal identificable o presenten contenido que viole las políticas de OpenAI. Además, los propietarios de sitios web pueden evitar que GPTBot recopile información añadiendo el comando «disallow» a un archivo estándar en sus servidores.
La introducción de GPTBot se produce en un momento en que OpenAI ha presentado una solicitud de marca para «GPT-5», lo que se espera que sea el sucesor de GPT-4. Esta solicitud abarca diversos aspectos, incluida la utilización de «GPT-5» en el contexto de software de procesamiento de lenguaje natural y reconocimiento de voz.
Desafíos y Cronograma
Aunque la presentación de GPT-5 sugiere futuras innovaciones, OpenAI ha sido cautelosa en cuanto a las expectativas de tiempo. El CEO de OpenAI, Sam Altman, ha indicado que la empresa no está cerca de iniciar el entrenamiento de GPT-5. Antes de avanzar, se deben realizar auditorías de seguridad y otros procesos.
OpenAI ha enfrentado recientemente preocupaciones en torno a la recopilación de datos y la privacidad. Organismos de control de privacidad en Japón y Europa han expresado inquietudes sobre la recopilación de datos sin consentimiento, lo que ha llevado a restricciones temporales en algunos lugares. Además, OpenAI enfrenta demandas colectivas relacionadas con el acceso a información privada de los usuarios de ChatGPT.