Millennium Institute for Foundational Research on Data joins international initiative in charge of the development of G-Core

Científicos chilenos, en alianza con investigadores y empresas de talla mundial, están desarrollando técnicas que permitirán enriquecer las búsquedas en la web, relacionando más objetos o conceptos. De esta forma se podrá avanzar de una pregunta como cuáles son las enfermedades más recurrentes en los chilenos, a otras más complejas, como dónde deberíamos construir nuevos hospitales, según la distribución de las patologías con mayor prevalencia en el país, explican los investigadores.

Cada vez que un usuario realiza una búsqueda, los datos quedan albergados en un servidor. Lo mismo ocurre con casi todo lo que compartimos por e-mail, redes sociales o redes móviles. Esta información ha alcanzado tal volumen, que la ciencia de la computación dedica una línea de trabajo al estudio de nuevos modelos que permitan mejorar los sistemas de almacenamiento, relacionamiento de datos y comprensión de ellos.

Actualmente, las grandes empresas y servicios trabajan con un modelo llamado grafos de conocimiento, tecnología que ha permitido generar la entrega de información relacionada con una búsqueda. “Lugares turísticos” o “personajes famosos” asociados con una ciudad son sólo algunos ejemplos. Sin embargo, la ciencia de la computación apunta a hacer aún más inteligentes esas búsquedas: “El objetivo es usar la información disponible en cualquier base de datos para responder preguntas complejas, que impliquen descubrir las relaciones entre variables”, explica Pablo Barceló, director alterno del Instituto Milenio Fundamentos de los Datos en la Universidad de Chile.

“Los grafos de conocimiento son una forma de organizar las redes que existen entre los datos y que son, por decirlo de alguna manera, la arquitectura sobre la cual corre Google u otros buscadores y que constituye un nuevo paradigma de gestión de la información que usan hoy las grandes empresas de tecnología”, agrega Barceló.

La industria y la academia por un mejor lenguaje de consulta

El Instituto Milenio Fundamentos de los Datos cuenta con vasta experiencia a nivel nacional e internacional en el estudio de grafos del conocimiento y es por ello que fueron invitados a ser parte del equipo internacional de 12 investigadores que, al alero del LDBC Council y con empresas como IBM, Oracle y Neo4J, llevan dos años trabajando en G-Core, un lenguaje de consulta que permite descubrir, extraer y comprender las relaciones más relevantes entre pares de datos.

“Un dato sólo cobra valor en relación con otro”, explica Claudio Gutiérrez, investigador del instituto en la Universidad de Chile: “Su riqueza radica no en la información en sí misma, sino en los vínculos que se pueden descubrir o determinar entre un nodo y otro”, detalla.

El recién creado lenguaje de consulta fue presentado por el equipo internacional del cual el IMFD forma parte en la conferencia internacional Sigmod/PODS 2018, una de las más importantes a nivel global en manejo de los datos, que se realizó recientemente en Houston, Estados Unidos.

“G-Core es el único lenguaje que descubre los caminos entre un dato y otro, pudiendo así generar información valiosísima para mostrar, por ejemplo, relaciones de poder, de negocios o de comportamiento entre un nodo y otro”, acota Claudio Gutiérrez. Por ello, los investigadores visualizan importantes aplicaciones en el ámbito de las ciencias sociales, pero podría ser aplicado en cualquier área. “Nosotros trabajamos desarrollando y mejorando los métodos para acceder a la información y es por eso que a nivel científico este avance podría tener gran impacto en los grafos de conocimiento”, señala el investigador.

Son estos métodos los que le permiten a Google inferir, por ejemplo, que en Barcelona algunos atractivos turísticos interesantes de presentar al usuario son el Parque Güell y La Rambla, o las que le permiten mostrarnos las películas, series y otra información disponible sobre una actriz o un actor famoso.

El instituto espera que este lenguaje se traduzca próximamente en una aplicación que pueda ser usada por profesionales que requieran extraer información desde conjuntos de datos complejos y con alta interrelación.

Científicamente comprobado

Marcelo Arenas, director del Instituto Fundamentos de los Datos y académico de la Pontificia Universidad Católica, explica que hoy el lenguaje de consulta más usado en grafos es Cypher, pero que G-Core ofrece dos mejoras específicas: “En primer lugar, demostramos matemáticamente que todas las consultas que se hagan arrojarán resultados, cosa que Cypher no es capaz de garantizar”, detalla. En segundo lugar, mientras las respuestas que Cyhper da son arrojadas en formato de tablas, las de G-Core son en grafos de conocimiento, lo que permite que sobre una consulta se puedan hacer, potencialmente, infinitas consultas, refinando aún más las búsquedas”, finaliza.