}

Mejorando el Catastro con el dato histórico de idealista

En este post queremos contaros un proyecto que más que una necesidad era una obligación debido al sector en el que opera idealista. Catastro+ es uno de los pilares fundamentales sobre el que se sustentan otros muchos proyectos de la casa entre los que destacamos idealista.com/maps e idealista.com/energy. En estas dos páginas web abiertas al público compartimos información catastral relevante para la toma de decisiones inmobiliarias. Catastro+ también es la base para noticias de interés general como esta de idealista/news en la que se estima el valor total del parque residencial español, como ejemplo de aprovechamiento de información pública.

En pocas palabras, Catastro+ consolida, limpia y enriquece la información pública contenida en Catastro integrándose con todo el histórico de datos de anuncios que tenemos en idealista. El objetivo de este proyecto era constituir una base de datos robusta con las características de todos los inmuebles residenciales de España. Vamos a explicar esto con un poco más de detalle.

Limitaciones de Catastro como unidad de análisis 

El Catastro es un registro administrativo público que funciona como inventario de inmuebles, que sirve de base para los planeamientos urbanos y rurales, permite calcular los montos de impuestos inmobiliarios como el IBI y garantiza la seguridad jurídica de los derechos de propiedad. Su diseño está orientado a cumplir estas funciones y se trata de un registro exhaustivo de todas las propiedades de España. Contar de primeras con una base de datos que contiene todos los inmuebles construidos (sin importar su uso) sobre territorio español supone una gran ventaja y un buen punto de partida. Pero eso no implica que su estructura sea la óptima de cara a realizar análisis de datos desde un punto de vista inmobiliario.

Para empezar, si queremos hacer un análisis para todo el territorio nacional no podemos llevarlo a cabo ya que el Catastro general no incluye información para las tres provincias vascas y Navarra, que cuentan con sus propias versiones de Catastro y cada una de ellas presenta sus particularidades. 

Las diferentes unidades de análisis. En Catastro, construcción y finca; en Catastro+, inmueble

Por otro lado, las unidades de análisis de Catastro incluyen la finca (parcela catastral en terminología de Catastro), las construcciones y los elementos comunes pero no ofrece una visión de los inmuebles tal y como puede entender un analista inmobiliario. Un ejemplo de construcción podría ser cada una de las plantas de un chalet, mientras que el inmueble sería el chalet en sí y la finca quedaría constituida por el chalet más toda su parcela asociada (jardín, piscina…). Además, desde un punto de vista de calidad del dato, no tiene la consistencia necesaria para llevar a cabo ciertos tipos de análisis con garantías: por ejemplo, la palabra ‘derecha’ en el campo PUERTA venía escrita de veinte formas diferentes (!!).

Dimensiones disponibles en Catastro y en Catastro+

Por último, Catastro tiene informadas ciertas variables de interés como pueden ser la superficie de la construcción, la calidad constructiva, el año de construcción y si existe parking, piscina o trasteros en la finca. Sin embargo, no tiene información de otras dimensiones que habitualmente utilizamos para segmentar los inmuebles como pueden ser el número de habitaciones y de baños, si la finca cuenta con ascensor o portero físico y los gastos de comunidad.

Catastro+

Conocidas las limitaciones (u oportunidades de mejora y generación de valor añadido, según como se mire) de Catastro, nos pusimos manos a la obra para lograr nuestro objetivo siguiendo el siguiente flujo de trabajo:

Flujo de trabajo para construir Catastro+
  1. Consolidación, traducción y homogeneización de los Catastros vascos y navarro para unificarlos con el Catastro general.
  2. Geolocalización y asociación de las construcciones con las fincas.
  3. Creación de inmueble como unidad de análisis y normalización de las direcciones postales y otros campos. Normalización en paralelo de los inmuebles de idealista utilizando el mismo método.
  4. Creación de métricas a nivel de inmueble y finca. En este paso hacemos un emparejamiento espacial entre los inmuebles de Catastro creados en el paso 3 y los anuncios de idealista del paso 4 para poder exprimir la información de los anuncios.
  5. Utilizamos el conjunto de datos que combina inmuebles catastrales y anuncios de idealista para entrenar modelos de Machine Learning que estimen los atributos faltantes en Catastro (recordamos: número de habitaciones, número de baños, si la finca cuenta con ascensor…) pero existentes en idealista. 
  6. Los modelos entrenados son utilizados para inferir los atributos faltantes para el conjunto de 25 millones de inmuebles residenciales de Catastro.

Por último pero no menos importante, automatización de todos los pasos anteriores para facilitar el refresco de toda la información con las actualizaciones de Catastro y para incorporar los nuevos inmuebles que entran en idealista.

Lecciones aprendidas

En un post anterior repasamos algunas lecciones aprendidas haciendo sistemas de Aprendizaje Automático. Vamos a ver cómo aplican algunos de esos aprendizajes a este proyecto:

  • No hay que subestimar los problemas derivados de la calidad del dato. A cada paso que dábamos nos encontrábamos nuevos retos y dificultades. Además de luchar contra las múltiples y creativas formas de escribir las direcciones postales, las puertas, las plantas y las escaleras, nos encontramos que los identificadores de algunas entidades de la BBDD no eran únicos. Por no hablar de casos donde un mismo inmueble era catalogado como chalet y piso al mismo tiempo. Aún hoy en día seguimos encontrando, lidiando y puliendo de la mejor manera posible inconsistencias.
  • Escoge sabiamente tu muestra de desarrollo. Utilizamos una muestra de una única provincia para desarrollar el proceso de forma rápida y sin tener que sufrir largos tiempos de espera por la volumetría. Pensábamos que los problemas que resolvíamos en esa provincia serían los únicos que nos encontraríamos para el resto. Pecamos de optimistas. De hecho al procesar toda España descubrimos que las referencias catastrales, que nosotros habíamos tomado como identificadores únicos, se repetían en algunas ocasiones. 
  • Como siempre que hacemos un proyecto de estas características, pensamos si realmente necesitábamos usar técnicas de Machine Learning. Como vimos en este post, solucionan problemas pero generan múltiples retos técnicos. 
  • Usamos modelos “tontos” como baseline para calcular errores en la inferencia y para poder seguir avanzando en el desarrollo de todo el flujo de datos y dejarlo automatizado cuanto antes. Estos modelos “tontos” eran heurísticas super sencillas escritas en SQL. Por ejemplo, en base a análisis descriptivos creamos reglas del tipo: si es un edificio plurifamiliar de más de 3 plantas y construido después de 1970 entonces tiene ascensor.
  • A partir del producto final iterar sobre todos los pasos anteriores. Cuando aplicamos modelos de ML es importante analizar los distintos segmentos poblacionales y ver cómo se comportan los modelos. A través de este análisis fuimos capaces de mejorar el comportamiento de los modelos de estimación de número de habitaciones en inmuebles tanto muy grandes como muy pequeños.

Conclusión

La primera versión de Catastro+ fue el resultado de varios meses de trabajo en el año 2019 pero que aún hoy está en continuo proceso de mejora y actualización. Más allá de constituir una base de datos lo más completa posible sobre los inmuebles residenciales en España, lo que buscábamos también era facilitar el consumo de datos catastrales, de forma más rápida y segura y con más información que la que ofrece Catastro en sus servicios. 

Mapa de edificios según su año de construcción, idealista.com/maps

Este consumo más efectivo y más rico del dato catastral nos ha permitido crear muchos otros productos que de otra forma hubiese sido imposible. En idealista.com/maps, por ejemplo, a parte de ofrecer las características de todos los inmuebles residenciales en España, mostramos también métricas a nivel de calle (número de viviendas, superficie más representativa y año de construcción) y mapas que permiten visualizar edificios en función de su año de construcción, su calidad constructiva o incluso su certificado energético. En nuestra filosofía está aumentar el dato público utilizando el dato propio de idealista y nuestro conocimiento en el tratamiento de datos para que sea utilizable por una audiencia general en su toma de decisiones inmobiliarias.

Deja una respuesta