• Flock of wintering Barnacle Goose(branta leucopsis)in wadden Sea,East Frisia,lower saxony,Germany

#ADNCLOUD

Innovación en la sociedad digital

Categorías

Validación de datos, el gran aliado del big data

validacion de datos
Tiempo de lectura: 4 minutos

Diariamente las empresas manejan y almacenan grandes cantidades de datos de todo tipo, es lo que conocemos como big data. Posteriormente esos datos son analizados y usados para tomar decisiones que afectan directamente a la estrategia del negocio. Así que debemos asegurarnos de que los datos que poseemos, son realmente válidos, fiables y de calidad, ya que de lo contrario, el análisis que hagamos de ellos no será de utilidad. Por ello, es muy importante realizar una validación de todos los datos con los que se trabaja.

La información que se almacena en la base de datos de la empresa puede provenir de distintas fuentes:

  • Puede ser insertada por los trabajadores desde distintas aplicaciones
  • Hay datos que son directamente añadidos por los clientes
  • También, manejamos datos de migraciones o importaciones de otras herramientas o fuentes externas a la empresa.

Con la validación de datos, lo que hacemos es asegurarnos de que los datos sean “limpios” y que cumplan con los requisitos que se han definido previamente, es decir, en un campo reservado para un número de teléfono, sería absurdo e inútil encontrarnos una dirección de correo electrónico. Eso es algo que no debería de ocurrir, y por ello es que debemos de realizar la validación de cada dato que es introducido en nuestras BBDDs.

New Call-to-action

Existen algunos factores que hay que tener en cuenta para considerar un dato como válido:

  • El dato debe existir, es decir, no puede estar vacío, debe de contener un valor.
  • Formato válido, el formato debe de ser el adecuado para su tipo de dato.
  • Han de ser consistentes, es decir, no deben de presentar incompatibilidades entre sí.
  • Datos precisos, cada campo de información contiene exactamente el tipo de información que debe.
  • Control de duplicidad de los datos almacenados.
  • Integridad de los datos, las interrelaciones entre tablas de nuestra base de datos han de ser correctas.

Existen diversos escenarios donde se puede realizar una validación de datos, la cual se realiza de manera automática, pero el más importante sin lugar a dudas es en la fase de  entrada de datos, ya sean estos introducidos por clientes o por trabajadores de la empresa. Si en esta primera fase, evitamos que se inserten datos erróneos, posteriormente no tendremos que preocuparnos de corregirlos, ya que en caso de tener que hacerlo, el costo sería mucho mayor y resultaría un proceso más complejo.

Por tanto, los sistemas gestores de bases de datos ofrecen diversos métodos de validación de los datos introducidos. Veamos algunos:

  • Comprobación de que el dato se encuentre en un determinado intervalo que hayamos fijado, por ejemplo, si nos encontramos en un formulario de inscripción de un campamento infantil para niños de 6 a 12 años, en el campo de edad del participante, habría que tener en cuenta que el dato introducido no puede ser ni mayor de 12, ni menor que 6.
  • Datos obligatorios. Cuando recogemos información, existen datos que hay que introducir obligatoriamente y que no pueden estar vacíos, por tanto, debemos de realizar una validación de que antes de grabar la información, dicho dato contenga un valor.
  • Comprobación del tipo de dato. Cada campo de nuestro formulario de inserción deberá estar asociado a un tipo de dato, y solo se validará dicho contenido si coincide con el tipo prefijado. Es decir, en un campo donde haya que introducir un código postal, no podremos insertar un texto, ya que solo han de aceptarse valores numéricos.
  • Longitud. Algunos datos no pueden superar cierta longitud y eso es algo que hay que validar. Por ejemplo, si tenemos una tienda online y un cliente realiza un pedido, tendremos que  tener un límite en cuanto a la longitud de los datos necesarios para el envío, ya que luego estos se envían automáticamente a la agencia de transporte y las etiquetas que se imprimen para el envío son de un tamaño concreto y no pueden mostrar más de “X” caracteres.
  • Estructura. Hay datos como la fecha, que pueden ser introducidos de múltiples maneras, por ello, es necesario que todos los datos de esa categoría tengan siempre el mismo formato. Para ello, se utilizan máscaras de entradas, donde se indica al usuario cómo tiene que introducir dicha información, por ejemplo, dd/mm/aaaa.
  • Campos desplegables. Para evitar posibles errores, y unificar valores, en muchos formularios nos encontramos campos que despliegan unos datos entre los cuales debemos elegir. Existen muchos ejemplos: Género (masculino/femenino), provincia (nos muestra un desplegable con todas las provincias)

Si desde el principio, cuidamos de que todos los datos que recibamos en nuestro sistema sean “limpios”, estaremos haciendo que nuestra base de datos sea mucho más útil y valiosa, además de evitarnos posibles errores futuros que podrían resultar costosos de resolver.

New Call-to-action

Entradas relacionadas

Deja un comentario

No hay comentarios

Todavía no hay ningún comentario en esta entrada.