Creación de un almacén de datos corporativo unificado. Qué es un almacén de datos corporativo (Data Warehouse) y a quién venderlo

💖 ¿Te gusta? Comparte el enlace con tus amigos

Modelos de datos de la industria

El objetivo principal de los modelos es facilitar la orientación en el espacio de datos y ayudar a resaltar los detalles que son importantes para el desarrollo empresarial. En el entorno empresarial actual, es absolutamente esencial tener una comprensión clara de las relaciones entre los diversos componentes y una buena comprensión del panorama general de la organización. La identificación de todos los detalles y relaciones mediante modelos permite el uso más eficiente del tiempo y las herramientas para organizar el trabajo de la empresa.

Los modelos de datos son modelos abstractos que describen cómo se representan y se accede a los datos. Los modelos de datos definen los elementos de datos y las relaciones entre ellos en un área determinada. Un modelo de datos es una herramienta de navegación tanto para empresas como para profesionales de TI que utiliza un conjunto específico de símbolos y palabras para explicar con precisión una clase específica de información real. Esto mejora la comunicación dentro de la organización y, por lo tanto, crea un entorno de aplicación más flexible y estable.

El modelo de datos define de forma única el significado de los datos, que en este caso son datos estructurados (a diferencia de los datos no estructurados, como una imagen, un archivo binario o texto, donde el valor puede ser ambiguo).

Como regla general, se distinguen modelos de un nivel superior (y de contenido más general) y de un nivel inferior (respectivamente, más detallados). El nivel superior de modelado es el llamado modelos de datos conceptuales(modelos de datos conceptuales), que dan la imagen más general del funcionamiento de una empresa u organización. El modelo conceptual incluye los principales conceptos o áreas temáticas que son críticas para el funcionamiento de la organización; por lo general, su número no supera los 12-15. Dicho modelo describe clases de entidades importantes para la organización (objetos comerciales), sus características (atributos) y asociaciones entre pares de estas clases (es decir, relaciones). Dado que la terminología en el modelado de negocios aún no se ha asentado por completo, en varias fuentes en idioma inglés, los modelos de datos conceptuales también pueden denominarse modelo de área temática (que se puede traducir como modelos de área temática) o modelo de datos empresariales temáticos (modelos de datos corporativos temáticos). ).

El siguiente nivel jerárquico es modelos de datos lógicos(modelos lógicos de datos). También pueden denominarse modelos de datos empresariales o modelos comerciales. Estos modelos contienen estructuras de datos, sus atributos y reglas comerciales, y representan información utilizada por una empresa desde una perspectiva comercial. En tal modelo, los datos se organizan en forma de entidades y relaciones entre ellas. El modelo lógico representa los datos de una manera que los usuarios comerciales pueden entender fácilmente. En un modelo lógico, se puede asignar un diccionario de datos: una lista de todas las entidades con sus definiciones exactas, lo que permite que diferentes categorías de usuarios tengan una comprensión común de todos los flujos de entrada y salida de información del modelo. El siguiente nivel inferior de modelado ya es la implementación física del modelo lógico utilizando herramientas de software y plataformas técnicas específicas.

El modelo lógico contiene la decisión comercial detallada de la empresa, que generalmente toma la forma de un modelo normalizado. La normalización es el proceso que garantiza que cada elemento de datos en el modelo tenga solo un valor y dependa de manera única y completa de la clave principal. Los elementos de datos se organizan en grupos según su identificación única. Las reglas de negocio que controlan los elementos de datos deben estar completamente incluidas en el modelo normalizado con una verificación preliminar de su validez y corrección. Por ejemplo, lo más probable es que un elemento de datos como el nombre del cliente se divida en nombre y apellido y se agrupe con otros elementos de datos relevantes en una entidad de cliente con una clave principal de ID de cliente.

El modelo de datos lógicos es independiente de las tecnologías de aplicación, como bases de datos, redes o herramientas de generación de informes y su implementación física. Una organización solo puede tener un modelo de datos empresarial. Los modelos lógicos suelen incluir miles de entidades, relaciones y atributos. Por ejemplo, un modelo de datos para una institución financiera o una empresa de telecomunicaciones puede contener alrededor de 3000 conceptos de la industria.

Es importante distinguir entre modelo de datos lógico y semántico. El modelo de datos lógicos representa la solución comercial corporativa, mientras que el modelo de datos semánticos representa la solución comercial aplicada. El mismo modelo de datos lógicos corporativos se puede implementar utilizando diferentes modelos semánticos, es decir, Los modelos semánticos pueden considerarse como el siguiente nivel de modelado que se aproxima a los modelos físicos. Además, cada uno de estos modelos representará una "porción" separada del modelo de datos corporativos de acuerdo con los requisitos de varias aplicaciones. Por ejemplo, en un modelo de datos lógico corporativo, la entidad Cliente estará completamente normalizada, y en un modelo semántico para un data mart, se puede representar como una estructura multidimensional.

Una empresa puede tener dos formas de crear un modelo de datos lógicos empresariales: construirlo usted mismo o utilizar un modelo ya preparado. modelo de industria(modelo de datos lógicos de la industria). En este caso, las diferencias en los términos reflejan solo diferentes enfoques para construir el mismo modelo lógico. En el caso de que una empresa desarrolle e implemente de forma independiente su propio modelo de datos lógicos, dicho modelo, por regla general, se denomina simplemente modelo lógico corporativo. Si la organización decide utilizar el producto terminado de un proveedor profesional, podemos hablar de un modelo de datos lógicos de la industria. Este último es un modelo de datos lógicos listo para usar que refleja el funcionamiento de una industria en particular con un alto grado de precisión. Un modelo lógico de la industria es una vista integrada y específica de dominio de toda la información que debe estar en un almacén de datos empresarial para responder a las preguntas comerciales estratégicas y tácticas. Como cualquier otro modelo de datos lógicos, el modelo industrial no depende de las soluciones de aplicación. Tampoco incluye datos derivados u otros cálculos para una recuperación de datos más rápida. Como regla general, la mayoría de las estructuras lógicas de dicho modelo encuentran una buena encarnación en su implementación física efectiva. Muchos proveedores están desarrollando dichos modelos para una amplia variedad de áreas: finanzas, manufactura, turismo, salud, seguros, etc.

Un modelo de datos lógicos de la industria contiene información que es común a una industria y, por lo tanto, no puede ser una solución completa para una empresa. La mayoría de las empresas tienen que aumentar el modelo en un promedio de 25% agregando elementos de datos y ampliando definiciones. Los modelos terminados contienen solo los elementos de datos clave, y el resto de los elementos deben agregarse a los objetos comerciales apropiados durante la instalación del modelo en la empresa.

Los modelos de datos lógicos de la industria contienen una cantidad significativa de abstracciones. La abstracción se refiere a la unión de conceptos similares bajo nombres comunes como Evento o Participante. Esto agrega flexibilidad a los modelos de la industria y los hace más unificados. Así, el concepto de Evento es aplicable a todas las industrias.

El experto en inteligencia comercial Steve Hoberman describe cinco factores a considerar al decidir si comprar un modelo de datos de la industria. El primero es el tiempo y los recursos necesarios para construir el modelo. Si una organización necesita lograr resultados rápidamente, entonces el modelo de la industria le dará una ventaja. Es posible que el uso de un modelo de la industria no proporcione de inmediato una imagen de toda la organización, pero puede ahorrar una cantidad significativa de tiempo. En lugar del modelado real, se dedicará tiempo a vincular las estructuras existentes con el modelo de la industria, así como a discutir la mejor manera de personalizarlo según las necesidades de la organización (por ejemplo, qué definiciones se deben cambiar y qué elementos de datos se deben agregar).

El segundo factor es el tiempo y el dinero necesarios para mantener el modelo en funcionamiento. Si un modelo de datos empresariales no forma parte de una metodología que lo mantiene preciso y actualizado, el modelo queda obsoleto muy rápidamente. El modelo de datos de la industria puede prevenir este riesgo ya que se mantiene actualizado por recursos externos. Por supuesto, los cambios que ocurren dentro de la organización deben ser reflejados en el modelo por la propia empresa, pero los cambios de la industria serán reproducidos en el modelo por su proveedor.

El tercer factor es la experiencia en evaluación y modelado de riesgos. La creación de un modelo de datos empresarial requiere recursos calificados tanto del negocio como del personal de TI. Como regla general, los gerentes conocen bien el trabajo de la organización como un todo o las actividades de un departamento en particular. Pocos de ellos tienen un conocimiento amplio (toda la empresa) y profundo (toda la unidad) de su negocio. La mayoría de los gerentes generalmente conocen bien solo un área. Por lo tanto, para obtener una imagen de toda la empresa, se requieren importantes recursos comerciales. Esto también aumenta los requisitos para el personal de TI. Cuantos más recursos comerciales se requieran para crear y probar un modelo, más experimentados deben ser los analistas. No solo deben saber cómo obtener información del personal comercial, sino también ser capaces de encontrar puntos en común en áreas controvertidas y ser capaces de presentar toda esta información de forma integrada. El que crea el modelo (en muchos casos, este es el mismo analista) debe tener buenas habilidades de modelado. La creación de modelos lógicos corporativos requiere modelado "para el futuro" y la capacidad de convertir un negocio complejo en literalmente "cuadrados y líneas".

Por otro lado, el modelo de industria le permite utilizar la experiencia de especialistas de terceros. Los modelos lógicos específicos de la industria utilizan metodologías de modelado comprobadas y equipos de profesionales experimentados para evitar problemas comunes y costosos que pueden surgir al desarrollar modelos de datos empresariales dentro de una organización.

El cuarto factor es la infraestructura de aplicaciones existente y las relaciones con los proveedores. Si una organización ya usa muchas herramientas del mismo proveedor y ha establecido relaciones con ellos, entonces tiene sentido pedirles también el modelo de industria. Dicho modelo podrá funcionar libremente con otros productos del mismo proveedor.

El quinto factor es el intercambio de información dentro de la industria. Si una empresa necesita compartir datos con otras organizaciones que operan en el mismo campo, un modelo de industria puede ser muy útil en esta situación. Las organizaciones dentro de la misma industria utilizan terminología y componentes estructurales similares. Hoy en día, en la mayoría de las industrias, las empresas se ven obligadas a compartir datos para administrar sus negocios con éxito.

Los modelos de la industria que ofrecen los proveedores profesionales son los más efectivos. La alta eficiencia de su uso se logra debido a un nivel significativo de detalle y precisión de estos modelos. Por lo general, contienen muchos atributos de datos. Además, los creadores de estos modelos no solo tienen una amplia experiencia en modelado, sino que también están bien versados ​​​​en la construcción de modelos para una industria en particular.

Los modelos de datos de la industria brindan a las empresas una vista única e integrada de su información comercial. A muchas empresas les resulta difícil integrar sus datos, aunque este es un requisito previo para la mayoría de los proyectos empresariales. Según un estudio realizado por The Data Warehousing Institute (TDWI), más del 69% de las organizaciones encuestadas encontraron que la integración es una barrera importante para la adopción de nuevas aplicaciones. Por el contrario, la implementación de la integración de datos genera importantes ingresos para la empresa.

El modelo de datos de la industria, además de vincularse con los sistemas existentes, brinda grandes beneficios para proyectos de toda la empresa, como la planificación de recursos empresariales (ERP), la gestión de datos maestros, la inteligencia empresarial, la mejora de la calidad de los datos y el desarrollo de los empleados.

Por lo tanto, los modelos de datos lógicos de la industria son una herramienta eficaz para integrar datos y obtener una imagen holística del negocio. El uso de modelos lógicos parece ser un paso necesario hacia la creación de almacenes de datos corporativos.

Publicaciones

  1. Steve Hobermann. Aprovechar el modelo de datos lógicos de la industria como su modelo de datos empresarial
  2. Claudia Imhof. Seguimiento rápido de proyectos de inteligencia empresarial y almacenamiento de datos a través del modelado inteligente de datos

La base de datos corporativa es el eslabón central del sistema de información corporativa y permite crear un único espacio de información corporativa. Corporativo Base de datos


Compartir trabajo en redes sociales

Si este trabajo no le conviene, hay una lista de trabajos similares al final de la página. También puedes usar el botón de búsqueda


Página 15

TEMA V BASES DE DATOS CORPORATIVAS

LECCIÓN 8

V .una. Organización de datos en sistemas corporativos. Bases de datos corporativas.

V .2. DBMS y soluciones estructurales en sistemas corporativos.

V.3. Tecnologías de Internet / Intranet y soluciones de acceso a bases de datos corporativas.

V .una. ORGANIZACIÓN DE DATOS EN SISTEMAS CORPORATIVOS. BASES DE DATOS CORPORATIVAS

Base corporativaLos datos son el eslabón central del sistema de información corporativo y permiten crear un único espacio de información de la corporación. Bases de datos corporativas (Figura 1.1).

Hay varias definiciones de bases de datos.

Bajo la base de datos (DB)comprender un conjunto de información relacionada lógicamente de tal manera que constituya un conjunto único de datos almacenados en los dispositivos de almacenamiento de una computadora. Este conjunto actúa como los datos iniciales de las tareas resueltas en el proceso de funcionamiento de los sistemas de control automatizado, sistemas de procesamiento de datos, sistemas de información y computación.

Puede formular brevemente el término base de datos como una colección de datos lógicamente relacionados destinados a compartir.

Bajo base de datosse refiere a una colección de datos almacenados junto con una redundancia mínima, de modo que se pueden usar de manera óptima para una o más aplicaciones.

Finalidad de la creación de bases de datos.como una forma de almacenamiento de datosconstruir un sistema de datos que no dependa de los algoritmos aceptados ( software), los medios técnicos utilizados, la ubicación física de los datos en el ordenador. La base de datos asume un uso multipropósito (varios usuarios, muchas formas de documentos y consultas de un usuario).

Requisitos básicos de la base de datos:

  • Integridad de la presentación de datos. Los datos en la base de datos deberían representar adecuadamente toda la información sobre el objeto y deberían ser suficientes para ODS.
  • Integridad de la base de datos. Los datos deberán ser conservados durante el tratamiento de sus ODS y en cualesquiera situaciones que se presenten en el curso del trabajo.
  • Flexibilidad de la estructura de datos. La base de datos debe permitir cambiar las estructuras de datos sin violar su integridad e integridad cuando cambian las condiciones externas.
  • Realizabilidad. Esto significa que debe haber una representación objetiva de varios objetos, sus propiedades y relaciones.
  • Disponibilidad. Es necesario proporcionar diferenciación de acceso a los datos.
  • redundancia. La base de datos debe tener una redundancia mínima en la representación de datos sobre cualquier objeto.

El conocimiento se entiendeun conjunto de hechos, patrones y reglas heurísticas con las que se puede resolver el problema.

Base de conocimientos (KB)  colección de bases de datos y reglas utilizadas, recibidas de los tomadores de decisiones. La base de conocimientos es un elemento de los sistemas expertos.

debe ser distinguidodiferentes formas de presentar los datos.

Datos físicos -Estos son datos almacenados en la memoria de la computadora.

Representación lógica de los datoscorresponde a la representación del usuario de los datos físicos. La diferencia entre una representación física y una representación lógica correspondiente de los datos es que esta última refleja algunas relaciones importantes entre los datos físicos.

Bajo base de datos corporativaentender una base de datos que combina de una forma u otra todos los datos y conocimientos necesarios sobre una organización automatizada. En los sistemas de información corporativos, un concepto comobases de datos integradas, en el que se implementa el principio de entrada única y uso múltiple de la información.

Arroz. 1.1. La estructura de la interacción de los departamentos con los recursos de información de la corporación.

Las bases de datos corporativas sonconcentrado (centralizado) y distribuidos .

Concentrado (centralizado) base de datos es una base de datos cuyos datos se almacenan físicamente en los dispositivos de almacenamiento de una computadora. En la fig. 1.2 muestra un diagrama de una aplicación de servidor para acceder a bases de datos en varias plataformas.

Figura 1.2. Diagrama de un heterogéneo base de datos centralizada

La centralización del procesamiento de la información hizo posible eliminar tales deficiencias de los tradicionales sistemas de archivos como incoherencia, inconsistencia y redundancia de datos. Sin embargo, a medida que crecen las bases de datos, y especialmente cuando se utilizan en organizaciones geográficamente dispersas, surgen problemas. Por ejemplo, para bases de datos concentradas ubicadas en un nodo de red de telecomunicaciones, a través de las cuales varios departamentos de una organización acceden a datos, con un aumento en el volumen de información y el número de transacciones, se presentan las siguientes dificultades:

  • Gran flujo de intercambio de datos;
  • Alto tráfico de red;
  • Baja confiabilidad;
  • Bajo rendimiento general.

Aunque es más fácil garantizar la seguridad, integridad y consistencia de la información durante las actualizaciones en una base de datos concentrada, estos problemas crean ciertas dificultades. La descentralización de datos se propone como una posible solución a estos problemas. La descentralización logra:

  • Mayor grado de simultaneidad de procesamiento debido a la carga compartida;
  • Mejorar el uso de datos en campo al realizar consultas remotas (remotas);
  • costos mas bajos;
  • Bases de datos locales fáciles de administrar.

Los costos de crear una red con estaciones de trabajo (computadoras pequeñas) en sus nodos son mucho más bajos que los costos de crear un sistema similar utilizando un mainframe. La Figura 1.3 muestra un diagrama lógico de una base de datos distribuida.

Figura 1.3. Base de datos corporativa distribuida.

vamos a dar la siguiente definición base de datos distribuida.

base de datos distribuida -se trata de un conjunto de información, archivos (relaciones) almacenados en diferentes nodos de la red de información y enlazados lógicamente de tal forma que constituyen un único conjunto de datos (el enlace puede ser funcional o mediante copias del mismo archivo). Así, es un conjunto de bases de datos enlazadas lógicamente, pero ubicadas físicamente en varias máquinas que forman parte de una misma red informática.

Los requisitos más importantes para las características de una base de datos distribuida son los siguientes:

  • escalabilidad;
  • Compatibilidad;
  • Soporte para varios modelos de datos;
  • portabilidad;
  • Transparencia de ubicación;
  • Autonomía de los nodos de bases de datos distribuidas (Site Autonomy);
  • Procesamiento de solicitudes distribuidas;
  • Ejecución de transacciones distribuidas.
  • Apoyo a un sistema de seguridad homogéneo.

La transparencia de ubicación permite a los usuarios trabajar con bases de datos sin saber nada sobre su ubicación. La autonomía de los nodos de bases de datos distribuidas significa que cada base de datos se puede mantener independientemente de las demás. Una consulta distribuida es una consulta (instrucción SQL) durante la cual se accede a objetos (tablas o vistas) de diferentes bases de datos. Al ejecutar transacciones distribuidas, el control de concurrencia se ejerce sobre todas las bases de datos involucradas. Oracle7 utiliza tecnología de transferencia de información en dos fases para realizar transacciones distribuidas.

Las bases de datos que componen una base de datos distribuida no necesitan ser homogéneas (es decir, ejecutadas por el mismo DBMS) o ejecutarse en el mismo entorno. sistema operativo y/o en ordenadores del mismo tipo. Por ejemplo, una base de datos podría ser una base de datos Oracle en una computadora SUN que ejecute SUN OS (UNIX), una segunda base de datos podría ejecutarse mediante DB2 DBMS en un mainframe IBM 3090 ejecutando un sistema operativo MVS, y una tercera base de datos podría ejecutarse mediante un SQL/DS DBMS también en mainframe IBM, pero con un sistema operativo VM. Solo una condición es obligatoria: todas las máquinas con bases de datos deben ser accesibles a través de la red de la que forman parte.

La tarea principal de una base de datos distribuida– distribución de datos a través de la red y acceso a la misma. Existen las siguientes formas de resolver este problema:

  • Cada nodo almacena y usa su propio conjunto de datos que está disponible para consultas remotas. Esta distribución está dividida.
  • Algunos datos que se utilizan con frecuencia en sitios remotos pueden estar duplicados. Tal distribución se llama parcialmente duplicada.
  • Todos los datos se duplican en cada nodo. Tal distribución se llama completamente redundante.
  • Algunos archivos se pueden dividir horizontalmente (se selecciona un subconjunto de registros) o verticalmente (se selecciona un subconjunto de campos de atributos), mientras que los subconjuntos divididos se almacenan en diferentes nodos junto con los datos no divididos. Tal distribución se llama split (fragmentada).

Al crear una base de datos distribuida a nivel conceptual, debe resolver las siguientes tareas:

  • Es necesario tener un esquema conceptual único para toda la red. Esto proporcionará transparencia lógica de datos para el usuario, como resultado de lo cual podrá realizar una solicitud a toda la base de datos, estando en una terminal separada (funciona, por así decirlo, con una base de datos centralizada).
  • Se necesita un esquema para ubicar los datos en la red. Esto proporcionará transparencia en la ubicación de los datos, de modo que el usuario no tenga que especificar a dónde enviar la solicitud para obtener los datos requeridos.
  • Es necesario resolver el problema de la heterogeneidad de las bases de datos distribuidas. Las bases de datos distribuidas pueden ser homogéneas o heterogéneas en términos de hardware y software. El problema de la heterogeneidad es relativamente fácil de resolver si la base de datos distribuida es heterogénea en términos de hardware, pero homogénea en términos de software (el mismo DBMS en los nodos). Si se utilizan diferentes DBMS en los nodos de un sistema distribuido, se necesitan medios para convertir estructuras de datos e idiomas. Esto debería proporcionar transparencia de la transformación en los nodos de la base de datos distribuida.
  • Es necesario resolver el problema de la gestión de diccionarios. Para proporcionar todo tipo de transparencia en una base de datos distribuida, se necesitan programas que gestionen numerosos diccionarios y libros de referencia.
  • Es necesario definir métodos para ejecutar consultas en una base de datos distribuida. Los métodos para ejecutar consultas en una base de datos distribuida difieren de métodos similares en bases de datos centralizadas, ya que las partes individuales de las consultas deben ejecutarse en la ubicación de los datos correspondientes y transferir resultados parciales a otros nodos; al mismo tiempo, debe garantizarse la coordinación de todos los procesos.
  • Es necesario resolver el problema de la ejecución paralela de consultas. En una base de datos distribuida se necesita un mecanismo complejo de gestión del procesamiento concurrente que, en particular, debe asegurar la sincronización cuando se actualiza la información, lo que garantiza la consistencia de los datos.
  • Se necesita una metodología desarrollada para la distribución y asignación de datos, incluida la división, que es uno de los requisitos principales para una base de datos distribuida.

Una de las nuevas áreas en desarrollo activo de la arquitectura de sistemas informáticos, que es una herramienta poderosa para el procesamiento de información no numérica, sonmáquinas de base de datos. Las máquinas de bases de datos se utilizan para resolver tareas no numéricas, como almacenar, buscar y transformar documentos y hechos, trabajar con objetos. Siguiendo la definición de datos como digitales y informacion grafica sobre los objetos del mundo circundante, el concepto de datos está incrustado en diferentes contenidos en el procesamiento numérico y no numérico. El procesamiento numérico utiliza objetos como variables, vectores, matrices, matrices multidimensionales, constantes, etc., mientras que el procesamiento no numérico utiliza objetos como archivos, registros, campos, jerarquías, redes, relaciones, etc. el procesamiento numérico se ocupa directamente de la información sobre los objetos (por ejemplo, un empleado o grupo de empleados en particular) y no del archivo de empleados en sí. No indexa el expediente del empleado para seleccionar a una persona en particular; aquí más interesado en el contenido de la entrada deseada. Grandes volúmenes de información suelen estar sujetos a un procesamiento no numérico. En varias aplicaciones, tales operaciones se pueden realizar en estos datos, por ejemplo:

  • aumentar el salario de todos los empleados de la empresa;
  • calcular el interés bancario en las cuentas de todos los clientes;
  • realizar cambios en la lista de todos los productos en stock;
  • encontrar el resumen requerido de todos los textos almacenados en la biblioteca o en el sistema de recuperación de información bibliográfica;
  • encontrar la descripción del contrato deseado en un archivo que contenga documentos legales;
  • ver todos los archivos que contienen descripciones de patentes y encontrar una patente (si la hay) similar a la propuesta de nuevo.

Para implementar el motor de base de datos, paralelo y asociativo arquitecturas como alternativa al monoprocesadorvon Neumannestructura, permitiéndote trabajar con grandes cantidades de información en tiempo real.

Los motores de bases de datos están cobrando importancia en relación con la exploración y aplicación de conceptos de inteligencia artificial como la representación del conocimiento, los sistemas expertos, la inferencia, el reconocimiento de patrones, etc.

Almacenamientos de información.Hoy en día, muchos reconocen que la mayoría de las empresas ya operan varias bases de datos y, para trabajar con éxito con la información, no solo se requieren diferentes tipos de bases de datos, sino diferentes generaciones de DBMS. Según las estadísticas, cada organización utiliza un promedio de 2,5 DBMS diferentes. Se ha hecho evidente la necesidad de “aislar” el negocio de las empresas, o mejor dicho, las personas involucradas en este negocio, de las características tecnológicas de las bases de datos, para brindar a los usuarios una vista única de la información corporativa, independientemente de dónde se encuentre almacenada físicamente. . Esto estimuló el surgimiento de la tecnología de almacenamiento de información ( Almacenamiento de datos, DW).

El objetivo principal de DW escreación de una única representación lógica de los datos contenidos en diferentes tipos de bases de datos, o lo que es lo mismo, un único modelo de datos corporativo.

Una nueva ronda de desarrollo de DW se hizo posible gracias a la mejora de la tecnología de la información en general, en particular, la aparición de nuevos tipos de bases de datos basadas en el procesamiento de consultas en paralelo, que a su vez dependían de los avances en el campo de las computadoras paralelas. Fueron creadosconstructores de consultascon una interfaz gráfica intuitiva que facilitó la creación de consultas de base de datos complejas. Software misceláneosoftware intermediocomunicación proporcionadaentre diferentes tipos de bases de datos, y finalmente cayó bruscamente en el preciodispositivos de almacenamiento de información.

La estructura de una corporación puede contener base de datos.

Base de datos - componente funcional y organizacional en sistemas automatizados sistemas de gestión e informática de la información, que proporciona soporte de información centralizada para un grupo de usuarios o un conjunto de tareas resueltas en el sistema.

Base de datos se considera como un sistema de información y referencia, cuyo objetivo principal es:

  • en la acumulación y mantenimiento en condiciones de trabajo de la totalidad de la información que constituye base de información todo el sistema automatizado o algún conjunto de tareas resueltas en él;
  • en la emisión de los datos requeridos por la tarea o el usuario;
  • al proporcionar acceso colectivo a la información almacenada;
  • en asegurar la necesaria gestión del uso de la información contenida en la infobase.

Por lo tanto, un banco de datos moderno es un complejo complejo de software y hardware, que incluye herramientas técnicas, de sistema y de red, bases de datos y DBMS, sistemas de recuperación de información para diversos fines.

V .2. DBMS Y SOLUCIONES ESTRUCTURALES EN SISTEMAS CORPORATIVOS

Bases de datos y sistemas de gestión del conocimiento

Un componente importante de los sistemas de información modernos son los sistemas de gestión de bases de datos (DBMS).

SGBD - un conjunto de herramientas de software y lenguaje diseñado para crear, mantener y utilizar bases de datos.

El sistema de gestión de bases de datos proporciona a los sistemas de procesamiento de datos acceso a las bases de datos. Como ya se ha señalado, se adquiere un papel importante de DBMS en la creación de sistemas de información corporativos y un papel particularmente importante en la creación de sistemas de información utilizando recursos de información distribuidos basados ​​en tecnologías informáticas de red modernas.

La característica principal del DBMS moderno es que el DBMS moderno admite tales tecnologías como:

  • tecnología cliente/servidor.
  • Soporte para lenguajes de bases de datos. Estalenguaje de definición de esquemas base de datos (SDL - lenguaje de definición de esquemas),lenguaje de manipulación de datos (DML - Lenguaje de manipulación de datos), lenguajes integrados SQL (Lenguaje de cola estructurado), QDB (Consulta por ejemplo) y QMF (Utilidad de gestión de consultas) ) es una herramienta periférica avanzada para la especificación de consultas y la generación de informes para BD 2 etc.;
  • Gestión directa de datos en memoria externa.
  • Gestión de búfer de memoria.
  • Gestión de transacciones. Tecnología OLTP (Procesamiento de transacciones en línea), OLAP - tecnología (Procesamiento de análisis en línea) para DW.
  • Garantizar la protección e integridad de los datos. El uso del sistema está permitido solo a los usuarios que tienen derecho a acceder a los datos. Cuando los usuarios realizan operaciones en los datos, se mantiene la consistencia de los datos almacenados (integridad). Esto es importante en los sistemas de información corporativos multiusuario.
  • Periodización.

Los DBMS modernos deben cumplir con los requisitos de la base de datos enumerados anteriormente. Además, deberán cumplir con los siguientes principios:

  • Independencia de los datos.
  • Versatilidad. El DBMS debe tener un soporte poderoso para el modelo de datos conceptuales para mostrar vistas lógicas personalizadas.
  • Compatibilidad. El DBMS debe permanecer operativo con el desarrollo de software y hardware.
  • Redundancia de datos. A diferencia de los sistemas de archivos, una base de datos debe ser un único conjunto de datos integrados.
  • Protección de Datos. El DBMS debe proporcionar protección contra el acceso no autorizado.
  • Integridad de los datos. El DBMS debe evitar que los usuarios alteren la base de datos.
  • Gestión de trabajos simultáneos. El DBMS debe proteger la base de datos de inconsistencias en el modo de acceso compartido. Para garantizar un estado coherente de la base de datos, todas las solicitudes de los usuarios (transacciones) deben realizarse en un orden determinado.
  • El DBMS debe ser universal. Debe admitir diferentes modelos de datos sobre una única base lógica y física.
  • El DBMS debe admitir bases de datos centralizadas y distribuidas y, por lo tanto, convertirse en un enlace importante en las redes informáticas.

Considerando un DBMS como una clase de productos de software enfocados en mantener bases de datos en sistemas automatizados, podemos distinguir dos de las características más significativas que determinan los tipos de DBMS. Según ellos, el DBMS se puede considerar desde dos puntos de vista:

  • sus capacidades en relación con las bases de datos distribuidas (corporativas);
  • su relación con el tipo de modelo de datos implementado en el DBMS.

Con relación a las bases de datos corporativas (distribuidas), convencionalmente se pueden distinguir los siguientes tipos de SGBD:

  • DBMS "escritorio". Estos productos se centran principalmente en trabajar con datos personales (datos de escritorio). Tienen conjuntos de comandos para compartir bases de datos comunes, pero son de tamaño pequeño (tipo de oficina pequeña). En primer lugar, es un DBMS como Access, dBASE, Paradox, ExPro. Por qué Access, dBASE, Paradox, ExPro tienen poco acceso a los datos corporativos. El caso es que no hay manera fácil superar la barrera entre datos personales y corporativos. Y el punto ni siquiera es que el mecanismo de un DBMS de datos personales (o una pequeña oficina) se centre en acceder a los datos a través de muchas puertas de enlace, productos de puerta de enlace, etc. El problema es que estos mecanismos suelen implicar transferencias completas de archivos y una falta de soporte de índice extenso, lo que genera colas en el servidor que prácticamente se paralizan en sistemas grandes.
  • DBMS multiusuario especializado de alto rendimiento. Dichos DBMS se caracterizan por la presencia de un kernel de sistema multiusuario, un lenguaje de manipulación de datos y las siguientes funciones que son típicas de los DBMS multiusuario desarrollados:
  • organizar un grupo de almacenamiento intermedio;
  • la presencia de un sistema para procesar colas de transacciones;
  • la presencia de mecanismos para el bloqueo de datos multiusuario;
  • registro de transacciones;
  • disponibilidad de mecanismos de control de acceso.

Estos DBMS como Oracle, DВ2, SQL/Server, Informix, Sybase, ADABAS, Titanium y otros brindan un amplio servicio para el procesamiento de bases de datos corporativas.

Cuando se trabaja con bases de datos, se utiliza el mecanismo de transacciones.

transacción es una unidad lógica de trabajo.

transacción es una secuencia de instrucciones de manipulación de datos que se ejecutacomo uno(todo o nada) y base de datos de traducciónde un estado integral a otro estado integral.

Una transacción tiene cuatro propiedades importantes conocidas como Propiedades ASID:

  • (A) Atomicidad . La transacción se ejecuta como una operación atómica: se ejecuta toda la transacción o no se ejecuta toda la transacción.
  • (C) Consistencia. Una transacción mueve una base de datos de un estado coherente (coherente) a otro estado coherente (coherente). Dentro de una transacción, se puede romper la consistencia de la base de datos.
  • (yo) aislamiento . Las transacciones de diferentes usuarios no deben interferir entre sí (por ejemplo, como si se realizaran estrictamente por turnos).
  • (D) Durabilidad. Si la transacción se completa, los resultados de su trabajo deben almacenarse en la base de datos, incluso si el sistema falla en el momento siguiente.

La transacción generalmente comienza automáticamente desde el momento en que el usuario se une al DBMS y continúa hasta que ocurre uno de los siguientes eventos:

  • Se ha emitido un comando COMMIT WORK (para confirmar una transacción).
  • Comando ROLLBACK WORK emitido.
  • El usuario se ha desconectado del DBMS.
  • Hubo una falla en el sistema.

Para el usuario, ella usa generalmentecarácter atómico. De hecho, este es un mecanismo complejo de interacción entre el usuario (aplicación) y la base de datos. El software de sistemas empresariales utiliza un motor de procesamiento de transacciones en tiempo real (Sistemas de procesamiento de transacciones en línea, OLTP), en particular los programas de contabilidad, software para recibir y procesar solicitudes de clientes, aplicaciones financieras, producen mucha información. Estos sistemas están diseñados (y adecuadamente optimizados) para procesar grandes cantidades de datos, transacciones complejas y operaciones intensivas de lectura/escritura.

Desafortunadamente, la información colocada en las bases de datos de los sistemas OLTP no es muy adecuada para que la usen los usuarios comunes (debido al alto grado de normalización de tablas, formatos de presentación de datos específicos y otros factores). Por lo tanto, los datos de diferentes conductos de información se envían (en el sentido de ser copiados) aalmacén de almacenamiento, clasificación y posterior entrega al consumidor. En la tecnología de la información, el papel de los almacenes lo desempeñanalmacenamientos de información.

Entrega de información al usuario final - se emplean sistemas de procesamiento de datos analíticos en tiempo real(Procesamiento analítico en línea, OLAP), que brindan un acceso extremadamente fácil a los datos a través de herramientas convenientes para generar consultas y analizar resultados. En los sistemas OLAP, el valor de un producto de información se incrementa mediante el uso de varios métodos de análisis y procesamiento estadístico. Además, estos sistemas están optimizados en cuanto a velocidad de extracción de datos, recopilación de información generalizada y están enfocados a usuarios comunes (tienen una interfaz intuitiva). Si sistema OLTP da respuestas a preguntas simples como "¿cuál fue el nivel de ventas del producto N en la región M en enero de 199x?", luego sistemas OLAP están listos para solicitudes de usuarios más complejas, por ejemplo: "Entregue un análisis de las ventas del producto N para todas las regiones de acuerdo con el plan para el segundo trimestre en comparación con los dos años anteriores".

Arquitectura cliente/servidor

En los sistemas modernosprocesamiento de información distribuidala tecnología toma protagonismo Servidor de cliente. en sistema arquitecturas cliente-servidorel procesamiento de datos se divide entre una computadora cliente y una computadora servidor, cuya comunicación se realiza a través de una red. Esta separación de procesos de procesamiento de datos se basa en la agrupación de funciones. Por lo general, una computadora servidor de base de datos se dedica a realizar operaciones de base de datos, mientras que una computadora cliente ejecuta programas de aplicación. La figura 2.1 muestra un sistema de arquitectura cliente-servidor simple que incluye una computadora que actúa como servidor y otra computadora que actúa como su cliente. Cada máquina realiza Varias funciones y tiene sus propios recursos.

Servidor

Base de datos

computadora servidor


Red

PC compatible con IBM

PC compatible con IBM

PC compatible con IBM

Clientela

Aplicaciones

Arroz. 2.1. Sistema de arquitectura cliente-servidor

La función principal de la computadora cliente es ejecutar la aplicación (interfaz de usuario y lógica de presentación) y comunicarse con el servidor cuando la aplicación lo requiera.

servidor (servidor) - Este es un objeto (computadora) que brinda servicios a otros objetos a petición de estos.

Como implica el término, la función principal de la computadora servidor es atender las necesidades del cliente. El término "Servidor" se utiliza para referirse a dos grupos diferentes de funciones: un servidor de archivos y un servidor de bases de datos (en adelante, estos términos significan, según el contexto, el software que implementa estos grupos de funciones o las computadoras con este software ). Los servidores de archivos no están diseñados para realizar operaciones de base de datos, su función principal es compartir archivos entre varios usuarios, es decir. proporcionar acceso simultáneo de muchos usuarios a archivos en una computadora: un servidor de archivos. Un ejemplo de un servidor de archivos es el sistema operativo NetWare de Novell. El servidor de la base de datos se puede instalar y ejecutar en una computadora servidor de archivos. Oracle DBMS en forma de NLM (módulo cargable de red) se ejecuta en un entorno NetWare en un servidor de archivos.

Servidor red local debe tener recursos correspondientes a su propósito funcional y necesidades de la red. Tenga en cuenta que debido a la orientación hacia el enfoque de sistemas abiertos, es más correcto hablar de servidores lógicos (es decir, un conjunto de recursos y herramientas de software que brindan servicios sobre estos recursos), que no están necesariamente ubicados en diferentes computadoras. Una característica de un servidor lógico en un sistema abierto es que si, por razones de eficiencia, es conveniente mover el servidor a una computadora separada, esto se puede hacer sin necesidad de ninguna modificación, tanto de él mismo como de la aplicación. programas que lo utilizan.

Uno de los requisitos importantes del servidor es que el sistema operativo en el que se aloja el servidor de la base de datos debe ser multitarea (y preferiblemente, pero no necesariamente, multiusuario). Por ejemplo, Oracle DBMS instalado en computadora personal con un sistema operativo MS-DOS (o PC-DOS) que no satisfaga el requisito de multitarea, no se puede utilizar como servidor de base de datos. Y el mismo Oracle DBMS instalado en una computadora con un sistema operativo OS / 2 multitarea (aunque no multiusuario) puede ser un servidor de base de datos. Muchas variedades de UNIX, MVS, VM y algunos otros sistemas operativos son multitarea y multiusuario.

Computación distribuída

El término "computación distribuida" se usa a menudo para referirse a dos conceptos diferentes, aunque complementarios:

  • base de datos distribuida;
  • Procesamiento de datos distribuidos.

La aplicación de estos conceptos hace posible organizar el acceso a la información almacenada en varias máquinas para usuarios finales utilizando varios medios.

Hay muchos tipos de servidores:

  • Servidor de base de datos;
  • Servidor de impresión;
  • Servidor acceso remoto;
  • servidor de fax;
  • servidor web, etc

En el centro de la tecnología Cliente/ServidorExisten tecnologías básicas como:

  • Tecnologías de sistemas operativos, el concepto de interacción de sistemas abiertos, creación de entornos orientados a objetos para el funcionamiento de programas;
  • tecnologías de telecomunicaciones;
  • tecnologías de red;
  • Tecnologías de interfaz gráfica de usuario ( interfaz gráfica de usuario);
  • Etc

Ventajas de la tecnología cliente-servidor:

  • La tecnología cliente/servidor permite computar en entornos informáticos heterogéneos. Independencia de la plataforma: acceso a entornos de red heterogéneos que incluyen computadoras diferentes tipos con diferentes sistemas operativos.
  • Independencia de fuentes de datos: acceso a información de bases de datos heterogéneas. Ejemplos de tales sistemas son DB2, SQL/DS, Oracle, Sybase.
  • Equilibrio de carga entre cliente y servidor.
  • Realizar cálculos donde sucede de manera más eficiente;
  • Proporciona una capacidad de escalado eficiente;
  • Computación multiplataforma. La computación multiplataforma se define simplemente como la implementación de tecnologías en entornos informáticos heterogéneos. Aquí se deben proporcionar las siguientes opciones:
  • La aplicación debe ejecutarse en múltiples plataformas;
  • En todas las plataformas, debe tener la misma interfaz y lógica de trabajo;
  • La aplicación debe integrarse con el entorno operativo nativo;
  • Debería comportarse igual en todas las plataformas;
  • Debe tener un soporte simple y consistente.

Computación distribuída. La computación distribuida proporciona la distribución del trabajo entre varias computadoras (aunque la computación distribuida es un concepto más amplio).

Reducción de escala. La reducción de escala es la transferencia de aplicaciones de mainframe a plataformas informáticas pequeñas.

  • Reducir los costos de infraestructura y hardware. Rentable: la disponibilidad de hardware informático de bajo costo y la creciente prevalencia de las redes de área local hacen que la tecnología cliente-servidor sea más rentable que otras tecnologías de procesamiento de datos. El equipo se puede actualizar según sea necesario.

Reducir el tiempo total de ejecución de la aplicación;

Reducción del uso de la memoria del cliente;

Reducción del tráfico de red.

  • Capacidad para trabajar con multimedia: Hasta la fecha, se han creado una gran cantidad de programas para trabajar con multimedia para PC. O no existen tales programas para la configuración terminal-host, o son muy caros.
  • La capacidad de utilizar más recursos informáticos para las operaciones de la base de datos: dado que las aplicaciones se ejecutan en los equipos cliente, se liberan recursos adicionales (en comparación con la configuración terminal-host) en el equipo servidor para las operaciones de la base de datos, como los recursos informáticos. UPC y memoria de trabajo.
  • Mayor productividad del programador: la productividad del programador aumenta al usar herramientas como SQL*Forms y CASE para desarrollar aplicaciones más rápido que los lenguajes de programación como C, PL1 o COBOL.
  • Aumento de la productividad del usuario final: hoy en día, muchos usuarios finales han adoptado sistemas como Lotus, Paradox, Word Perfect, Harvard Graphics, etc.

La interfaz de back-end está definida y fija. Por lo tanto, es posible crear nuevas partes de cliente de un sistema existente (un ejemplo de interoperabilidad a nivel de sistema).

Arroz. 2.2. Ilustración del acceso del cliente a recurso compartido servidor.

Cómo implementar la tecnología cliente-servidor

A continuación se analiza la instalación de un sistema basado en tecnología cliente-servidor y capaz de procesamiento de datos distribuidos. Se requiere el siguiente hardware y software de computadora:

  • computadora servidor de base de datos;
  • computadoras cliente;
  • red de comunicacion;
  • software de red;
  • Software de la aplicacion.

lenguaje SQL . Lenguaje de consulta de alto nivel - SQL (lenguaje de consulta estructurado ) se utiliza para implementar consultas a bases de datos, como NMD, NDL y PJD, y se ha adoptado como estándar. Idioma sql se adoptó originalmente como el lenguaje de datos de los productos de software de la empresa IBM y YMD de un DBMS relacional SISTEMA R de IBM . Una característica importante del lenguaje. sql es que un mismo lenguaje se representa a través de dos interfaces diferentes, a saber: a través de una interfaz interactiva y a través de una interfaz de programación de aplicaciones (dinámica SQL). SQL dinámico consta de muchas funciones de lenguaje integradas sql , proporcionado específicamente para la construcción de aplicaciones interactivas, donde una aplicación interactiva es un programa escrito para admitir el acceso a la base de datos por parte del usuario final que se ejecuta en el terminal interactivo. Idioma sql proporciona las funciones de definición, manipulación y gestión de datos de la base de datos y es transparente para el usuario desde el punto de vista del DBMS implementado.

Arroz. 2.3. Esquema para ejecutar solicitudes de usuario a bases de datos distribuidas.

La estructura interna de las bases de datos está determinada por los modelos de datos utilizados. El modelo conceptual tiene más capacidades de abstracción y una semántica más rica que los modelos externos. Los modelos externos a menudo se denominan modelos sintácticos u operativos, en referencia a la naturaleza sintáctica de la gestión y la aplicación como medio de interacción del usuario con la base de datos. En el modelado de información, existen varios niveles de abstracción, desde el nivel del modelo conceptual hasta el nivel del modelo de datos físicos, que afectan la arquitectura del DBMS.

El modelo de datos tiene tres componentes.:

  • Una estructura de datos para representar desde la perspectiva del usuario en la base de datos.
  • Operaciones válidas a realizar sobre la estructura de datos. Es necesario poder trabajar con esta estructura utilizando varias operaciones DDL y NML. Una estructura rica es inútil si no puede manipular su contenido.
  • Restricciones para el control de integridad. El modelo de datos debe contar con medios para preservar su integridad y protegerlo. Como ejemplo, considere las siguientes dos restricciones:
  • Cada subárbol debe tener un nodo fuente. Las bases de datos jerárquicas no pueden almacenar nodos secundarios sin un nodo principal.
  • En relación con una base de datos relacional, no puede haber tuplas idénticas. Para un archivo, este requisito requiere que todos los registros sean únicos.

Uno de las caracteristicas mas importantes El trabajo de DBMS es la capacidad de vincular objetos.

Existen los siguientes tipos de enlaces entre objetos:

  • Uno a uno (1:1). Un objeto de un conjunto se puede asociar con un objeto de otro conjunto.
  • Uno a muchos (1:M). Un objeto de un conjunto puede relacionarse con muchos objetos de otro conjunto.
  • Muchos a muchos (M:N). Un objeto de un conjunto puede estar asociado con muchos objetos de otro conjunto, pero al mismo tiempo, un objeto de otro conjunto puede estar asociado con muchos objetos del primer conjunto.
  • ramificado . Un objeto de un conjunto se puede asociar con objetos de muchos conjuntos.
  • recursivo . un objeto conjunto dado se puede asociar con un objeto del mismo conjunto.

Existen los siguientes modelos de datos principales:

  • Modelo de datos relacionales.
  • Modelo de datos jerárquico.
  • Modelo de datos de red incompleto.
  • Modelo de datos CODASYL.
  • Modelo de datos de red extendido.

V.3. TECNOLOGÍAS DE INTERNET / INTRANET Y SOLUCIONES DE ACCESO A BASES DE DATOS CORPORATIVAS

El principal problema de los sistemas basados ​​en la arquitectura "cliente-servidor" es que, de acuerdo con el concepto de sistemas abiertos, se requiere que sean móviles en la clase más amplia posible de soluciones de hardware y software de sistemas abiertos. Incluso si nos limitamos a las redes de área local basadas en UNIX, las diferentes redes usan diferentes equipos y protocolos de comunicación. Intentar crear sistemas que admitan todos los protocolos posibles conduce a su sobrecarga con detalles de red a expensas de la funcionalidad.

Un aspecto aún más complejo de este problema está relacionado con la posibilidad de utilizar diferentes representaciones de datos en diferentes nodos de una red local heterogénea. Diferentes computadoras pueden tener diferente direccionamiento, representación de números, codificación de caracteres, etc. Esto es especialmente importante para servidores de alto nivel: telecomunicaciones, informática, bases de datos.

Una solución habitual al problema de la movilidad de los sistemas basados ​​en la arquitectura "cliente-servidor" es confiar en paquetes de software que implementan protocolos de llamada a procedimiento remoto (RPC - Remote Procedure Call). Con estas herramientas, llamar a un servicio en el host remoto parece una llamada de procedimiento normal. Las herramientas RPC, que, por supuesto, contienen toda la información sobre los detalles de los equipos de red local y los protocolos de red, traducen la llamada en una secuencia de interacciones de red. Por lo tanto, los detalles del entorno de red y los protocolos están ocultos para el programador de aplicaciones.

Cuando se llama a un procedimiento remoto, los programas RPC convierten los formatos de datos del cliente en formatos intermedios independientes de la máquina y luego los convierten en formatos de datos del servidor. Al pasar parámetros de respuesta, se realizan transformaciones similares.

Otros trabajos relacionados que te pueden interesar.vshm>

6914. concepto de base de datos 11.56KB
La base de datos es un conjunto de materiales independientes presentados en forma objetiva de artículos de cálculo de actos normativos de decisiones judiciales y otros materiales similares sistematizados de tal manera que estos materiales se pueden encontrar y procesar utilizando una computadora electrónica Código Civil de la Federación Rusa Arte. Una base de datos organizada de acuerdo con ciertas reglas y mantenida en la memoria de la computadora, un conjunto de datos que caracterizan el estado actual de algunos...
8064. Bases de datos distribuidas 43.66KB
Bases de datos distribuidas Una base de datos RDB distribuida es un conjunto de datos compartidos lógicamente interconectados que se distribuyen físicamente en diferentes nodos de una red informática. El acceso a los datos no debe depender de la presencia o ausencia de réplicas de datos. El sistema debe determinar automáticamente los métodos para realizar una unión de datos, un enlace de red capaz de manejar la cantidad de información que se transfiere y un nodo que tenga suficiente capacidad de procesamiento para unir las tablas. El RDBMS debe ser capaz de...
20319. BASES DE DATOS Y SU PROTECCIÓN 102.86KB
Las bases de datos en línea aparecieron a mediados de la década de 1960. Las operaciones en las bases de datos operativas se procesaban de forma interactiva mediante terminales. La organización de registro secuencial de índice simple evolucionó rápidamente a un modelo de registro orientado a conjuntos más poderoso. Charles Bachmann recibió el Premio Turing por liderar el trabajo del Grupo de trabajo de base de datos (DBTG), que desarrolló un lenguaje estándar para describir y manipular datos.
5031. Biblioteca de desarrollo de base de datos 11,72 MB
Tecnología de diseño de base de datos. Definición de relaciones entre entidades y creación de un modelo de datos. Las ideas principales de la tecnología de la información moderna se basan en el concepto de que los datos deben organizarse en bases de datos para reflejar adecuadamente el mundo real cambiante y satisfacer las necesidades de información de los usuarios. Estas bases de datos se crean y operan bajo el control de sistemas de software especiales llamados sistemas de administración de bases de datos DBMS.
13815. MODELO DE BASE DE DATOS JERÁRQUICA 81.62KB
Las ideas principales de la tecnología de la información moderna se basan en el concepto de bases de datos, según el cual la base de la tecnología de la información son los datos organizados en bases de datos que reflejan adecuadamente el estado de un área temática en particular y brindan al usuario información relevante en esta área temática. Hay que reconocer que los datos son...
14095. desarrollo de base de datos de biblioteca 11,72 MB
El aumento en el volumen y la complejidad estructural de los datos almacenados, la expansión del círculo de usuarios de los sistemas de información han llevado al uso generalizado del DBMS relacional (tabular) más conveniente y relativamente fácil de entender.
5061. Creación de una base de datos del policlínico 2,4 MB
El desarrollo de la tecnología informática y la tecnología de la información ha brindado oportunidades para la creación y el uso generalizado de sistemas de información automatizados (AIS) para diversos fines. Desarrollado e implementado Sistemas de información gestión de instalaciones económicas y técnicas
13542. Bases de datos de información geológica 20.73KB
Recientemente, ha habido una rápida introducción tecnologia computacional y, en particular, las bases de datos, en el ámbito científico. Este proceso tampoco pasa por alto a la geología, ya que es en las ciencias naturales donde existe la necesidad de almacenar y procesar grandes cantidades de información.
9100. Base de datos. Conceptos básicos 26.28KB
Una base de datos es una colección de información sobre objetos específicos del mundo real en cualquier área temática, economía, administración, química, etc. El propósito de un sistema de información no es solo almacenar datos sobre objetos, sino también manipular estos datos, tomando en cuenta las relaciones entre los objetos. Cada objeto se caracteriza por algún conjunto de propiedades de datos, que se denominan atributos en la base de datos.
5240. Creación de la base de datos “Decanato de la universidad” 1,57 MB
Una base de datos (DB) es una colección de datos interrelacionados, almacenados juntos en medios externos Memoria informática de datos, con tal organización y mínima redundancia que permite su uso de manera óptima para una o más aplicaciones.

Parece que ahora el tema del desarrollo de almacenes de datos se ha deslizado hacia una nueva ronda de desarrollo. Están surgiendo nuevas tecnologías, enfoques y herramientas. Su estudio, prueba y aplicación razonable nos permite crear soluciones realmente interesantes y útiles. Y llévelos a la implementación, disfrutando del hecho de que sus desarrollos se utilizan en el trabajo real y traen beneficios.

Epílogo

Al preparar este artículo, traté de centrarme principalmente en arquitectos, analistas y desarrolladores que trabajan directamente con almacenes de datos. Pero resultó que inevitablemente "tomé el tema un poco más", y otras categorías de lectores cayeron en el campo de visión. Algunos puntos parecerán controvertidos, algunos no están claros, algunos son obvios. Las personas son diferentes, con diferentes experiencias, antecedentes y posiciones.
Por ejemplo, las preguntas típicas de los gerentes son "¿cuándo atraer arquitectos?", "¿Cuándo debo hacer arquitectura?", "¿Arquitectura, no será demasiado costosa?" Suena bastante extraño para nosotros (desarrolladores, diseñadores), porque para nosotros la arquitectura del sistema aparece con su nacimiento, no importa si nos damos cuenta o no. E incluso si no hay un papel formal de un arquitecto en el proyecto, un desarrollador normal siempre "se vuelve contra su arquitecto interno".

En el gran esquema de las cosas, no importa quién sea el arquitecto, lo que importa es que alguien haga estas preguntas y explore las respuestas a ellas. Si el arquitecto está claramente señalado, esto solo significa que él es el principal responsable del sistema y su desarrollo.
¿Por qué el tema de la “antifragilidad” me pareció relevante en relación a este tema?

“La singularidad de la antifragilidad es que nos permite trabajar con lo desconocido, hacer algo en condiciones en las que no entendemos qué estamos haciendo exactamente, y tener éxito”/Nassim N. Taleb/
Por tanto, la crisis y un alto grado de incertidumbre no son excusa para la falta de arquitectura, sino factores que refuerzan su necesidad.

Etiquetas: Agregar etiquetas

5.1. Organización de los datos en los sistemas de información corporativos.

Considerando el CIS en el nivel más simplificado, podemos decir que contiene una red informática corporativa (computadora) y un paquete de software de aplicación especializado (APP) para resolver problemas en el área temática. A su vez, tanto el PPP como la red informática implican el uso de datos de información sobre el estado y desarrollo de los sistemas controlados y gestionados por ellos. Históricamente, CIS consta de subsistemas ramificados separados de empresas individuales, interconectados y que a menudo representan un sistema jerárquico. Es natural suponer que dichos subsistemas tienen sus propias fuentes y sus propios lugares para almacenar datos relacionados. Al combinarse en un solo sistema, surgen preguntas sobre el uso correcto conjunto de datos ubicados geográficamente en diferentes lugares de su almacenamiento. Por lo tanto, para administrar con éxito una asociación de producción equipada con CIS, necesita un sistema confiable para recopilar, almacenar y procesar datos. En otras palabras, necesita una infraestructura de información unificada que satisfaga proyectos estratégicos de BI (Business Intelligence) o una base de datos integrada para almacenar y usar datos. El objetivo principal de la integración de datos es obtener una imagen única y completa del estado de los datos comerciales corporativos. La integración en sí misma es un proceso complejo, a partir del cual conviene destacar:

tecnologías,

productos,

Aplicaciones.

Métodos son enfoques para la integración de datos.

Tecnologías- estos son procesos que implementan ciertos métodos de integración de datos.

Productos son soluciones comerciales que soportan una u otra tecnología de integración de datos.

Aplicaciones- estas son soluciones técnicas listas para usar proporcionadas por desarrolladores de acuerdo con los deseos de los clientes - clientes.

Según la complejidad de los sistemas de información corporativos y las tareas para las que están diseñados, la organización de los datos en ellos es algo diferente. En particular, en el CIS, diseñado para garantizar la gestión eficaz de los procesos comerciales tanto de las sucursales individuales como de la corporación en su conjunto, se acostumbra hablar de la presencia de bases de datos corporativas. En los sistemas de información corporativos utilizados en los más altos niveles de gestión y en su mayoría asociados a los procesos de análisis operativo y toma de decisiones, en el proceso de planificación, diseño y previsión de diversos tipos de actividades de gestión, se utiliza la terminología del almacén de datos. Es oportuno señalar que la frase almacenamiento integrado de información pertenece a ambos.

5.2. Bases de datos empresariales y sus requisitos

Al ser un almacenamiento de datos integrado en todo el sistema, la base de datos corporativa está diseñada para proporcionar información para la gestión eficaz de todos los procesos comerciales y divisiones de la corporación. La integración de datos implica la creación de una nueva estructura que incluye orgánicamente datos de las bases de datos de divisiones separadas individuales, por lo que dicha estructura debe proporcionar ciertos requisitos:

Entrada de datos simple y fácil de usar en la base de datos,

Almacenar datos en una forma que no conduzca a un crecimiento excesivo de datos,

Accesibilidad a la información general de los empleados de todas las divisiones de la corporación, sujeto a la condición obligatoria de delimitación de derechos de acceso,

Rápida búsqueda y selección de la información requerida,

Ordenar y filtrar los datos necesarios,

Agrupación de datos similares

Cálculos intermedios y finales sobre campos,

Transformación y visibilidad de los datos de salida,

escalabilidad,

· Seguridad contra fallas accidentales, pérdida permanente de datos y acceso no autorizado.

Además, cuando se integran bases de datos separadas (distribuidas) en una única base de datos corporativa, es importante garantizar la capacidad de trabajar con la base de datos de tal manera que el usuario trabaje con ella como si no estuviera distribuida.

Es posible la creación de una base de datos corporativa integrada varios métodos, siendo los principales:

· Consolidación,

federalización,

· Difusión.

5.3. Características de las soluciones de integración de bases de datos corporativas

Consolidación. Bajo consolidación generalmente se refiere a la adición de datos del mismo nombre. Un término similar se usa ampliamente en el sector bancario, donde se forma un balance general consolidado anual, que le permite presentar todos los activos y pasivos del banco matriz junto con sus sucursales.

Con respecto a una corporación, al usar este método, los datos se copian y recopilan de las bases de datos primarias (DB - Slave) al integrarse en una única ubicación de almacenamiento (DB - Master). Como regla general, el servidor de la oficina central (sede) se elige como ubicación de almacenamiento (Fig. 5.1).

Figura 5.1. Método de consolidación de datos

Los datos en la BD - Master se utilizan para informes, análisis, desarrollo y toma de decisiones, así como fuente de datos para otras sucursales de la corporación.

Las tecnologías más comunes para admitir tales soluciones durante la consolidación son las siguientes tecnologías:

Extracción, transformación y carga - ETL (Extract Transform Load);

· Gestión de contenidos corporativos - ECM (Enterprise Content Management).

Las ventajas del método de consolidación son:

1. Habilidad para transformar(reestructuración, reconciliación, limpieza y/o agregación) de cantidades significativas de datos en el proceso de su transferencia desde los sistemas primarios a las ubicaciones de almacenamiento final debido a la tecnología ETL,

2. Capacidad para gestionar datos no estructurados., como documentos, informes y páginas gracias a las soluciones de tecnología ECM.

Para trabajar con la base de datos consolidada del CIS, especial aplicaciones de negocios, que le permiten crear consultas a datos de bases de datos, informes y, en base a ellos, realizar análisis de datos.

La desventaja de la integración a través de la consolidación es que los datos consolidados en la ubicación de almacenamiento integrado no se pueden actualizar en sincronización con las actualizaciones de datos en los sistemas primarios debido a conflictos de sincronización.

La presencia de un tiempo de retardo entre los momentos de actualización de los datos en los sistemas primarios y en el lugar de almacenamiento final.

Este retraso puede variar desde unos pocos segundos hasta varias horas o incluso días.

Federalización. Bajo federalización comúnmente conocido como sindicato. Un término similar se usa a menudo en política cuando se organizan las fronteras de un estado (por ejemplo, Alemania, Rusia, EE. UU.).

El proceso de federalización de datos en una base de datos corporativa es la creación de una imagen virtual (aparente) que combina varios archivos de datos primarios en un solo todo virtual (ver Figura 5.2). La federalización de datos en sí misma consiste en extraer datos de sistemas primarios en función de requisitos externos. La gestión de la base de datos corporativa integrada según el método federal es realizada por procesador de federalización.

Figura 2. Método de federación de datos

En cuanto a la base de datos virtual de datos, cualquier aplicación comercial forma una solicitud a la imagen virtual. En función de esta solicitud, el procesador de la federación extrae datos de los sistemas primarios relevantes, los integra de acuerdo con la imagen virtual y devuelve el resultado a la aplicación comercial que generó la solicitud. En este caso, todas las transformaciones de datos necesarias se realizan cuando se extraen de los sistemas primarios.

La tecnología de integración de información empresarial (E I I), que significa integración de información corporativa, proporciona soporte para un enfoque federado de integración de datos.

Una característica de la solución federada es que para acceder a los datos primarios, el procesador de la federación utiliza metadatos(conocimiento), que incluye datos sobre la composición y características de la imagen virtual, sobre la cantidad de datos, las relaciones semánticas entre ellos y las formas de acceder a ellos, que ayudan a la solución federativa a optimizar el acceso a los sistemas primarios.

Las principales ventajas del enfoque federado son:

la capacidad de acceder a los datos actuales sin crear nueva base datos,

la conveniencia de la aplicación después de la adquisición o fusión de empresas,

indispensable en los casos en que, por razones de seguridad, existen restricciones de licencia para copiar datos de sistemas primarios,

uso, si es necesario, de la alta autonomía de las divisiones locales de la corporación y la flexibilidad del control centralizado de sus actividades,

· un alto grado de utilidad para las grandes empresas transnacionales.

Las desventajas del enfoque incluyen:

Disminución del rendimiento debido al costo adicional de acceder a múltiples fuentes de datos,

la federalización es más adecuada para extraer pequeñas cantidades de datos,

Requisitos de alta calidad para los datos primarios.

Extensión. Bajo untado generalmente se refiere a la transferencia territorial de objetos multiplicados. La propagación de datos se refiere a la reproducción de bases de datos primarias y su movimiento de un lugar a otro. Al implementar este método aplicaciones de negocios operar en línea y mover datos a destinos en función de ciertos eventos que ocurran. Para esta solución técnica cobra importancia el tema de la actualización de datos, que es posible en modo síncrono o asíncrono, el modo síncrono asume que las actualizaciones tanto en el sistema primario como en el sistema final ocurren durante la misma transacción física.

Ejemplos de tecnologías que soportan la implementación del método de propagación de datos son:

Integración de aplicaciones corporativas EAI - Enterprise Application Integration,

· Replicación de datos corporativos EDR – Enterprise Data Replication.

La estructura generalizada de la implementación del método de difusión de datos tiene la forma de la Fig.5.3.

Figura 5.3. Método de difusión de datos

Una característica distintiva del método de distribución de datos es la entrega garantizada de datos al sistema de destino con un retraso mínimo cercano al tiempo real.

La combinación de integración de tecnología (EAI) y replicación (EDR) en el método proporciona múltiples ventajas, en forma de las siguientes ventajas:

· Alto rendimiento,

Posibilidad de reestructuración y limpieza de datos,

Equilibrio de carga mediante la creación copias de seguridad y recuperación de datos.

enfoque híbrido. La realidad de la actividad económica es tal que no existen dos empresas idénticas, especialmente dos corporaciones idénticas. Esta circunstancia deja su huella en el proceso de creación y llenado del CIS. Esto se aplica por completo a los métodos de integración de datos en bases de datos. Por esta razón, muchos EIS utilizan la llamada integración de datos en sus aplicaciones de integración de datos. híbrido un enfoque que incluye simultáneamente varios métodos de integración.Ejemplos de este enfoque son las tecnologías que proporcionan una imagen coherente de la información del cliente:

Integración de datos de clientes en sistemas CDI - Customer Data Integration,

· Integración de datos de clientes en CRM – Módulos de Gestión de Relaciones con Clientes.

En particular, el enfoque de implementación de CDI se puede tomar de varias maneras.

La forma más sencilla es crear una base de datos de clientes consolidada que contenga datos de los sistemas primarios. En este caso, la acumulación de información se puede regular mediante el uso de diferentes modos consolidación: operativa o por lotes, dependiendo de la frecuencia de actualización de esta información.

La segunda forma es la federación de datos, cuando es virtual presentaciones de negocios datos de clientes contenidos en sistemas primarios. Y el archivo de metadatos puede contener elementos clave comunes que se pueden usar para relacionar la información del cliente.

Así, los datos generales (por ejemplo, detalles) del cliente pueden consolidarse como los datos más estáticos. Y se pueden federar datos más dinámicos (como detalles de pedidos).

Además, el enfoque híbrido se puede ampliar utilizando el método de difusión de datos. Por ejemplo, un cliente que utiliza los servicios de una tienda en Internet cambia sus datos durante el servicio. Estos cambios pueden enviarse a la parte consolidada de la base de datos y desde allí propagarse a todos los sistemas primarios que contienen datos de clientes de la tienda.

Teniendo en cuenta las ventajas y desventajas de cada uno de los métodos, es recomendable ser creativo en su aplicación y puesta en común.

Por ejemplo, la federación de datos es útil cuando el costo de la consolidación de datos supera los beneficios comerciales que brinda la consolidación. En particular, la pronta tramitación de solicitudes y la preparación de informes es precisamente una situación de este tipo.

La aplicación práctica del método de difusión de datos es muy diversa, tanto en términos de rendimiento como en términos de capacidad para reestructurar y limpiar los datos.

5.4. El concepto y las soluciones estructurales de los almacenes de datos.

Almacén de datos - es un almacenamiento integrado de información orientado a temas que acumula datos externos y operativos, así como datos de otros sistemas, sobre la base de los cuales se construyen los procesos de toma de decisiones y análisis de datos.

A diferencia de las bases de datos y los bancos de datos, los almacenes de datos no se basan en fuentes de datos internas sino externas: varios sistemas de información, archivos electrónicos, catálogos electrónicos públicos, directorios y colecciones.

El concepto de almacenes de datos se basa en dos ideas principales:

1. Integración de datos detallados dispares (describiendo hechos específicos, propiedades, eventos, etc.) en un único repositorio.

2. Separación de conjuntos de datos y aplicaciones utilizadas para el procesamiento y análisis.

El almacenamiento de datos se organiza en los casos en que es necesario obtener:

Integración de valores de datos actuales e históricos,

Consolidación de datos de fuentes dispares,

Creación de una plataforma de datos fiable con fines analíticos,

Garantizar la homogeneidad de los datos en toda la organización,

Facilitar la implementación estándares corporativos datos sin cambiar los sistemas operativos existentes,

· Proporcionar un panorama histórico amplio y oportunidades para analizar las tendencias de desarrollo.

Históricamente, los almacenes de datos se han construido en un esquema de uno, dos y tres niveles.

Esquemas de un solo nivel originalmente estaban destinados a las arquitecturas más simples, que incluyen DSS funcionales, con una infraestructura de información poco desarrollada, cuando el análisis se realiza utilizando datos de sistemas operativos, según el principio: datos - formas de presentación.

Las ventajas de tales esquemas son:

Transferencia rápida de datos desde sistemas operativos a un sistema especializado sin enlaces intermedios,

· Mínimos costes por el uso de una única plataforma.

Defectos:

Rango reducido de problemas a resolver debido a una sola fuente de datos,

· Baja calidad datos debido a la falta de un paso de limpieza.

esquemas de dos niveles proporcionar una cadena: datos - data marts - formularios de presentación. Se utilizan en corporaciones con un gran número de divisiones independientes que utilizan sus propias tecnologías de la información.

ventajas:

Los escaparates utilizados están diseñados para responder a un conjunto específico de preguntas,

· Es posible optimizar los datos en los escaparates, lo que mejora el rendimiento.

Defectos:

Dificultad para garantizar la consistencia de los datos debido a su repetición repetida en escaparates,

Complejidad potencial de llenar vitrinas con una gran cantidad de fuentes de datos,

· Ante la falta de consolidación de datos a nivel corporativo, no existe una imagen única del negocio.

La evolución del desarrollo ha llevado al hecho de que la construcción de un almacén de datos completo para los sistemas corporativos modernos se ha llevado a cabo de acuerdo con arquitectura de tres niveles (ver figura 5.4).

Sobre el primero nivel hay varios sistemas de registro que son fuentes de datos. Dichos sistemas pueden ser sistemas de planificación de recursos empresariales (ERP), sistemas de referencia (operativos), fuentes externas o sistemas que suministran datos de agencias de noticias, etc.

Sobre el segundo nivel contiene un depósito central, donde se recopilan los datos de todas las fuentes del primer nivel, así como un almacén de datos operativo, que está diseñado para realizar dos funciones:

El almacén es una fuente de información analítica utilizada para la gestión operativa,

· En el almacén operativo se preparan los datos para su posterior carga en el almacén central. Por preparación de datos se entiende la realización de comprobaciones y transformaciones de datos en relación con las distintas normativas para la recepción de datos de primer nivel.

Tercero un nivel es una colección de data marts específicos de dominio.

Data marts - estos son impulsos orientados a funciones relativamente pequeños, cuyo contenido contribuye a la solución de problemas analíticos de divisiones individuales de la corporación. De hecho, los data marts son subconjuntos de datos de un almacén. Al mismo tiempo, los usuarios finales tienen la capacidad de acceder a datos detallados del almacén en caso de que no haya suficientes datos en el data mart, así como de obtener una imagen más completa del estado del negocio.

Figura 5.4. Arquitectura del almacén de datos

Las principales operaciones tecnológicas de tales almacenes de datos organizados son:

· extracción datos es el proceso de transferir datos de fuentes heterogéneas a un almacén operativo,

· transformación datos es la modificación de datos basada en reglas especiales con su posterior transferencia al almacenamiento central,

· limpieza datos es la eliminación de la duplicación de datos provenientes de diferentes fuentes,

· Actualizar data es la distribución de actualizaciones de datos a los datos de origen de las tablas base y los datos derivados alojados en el almacén.

ventajas:

El llenado de vitrinas se simplifica debido al uso de una única fuente de datos depurados,

· Los data marts están sincronizados con la imagen empresarial corporativa, lo que facilita la expansión del depósito central y la adición de data marts,

· Rendimiento garantizado.

Defectos:

La presencia de redundancia de datos, lo que lleva a un aumento en los requisitos para la tecnología de almacenamiento de datos,

5. 5. Sistemas de gestión de bases de datos y tecnologías de acceso a datos en CIS

Sistema de administración de base de datos(DBMS) es un conjunto de herramientas de lenguaje y software diseñado para crear, mantener y compartir una base de datos por uno o varios usuarios.

Actualmente, los SGBD más utilizados se construyen sobre la base de un modelo de datos relacionales descrito por un estricto aparato matemático. teoría de la relación.

Una característica de los DBMS que operan en CIS es el hecho de que deben administrar bases de datos ubicadas en medios distribuidos en el espacio.

Para evitar duplicaciones o copias adicionales de datos en el CIS, el énfasis principal está en el principio del procesamiento de datos remoto. Las bases de datos en CIS contienen datos que necesitan muchos usuarios. Es posible obtener acceso simultáneo de varios usuarios a la base de datos al instalar en una red informática local DBMS que funcionan con usuarios y con una sola base de datos.

Las principales soluciones tecnológicas para el trabajo multiusuario con bases de datos son las tecnologías archivo/servidor y cliente/servidor. Tomando la opción más aceptable de estas tecnologías, el cliente/servidor en el CIS organiza sistemas especializados para procesar bases de datos distribuidas. Al mismo tiempo, las bases de datos distribuidas se gestionan de tal manera que los datos no se distribuyen a nivel lógico, sino a nivel físico, y la propia base de datos se considera como un único "superesquema". En una base de datos distribuida, las funciones de administrador se comparten entre el administrador de la base de datos federada y los administradores de la base de datos local. El administrador de la base de datos integrada supervisa la diferenciación del acceso de diferentes usuarios a la base de datos y garantiza la integridad y seguridad de los datos, así como la protección de los datos frente a la corrección simultánea por parte de varios usuarios. El control de acceso se lleva a cabo de acuerdo con los derechos otorgados a los usuarios individuales en el sistema operativo de la red.

Un rasgo característico de los programas creados con la ayuda de DBMS para trabajar con bases de datos corporativas remotas y distribuidas es el uso de una interfaz abierta de acceso a datos: ODBC (Open Data Base Connectivity). Todas las funciones de transferencia de datos se asignan a la interfaz ODBC, que es un puente de conexión entre el DBMS de la base de datos integrada y el DBMS de las aplicaciones cliente. Al mismo tiempo, el DBMS del cliente puede interactuar no solo con sus bases de datos locales, sino también con los datos ubicados en la base de datos integrada. El cliente tiene la capacidad de enviar solicitudes al DBMS de la base de datos integrada, recibir datos sobre ellas y enviar sus propios datos actualizados.

Modelos de datos de la industria

El objetivo principal de los modelos es facilitar la orientación en el espacio de datos y ayudar a resaltar los detalles que son importantes para el desarrollo empresarial. En el entorno empresarial actual, es absolutamente esencial tener una comprensión clara de las relaciones entre los diversos componentes y una buena comprensión del panorama general de la organización. La identificación de todos los detalles y relaciones mediante modelos permite el uso más eficiente del tiempo y las herramientas para organizar el trabajo de la empresa.

Los modelos de datos son modelos abstractos que describen cómo se representan y se accede a los datos. Los modelos de datos definen los elementos de datos y las relaciones entre ellos en un área determinada. Un modelo de datos es una herramienta de navegación tanto para empresas como para profesionales de TI que utiliza un conjunto específico de símbolos y palabras para explicar con precisión una clase específica de información real. Esto mejora la comunicación dentro de la organización y, por lo tanto, crea un entorno de aplicación más flexible y estable.

El modelo de datos define de forma única el significado de los datos, que en este caso son datos estructurados (a diferencia de los datos no estructurados, como una imagen, un archivo binario o texto, donde el valor puede ser ambiguo).

Como regla general, se distinguen modelos de un nivel superior (y de contenido más general) y de un nivel inferior (respectivamente, más detallados). El nivel superior de modelado es el llamado modelos de datos conceptuales(modelos de datos conceptuales), que dan la imagen más general del funcionamiento de una empresa u organización. El modelo conceptual incluye los principales conceptos o áreas temáticas que son críticas para el funcionamiento de la organización; por lo general, su número no supera los 12-15. Dicho modelo describe clases de entidades importantes para la organización (objetos comerciales), sus características (atributos) y asociaciones entre pares de estas clases (es decir, relaciones). Dado que la terminología en el modelado de negocios aún no se ha asentado por completo, en varias fuentes en idioma inglés, los modelos de datos conceptuales también pueden denominarse modelo de área temática (que se puede traducir como modelos de área temática) o modelo de datos empresariales temáticos (modelos de datos corporativos temáticos). ).

El siguiente nivel jerárquico es modelos de datos lógicos(modelos lógicos de datos). También pueden denominarse modelos de datos empresariales o modelos comerciales. Estos modelos contienen estructuras de datos, sus atributos y reglas comerciales, y representan información utilizada por una empresa desde una perspectiva comercial. En tal modelo, los datos se organizan en forma de entidades y relaciones entre ellas. El modelo lógico representa los datos de una manera que los usuarios comerciales pueden entender fácilmente. En un modelo lógico, se puede asignar un diccionario de datos: una lista de todas las entidades con sus definiciones exactas, lo que permite que diferentes categorías de usuarios tengan una comprensión común de todos los flujos de entrada y salida de información del modelo. El siguiente nivel inferior de modelado ya es la implementación física del modelo lógico utilizando herramientas de software y plataformas técnicas específicas.

El modelo lógico contiene la decisión comercial detallada de la empresa, que generalmente toma la forma de un modelo normalizado. La normalización es el proceso que garantiza que cada elemento de datos en el modelo tenga solo un valor y dependa de manera única y completa de la clave principal. Los elementos de datos se organizan en grupos según su identificación única. Las reglas de negocio que controlan los elementos de datos deben estar completamente incluidas en el modelo normalizado con una verificación preliminar de su validez y corrección. Por ejemplo, lo más probable es que un elemento de datos como el nombre del cliente se divida en nombre y apellido y se agrupe con otros elementos de datos relevantes en una entidad de cliente con una clave principal de ID de cliente.

El modelo de datos lógicos es independiente de las tecnologías de aplicación, como bases de datos, redes o herramientas de generación de informes y su implementación física. Una organización solo puede tener un modelo de datos empresarial. Los modelos lógicos suelen incluir miles de entidades, relaciones y atributos. Por ejemplo, un modelo de datos para una institución financiera o una empresa de telecomunicaciones puede contener alrededor de 3000 conceptos de la industria.

Es importante distinguir entre modelo de datos lógico y semántico. El modelo de datos lógicos representa la solución comercial corporativa, mientras que el modelo de datos semánticos representa la solución comercial aplicada. El mismo modelo de datos lógicos corporativos se puede implementar utilizando diferentes modelos semánticos, es decir, Los modelos semánticos pueden considerarse como el siguiente nivel de modelado que se aproxima a los modelos físicos. Además, cada uno de estos modelos representará una "porción" separada del modelo de datos corporativos de acuerdo con los requisitos de varias aplicaciones. Por ejemplo, en un modelo de datos lógico corporativo, la entidad Cliente estará completamente normalizada, y en un modelo semántico para un data mart, se puede representar como una estructura multidimensional.

Una empresa puede tener dos formas de crear un modelo de datos lógicos empresariales: construirlo usted mismo o utilizar un modelo ya preparado. modelo de industria(modelo de datos lógicos de la industria). En este caso, las diferencias en los términos reflejan solo diferentes enfoques para construir el mismo modelo lógico. En el caso de que una empresa desarrolle e implemente de forma independiente su propio modelo de datos lógicos, dicho modelo, por regla general, se denomina simplemente modelo lógico corporativo. Si la organización decide utilizar el producto terminado de un proveedor profesional, podemos hablar de un modelo de datos lógicos de la industria. Este último es un modelo de datos lógicos listo para usar que refleja el funcionamiento de una industria en particular con un alto grado de precisión. Un modelo lógico de la industria es una vista integrada y específica de dominio de toda la información que debe estar en un almacén de datos empresarial para responder a las preguntas comerciales estratégicas y tácticas. Como cualquier otro modelo de datos lógicos, el modelo industrial no depende de las soluciones de aplicación. Tampoco incluye datos derivados u otros cálculos para una recuperación de datos más rápida. Como regla general, la mayoría de las estructuras lógicas de dicho modelo encuentran una buena encarnación en su implementación física efectiva. Muchos proveedores están desarrollando dichos modelos para una amplia variedad de áreas: finanzas, manufactura, turismo, salud, seguros, etc.

Un modelo de datos lógicos de la industria contiene información que es común a una industria y, por lo tanto, no puede ser una solución completa para una empresa. La mayoría de las empresas tienen que aumentar el modelo en un promedio de 25% agregando elementos de datos y ampliando definiciones. Los modelos terminados contienen solo los elementos de datos clave, y el resto de los elementos deben agregarse a los objetos comerciales apropiados durante la instalación del modelo en la empresa.

Los modelos de datos lógicos de la industria contienen una cantidad significativa de abstracciones. La abstracción se refiere a la unión de conceptos similares bajo nombres comunes como Evento o Participante. Esto agrega flexibilidad a los modelos de la industria y los hace más unificados. Así, el concepto de Evento es aplicable a todas las industrias.

El experto en inteligencia comercial Steve Hoberman describe cinco factores a considerar al decidir si comprar un modelo de datos de la industria. El primero es el tiempo y los recursos necesarios para construir el modelo. Si una organización necesita lograr resultados rápidamente, entonces el modelo de la industria le dará una ventaja. Es posible que el uso de un modelo de la industria no proporcione de inmediato una imagen de toda la organización, pero puede ahorrar una cantidad significativa de tiempo. En lugar del modelado real, se dedicará tiempo a vincular las estructuras existentes con el modelo de la industria, así como a discutir la mejor manera de personalizarlo según las necesidades de la organización (por ejemplo, qué definiciones se deben cambiar y qué elementos de datos se deben agregar).

El segundo factor es el tiempo y el dinero necesarios para mantener el modelo en funcionamiento. Si un modelo de datos empresariales no forma parte de una metodología que lo mantiene preciso y actualizado, el modelo queda obsoleto muy rápidamente. El modelo de datos de la industria puede prevenir este riesgo ya que se mantiene actualizado por recursos externos. Por supuesto, los cambios que ocurren dentro de la organización deben ser reflejados en el modelo por la propia empresa, pero los cambios de la industria serán reproducidos en el modelo por su proveedor.

El tercer factor es la experiencia en evaluación y modelado de riesgos. La creación de un modelo de datos empresarial requiere recursos calificados tanto del negocio como del personal de TI. Como regla general, los gerentes conocen bien el trabajo de la organización como un todo o las actividades de un departamento en particular. Pocos de ellos tienen un conocimiento amplio (toda la empresa) y profundo (toda la unidad) de su negocio. La mayoría de los gerentes generalmente conocen bien solo un área. Por lo tanto, para obtener una imagen de toda la empresa, se requieren importantes recursos comerciales. Esto también aumenta los requisitos para el personal de TI. Cuantos más recursos comerciales se requieran para crear y probar un modelo, más experimentados deben ser los analistas. No solo deben saber cómo obtener información del personal comercial, sino también ser capaces de encontrar puntos en común en áreas controvertidas y ser capaces de presentar toda esta información de forma integrada. El que crea el modelo (en muchos casos, este es el mismo analista) debe tener buenas habilidades de modelado. La creación de modelos lógicos corporativos requiere modelado "para el futuro" y la capacidad de convertir un negocio complejo en literalmente "cuadrados y líneas".

Por otro lado, el modelo de industria le permite utilizar la experiencia de especialistas de terceros. Los modelos lógicos específicos de la industria utilizan metodologías de modelado comprobadas y equipos de profesionales experimentados para evitar problemas comunes y costosos que pueden surgir al desarrollar modelos de datos empresariales dentro de una organización.

El cuarto factor es la infraestructura de aplicaciones existente y las relaciones con los proveedores. Si una organización ya usa muchas herramientas del mismo proveedor y ha establecido relaciones con ellos, entonces tiene sentido pedirles también el modelo de industria. Dicho modelo podrá funcionar libremente con otros productos del mismo proveedor.

El quinto factor es el intercambio de información dentro de la industria. Si una empresa necesita compartir datos con otras organizaciones que operan en el mismo campo, un modelo de industria puede ser muy útil en esta situación. Las organizaciones dentro de la misma industria utilizan terminología y componentes estructurales similares. Hoy en día, en la mayoría de las industrias, las empresas se ven obligadas a compartir datos para administrar sus negocios con éxito.

Los modelos de la industria que ofrecen los proveedores profesionales son los más efectivos. La alta eficiencia de su uso se logra debido a un nivel significativo de detalle y precisión de estos modelos. Por lo general, contienen muchos atributos de datos. Además, los creadores de estos modelos no solo tienen una amplia experiencia en modelado, sino que también están bien versados ​​​​en la construcción de modelos para una industria en particular.

Los modelos de datos de la industria brindan a las empresas una vista única e integrada de su información comercial. A muchas empresas les resulta difícil integrar sus datos, aunque este es un requisito previo para la mayoría de los proyectos empresariales. Según un estudio realizado por The Data Warehousing Institute (TDWI), más del 69% de las organizaciones encuestadas encontraron que la integración es una barrera importante para la adopción de nuevas aplicaciones. Por el contrario, la implementación de la integración de datos genera importantes ingresos para la empresa.

El modelo de datos de la industria, además de vincularse con los sistemas existentes, brinda grandes beneficios para proyectos de toda la empresa, como la planificación de recursos empresariales (ERP), la gestión de datos maestros, la inteligencia empresarial, la mejora de la calidad de los datos y el desarrollo de los empleados.

Por lo tanto, los modelos de datos lógicos de la industria son una herramienta eficaz para integrar datos y obtener una imagen holística del negocio. El uso de modelos lógicos parece ser un paso necesario hacia la creación de almacenes de datos corporativos.

Publicaciones

  1. Steve Hobermann. Aprovechar el modelo de datos lógicos de la industria como su modelo de datos empresarial
  2. Claudia Imhof. Seguimiento rápido de proyectos de inteligencia empresarial y almacenamiento de datos a través del modelado inteligente de datos

La base de datos corporativa es el eslabón central del sistema de información corporativa y permite crear un único espacio de información corporativa. Bases de datos corporativas


Compartir trabajo en redes sociales

Si este trabajo no le conviene, hay una lista de trabajos similares al final de la página. También puedes usar el botón de búsqueda

TEMA V BASES DE DATOS CORPORATIVAS

V .una. Organización de datos en sistemas corporativos. Bases de datos corporativas.

V .2. DBMS y soluciones estructurales en sistemas corporativos.

V.3. Tecnologías de Internet / Intranet y soluciones de acceso a bases de datos corporativas.

V .una. ORGANIZACIÓN DE DATOS EN SISTEMAS CORPORATIVOS. BASES DE DATOS CORPORATIVAS

Base corporativa Los datos son el eslabón central del sistema de información corporativo y permiten crear un único espacio de información de la corporación. Bases de datos corporativas (Figura 1.1).

Hay varias definiciones de bases de datos.

Bajo la base de datos (DB) comprender un conjunto de información relacionada lógicamente de tal manera que constituya un conjunto único de datos almacenados en los dispositivos de almacenamiento de una computadora. Este conjunto actúa como los datos iniciales de las tareas resueltas en el proceso de funcionamiento de los sistemas de control automatizado, sistemas de procesamiento de datos, sistemas de información y computación.

Puede formular brevemente el término base de datos como una colección de datos lógicamente relacionados destinados a compartir.

Bajo base de datos se refiere a una colección de datos almacenados junto con una redundancia mínima, de modo que se pueden usar de manera óptima para una o más aplicaciones.

Finalidad de la creación de bases de datos. como una forma de almacenamiento de datosconstruir un sistema de datos que no dependa de los algoritmos adoptados (software), los medios técnicos utilizados, la ubicación física de los datos en la computadora. La base de datos asume un uso multipropósito (varios usuarios, muchas formas de documentos y consultas de un usuario).

Requisitos básicos de la base de datos:

  • Integridad de la presentación de datos. Los datos en la base de datos deberían representar adecuadamente toda la información sobre el objeto y deberían ser suficientes para ODS.
  • Integridad de la base de datos. Los datos deberán ser conservados durante el tratamiento de sus ODS y en cualesquiera situaciones que se presenten en el curso del trabajo.
  • Flexibilidad de la estructura de datos. La base de datos debe permitir cambiar las estructuras de datos sin violar su integridad e integridad cuando cambian las condiciones externas.
  • Realizabilidad. Esto significa que debe haber una representación objetiva de varios objetos, sus propiedades y relaciones.
  • Disponibilidad. Es necesario proporcionar diferenciación de acceso a los datos.
  • redundancia. La base de datos debe tener una redundancia mínima en la representación de datos sobre cualquier objeto.

El conocimiento se entiende un conjunto de hechos, patrones y reglas heurísticas con las que se puede resolver el problema.

Base de conocimientos (KB)  colección de bases de datos y reglas utilizadas, recibidas de los tomadores de decisiones. La base de conocimientos es un elemento de los sistemas expertos.

debe ser distinguido diferentes formas de presentar los datos.

Datos físicos - Estos son datos almacenados en la memoria de la computadora.

Representación lógica de los datos corresponde a la representación del usuario de los datos físicos. La diferencia entre una representación física y una representación lógica correspondiente de los datos es que esta última refleja algunas relaciones importantes entre los datos físicos.

Bajo base de datos corporativa entender una base de datos que combina de una forma u otra todos los datos y conocimientos necesarios sobre una organización automatizada. En los sistemas de información corporativos, un concepto comobases de datos integradas, en el que se implementa el principio de entrada única y uso múltiple de la información.

Arroz. 1.1. La estructura de la interacción de los departamentos con los recursos de información de la corporación.

Las bases de datos corporativas son concentrado (centralizado) y distribuido.

Base de datos concentrada (centralizada) es una base de datos cuyos datos se almacenan físicamente en los dispositivos de almacenamiento de una computadora. En la fig. 1.2 muestra un diagrama de una aplicación de servidor para acceder a bases de datos en varias plataformas.

Figura 1.2. Diagrama de un heterogéneo base de datos centralizada

La centralización del procesamiento de la información permitió eliminar deficiencias de los sistemas de archivos tradicionales como la incoherencia, la inconsistencia y la redundancia de datos. Sin embargo, a medida que crecen las bases de datos, y especialmente cuando se utilizan en organizaciones geográficamente dispersas, surgen problemas. Por ejemplo, para bases de datos concentradas ubicadas en un nodo de red de telecomunicaciones, a través de las cuales varios departamentos de una organización acceden a datos, con un aumento en el volumen de información y el número de transacciones, se presentan las siguientes dificultades:

  • Gran flujo de intercambio de datos;
  • Alto tráfico de red;
  • Baja confiabilidad;
  • Bajo rendimiento general.

Aunque es más fácil garantizar la seguridad, integridad y consistencia de la información durante las actualizaciones en una base de datos concentrada, estos problemas crean ciertas dificultades. La descentralización de datos se propone como una posible solución a estos problemas. La descentralización logra:

  • Mayor grado de simultaneidad de procesamiento debido a la carga compartida;
  • Mejorar el uso de datos en campo al realizar consultas remotas (remotas);
  • costos mas bajos;
  • Bases de datos locales fáciles de administrar.

Los costos de crear una red con estaciones de trabajo (computadoras pequeñas) en sus nodos son mucho más bajos que los costos de crear un sistema similar utilizando un mainframe. La Figura 1.3 muestra un diagrama lógico de una base de datos distribuida.

Figura 1.3. Base de datos corporativa distribuida.

Damos la siguiente definición de una base de datos distribuida.

base de datos distribuida - se trata de un conjunto de información, archivos (relaciones) almacenados en diferentes nodos de la red de información y enlazados lógicamente de tal forma que constituyen un único conjunto de datos (el enlace puede ser funcional o mediante copias del mismo archivo). Así, es un conjunto de bases de datos enlazadas lógicamente, pero ubicadas físicamente en varias máquinas que forman parte de una misma red informática.

Los requisitos más importantes para las características de una base de datos distribuida son los siguientes:

  • escalabilidad;
  • Compatibilidad;
  • Soporte para varios modelos de datos;
  • portabilidad;
  • Transparencia de ubicación;
  • Autonomía de los nodos de bases de datos distribuidas (Site Autonomy);
  • Procesamiento de solicitudes distribuidas;
  • Ejecución de transacciones distribuidas.
  • Apoyo a un sistema de seguridad homogéneo.

La transparencia de ubicación permite a los usuarios trabajar con bases de datos sin saber nada sobre su ubicación. La autonomía de los nodos de bases de datos distribuidas significa que cada base de datos se puede mantener independientemente de las demás. Una consulta distribuida es una consulta (instrucción SQL) durante la cual se accede a objetos (tablas o vistas) de diferentes bases de datos. Al ejecutar transacciones distribuidas, el control de concurrencia se ejerce sobre todas las bases de datos involucradas. Oracle7 utiliza tecnología de transferencia de información en dos fases para realizar transacciones distribuidas.

Las bases de datos que componen una base de datos distribuida no necesitan ser homogéneas (es decir, ejecutadas por el mismo DBMS) o ejecutarse en el mismo entorno de sistema operativo y/o en el mismo tipo de computadoras. Por ejemplo, una base de datos podría ser una base de datos Oracle en una computadora SUN que ejecute SUN OS (UNIX), una segunda base de datos podría ejecutarse mediante DB2 DBMS en un mainframe IBM 3090 ejecutando un sistema operativo MVS, y una tercera base de datos podría ejecutarse mediante un SQL/DS DBMS también en mainframe IBM, pero con un sistema operativo VM. Solo una condición es obligatoria: todas las máquinas con bases de datos deben ser accesibles a través de la red de la que forman parte.

La tarea principal de una base de datos distribuida – distribución de datos a través de la red y acceso a la misma. Existen las siguientes formas de resolver este problema:

  • Cada nodo almacena y usa su propio conjunto de datos que está disponible para consultas remotas. Esta distribución está dividida.
  • Algunos datos que se utilizan con frecuencia en sitios remotos pueden estar duplicados. Tal distribución se llama parcialmente duplicada.
  • Todos los datos se duplican en cada nodo. Tal distribución se llama completamente redundante.
  • Algunos archivos se pueden dividir horizontalmente (se selecciona un subconjunto de registros) o verticalmente (se selecciona un subconjunto de campos de atributos), mientras que los subconjuntos divididos se almacenan en diferentes nodos junto con los datos no divididos. Tal distribución se llama split (fragmentada).

Al crear una base de datos distribuida a nivel conceptual, debe resolver las siguientes tareas:

  • Es necesario tener un esquema conceptual único para toda la red. Esto proporcionará transparencia lógica de datos para el usuario, como resultado de lo cual podrá realizar una solicitud a toda la base de datos, estando en una terminal separada (funciona, por así decirlo, con una base de datos centralizada).
  • Se necesita un esquema para ubicar los datos en la red. Esto proporcionará transparencia en la ubicación de los datos, de modo que el usuario no tenga que especificar a dónde enviar la solicitud para obtener los datos requeridos.
  • Es necesario resolver el problema de la heterogeneidad de las bases de datos distribuidas. Las bases de datos distribuidas pueden ser homogéneas o heterogéneas en términos de hardware y software. El problema de la heterogeneidad es relativamente fácil de resolver si la base de datos distribuida es heterogénea en términos de hardware, pero homogénea en términos de software (el mismo DBMS en los nodos). Si se utilizan diferentes DBMS en los nodos de un sistema distribuido, se necesitan medios para convertir estructuras de datos e idiomas. Esto debería proporcionar transparencia de la transformación en los nodos de la base de datos distribuida.
  • Es necesario resolver el problema de la gestión de diccionarios. Para proporcionar todo tipo de transparencia en una base de datos distribuida, se necesitan programas que gestionen numerosos diccionarios y libros de referencia.
  • Es necesario definir métodos para ejecutar consultas en una base de datos distribuida. Los métodos para ejecutar consultas en una base de datos distribuida difieren de métodos similares en bases de datos centralizadas, ya que las partes individuales de las consultas deben ejecutarse en la ubicación de los datos correspondientes y transferir resultados parciales a otros nodos; al mismo tiempo, debe garantizarse la coordinación de todos los procesos.
  • Es necesario resolver el problema de la ejecución paralela de consultas. En una base de datos distribuida se necesita un mecanismo complejo de gestión del procesamiento concurrente que, en particular, debe asegurar la sincronización cuando se actualiza la información, lo que garantiza la consistencia de los datos.
  • Se necesita una metodología desarrollada para la distribución y asignación de datos, incluida la división, que es uno de los requisitos principales para una base de datos distribuida.

Una de las nuevas áreas en desarrollo activo de la arquitectura de sistemas informáticos, que es una herramienta poderosa para el procesamiento de información no numérica, son máquinas de base de datos. Las máquinas de bases de datos se utilizan para resolver tareas no numéricas, como almacenar, buscar y transformar documentos y hechos, trabajar con objetos. Siguiendo la definición de datos como información digital y gráfica sobre los objetos del mundo circundante, el concepto de datos incorpora diferentes contenidos en el procesamiento numérico y no numérico. El procesamiento numérico utiliza objetos como variables, vectores, matrices, matrices multidimensionales, constantes, etc., mientras que el procesamiento no numérico utiliza objetos como archivos, registros, campos, jerarquías, redes, relaciones, etc. el procesamiento numérico se ocupa directamente de la información sobre los objetos (por ejemplo, un empleado o grupo de empleados en particular) y no del archivo de empleados en sí. No indexa el expediente del empleado para seleccionar a una persona en particular; aquí más interesado en el contenido de la entrada deseada. Grandes volúmenes de información suelen estar sujetos a un procesamiento no numérico. En varias aplicaciones, tales operaciones se pueden realizar en estos datos, por ejemplo:

  • aumentar el salario de todos los empleados de la empresa;
  • calcular el interés bancario en las cuentas de todos los clientes;
  • realizar cambios en la lista de todos los productos en stock;
  • encontrar el resumen requerido de todos los textos almacenados en la biblioteca o en el sistema de recuperación de información bibliográfica;
  • encontrar la descripción del contrato deseado en un archivo que contenga documentos legales;
  • ver todos los archivos que contienen descripciones de patentes y encontrar una patente (si la hay) similar a la propuesta de nuevo.

Implementar el motor de base de datos, paralelo y asociativo arquitecturas como alternativa al monoprocesadorvon Neumannestructura, permitiéndote trabajar con grandes cantidades de información en tiempo real.

Los motores de bases de datos están cobrando importancia en relación con la exploración y aplicación de conceptos de inteligencia artificial como la representación del conocimiento, los sistemas expertos, la inferencia, el reconocimiento de patrones, etc.

Almacenamientos de información. Hoy en día, muchos reconocen que la mayoría de las empresas ya operan varias bases de datos y, para trabajar con éxito con la información, no solo se requieren diferentes tipos de bases de datos, sino diferentes generaciones de DBMS. Según las estadísticas, cada organización utiliza un promedio de 2,5 DBMS diferentes. Se ha hecho evidente la necesidad de “aislar” el negocio de las empresas, o mejor dicho, las personas involucradas en este negocio, de las características tecnológicas de las bases de datos, para brindar a los usuarios una vista única de la información corporativa, independientemente de dónde se encuentre almacenada físicamente. . Esto estimuló el surgimiento de la tecnología de almacenamiento de información ( Almacenamiento de datos, DW).

El objetivo principal de DW es creación de una única representación lógica de los datos contenidos en diferentes tipos de bases de datos, o lo que es lo mismo, un único modelo de datos corporativo.

Una nueva ronda de desarrollo de DW se hizo posible gracias a la mejora de la tecnología de la información en general, en particular, la aparición de nuevos tipos de bases de datos basadas en el procesamiento de consultas en paralelo, que a su vez dependían de los avances en el campo de las computadoras paralelas. Fueron creados constructores de consultascon una interfaz gráfica intuitiva que facilitó la creación de consultas de base de datos complejas. Software misceláneosoftware intermediocomunicación proporcionadaentre diferentes tipos de bases de datos, y finalmente cayó bruscamente en el preciodispositivos de almacenamiento de información.

Un banco de datos puede estar presente en la estructura de una corporación.

Base de datos - componente funcional y organizativo en sistemas de control automatizado y sistemas de información y computación, que proporciona soporte de información centralizado para un grupo de usuarios o un conjunto de tareas resueltas en el sistema.

Base de datos se considera como un sistema de información y referencia, cuyo objetivo principal es:

  • en la acumulación y mantenimiento en condiciones de trabajo de un conjunto de información que constituye la base de información de todo el sistema automatizado o un determinado conjunto de tareas resueltas en él;
  • en la emisión de los datos requeridos por la tarea o el usuario;
  • al proporcionar acceso colectivo a la información almacenada;
  • en asegurar la necesaria gestión del uso de la información contenida en la infobase.

Por lo tanto, un banco de datos moderno es un complejo complejo de software y hardware, que incluye herramientas técnicas, de sistema y de red, bases de datos y DBMS, sistemas de recuperación de información para diversos fines.

V .2. DBMS Y SOLUCIONES ESTRUCTURALES EN SISTEMAS CORPORATIVOS

Bases de datos y sistemas de gestión del conocimiento

Un componente importante de los sistemas de información modernos son los sistemas de gestión de bases de datos (DBMS).

SGBD - un conjunto de herramientas de software y lenguaje diseñado para crear, mantener y utilizar bases de datos.

El sistema de gestión de bases de datos proporciona a los sistemas de procesamiento de datos acceso a las bases de datos. Como ya se ha señalado, se adquiere un papel importante de DBMS en la creación de sistemas de información corporativos y un papel particularmente importante en la creación de sistemas de información utilizando recursos de información distribuidos basados ​​en tecnologías informáticas de red modernas.

La característica principal de los DBMS modernos es que los DBMS modernos admiten tecnologías como:

  • tecnología cliente/servidor.
  • Soporte para lenguajes de bases de datos. Estalenguaje de definición de esquemas base de datos (SDL - lenguaje de definición de esquemas),lenguaje de manipulación de datos (DML - Lenguaje de manipulación de datos), lenguajes integrados SQL (Lenguaje de cola estructurado), QDB (Consulta por ejemplo) y QMF (Recurso de gestión de consultas) ) es una herramienta periférica avanzada para la especificación de consultas y la generación de informes para BD 2 etc.;
  • Gestión directa de datos en memoria externa.
  • Gestión de búfer de memoria.
  • Gestión de transacciones. Tecnología OLTP (Procesamiento de transacciones en línea), OLAP - tecnología (Procesamiento de análisis en línea) para DW.
  • Garantizar la protección e integridad de los datos. El uso del sistema está permitido solo a los usuarios que tienen derecho a acceder a los datos. Cuando los usuarios realizan operaciones en los datos, se mantiene la consistencia de los datos almacenados (integridad). Esto es importante en los sistemas de información corporativos multiusuario.
  • Periodización.

Los DBMS modernos deben cumplir con los requisitos de la base de datos enumerados anteriormente. Además, deberán cumplir con los siguientes principios:

  • Independencia de los datos.
  • Versatilidad. El DBMS debe tener un soporte poderoso para el modelo de datos conceptuales para mostrar vistas lógicas personalizadas.
  • Compatibilidad. El DBMS debe permanecer operativo con el desarrollo de software y hardware.
  • Redundancia de datos. A diferencia de los sistemas de archivos, una base de datos debe ser un único conjunto de datos integrados.
  • Protección de Datos. El DBMS debe proporcionar protección contra el acceso no autorizado.
  • Integridad de los datos. El DBMS debe evitar que los usuarios alteren la base de datos.
  • Gestión de trabajos simultáneos. El DBMS debe proteger la base de datos de inconsistencias en el modo de acceso compartido. Para garantizar un estado coherente de la base de datos, todas las solicitudes de los usuarios (transacciones) deben realizarse en un orden determinado.
  • El DBMS debe ser universal. Debe admitir diferentes modelos de datos sobre una única base lógica y física.
  • El DBMS debe admitir bases de datos centralizadas y distribuidas y, por lo tanto, convertirse en un enlace importante en las redes informáticas.

Considerando un DBMS como una clase de productos de software enfocados en mantener bases de datos en sistemas automatizados, podemos distinguir dos de las características más significativas que determinan los tipos de DBMS. Según ellos, el DBMS se puede considerar desde dos puntos de vista:

  • sus capacidades en relación con las bases de datos distribuidas (corporativas);
  • su relación con el tipo de modelo de datos implementado en el DBMS.

Con relación a las bases de datos corporativas (distribuidas), convencionalmente se pueden distinguir los siguientes tipos de SGBD:

  • DBMS "escritorio". Estos productos se centran principalmente en trabajar con datos personales (datos de escritorio). Tienen conjuntos de comandos para compartir bases de datos comunes, pero son de tamaño pequeño (tipo de oficina pequeña). En primer lugar, es un DBMS como Access, dBASE, Paradox, ExPro. Por qué Access, dBASE, Paradox, ExPro tienen poco acceso a los datos corporativos. El hecho es que no existe una manera fácil de superar la barrera entre los datos personales y corporativos. Y el punto ni siquiera es que el mecanismo de un DBMS de datos personales (o una pequeña oficina) se centre en acceder a los datos a través de muchas puertas de enlace, productos de puerta de enlace, etc. El problema es que estos mecanismos suelen implicar transferencias completas de archivos y una falta de soporte de índice extenso, lo que genera colas en el servidor que prácticamente se paralizan en sistemas grandes.
  • DBMS multiusuario especializado de alto rendimiento. Dichos DBMS se caracterizan por la presencia de un kernel de sistema multiusuario, un lenguaje de manipulación de datos y las siguientes funciones que son típicas de los DBMS multiusuario desarrollados:
  • organizar un grupo de almacenamiento intermedio;
  • la presencia de un sistema para procesar colas de transacciones;
  • la presencia de mecanismos para el bloqueo de datos multiusuario;
  • registro de transacciones;
  • disponibilidad de mecanismos de control de acceso.

Estos DBMS como Oracle, DВ2, SQL/Server, Informix, Sybase, ADABAS, Titanium y otros brindan un amplio servicio para el procesamiento de bases de datos corporativas.

Cuando se trabaja con bases de datos, se utiliza el mecanismo de transacciones.

transacción es una unidad lógica de trabajo.

transacción es una secuencia de instrucciones de manipulación de datos que se ejecutacomo uno(todo o nada) y base de datos de traducciónde un estado integral a otro estado integral.

Una transacción tiene cuatro propiedades importantes, conocidas como propiedades ASID:

  • (A) Atomicidad . La transacción se ejecuta como una operación atómica: se ejecuta toda la transacción o no se ejecuta toda la transacción.
  • (C) Consistencia. Una transacción mueve una base de datos de un estado coherente (coherente) a otro estado coherente (coherente). Dentro de una transacción, se puede romper la consistencia de la base de datos.
  • (yo) aislamiento . Las transacciones de diferentes usuarios no deben interferir entre sí (por ejemplo, como si se realizaran estrictamente por turnos).
  • (D) Durabilidad. Si la transacción se completa, los resultados de su trabajo deben almacenarse en la base de datos, incluso si el sistema falla en el momento siguiente.

La transacción generalmente comienza automáticamente desde el momento en que el usuario se une al DBMS y continúa hasta que ocurre uno de los siguientes eventos:

  • Se ha emitido un comando COMMIT WORK (para confirmar una transacción).
  • Comando ROLLBACK WORK emitido.
  • El usuario se ha desconectado del DBMS.
  • Hubo una falla en el sistema.

Para el usuario, ella usa generalmente carácter atómico. De hecho, este es un mecanismo complejo de interacción entre el usuario (aplicación) y la base de datos. El software de sistemas empresariales utiliza un motor de procesamiento de transacciones en tiempo real (Sistemas de procesamiento de transacciones en línea, OLTP), en particular los programas de contabilidad, software para recibir y procesar solicitudes de clientes, aplicaciones financieras, producen mucha información. Estos sistemas están diseñados (y adecuadamente optimizados) para procesar grandes cantidades de datos, transacciones complejas y operaciones intensivas de lectura/escritura.

Desafortunadamente, la información colocada en las bases de datos de los sistemas OLTP no es muy adecuada para que la usen los usuarios comunes (debido al alto grado de normalización de tablas, formatos de presentación de datos específicos y otros factores). Por lo tanto, los datos de diferentes conductos de información se envían (en el sentido de ser copiados) a almacén de almacenamiento, clasificación y posterior entrega al consumidor. En la tecnología de la información, el papel de los almacenes lo desempeñanalmacenamientos de información.

Entrega de información al usuario final - se emplean sistemas de procesamiento de datos analíticos en tiempo real (Procesamiento analítico en línea, OLAP), que brindan un acceso extremadamente fácil a los datos a través de herramientas convenientes para generar consultas y analizar resultados. En los sistemas OLAP, el valor de un producto de información se incrementa mediante el uso de varios métodos de análisis y procesamiento estadístico. Además, estos sistemas están optimizados en cuanto a velocidad de extracción de datos, recopilación de información generalizada y están enfocados a usuarios comunes (tienen una interfaz intuitiva). Si sistema OLTP da respuestas a preguntas simples como "¿cuál fue el nivel de ventas del producto N en la región M en enero de 199x?", luego sistemas OLAP están listos para solicitudes de usuarios más complejas, por ejemplo: "Entregue un análisis de las ventas del producto N para todas las regiones de acuerdo con el plan para el segundo trimestre en comparación con los dos años anteriores".

Arquitectura cliente/servidor

En los sistemas modernos procesamiento de información distribuidala tecnología toma protagonismo Servidor de cliente. en sistema arquitecturas cliente-servidorel procesamiento de datos se divide entre una computadora cliente y una computadora servidor, cuya comunicación se realiza a través de una red. Esta separación de procesos de procesamiento de datos se basa en la agrupación de funciones. Por lo general, una computadora servidor de base de datos se dedica a realizar operaciones de base de datos, mientras que una computadora cliente ejecuta programas de aplicación. La figura 2.1 muestra un sistema de arquitectura cliente-servidor simple que incluye una computadora que actúa como servidor y otra computadora que actúa como su cliente. Cada máquina realiza diferentes funciones y tiene sus propios recursos.

Base de datos

computadora servidor

Red

PC compatible con IBM

PC compatible con IBM

PC compatible con IBM

Aplicaciones

Arroz. 2.1. Sistema de arquitectura cliente-servidor

La función principal de la computadora cliente es ejecutar la aplicación (interfaz de usuario y lógica de presentación) y comunicarse con el servidor cuando la aplicación lo requiera.

Servidor - Este es un objeto (computadora) que brinda servicios a otros objetos a petición de estos.

Como implica el término, la función principal de la computadora servidor es atender las necesidades del cliente. El término "Servidor" se utiliza para referirse a dos grupos diferentes de funciones: un servidor de archivos y un servidor de bases de datos (en adelante, estos términos significan, según el contexto, el software que implementa estos grupos de funciones o las computadoras con este software ). Los servidores de archivos no están diseñados para realizar operaciones de base de datos, su función principal es compartir archivos entre varios usuarios, es decir. proporcionar acceso simultáneo de muchos usuarios a archivos en una computadora: un servidor de archivos. Un ejemplo de un servidor de archivos es el sistema operativo NetWare de Novell. El servidor de la base de datos se puede instalar y ejecutar en una computadora servidor de archivos. Oracle DBMS en forma de NLM (módulo cargable de red) se ejecuta en un entorno NetWare en un servidor de archivos.

El servidor de la red local debe tener recursos que correspondan a su propósito funcional y las necesidades de la red. Tenga en cuenta que debido a la orientación hacia el enfoque de sistemas abiertos, es más correcto hablar de servidores lógicos (es decir, un conjunto de recursos y herramientas de software que brindan servicios sobre estos recursos), que no están necesariamente ubicados en diferentes computadoras. Una característica de un servidor lógico en un sistema abierto es que si, por razones de eficiencia, es conveniente mover el servidor a una computadora separada, esto se puede hacer sin necesidad de ninguna modificación, tanto de él mismo como de la aplicación. programas que lo utilizan.

Uno de los requisitos importantes del servidor es que el sistema operativo en el que se aloja el servidor de la base de datos debe ser multitarea (y preferiblemente, pero no necesariamente, multiusuario). Por ejemplo, Oracle DBMS instalado en una computadora personal con un sistema operativo MS-DOS (o PC-DOS) que no cumple con el requisito de multitarea no se puede usar como servidor de base de datos. Y el mismo Oracle DBMS instalado en una computadora con un sistema operativo OS / 2 multitarea (aunque no multiusuario) puede ser un servidor de base de datos. Muchas variedades de UNIX, MVS, VM y algunos otros sistemas operativos son multitarea y multiusuario.

Computación distribuída

El término "computación distribuida" se usa a menudo para referirse a dos conceptos diferentes, aunque complementarios:

  • base de datos distribuida;
  • Procesamiento de datos distribuidos.

La aplicación de estos conceptos hace posible organizar el acceso a la información almacenada en varias máquinas para usuarios finales utilizando varios medios.

Hay muchos tipos de servidores:

  • Servidor de base de datos;
  • Servidor de impresión;
  • servidor de acceso remoto;
  • servidor de fax;
  • servidor web, etc

En el centro de la tecnología Cliente/Servidor Existen tecnologías básicas como:

  • Tecnologías de sistemas operativos, el concepto de interacción de sistemas abiertos, creación de entornos orientados a objetos para el funcionamiento de programas;
  • tecnologías de telecomunicaciones;
  • tecnologías de red;
  • Tecnologías de interfaz gráfica de usuario ( interfaz gráfica de usuario);
  • Etc

Ventajas de la tecnología cliente-servidor:

  • La tecnología cliente/servidor permite computar en entornos informáticos heterogéneos. Independencia de la plataforma: acceso a entornos de red heterogéneos que incluyen diferentes tipos de computadoras con diferentes sistemas operativos.
  • Independencia de fuentes de datos: acceso a información de bases de datos heterogéneas. Ejemplos de tales sistemas son DB2, SQL/DS, Oracle, Sybase.
  • Equilibrio de carga entre cliente y servidor.
  • Realizar cálculos donde sucede de manera más eficiente;
  • Proporciona una capacidad de escalado eficiente;
  • Computación multiplataforma. La computación multiplataforma se define simplemente como la implementación de tecnologías en entornos informáticos heterogéneos. Aquí se deben proporcionar las siguientes opciones:
  • La aplicación debe ejecutarse en múltiples plataformas;
  • En todas las plataformas, debe tener la misma interfaz y lógica de trabajo;
  • La aplicación debe integrarse con el entorno operativo nativo;
  • Debería comportarse igual en todas las plataformas;
  • Debe tener un soporte simple y consistente.

Computación distribuída. La computación distribuida proporciona la distribución del trabajo entre varias computadoras (aunque la computación distribuida es un concepto más amplio).

Reducción de escala. La reducción de escala es la transferencia de aplicaciones de mainframe a plataformas informáticas pequeñas.

  • Reducir los costos de infraestructura y hardware. Rentable: la disponibilidad de hardware informático de bajo costo y la creciente prevalencia de las redes de área local hacen que la tecnología cliente-servidor sea más rentable que otras tecnologías de procesamiento de datos. El equipo se puede actualizar según sea necesario.

Reducir el tiempo total de ejecución de la aplicación;

Reducción del uso de la memoria del cliente;

Reducción del tráfico de red.

  • Capacidad para trabajar con multimedia: Hasta la fecha, se han creado una gran cantidad de programas para trabajar con multimedia para PC. O no existen tales programas para la configuración terminal-host, o son muy caros.
  • La capacidad de utilizar más recursos informáticos para operaciones de base de datos: dado que las aplicaciones se ejecutan en equipos cliente, se liberan recursos adicionales (en comparación con la configuración terminal-host) en el equipo servidor para operaciones de base de datos, como CPU y recursos operativos.
  • Mayor productividad del programador: la productividad del programador aumenta al usar herramientas como SQL*Forms y CASE para desarrollar aplicaciones más rápido que los lenguajes de programación como C, PL1 o COBOL.
  • Aumento de la productividad del usuario final: hoy en día, muchos usuarios finales han adoptado sistemas como Lotus, Paradox, Word Perfect, Harvard Graphics, etc.

La interfaz de back-end está definida y fija. Por lo tanto, es posible crear nuevas partes de cliente de un sistema existente (un ejemplo de interoperabilidad a nivel de sistema).

Arroz. 2.2. Una ilustración del acceso del cliente a un recurso compartido de servidor.

Cómo implementar la tecnología cliente-servidor

A continuación se analiza la instalación de un sistema basado en tecnología cliente-servidor y capaz de procesamiento de datos distribuidos. Se requiere el siguiente hardware y software de computadora:

  • computadora servidor de base de datos;
  • computadoras cliente;
  • red de comunicacion;
  • software de red;
  • Software de la aplicacion.

lenguaje SQL . Lenguaje de consulta de alto nivel - SQL (lenguaje de consulta estructurado ) se utiliza para implementar consultas a bases de datos, como NMD, NDL y PJD, y se ha adoptado como estándar. Idioma sql se adoptó originalmente como el lenguaje de datos de los productos de software de la empresa IBM y YMD de un DBMS relacional SISTEMA R de IBM . Una característica importante del lenguaje. sql es que un mismo lenguaje se representa a través de dos interfaces diferentes, a saber: a través de una interfaz interactiva y a través de una interfaz de programación de aplicaciones (dinámica SQL). SQL dinámico consta de muchas funciones de lenguaje integradas sql , proporcionado específicamente para la construcción de aplicaciones interactivas, donde una aplicación interactiva es un programa escrito para admitir el acceso a la base de datos por parte del usuario final que se ejecuta en el terminal interactivo. Idioma sql proporciona las funciones de definición, manipulación y gestión de datos de la base de datos y es transparente para el usuario desde el punto de vista del DBMS implementado.

Arroz. 2.3. Esquema para ejecutar solicitudes de usuario a bases de datos distribuidas.

La estructura interna de las bases de datos está determinada por los modelos de datos utilizados. El modelo conceptual tiene más capacidades de abstracción y una semántica más rica que los modelos externos. Los modelos externos a menudo se denominan modelos sintácticos u operativos, en referencia a la naturaleza sintáctica de la gestión y la aplicación como medio de interacción del usuario con la base de datos. En el modelado de información, existen varios niveles de abstracción, desde el nivel del modelo conceptual hasta el nivel del modelo de datos físicos, que afectan la arquitectura del DBMS.

El modelo de datos consta de tres componentes:

  • Una estructura de datos para representar desde la perspectiva del usuario en la base de datos.
  • Operaciones válidas a realizar sobre la estructura de datos. Es necesario poder trabajar con esta estructura utilizando varias operaciones DDL y NML. Una estructura rica es inútil si no puede manipular su contenido.
  • Restricciones para el control de integridad. El modelo de datos debe contar con medios para preservar su integridad y protegerlo. Como ejemplo, considere las siguientes dos restricciones:
  • Cada subárbol debe tener un nodo fuente. Las bases de datos jerárquicas no pueden almacenar nodos secundarios sin un nodo principal.
  • En relación con una base de datos relacional, no puede haber tuplas idénticas. Para un archivo, este requisito requiere que todos los registros sean únicos.

Una de las características más importantes del DBMS es la capacidad de vincular objetos.

Existen los siguientes tipos de enlaces entre objetos:

  • Uno a uno (1:1). Un objeto de un conjunto se puede asociar con un objeto de otro conjunto.
  • Uno a muchos (1:M). Un objeto de un conjunto puede relacionarse con muchos objetos de otro conjunto.
  • Muchos a muchos (M:N). Un objeto de un conjunto puede estar asociado con muchos objetos de otro conjunto, pero al mismo tiempo, un objeto de otro conjunto puede estar asociado con muchos objetos del primer conjunto.
  • ramificado . Un objeto de un conjunto se puede asociar con objetos de muchos conjuntos.
  • recursivo . Un objeto de un conjunto dado se puede asociar con un objeto del mismo conjunto.

Existen los siguientes modelos de datos principales:

  • Modelo de datos relacionales.
  • Modelo de datos jerárquico.
  • Modelo de datos de red incompleto.
  • Modelo de datos CODASYL.
  • Modelo de datos de red extendido.

V.3. TECNOLOGÍAS DE INTERNET / INTRANET Y SOLUCIONES DE ACCESO A BASES DE DATOS CORPORATIVAS

El principal problema de los sistemas basados ​​en la arquitectura "cliente-servidor" es que, de acuerdo con el concepto de sistemas abiertos, se requiere que sean móviles en la clase más amplia posible de soluciones de hardware y software de sistemas abiertos. Incluso si nos limitamos a las redes de área local basadas en UNIX, las diferentes redes usan diferentes equipos y protocolos de comunicación. Intentar crear sistemas que admitan todos los protocolos posibles conduce a su sobrecarga con detalles de red a expensas de la funcionalidad.

Un aspecto aún más complejo de este problema está relacionado con la posibilidad de utilizar diferentes representaciones de datos en diferentes nodos de una red local heterogénea. Diferentes computadoras pueden tener diferente direccionamiento, representación de números, codificación de caracteres, etc. Esto es especialmente importante para servidores de alto nivel: telecomunicaciones, informática, bases de datos.

Una solución habitual al problema de la movilidad de los sistemas basados ​​en la arquitectura "cliente-servidor" es confiar en paquetes de software que implementan protocolos de llamada a procedimiento remoto (RPC - Remote Procedure Call). Con estas herramientas, llamar a un servicio en el host remoto parece una llamada de procedimiento normal. Las herramientas RPC, que, por supuesto, contienen toda la información sobre los detalles de los equipos de red local y los protocolos de red, traducen la llamada en una secuencia de interacciones de red. Por lo tanto, los detalles del entorno de red y los protocolos están ocultos para el programador de aplicaciones.

Cuando se llama a un procedimiento remoto, los programas RPC convierten los formatos de datos del cliente en formatos intermedios independientes de la máquina y luego los convierten en formatos de datos del servidor. Al pasar parámetros de respuesta, se realizan transformaciones similares.

Otros trabajos relacionados que te pueden interesar.vshm>

6914. concepto de base de datos 11.56KB
La base de datos es un conjunto de materiales independientes presentados en forma objetiva de artículos de cálculo de actos normativos de decisiones judiciales y otros materiales similares sistematizados de tal manera que estos materiales se pueden encontrar y procesar utilizando una computadora electrónica Código Civil de la Federación Rusa Arte. Una base de datos organizada de acuerdo con ciertas reglas y mantenida en la memoria de la computadora, un conjunto de datos que caracterizan el estado actual de algunos...
8064. Bases de datos distribuidas 43.66KB
Bases de datos distribuidas Una base de datos RDB distribuida es un conjunto de datos compartidos lógicamente interconectados que se distribuyen físicamente en diferentes nodos de una red informática. El acceso a los datos no debe depender de la presencia o ausencia de réplicas de datos. El sistema debe determinar automáticamente los métodos para realizar una unión de datos, un enlace de red capaz de manejar la cantidad de información que se transfiere y un nodo que tenga suficiente capacidad de procesamiento para unir las tablas. El RDBMS debe ser capaz de...
20319. BASES DE DATOS Y SU PROTECCIÓN 102.86KB
Las bases de datos en línea aparecieron a mediados de la década de 1960. Las operaciones en las bases de datos operativas se procesaban de forma interactiva mediante terminales. La organización de registro secuencial de índice simple evolucionó rápidamente a un modelo de registro orientado a conjuntos más poderoso. Charles Bachmann recibió el Premio Turing por liderar el trabajo del Grupo de trabajo de base de datos (DBTG), que desarrolló un lenguaje estándar para describir y manipular datos.
5031. Biblioteca de desarrollo de base de datos 11,72 MB
Tecnología de diseño de base de datos. Definición de relaciones entre entidades y creación de un modelo de datos. Las ideas principales de la tecnología de la información moderna se basan en el concepto de que los datos deben organizarse en bases de datos para reflejar adecuadamente el mundo real cambiante y satisfacer las necesidades de información de los usuarios. Estas bases de datos se crean y operan bajo el control de sistemas de software especiales llamados sistemas de administración de bases de datos DBMS.
13815. MODELO DE BASE DE DATOS JERÁRQUICA 81.62KB
Las ideas principales de la tecnología de la información moderna se basan en el concepto de bases de datos, según el cual la base de la tecnología de la información son los datos organizados en bases de datos que reflejan adecuadamente el estado de un área temática en particular y brindan al usuario información relevante en esta área temática. Hay que reconocer que los datos son...
14095. desarrollo de base de datos de biblioteca 11,72 MB
El aumento en el volumen y la complejidad estructural de los datos almacenados, la expansión del círculo de usuarios de los sistemas de información han llevado al uso generalizado del DBMS relacional (tabular) más conveniente y relativamente fácil de entender.
5061. Creación de una base de datos del policlínico 2,4 MB
El desarrollo de la tecnología informática y la tecnología de la información ha brindado oportunidades para la creación y el uso generalizado de sistemas de información automatizados (AIS) para diversos fines. Se están desarrollando e implementando sistemas de información para la gestión de instalaciones económicas y técnicas.
13542. Bases de datos de información geológica 20.73KB
Recientemente, la introducción de las tecnologías informáticas y, en particular, de las bases de datos, en el ámbito científico se está produciendo a un ritmo vertiginoso. Este proceso tampoco pasa por alto a la geología, ya que es en las ciencias naturales donde existe la necesidad de almacenar y procesar grandes cantidades de información.
9100. Base de datos. Conceptos básicos 26.28KB
Una base de datos es una colección de información sobre objetos específicos del mundo real en cualquier área temática, economía, administración, química, etc. El propósito de un sistema de información no es solo almacenar datos sobre objetos, sino también manipular estos datos, tomando en cuenta las relaciones entre los objetos. Cada objeto se caracteriza por algún conjunto de propiedades de datos, que se denominan atributos en la base de datos.
5240. Creación de la base de datos “Decanato de la universidad” 1,57 MB
Una base de datos (DB) es una colección de datos interrelacionados almacenados juntos en medios de almacenamiento externo de una computadora con tal organización y redundancia mínima que permite su uso de manera óptima para una o más aplicaciones.

El propósito de la conferencia

Después de estudiar el material de esta lección, sabrás:

  • Qué ha pasado modelo de datos empresariales ;
  • como convertir modelo de datos empresariales en el modelo de almacén de datos;
  • elementos esenciales modelo de datos empresariales ;
  • capas de presentación del modelo de datos corporativo ;
  • algoritmo para convertir un modelo de datos empresariales en un modelo de almacén de datos multidimensional ;

y aprender:

  • desarrollar modelos de almacenamiento de datos basados ​​en modelo de datos empresariales organizaciones;
  • desarrollar un esquema en estrella usando herramientas CASE;
  • tablas de partición modelo multidimensional utilizando herramientas CASE.

modelo de datos empresariales

Introducción

El núcleo de cualquier almacén de datos es su modelo de datos. Sin un modelo de datos, será muy difícil organizar los datos en un almacén de datos. Por lo tanto, los desarrolladores de DW deben dedicar tiempo y esfuerzo a desarrollar dicho modelo. El desarrollo del modelo HD recae sobre los hombros del diseñador de CD.

En comparación con el diseño de sistemas OLTP, la metodología para el diseño de un almacén de datos tiene una serie de características distintivas relacionadas con la orientación de las estructuras de almacenamiento de datos hacia la solución de problemas de análisis y soporte de información para la toma de decisiones. El modelo de datos del almacén de datos debería proporcionar una solución eficaz a estos problemas.

El punto de partida en el diseño de un almacén de datos puede ser el llamado modelo de datos empresariales(modelo de datos corporativos o modelo de datos empresariales, EDM), que se crea en el proceso de diseño de los sistemas OLTP de una organización. Al diseñar modelo de datos empresariales por lo general, se intenta crear, sobre la base de las operaciones comerciales, una estructura de datos que recopile y sintetice todas las necesidades de información de la organización.

De este modo, modelo de datos empresariales contiene la información necesaria para construir un modelo DW. Por lo tanto, en la primera etapa, si tal modelo existe en la organización, un diseñador de almacenamiento de datos puede comenzar a diseñar un almacenamiento de datos resolviendo un problema de transformación modelo de datos empresariales en modelo HD.

modelo de datos empresariales

Cómo resolver el problema de la conversión modelo de datos empresariales en el modelo HD? Para resolver este problema, necesita tener este modelo, es decir. modelo de datos empresariales se debe construir y documentado. Y necesitas entender qué de este modelo y cómo debe transformarse en un modelo HD.

Aclaremos el concepto modelo de datos empresariales. Bajo modelo de datos corporativos comprender una descripción estructurada de varios niveles de las áreas temáticas de la organización, las estructuras de datos de las áreas temáticas, los procesos comerciales y los procedimientos comerciales, los flujos de datos adoptados en la organización, los diagramas de estado, las matrices de procesos de datos y otras representaciones de modelos que se utilizan en las actividades de la organización. Así, en un sentido amplio, modelo de datos empresariales es un conjunto de modelos de varios niveles que caracterizan (modelo en algún nivel abstracto) las actividades de la organización, es decir contenido modelo corporativo depende directamente de qué estructuras modelo se incluyeron en él en una organización determinada.

Elementos principales modelo de datos empresariales son:

  • descripción de las áreas temáticas de la organización (definición de áreas de actividad);
  • relaciones entre las áreas temáticas definidas anteriormente;
  • modelo de datos de información (modelo ERD o modelo "entidad-relación");
  • para cada descripción del área temática:
    • claves de entidad;
    • atributos de entidad;
    • subtipos y supertipos;
    • relaciones entre entidades;
    • agrupaciones de atributos;
    • relaciones entre áreas temáticas;
  • modelo funcional o modelo de proceso de negocio;
  • diagramas de flujo de datos;
  • diagramas de estado;
  • Otros modelos.

De este modo, modelo de datos empresariales Contiene entidades, atributos y relaciones que representan las necesidades de información de la organización. En la fig. 16.1 muestra los elementos principales modelo de datos empresariales.

Capas de presentación del modelo de datos empresarial

El modelo de datos empresariales se subdivide según áreas temáticas, que representan grupos de entidades relacionadas con el soporte de necesidades comerciales específicas. Algunas áreas temáticas pueden cubrir funciones comerciales específicas, como la gestión de contratos, mientras que otras pueden agrupar entidades que describen productos o servicios.

Cada modelo lógico debe corresponder a un área temática existente modelo de datos empresariales. Si el modelo lógico no cumple con este requisito, se le debe agregar un modelo que defina el área temática.

Un modelo de datos empresarial suele tener varias capas de presentación. Realmente nivel alto(nivel alto) modelo de datos empresariales es una descripción de las principales áreas temáticas de la organización y sus relaciones a nivel de entidades. En la fig. 16.2 es un fragmento modelo de datos empresariales nivel superior.

Arroz. 16.2.

El diagrama que se muestra en la figura muestra cuatro áreas temáticas: "Cliente" ( cliente), "Cheque" ( cuenta), "Pedido" ( Pedido) y "Producto" ( Producto). Por lo general, en el nivel superior de la vista del modelo, solo conexiones directas entre áreas temáticas, que, por ejemplo, fijan el siguiente hecho: el comprador paga la factura del pedido de mercancías. Información detallada y relaciones indirectas a este nivel modelo corporativo no se dan.

En el siguiente nivel medio(nivel medio) modelo de datos empresariales mostrado información detallada sobre objetos de dominio, es decir, claves y atributos de entidad, sus relaciones, subtipos y supertipos, etc. Para cada dominio del modelo de nivel superior, hay un modelo de nivel medio. En la fig. 16.3 representa el nivel medio de presentación modelo corporativo para un fragmento del área temática "Orden".

De la fig. 16.3 se puede ver que el área temática "Orden" ( Pedido) incluye varias entidades, definidas a través de sus atributos, y las relaciones entre ellas. El modelo presentado le permite responder preguntas como la fecha del pedido, quién realizó el pedido, quién envió el pedido, quién recibe el pedido y muchas otras. Del diagrama anterior se puede ver que en esta organización hay dos tipos de pedidos: pedidos para promoción (comercial) y pedidos al por menor ( Venta minorista).

Darse cuenta de modelo de datos empresariales puede representar varios aspectos de las actividades de la organización y con diversos grados de detalle y exhaustividad. Si modelo corporativo representa todos los aspectos de la organización, también se le llama modelo de datos de la organización(modelo de datos de la empresa).

Desde el punto de vista del diseño de un almacén de datos, un factor importante a la hora de decidir crear un modelo de almacén de datos a partir de modelo de datos empresariales es el estado lo completo modelo de datos empresariales.

El modelo de datos corporativo de una organización tiene una característica evolutiva, es decir, está en constante evolución y mejora. Algunas áreas temáticas modelo de datos empresariales puede estar bien desarrollado, para algunos el trabajo puede no haber comenzado aún. Si un fragmento del área temática no se resuelve en modelo de datos empresariales, entonces no hay forma de usar este modelo como punto de partida para diseñar un almacén de datos.

Grado de finalización modelo corporativo se puede nivelar en el diseño de HD de la siguiente manera. Dado que el desarrollo de un almacén de datos generalmente se divide en una secuencia de etapas en el tiempo, el proceso de su diseño se puede sincronizar con proceso de finalización desarrollo de fragmentos individuales modelo de datos empresariales organizaciones

en el más bajo capa de presentación del modelo de datos corporativo muestra información sobre las características físicas de los objetos de la base de datos correspondientes a modelo de datos lógicos medio capa de presentación del modelo de datos de la empresa.

Cada vez más, los profesionales de TI están dirigiendo su atención a las soluciones de administración de datos basadas en modelos de datos estándar de la industria y plantillas de decisiones comerciales. Los modelos de datos físicos complejos listos para cargar y los informes de inteligencia comercial para áreas específicas de actividad le permiten unificar el componente de información de la empresa y acelerar significativamente los procesos comerciales. Las plantillas de solución permiten a los proveedores de servicios aprovechar el poder de la información no estándar oculta en los sistemas existentes, lo que reduce los plazos, los costos y los riesgos del proyecto. Por ejemplo, los proyectos reales muestran que el modelo de datos y las plantillas de decisiones comerciales pueden reducir el esfuerzo de desarrollo en un 50 %.

Un modelo lógico de la industria es una vista lógicamente estructurada, integrada y específica del dominio de toda la información que debe estar en un almacén de datos corporativo para responder a las preguntas estratégicas y tácticas del negocio. El objetivo principal de los modelos es facilitar la orientación en el espacio de datos y ayudar a resaltar los detalles que son importantes para el desarrollo empresarial. En el entorno empresarial actual, es absolutamente esencial tener una comprensión clara de las relaciones entre los diversos componentes y una buena comprensión del panorama general de la organización. La identificación de todos los detalles y relaciones mediante modelos permite el uso más eficiente del tiempo y las herramientas para organizar el trabajo de la empresa.

Los modelos de datos son modelos abstractos que describen cómo se representan y se accede a los datos. Los modelos de datos definen los elementos de datos y las relaciones entre ellos en un área determinada. Un modelo de datos es una herramienta de navegación tanto para empresas como para profesionales de TI que utiliza un conjunto específico de símbolos y palabras para explicar con precisión una clase específica de información real. Esto mejora la comunicación dentro de la organización y, por lo tanto, crea un entorno de aplicación más flexible y estable.


Un ejemplo de SIG para autoridades y modelo de autogobierno local.

Hoy en día, es estratégicamente importante que los proveedores de software y servicios puedan responder rápidamente a los cambios en la industria asociados con las innovaciones tecnológicas, la eliminación de las restricciones gubernamentales y la complejidad de las cadenas de suministro. Junto con los cambios en el modelo de negocios, crece la complejidad y el costo de la tecnología de la información necesaria para respaldar las actividades de la empresa. La gestión de datos es especialmente difícil en un entorno en el que los sistemas de información corporativos y sus requisitos funcionales y comerciales cambian constantemente.

Para ayudar a facilitar y optimizar este proceso, al traducir el enfoque de TI al nivel moderno, se recurre a los modelos de datos de la industria.

Modelos de datos de la industria de la empresa.Esri

Los modelos de datos para la plataforma Esri ArcGIS son plantillas de trabajo para usar en proyectos GIS y crear estructuras de datos para varias áreas de aplicación. La creación de un modelo de datos implica la creación de un diseño conceptual, una estructura lógica y una estructura física que luego se pueden utilizar para crear una geodatabase personal o corporativa. ArcGIS proporciona herramientas para crear y administrar un esquema de base de datos, y las plantillas de modelos de datos se utilizan para lanzar rápidamente un proyecto GIS en una variedad de aplicaciones e industrias. Esri, junto con la comunidad de usuarios, ha dedicado una cantidad significativa de tiempo a desarrollar una serie de plantillas que pueden ayudarlo a comenzar rápidamente a diseñar una geodatabase corporativa. Estos proyectos se describen y documentan en support.esri.com/datamodels. A continuación, en el orden en que aparecen en este sitio, se encuentran las traducciones semánticas de los nombres de modelos de la industria de Esri:

  • Registro de direcciones
  • Agricultura
  • Meteorología
  • Datos espaciales básicos
  • biodiversidad
  • Espacio interior de los edificios.
  • contabilidad de gases de efecto invernadero
  • Mantenimiento de los límites administrativos
  • Establecimiento militar. Servicio de inteligencia
  • Energía (incluido el nuevo protocolo ArcGIS MultiSpeak)
  • Edificios ecológicos
  • Ministerio de Situaciones de Emergencia. protección contra incendios
  • catastro forestal
  • Silvicultura
  • Geología
  • SIG a nivel nacional (e-gov)
  • Aguas subterráneas y aguas residuales
  • cuidado de la salud
  • Arqueología y protección de sitios conmemorativos
  • seguridad nacional
  • Hidrología
  • Organización Hidrográfica Internacional (OHI). Formato S-57 para ENC
  • Irrigación
  • Registro de la Propiedad
  • Gobierno municipal
  • Navegación marítima
  • catastro estatal
  • Estructuras de petróleo y gas
  • Tuberías
  • Tiendas de ráster
  • Batimetría, topografía del fondo marino
  • telecomunicaciones
  • Transporte
  • Fontanería, alcantarillado, servicios públicos

Estos modelos contienen todas las características necesarias del estándar de la industria, a saber:

  • están disponibles gratuitamente;
  • no están vinculados a la tecnología del fabricante "seleccionado";
  • creado como resultado de la implementación de proyectos reales;
  • creado con la participación de expertos de la industria;
  • diseñado para proporcionar interacción de información entre varios productos y tecnologías;
  • no contradiga otras normas y documentos reglamentarios;
  • utilizado en proyectos implementados en todo el mundo;
  • están diseñados para trabajar con información a lo largo del ciclo de vida del sistema que se está creando, y no del proyecto en sí;
  • ampliable a las necesidades del cliente sin perder compatibilidad con otros proyectos y/o modelos;
  • acompañado de materiales y ejemplos adicionales;
  • utilizado en guías y materiales técnicos de varias empresas industriales;
  • una gran comunidad de participantes, mientras que el acceso a la comunidad está abierto a todos;
  • un gran número de referencias a modelos de datos en publicaciones de los últimos años.

Esri es parte de un grupo de expertos de organismos independientes que recomiendan el uso de varios modelos de la industria, como PODS (Estándares de datos abiertos de tuberías, un estándar abierto para la industria del petróleo y el gas; actualmente hay una implementación de PODS como un Esri PODS Esri Spatial 5.1.1 geodatabase) o una geodatabase (GDB) de ArcGIS for Aviation que tenga en cuenta las recomendaciones de la OACI y la FAA, así como el estándar de intercambio de datos de navegación AIXM 5.0. Además, hay modelos recomendados que se adhieren estrictamente a los estándares existentes de la industria, como S-57 y ArcGIS for Maritime (características marinas y costeras), así como modelos creados a partir del trabajo de Esri Professional Services y son estándares "de facto". en las áreas pertinentes. Por ejemplo, GIS para la Nación y el Gobierno Local han influido en los estándares NSDI e INSPIRE, mientras que Hydro y Groundwater se utilizan mucho en el paquete profesional ArcHydro disponible gratuitamente y productos comerciales de terceras empresas. Cabe señalar que Esri también admite estándares "de facto" como NHDI. Todos los modelos de datos propuestos están documentados y listos para usar en los procesos de TI de la empresa. Los materiales que acompañan a los modelos incluyen:

  • diagramas UML de relaciones entre entidades;
  • estructuras de datos, dominios, directorios;
  • plantillas preparadas geodatabases en formato ArcGIS GDB;
  • datos de muestra y aplicaciones de muestra;
  • ejemplos de scripts de carga de datos, ejemplos de utilidades de análisis;
  • libros de referencia sobre la estructura de datos propuesta.

Esri resume su experiencia en la construcción de modelos industriales en forma de libros y localiza los materiales publicados. Esri CIS ha localizado y publicado los siguientes libros:

  • Arquitectura Orientada a Servicios Geoespaciales (SOA);
  • Diseño de geodatabases para el transporte;
  • Sistemas de geoinformación corporativos;
  • GIS: nueva energía de empresas eléctricas y de gas;
  • Petróleo y gas en un mapa digital;
  • Modelando nuestro mundo. Guía de diseño de geodatabases de Esri;
  • Pensando en SIG. Planificación GIS: una guía para gerentes;
  • Sistemas de Información Geográfica. Lo esencial;
  • SIG para la gestión administrativa y económica;
  • SIG web. Principios y aplicación;
  • Estrategias de diseño de sistemas, 26ª edición;
  • 68 números de la revista ArcReview con publicaciones de empresas y usuarios de sistemas GIS;
  • ... y muchas otras notas y publicaciones temáticas.

Por ejemplo, el libro Modelando nuestro mundo..."(traducción) es una guía integral y una guía de referencia para el modelado de datos GIS en general y el modelo de datos de geodatabase en particular. El libro muestra cómo tomar las decisiones correctas de modelado de datos, decisiones que están involucradas en todos los aspectos de un proyecto GIS: desde el diseño de la base de datos y la recopilación de datos hasta el análisis espacial y la visualización Describe en detalle cómo diseñar una base de datos geográfica apropiada para el proyecto, configurar la funcionalidad de la base de datos sin programación, administrar el flujo de trabajo en proyectos complejos, modelar una variedad de estructuras de red como río, transporte o redes eléctricas, integre datos de imágenes satelitales en análisis y mapas geográficos, y cree modelos de datos GIS en 3D. Diseño de geodatabases para el transporte" contiene enfoques metodológicos que han sido probados en una gran cantidad de proyectos y cumplen completamente con los requisitos legislativos de Europa y los Estados Unidos, así como con los estándares internacionales. Y en el libro " SIG: nueva energía de las empresas eléctricas y de gas Usando ejemplos del mundo real, muestra los beneficios que un GIS empresarial puede brindar a un proveedor de energía, incluidos aspectos como el servicio al cliente, la operación de la red y otros procesos comerciales.


Algunos de los libros, traducidos y originales, publicados en ruso por Esri CIS y DATA+. Cubren tanto cuestiones conceptuales relacionadas con la tecnología GIS como muchos aspectos aplicados del modelado y la implementación de GIS de varias escalas y propósitos.

Consideraremos el uso de modelos industriales usando el modelo de datos BISDM (Building Interior Space Data Model) versión 3.0 como ejemplo. BISDM es un desarrollo de un modelo BIM más general (Modelo de información de construcción, modelo de información de construcción) y está destinado a su uso en el diseño, construcción, operación y desmantelamiento de edificios y estructuras. Utilizado en el software GIS, le permite intercambiar geodatos de manera efectiva con otras plataformas e interactuar con ellas. Se refiere al grupo de tareas general FM (gestión de la infraestructura de la organización). Enumeramos las principales ventajas del modelo BISDM, cuyo uso permite:

  • organizar el intercambio de información en un entorno heterogéneo mediante reglas comunes;
  • obtener una encarnación "física" del concepto BIM y las reglas recomendadas para administrar un proyecto de construcción;
  • mantener un repositorio único utilizando herramientas GIS durante todo el ciclo de vida del edificio (desde el diseño hasta el desmantelamiento);
  • coordinar el trabajo de varios especialistas en el proyecto;
  • visualizar el cronograma planificado y las etapas de construcción para todos los participantes;
  • dar una estimación preliminar del costo y el tiempo de construcción (datos 4D y 5D);
  • controlar el progreso del proyecto;
  • asegurar la operación de calidad del edificio, incluido el mantenimiento y las reparaciones;
  • formar parte del sistema de gestión de activos, incluidas las funciones de análisis de la eficiencia del uso del espacio (alquiler, instalaciones de almacenamiento, gestión de empleados);
  • calcular y gestionar la eficiencia energética del edificio;
  • simular el movimiento de los flujos humanos.

BISDM define las reglas para trabajar con datos espaciales a nivel de locales internos en un edificio, incluyendo el propósito y tipos de uso, comunicaciones establecidas, equipos instalados, contabilidad de reparaciones y mantenimiento, registro de incidentes, relaciones con otros activos de la empresa. El modelo ayuda a crear un repositorio unificado de datos geográficos y no geográficos. Se utilizó la experiencia de las principales empresas del mundo para aislar entidades y modelar a nivel de GDB (geodatabase) las relaciones espaciales y lógicas de todos los elementos físicos que forman tanto el edificio en sí como su interior. Seguir los principios de BISDM le permite simplificar significativamente las tareas de integración con otros sistemas. En la primera etapa, esto suele ser la integración con CAD. Luego, durante la operación del edificio, se utiliza el intercambio de datos con los sistemas ERP y EAM (SAP, TRIRIGA, Maximo, etc.).


Visualización de elementos estructurales BISDM utilizando ArcGIS.

En el caso de utilizar BISDM, el cliente/propietario de la instalación recibe un intercambio de información de punta a punta desde la idea de crear una instalación hasta el desarrollo de un proyecto completo, control de obra con obtención de hasta -Información de fecha al momento de puesta en operación de la instalación, control de parámetros durante la operación, e incluso durante la reconstrucción o desmantelamiento de la instalación. Siguiendo el paradigma BISDM, el GIS y el GDB creados con su ayuda se convierten en un repositorio de datos común para los sistemas relacionados. A menudo en el BGF hay datos creados y operados por sistemas de terceros. Esto debe tenerse en cuenta al diseñar la arquitectura del sistema que se está creando.

En cierta etapa, la "masa crítica" acumulada de información le permite pasar a un nuevo nivel cualitativo. Por ejemplo, al finalizar la fase de diseño de un nuevo edificio, es posible visualizar automáticamente modelos topográficos en 3D en GIS, compilar una lista de equipos a instalar, calcular los kilómetros de redes de ingeniería a instalar, realizar una serie de verificaciones , e incluso dar una estimación financiera preliminar del costo del proyecto.

Una vez más, al usar BISDM y ArcGIS juntos, es posible construir automáticamente modelos 3D a partir de los datos acumulados, ya que el GDB contiene una descripción completa del objeto, incluidas las coordenadas z, pertenecientes a un piso, tipos de conexiones de elementos, equipos métodos de instalación, material, caminos disponibles, movimientos de personal, propósito funcional de cada elemento, etc. etc Cabe señalar que después de la importación inicial de todos los materiales de diseño en BISDM GDB, existe la necesidad de contenido adicional para:

  • colocación de modelos 3D de objetos y equipos en lugares designados;
  • recopilar información sobre el costo de los materiales y el procedimiento para su colocación e instalación;
  • control de permeabilidad según las dimensiones del equipo no estándar instalado.

Mediante el uso de ArcGIS, se simplifica la importación de objetos 3D adicionales y libros de referencia de fuentes externas. El módulo de interoperabilidad de datos de ArcGIS le permite crear procedimientos para importar dichos datos y colocarlos correctamente dentro del modelo. Se admiten todos los formatos utilizados en la industria, incluidos IFC, AutoCAD Revit, Bentlye Microstation.

Modelos de datos de la industria de IBM

IBM proporciona un conjunto de herramientas y modelos de gestión de almacenamiento para una variedad de industrias:

  • IBM Banking and Financial Markets Data Warehouse (finanzas)
  • Almacén de datos bancarios de IBM
  • Modelos de servicios y procesos bancarios de IBM
  • Modelo de datos del plan de salud de IBM (salud)
  • Almacén de información de seguros de IBM (seguros)
  • Modelos de servicios y procesos de seguros de IBM
  • Almacén de datos minorista de IBM (minorista)
  • Almacén de datos de telecomunicaciones de IBM (telecomunicaciones)
  • Paquete de almacén de InfoSphere:
    - para Customer Insight (para comprender a los clientes)
    - para Market and Campaign Insight (para comprender la empresa y el mercado)
    - para Supply Chain Insight (para comprender a los proveedores).

Por ejemplo, modelo IBMbancarioyFinancieromercadosDatosDepósito diseñado para abordar los desafíos específicos de la industria bancaria en términos de datos, y IBMbancarioprocesoyServicioModelos- en términos de procesos y SOA (arquitectura orientada a servicios). Modelos presentados para la industria de las telecomunicaciones IBMinformaciónMarco de referencia(IFW) y IBMtelecomunicacionesDatosDepósito (TDW). Ayudan a acelerar significativamente el proceso de creación de sistemas analíticos, así como a reducir los riesgos asociados con el desarrollo de aplicaciones de inteligencia empresarial, gestión de datos corporativos y organización de almacenes de datos, teniendo en cuenta las especificidades de la industria de las telecomunicaciones. Las capacidades de IBM TDW cubren todo el espectro del mercado de las telecomunicaciones, desde proveedores de Internet y operadores de redes de cable que ofrecen servicios de telefonía alámbrica e inalámbrica, transmisión de datos y contenido multimedia, hasta compañías multinacionales que brindan servicios telefónicos, satelitales, de larga distancia e internacionales, así como servicios de comunicación. como redes globales de organizaciones. Hoy en día, TDW es utilizado por líneas fijas grandes y pequeñas y Comunicación inalámbrica Mundial.

La herramienta llamada Paquete InfoSphere Warehouse para Customer Insight es un contenido de negocios estructurado y fácil de implementar para un número creciente de proyectos comerciales e industrias, que incluyen banca, seguros, finanzas, programas de seguros de salud, telecomunicaciones, comercio minorista y distribución. Para usuarios comerciales InfoSphere Warehouse Pack para Market and Campaign Insight lo ayuda a maximizar la efectividad de su inteligencia de mercado y campañas de marketing a través de un proceso de desarrollo paso a paso y específico para el negocio. Vía Paquete InfoSphere Warehouse para Supply Chain Insight Las organizaciones tienen la capacidad de obtener información actualizada sobre las operaciones de la cadena de suministro.


La posición de Esri dentro de la arquitectura de soluciones de IBM.

De particular interés es el enfoque de IBM hacia los servicios públicos y las empresas de servicios públicos. Para satisfacer las crecientes demandas de los consumidores, las empresas de servicios públicos necesitan una arquitectura más flexible que la que utilizan hoy en día, así como un modelo de objeto estándar de la industria que facilite el libre intercambio de información. Esto mejorará las capacidades de comunicación de las empresas de energía al permitir una comunicación más rentable y brindará a los nuevos sistemas una mejor visibilidad de todos los recursos necesarios, sin importar dónde se encuentren dentro de la organización. La base de este enfoque es SOA (Arquitectura Orientada a Servicios), un modelo de componentes que establece una correspondencia entre las funciones de los departamentos y los servicios de varias aplicaciones que pueden ser reutilizadas. Los "servicios" de estos componentes se comunican a través de interfaces sin vínculos estrictos, lo que oculta al usuario toda la complejidad de los sistemas que se encuentran detrás de ellos. En este modo, las empresas pueden agregar fácilmente nuevas aplicaciones independientemente del proveedor de software, el sistema operativo, el lenguaje de programación u otras características internas del software. El concepto se implementa sobre la base de SOA. A SALVO ( Solution Architecture for Energy, permite a la industria de servicios públicos obtener una visión holística basada en estándares de su infraestructura.

ArcGIS de Esri® es una plataforma de software reconocida a nivel mundial para sistemas de información geográfica (SIG), que proporciona la creación y gestión de activos digitales de redes de telecomunicaciones, distribución y transmisión de gas y energía eléctrica. ArcGIS le permite realizar el inventario más completo de los componentes de la red de distribución eléctrica, teniendo en cuenta su ubicación espacial. ArcGIS amplía en gran medida la arquitectura IBM SAFE al proporcionar las herramientas, aplicaciones, flujos de trabajo, análisis e información y capacidades de integración necesarias para administrar la red inteligente. ArcGIS dentro de IBM SAFE le permite obtener información de varias fuentes sobre objetos de infraestructura, activos, clientes y empleados con datos precisos sobre su ubicación, así como crear, almacenar y procesar información georreferenciada sobre activos empresariales (pilares, tuberías, cables, transformadores, conductos de cables, etc.). ArcGIS dentro de una infraestructura SAFE le permite conectar dinámicamente aplicaciones comerciales clave al combinar datos de GIS, SCADA y sistemas de servicio al cliente con información externa como tráfico, condiciones climáticas o imágenes satelitales. Las empresas de servicios públicos utilizan esta información combinada para una variedad de propósitos, desde C.O.R. (panorama general del entorno operativo) hasta inspecciones del sitio, mantenimiento, análisis de red y planificación.

Los componentes de información de una empresa de suministro de energía se pueden modelar usando varios niveles, que van desde el nivel más bajo (físico) hasta el más alto, el nivel más complejo de la lógica del proceso comercial. Estas capas se pueden integrar para cumplir con los requisitos típicos de la industria, como el registro automatizado de mediciones y el control de supervisión y adquisición de datos (SCADA). Al construir la arquitectura SAFE, las empresas de servicios públicos están logrando avances significativos en el avance de un modelo de objeto abierto para toda la industria llamado Modelo de información común (CIM) para energía y servicios públicos. Este modelo proporciona la base necesaria para que muchas empresas avancen hacia una arquitectura orientada a servicios, ya que fomenta el uso de estándares abiertos para estructurar datos y objetos. Al hacer que todos los sistemas usen los mismos objetos, la confusión y la inelasticidad asociadas con diferentes implementaciones de los mismos objetos se reducirán al mínimo. Así, se unificará la definición del objeto "cliente" y otros objetos comerciales importantes en todos los sistemas de la empresa de suministro eléctrico. Con CIM, los proveedores de servicios y los consumidores de servicios ahora pueden compartir una estructura de datos común, lo que facilita la subcontratación de componentes comerciales costosos, ya que CIM establece una base común sobre la cual construir el intercambio de información.

Conclusión

Los modelos completos de datos de la industria brindan a las empresas una vista única e integrada de su información comercial. A muchas empresas les resulta difícil integrar sus datos, aunque este es un requisito previo para la mayoría de los proyectos empresariales. Según un estudio realizado por The Data Warehousing Institute (TDWI), más del 69% de las organizaciones encuestadas encontraron que la integración es una barrera importante para la adopción de nuevas aplicaciones. Por el contrario, la implementación de la integración de datos aporta a la empresa ingresos tangibles y una mayor eficiencia.

Un modelo bien construido define de forma única el significado de los datos, que en este caso son datos estructurados (a diferencia de los datos no estructurados, como una imagen, un archivo binario o texto, donde el valor puede ser ambiguo). Los modelos industriales más efectivos los ofrecen proveedores profesionales, incluidos Esri e IBM. Los altos rendimientos del uso de sus modelos se logran debido a su importante nivel de detalle y precisión. Por lo general, contienen muchos atributos de datos. Además, los expertos de Esri e IBM no solo tienen una amplia experiencia en modelado, sino que también están bien versados ​​en la creación de modelos para una industria en particular.


decirles a los amigos