TIPOS DE FRAGMENTACION DE DATOS

En el presente capítulo se mostrará los aspectos importantes referentes al diseño de una base de datos distribuida. Se revisará el problema de fragmentación de los datos así como la transparencia que un sistema de datos distribuidos debe guardar respecto a la vista del usuario. Se presentarán los algoritmos para fragmentación horizontal, fragmentación horizontal derivada y fragmentación vertical. En la parte final de este capítulo se discute el problema de asignamiento de fragmentos.

3.1 El problema de diseño

El problema de diseño de bases de datos distribuidos se refiere, en general, a hacer decisiones acerca de la ubicación de datos y programas a través de los diferentes sitios de una red de computadoras. Este problema debería estar relacionado al diseño de la misma red de computadoras. Sin embargo, en estas notas únicamente el diseño de la base de datos se toma en cuenta. La decisión de donde colocar a las aplicaciones tiene que ver tanto con el software del SMBDD como con las aplicaciones que se van a ejecutar sobre la base de datos.

El diseño de las bases de datos centralizadas contempla los dos puntos siguientes:

1. Diseño del "esquema conceptual" el cual describe la base de datos integrada (esto es, todos los datos que son utilizados por las aplicaciones que tienen acceso a las bases de datos).

2. Diseño "físico de la base de datos", esto es, mapear el esquema conceptual a las áreas de almacenamiento y determinar los métodos de acceso a las bases de datos.

En el caso de las bases de datos distribuidas se tienen que considerar los dos problemas siguientes:

3. Diseño de la fragmentación, este se determina por la forma en que las relaciones globales se subdividen en fragmentos horizontales, verticales o mixtos.

4. Diseño de la asignación de los fragmentos, esto se determina en la forma en que los fragmentos se mapean a las imágenes físicas, en esta forma, también se determina la solicitud de fragmentos.

Objetivos del Diseño de la Distribución de los Datos.

En el diseño de la distribución de los datos, se deben de tomar en cuenta los siguientes objetivos:

Procesamiento local. La distribución de los datos, para maximizar el procesamiento local corresponde al principio simple de colocar los datos tan cerca como sea posible de las aplicaciones que los utilizan. Se puede realizar el diseño de la distribución de los datos para maximizar el procesamiento local agregando el número de referencias locales y remotas que le corresponden a cada fragmentación candidata y la localización del fragmento, que de esta forma se seleccione la mejor solución de ellas.
Distribución de la carga de trabajo. La distribución de la carga de trabajo sobre los sitios, es una característica importante de los sistemas de cómputo distribuidos. Esta distribución de la carga se realiza para tomar ventaja de las diferentes características (potenciales) o utilizaciones de las computadoras de cada sitio, y maximizar el grado de ejecución de paralelismo de las aplicaciones. Sin embargo, la distribución de la carga de trabajo podría afectar negativamente el procesamiento local deseado.
Costo de almacenamiento y disponibilidad. La distribución de la base de datos refleja el costo y disponibilidad del almacenamiento en diferentes sitios. Para esto, es posible tener sitios especializados en la red para el almacenamiento de datos. Sin embargo el costo de almacenamiento de datos no es tan relevante si éste se compara con el del CPU, I/O y costos de transmisión de las aplicaciones.

3.2 Enfoques al problema de diseño de bases de datos distribuidas

Existen dos estrategias generales para abordar el problema de diseño de bases de datos distribuidas:

El enfoque de arriba hacia abajo (top-down). Este enfoque es más apropiado para aplicaciones nuevas y para sistemas homogéneos. Consiste en partir desde el análisis de requerimientos para definir el diseño conceptual y las vistas de usuario. A partir de ellas se define un esquema conceptual global y los esquemas externos necesarios. Se prosigue con el diseño de la fragmentación de la base de datos, y de aquí se continúa con la localización de los fragmentos en los sitios, creando las imágenes físicas. Esta aproximación se completa ejecutando, en cada sitio, "el diseño físico" de los datos, que se localizan en éste. En la Figura 3.1 se presenta un diagrama con la estructura general del enfoque top-down.
El diseño de abajo hacia arriba (bottom-up). Se utiliza particularmente a partir de bases de datos existentes, generando con esto bases de datos distribuidas. En forma resumida, el diseño bottom-up de una base de datos distribuida requiere de la selección de un modelo de bases de datos común para describir el esquema global de la base de datos. Esto se debe es posible que se utilicen diferentes SMBD. Después se hace la traducción de cada esquema local en el modelo de datos común y finalmente se hace la integración del esquema local en un esquema global común.

Figura 3.1. El enfoque top-down para el diseño de bases de datos distribuidas.

El diseño de una base de datos distribuida, cualquiera sea el enfoque que se siga, debe responder satisfactoriamente las siguientes preguntas:

¿Por qué hacer una fragmentación de datos?
¿Cómo realizar la fragmentación?
¿Qué tanto se debe fragmentar?
¿Cómo probar la validez de una fragmentación?
¿Cómo realizar el asignamiento de fragmentos?
¿Cómo considerar los requerimientos de la información?

Figura 3.2. El problema de fragmentación de relaciones.

3.3 El problema de fragmentación

El problema de fragmentación se refiere al particionamiento de la información para distribuir cada parte a los diferentes sitios de la red, como se observa en la Figura 3.2. Inmediatamente aparece la siguiente pregunta: ¿cuál es la unidad razonable de distribución?. Se puede considerar que una relación completa es lo adecuado ya que las vistas de usuario son subconjuntos de las relaciones. Sin embargo, el uso completo de relaciones no favorece las cuestiones de eficiencia sobre todo aquellas relacionadas con el procesamiento de consultas.

La otra posibilidad es usar fragmentos de relaciones (sub-relaciones) lo cual favorece la ejecución concurrente de varias transacciones que accesan porciones diferentes de una relación. Sin embargo, el uso de sub-relaciones también presenta inconvenientes. Por ejemplo, las vistas de usuario que no se pueden definir sobre un solo fragmento necesitarán un procesamiento adicional a fin de localizar todos los fragmentos de una vista. Aunado a esto, el control semántico de datos es mucho más complejo ya que, por ejemplo, el manejo de llaves únicas requiere considerar todos los fragmentos en los que se distribuyen todos los registros de la relación. En resumen, el objetivo de la fragmentación es encontrar un nivel de particionamiento adecuado en el rango que va desde tuplas o atributos hasta relaciones completas (ver Figura 3.3).

Ejemplo 3.1. Considere la relación J del ejemplo visto en el capítulo 2.

JNO	JNOMBRE	PRESUPUESTO	LUGAR
J1	Instrumentación	150000	Monterrey
J2	Desarrollo de bases de datos	135000	México
J3	CAD/CAM	250000	Puebla
J4	Mantenimiento	310000	México
J5	CAD/CAM	500000	Guadalajara

La relación J se puede fragmentar horizontalmente produciendo los siguientes fragmentos.

J1: proyectos con presupuesto menor que $200,000

JNO	JNOMBRE	PRESUPUESTO	LUGAR
J1	Instrumentación	150000	Monterrey
J2	Desarrollo de bases de datos	135000	México

J2: proyectos con presupuesto mayor que o igual a $200,000

JNO	JNOMBRE	PRESUPUESTO	LUGAR
J3	CAD/CAM	250000	Puebla
J4	Mantenimiento	310000	México
J5	CAD/CAM	500000	Guadalajara

Ejemplo 3.2. La relación J del ejemplo anterior se puede fragmentar verticalmente produciendo los siguientes fragmentos:

J1: información acerca de presupuestos de proyectos

JNO	PRESUPUESTO
J1	150000
J2	135000
J3	250000
J4	310000
J5	500000

J2: información acerca de los nombres y ubicaciones de proyectos

JNO	JNOMBRE	LUGAR
J1	Instrumentación	Monterrey
J2	Desarrollo de bases de datos	México
J3	CAD/CAM	Puebla
J4	Mantenimiento	México
J5	CAD/CAM	Guadalajara

Figura 3.3. El grado de fragmentación.

Correctitud de una fragmentaciónAl realizar la fragmentación de una relación se deben satisfacer las siguientes condiciones para garantizar la correctitud de la misma:

Condición de completitud. La descomposición de una relación R en los fragmentos R₁, R₂, ..., R_n es completa si y solamente si cada elemento de datos en R se encuentra en algún de los R_i.
Condición de Reconstrucción. Si la relación R se descompone en los fragmentos R₁, R₂, ..., R_n, entonces debe existir algún operador relacional Ñ , tal que,
R = Ñ _{1£ i£ n} R_i
Condición de Fragmentos Disjuntos. Si la relación R se descompone en los fragmentos R₁, R₂, ..., R_n, y el dato d_i está en R_j, entonces, no debe estar en ningún otro fragmento R_k (k¹ j).

Alternativas sobre replicación para el asignamiento de fragmentos

La replicación de información es de utilidad para obtener un mejor rendimiento y para ofrecer un mayor grado de confiabilidad (tolerancia a fallas). La replicación se complica cuando es necesario hacer actualizaciones a las copias múltiples de un dato. Por tanto, respecto a la replicación, en el asignamiento de fragmentos se tienen tres estrategias:

No soportar replicación. Cada fragmento reside en un solo sitio.
Soportar replicación completa. Cada fragmento en cada uno de los sitios.
Soportar replicación parcial. Cada fragmento en algunos de los sitios.

Como regla general se debe considerar que la replicación de fragmentos es de utilidad cuando el número de consultas de solo lectura es (mucho) mayor que el número de consultas para actualizaciones. En la Tabla 3.1 se comparan la complejidad de implementar o tomar ventaja de las diferentes alternativas de replicación, respecto de los diferentes aspectos importantes en bases de datos distribuidas.

	Replicación Completa	Replicación Parcial	Particionamiento
Procesamiento de Consultas	Fácil	Moderado	Moderado
Manejo de Directorios	Fácil o no existente	Moderado	Moderado
Control de Concurrencia	Moderado	Difícil	Fácil
Confiabilidad	Muy alto	Alto	Bajo
Realidad	Aplicación posible	Realista	Aplicación posible

Tabla 3.1. Comparación de las estrategias de replicación de fragmentos.

Requerimientos de información

Con el fin de realizar una fragmentación adecuada es necesario proporcionar información que ayude a realizarla. Esta información normalmente debe ser proporcionada por el usuario y tiene que ver con cuatro tipos:

Información sobre el significado de los datos
Información sobre las aplicaciones que los usan
Información acerca de la red de comunicaciones
Información acerca de los sistemas de cómputo

3.4. Tipos de fragmentación de datos

Existen tres tipos de fragmentación:

Fragmentación horizontal
Fragmentación vertical
Fragmentación híbrida

En las siguientes secciones revisaremos de manera informal cada uno de los tipos mencionados. Más adelante, se presentará de manera más formal la construcción de los diferentes tipos de fragmentación.

3.4.1 Fragmentación horizontal primaria

Consiste del particionamiento en tuplas de una relación global en subconjuntos, donde cada subconjunto puede contener datos que tienen propiedades comunes y se puede definir expresando cada fragmento como una operación de selección sobre la relación global.

Ejemplo 3.3. Considere la relación global

SUPPLIER( SNUM, NAME, CITY )

entonces, la fragmentación horizontal puede ser definida como:

SUPPLIER1 = SLcity == "SF"SUPPLIER

SUPPLIER1 = SLcity == "LA"SUPPLIER

Esta fragmentación satisface la condición de completes si "SF" y "LA" son solamente los únicos valores posibles del atributo CITY.

2. La condición de reconstrucción se logra con:

SUPPLIER = SUPPLIER1 union SUPPLIER2

3. La condición de disjuntos se cumple claramente en este ejemplo.

3.4.2 Fragmentación horizontal derivada

La fragmentación derivada horizontal se define partiendo de una fragmentación horizontal.

En esta operación se requiere de Semi-junta (Semi-Join) el cual nos sirve para derivar las tuplas o registros de dos relaciones.

Ejemplo 3.4. Las siguientes relaciones definen una fragmentación horizontal derivada de la relación SUPPLY.

SUPPLY1 = SUPPLYSJsnum == snumSUPPLIER1

SUPPLY2 = SUPPLYSJsnum == snumSUPPLIER2

3.4.3 Fragmentación vertical

La fragmentación vertical es la subdivisión de atributos en grupos. Los fragmentos se obtienen proyectando la relación global sobre cada grupo. La fragmentación es correcta si cada atributo se mapea en al menos un atributo del fragmento.

Ejemplo 3.5. Considere la siguiente relación global:

EMP( empnum, name, sal, tax, mgrnum, depnum )

una fragmentación vertical de esta relación puede ser definida como:

EMP1 = PJempnum, name, mgrnum, depnum EMP

EMP2 = PJempnum, sal, tax EMP

la reconstrucción de la relación EMP puede ser obtenida como:

EMP = EMP1 (JN empnum) EMP2 porque empnum es una clave de EMP

3.4.4 Fragmentación híbrida

En la que respecto a la fragmentación híbrida, esta consiste en aplicar la fragmentación vertical seguida de la fragmentación horizontal o viceversa.

Ejemplo 3.6. Considere la relación global

EMP( empnum, name, sal, tax, mrgnum, depnum )

Las siguientes son para obtener una fragmentación mixta, aplicando la vertical seguida de la horizontal:

EMP1 = SL depnum <= 10 PJempnum, name, mgrnum, depnum EMP

EMP2 = SL 10 < depnum <= 20 PJempnum, name, mgrnum, depnum EMP

EMP3 = SL depnum > 20 PJempnum, name, mgrnum, depnum EMP

EMP4 = PJ empnum, name, sal, tax EMP

La reconstrucción de la relación EMP es definida por la siguiente expresión:

EMP = UN(EMP1, EMP2, EMP3)JNempnum = empnumPJempnum, sal, tax EMP4

Finalmente, como otro ejemplo considere el siguiente esquema global

EMP(EMPNUM, NAME, SAL, TAX, MGRNUM, DEPNUM)

DEP(DEPNUM, NAME, AREA, MGRNUM)

SUPPLIER(SNUM, NAME, CITY)

SUPPLY(SNUM, PNUM, DEPNUM, QUAN)

Después de aplicar una fragmentación mixta se obtiene el siguiente esquema fragmentado

EMP1 = Sldepnum <= 10 PJempnum, name, mgrnum, depnum (EMP)

EMP2 = SL 10 < depnum <= 20 PJempnum, name, mgrnum, depnum (EMP)

EMP3 = SL depnum > 20 PJempnum, name, mgrnum, depnum (EMP)

EMP4 = PJ empnum, name, sal, tax (EMP)

DEP1 = SL depnum <= 10 (DEP)

DEP2 = SL 10 < depnum <= 20 (DEP)

DEP3 = SL depnum > 20 (DEP)

SUPPLIER1 = SL city == "SF" (SUPPLIER)

SUPPLIER2 = SL city == "LA" (SUPPLIER)

SUPPLY1 = SUPPLYSJsnum == snumSUPPLIER1

SUPPLY2 = SUPPLYSJsnum == snumSUPPLIER2

3.5 Fragmentación horizontal

En las siguientes secciones revisaremos de manera más formal la forma de construir los diferentes tipos de fragmentación.

La fragmentación horizontal primaria de una relación se obtiene usando predicados que están definidos en esa relación. La fragmentación horizontal derivada, por otra parte, es el particionamiento de una relación como resultado de predicados que se definen en otra relación.

Para poder construir una fragmentación, es necesario proporcionar información acerca de la base de datos y acerca de las aplicaciones que las utilizan. En primer término, es necesario proporcionar la información acerca del esquema conceptual global. En este sentido es importante dar información acerca de las relaciones que componen a la base de datos, la cardinalidad de cada relación y las dependencias entre relaciones. Por ejemplo, en la Figura 3.4 se presenta un diagrama mostrando el esquema conceptual de la base de datos de ejemplo del capítulo 2.

En segundo lugar se debe proporcionar información acerca de la aplicación que utiliza la base de datos. Este tipo de información es cuantitativa y consiste de los predicados usados en las consultas de usuario.

Figura 3.4. Esquema conceptual de la base de datos de ejemplo del capítulo 2.

Dada una relación R( A₁, A₂, …, A_n), donde A_i es un atributo definido sobre el dominio D_i, un predicado simple p_j definido en R tiene la forma

p_j: A_i q Valor

donde q Î { =, <, ¹ , £ , >, ³ } y Valor Î D_i. Para la relación R se define un conjunto de predicados simples como Pr = { p₁, p₂, …, p_m }.

Ejemplo 3.7. Las siguientes expresiones se consideran como predicados simples.

JNOMBRE = "Mantenimiento"

PRESUPUESO < 200000

Dado la relación R y el conjunto de predicados simples Pr = { p₁, p₂, …, p_m }, se define el conjunto de predicados minitérmino como M = { m₁, m₂, …, m_r } como

M = { m_i | m_i = Ù _pj_{Î Pr} p_j*}, 1 £ j £ m, 1 £ i £ z

donde, p_j* = p_j o p_j* = Ø (p_j).

Ejemplo 3.8. Los siguientes son minitérminos de la relación J.

m₁: JNOMBRE == "Mantenimiento" Ù Presupuesto £ 200000

m₂: NOT( JNOMBRE == "Mantenimiento") Ù Presupuesto £ 200000

m₃: JNOMBRE == "Mantenimiento" Ù NOT (Presupuesto £ 200000)

m₄: NOT( JNOMBRE == "Mantenimiento") Ù NOT(Presupuesto £ 200000)

En términos de la información cuantitativa acerca de las aplicaciones de usuario, se necesita tener dos conjuntos de datos:

La selectividad de los minitérminos: Denotada como sel( m_i ), se refiere al número de tuplos de la relación que serán accesadas por una consulta de usuario especificada de acuerdo a un predicado minitérmino dado.
La frecuencia de acceso: Denotada como acc( q_i ), se refiere a la frecuencia con la cual una consulta de usuario q_i es accesada en un periodo de tiempo. Note que las frecuencias de acceso de minitérminos se pueden determinar a partir de las frecuencias de consultas. La frecuencia de acceso de un minitérmino se denota como acc( m_i ).

Una fragmentación horizontal primaria se define por una operación de selección en las relaciones propietarias de un esquema de la base de datos. Por tanto, dada una relación R, su fragmentación horizontal está dada por

R_j = s _Fj (R), 1 £ j £ w

donde, F_j es una fórmula de selección, la cual es preferiblemente un predicado minitérmino. Por lo tanto, un fragmento horizontal R_i de una relación R consiste de todos los tuplos de R que satisfacen un predicado minitérmino m_i. Lo anterior implica que dado un conjunto de predicados minitérmino M, existen tantos fragmentos horizontales de R como minitérminos existan. El conjunto de fragmentos horizontales también se entiende como los fragmentos minitérminos.

Es necesario desarrollar un algoritmo que tome como entrada una relación R y el conjunto de predicados simples Pr y proporcione como resultado el conjunto de fragmentos de R = { R₁, R₂, …, R_m } el cual obedece las reglas de fragmentación. Un aspecto importante del conjunto de predicados es que debe ser completo y minimal.

Un conjunto de predicados simples Pr se dice que es completo si y solo si los accesos a los tuplos de los fragmentos minitérminos definidos en Pr requieren que dos tuplos del mismo fragmento tengan la misma probabilidad de ser accesados por cualquier aplicación.

Ejemplo 3.9 Considere que la relación J[JNO, JNOMBRE, PRESUPUESTO, LUGAR] tiene dos consultas definidas en ella:

Encontrar todos los presupuestos de los proyectos en cada lugar (1)

Encontrar proyectos con presupuestos menores a $200000. (2)

De acuerdo a (1),

Pr = { LUGAR = "México", LUGAR = "Puebla", LUGAR = "Guadalajara", LUGAR = "Monterrrey" }

no es completa con respecto a (2) dado que algunos de los tuplos dentro de cada J_i tienen una probabilidad mayor de ser accesados por la segunda consulta. Si se modifica Pr como

Pr = { LUGAR = "México", LUGAR = "Puebla", LUGAR = "Guadalajara", LUGAR = "Monterrrey",

PRESUPUESTO £ 2000000, PRESUPUESTO > 200000 }

entonces, Pr es completo.

De manera intuitiva se puede ver que si un predicado influye en la fragmentación, esto es, causa que un fragmento f se fragmente aún más digamos en f_i y f_j, entonces habría una consulta que accese f_i y f_j de manera diferente. En otras palabras, un predicado debe ser relevante en determinar una fragmentación. Si todos los predicados de un conjunto Pr son relevantes, entonces Pr es mínimo.

La definición formal de relevancia es la siguiente. Sean m_i y m_j dos predicados minitérminos definidos exactamente igual excepto que m_i contiene a p_i y m_j contiene a p_j. También, sean f_i y f_j los dos fragmentos definidos de acuerdo a m_i y m_j, respectivamente. Entonces, p_i es relevante si y solo si

acc(m_i)/card(f_i) ¹ acc(m_j)/card(f_j)

Por ejemplo, el conjunto Pr definido arriba es mínimo y completo. Sin embargo, si se le agrega el predicado JNOMBRE = "Instrumentación", entonces, Pr no es mínimo.

El algoritmo siguiente llamado COM_MIN genera un conjunto completo y mínimo de predicados Pr’ dado un conjunto de predicados simple Pr. Por brevedad durante el algoritmo se utiliza la siguiente regla:

Regla 1: regla fundamental de completes y minimalidad, la cual afirma que una relación o fragmento es particionado en al menos dos partes las cuales se accesan en forma diferente por al menos una consulta de usuario.

Algoritmo 3.1 COM_MIN

Entrada: una relación R y un conjunto de predicados simples Pr

Salida: un conjunto completo y mínimo de predicados simples Pr’ para Pr.

Iniciación:

Encontrar un p_i Î Pr tal que p_i particiona a R de acuerdo a la regla 1.
Hacer Pr’ = p_i; Pr ¬ Pr – p_i; F ¬ f_i

Iterativamente agregar predicados a Pr’ hasta que sea completo

Encontrar un p_i Î Pr tal que p_i particiona algún f_k de Pr’ de acuerdo a la regla 1.
Hacer Pr’ = Pr’ U p_i; Pr ¬ Pr – p_i; F ¬ F U f_i
Si $ p_k Î Pr’ el cual es no relevante, entonces,

Hacer Pr’ = Pr’ - p_k; F ¬ F - f_k

El algoritmo empieza encontrando un predicado que es relevante y que particiona la relación de entrada. Después, agrega de manera iterativa predicados a este conjunto, asegurando minimalidad en cada paso. Por lo tanto, al final el conjunto Pr’ es tanto completo como mínimo.

El segundo paso en el proceso de diseño de fragmentación horizontal primaria es derivar el conjunto de predicados minitérminos que pueden ser definidos en los predicados del conjunto Pr’. Esos minitérminos definen los fragmentos que serán usados como candidatos en el paso de asignamiento.

El algoritmo de fragmentación horizontal primaria, llamado PHORIZONTAL, se presenta a continuación. La entrada al algoritmo es una relación R_i la cual es sometida a fragmentación horizontal primaria, y Pr_i, el cual es el conjunto de predicados simples que han sido determinados de acuerdo a las consultas definidas en la relación R_i.

Algoritmo 3.2 PHORIZONTAL

Entrada: Una relación R y un conjunto de predicados simples Pr.

Salida: Un conjunto de predicados minitérminos, M, de acuerdo a los cuales la relación R será fragmentada.

Pr’ ¬ COM_MIN( R, Pr )
determinar el conjunto M de predicados minitérminos
determinar el conjunto I de implicaciones entre p_i Î Pr
eliminar minitérminos contradictorios a partir de M

Ejemplo 3.10. Para la relación S la consulta o aplicación es verificar la información del salario y determinar incrementos. Suponga además que los registros de empleados se mantienen en dos lugares y, por tanto, la aplicación o consulta se ejecuta en dos lugares.

Los predicados simples que serían usados para particionar la relación S son:

p₁ : SAL £ 30000

p₂ : SAL > 30000

Al aplicar el algoritmo COM_MIN se verifica que Pr = { P₁, P₂ } se completo y minimal, Pr’ = Pr. Se pueden formar los siguientes predicados minitérminos como miembros de M:

m₁: (SAL £ 30000) Ù (SAL > 30000)

m₂: (SAL £ 30000) Ù NOT (SAL > 30000)

m₃: NOT (SAL £ 30000) Ù (SAL > 30000)

m₄: NOT (SAL £ 30000) Ù NOT (SAL > 30000)

Asumiendo que el dominio de SALARIO se puede partir en dos, como se sugiere Pr p₁ y p₂, las siguientes implicaciones son obvias:

i₁: (SAL £ 30000) Þ NOT (SAL > 30000)

i₂: NOT (SAL £ 30000) Þ (SAL > 30000)

i₃: (SAL > 30000) Þ NOT (SAL £ 30000)

i₄: NOT (SAL > 30000) Þ (SAL £ 30000)

De acuerdo a i₁, m₁ es contradictorio; de acuerdo a i₂, m₄ es contradictorio. Por lo tanto, nos quedamos con M = { m₂, m₃ }. Por tanto, se definen los dos fragmentos F_s = { S₁, S₂ } de acuerdo a M.

S₁

TITULO	SALARIO
Ingeniero Mecánico	27000
Programador	24000

S₁

TITULO	SALARIO
Ingeniero Eléctrico	40000
Analista de Sistemas	34000

Ejemplo 3.11. Para la relación J la consulta es encontrar el nombre y presupuesto de proyectos dados por su número. Esta consulta es realizada en tres lugares. El acceso a la información de proyecto se realiza de acuerdo a su presupuesto; un lugar accesa presupuesto £ 200000 y el otro accesa presupuesto > 200000.

Los predicados simples para la primera consulta serían:

p₁ : LUGAR = "México"

p₂ : LUGAR = "Monterrey"

p₃ : LUGAR = "Puebla"

Los predicados simples para la segunda consulta serían:

p₄ : PRESUPUESTO £ 200000

p₅ : PRESUPUESTO > 200000

Si el algoritmo COM_MIN es seguido, el conjunto Pr’ = {p₁, p₂, p₃, p₄, p₅} es obviamente completo y mínimo. Basado en Pr’, los siguientes seis minitérminos que forman a M se pueden definir como:

m₁: (LUGAR = "México") Ù (PRESUPUESTO £ 200000)

m₂: (LUGAR = "México") Ù (PRESUPUESTO > 200000)

m₃: (LUGAR = "Monterrey") Ù (PRESUPUESTO £ 200000)

m₄: (LUGAR = "Monterrey") Ù (PRESUPUESTO > 200000)

m₅: (LUGAR = "Puebla") Ù (PRESUPUESTO £ 200000)

m₆: (LUGAR = "Puebla") Ù (PRESUPUESTO > 200000)

Estos no son los únicos minitérminos que se pueden generar. Por ejemplo, es posible especificar predicados de la forma:

p_{1 Ù}p_{2 Ù}p_{3 Ù}p_{4 Ù}p₅

Sin embargo, las implicaciones obvias:

i₁: p₁ Þ Ø p₂ Ù Ø p₃

i₂: p₂ Þ Ø p₁ Ù Ø p₃

i₃: p₃ Þ Ø p₁ Ù Ø p₂

i₄: p₄ Þ Ø p₅

i₅: p₅ Þ Ø p₄

i₆: Ø p₄ Þ p₅

i₇: Ø p₅ Þ p₄

eliminan esos minitérminos y nos quedamos con m₁ hasta m₆. Observando la instancia de la base de datos del ejemplo, podríamos decir que las siguientes implicaciones se mantienen:

i₁: (LUGAR = "México") Ù NOT (PRESUPUESTO > 200000)

i₂: (LUGAR = "Monterrey") Ù NOT (PRESUPUESTO £ 200000)

i₃: NOT (LUGAR = "México") Ù (PRESUPUESTO £ 200000)

i₄: NOT (LUGAR = "Monterrey") Ù (PRESUPUESTO > 200000)

Sin embargo, recuerde que las implicaciones deben ser definidas de acuerdo a la semántica de la base de datos, no de acuerdo a los valores actuales. Algunos de los fragmentos definidos por M = { m₁, m₂, m₃, m₄, m₅, m₆ } pueden estar vacíos, pero ellos son, no obstante, fragmentos. No existe nada en la semántica de la base de datos que sugiera que las implicaciones i₈ hasta i₁₁ se satisfagan.

Los resultados de la fragmentación horizontal primaria de J forman seis fragmentos F_J = { J₁, J₂, J₃, J₄, J₅, J₆} de acuerdo a los minitérminos de M. Algunos de esos están vacíos y por lo tanto no se presentan aquí.

J₁

JNO	JNOMBRE	PRESUPUESTO	LUGAR
J1	Instrumentación	150000	Monterrey

J₃

JNO	JNOMBRE	PRESUPUESTO	LUGAR
J2	Desarrollo de bases de datos	135000	México

J₄

JNO	JNOMBRE	PRESUPUESTO	LUGAR
J5	CAD/CAM	250000	México

J₆

JNO	JNOMBRE	PRESUPUESTO	LUGAR
J4	Mantenimiento	310000	México

Correctitud de la Fragmentación Horizontal Primaria

Completitud. Ya que Pr’ es completo y mínimo, los predicados de selección son completos.
Reconstrucción. Si la relación R es fragmentada en F_R = (R₁, R₂, ..., R_r), entonces,

R = U " _Ri_{Î
FR}R_i

Fragmentos disjuntos. Los predicados minitérminos que forman la base de la fragmentación deben ser mutuamente exclusivos.

3.6 Fragmentación horizontal derivada

Una fragmentación horizontal derivada se define en la relación miembro de una liga de acuerdo a la operación de selección especificada en la relación propietaria. La liga entre las relaciones propietaria y miembro se define como una equi-junta. Una equi-junta se puede implementar por semi-juntas. Esto es importante, ya que se quiere particionar una relación miembro de acuerdo a la fragmentación de su propietario, pero se quiere que los fragmentos resultantes queden definidos únicamente en los atributos de la relación miembro.

Dada una liga L donde owner( L ) = S y member( L ) = R, las fragmentos horizontal derivados de R se definen como:

R_i = R> p _F S_i, 1 £ i £ w

donde w es el número máximo de fragmentos que serán definidos en R y

S_i = s _Fi ( S )

donde F_i es la fórmula de acuerdo a la cual la fragmentación horizontal primaria S_i se define.

Ejemplo 3.12. Dada la liga L1 donde owner( L₁ ) = S y member( L₁ ) = E. Se pueden agrupar a los ingenieros en dos grupos con base en su salario; aquellos que perciben menos de 30000 y aquellos que ganan mas de 30000. Los fragmentos E₁ y E₂ se definen como sigue

E₁ = E > p S₁

E₂ = E > p S₂

donde

S₁ = s _{SAL £ 30000} (S)

S₂ = s _{SAL >
30000} (S)

Así, el resultado de la fragmentación se presenta en las siguientes tablas

E₁

ENO	ENOMBRE	TITULO
E3	Armando Legarreta	Ingeniero Mecánico
E4	Beatriz Molleda	Programador
E7	Roberto Dávila	Ingeniero Mecánico

E₂

ENO	ENOMBRE	TITULO
E1	Juan Rodríguez	Ingeniero Eléctrico
E2	Miguel Sánchez	Analista de Sistemas
E5	Jorge Castañeda	Analista de Sistemas
E6	Luis Chávez	Ingeniero Eléctrico
E8	Julia Jiménez	Analista de Sistemas

Para llevar a cabo una fragmentación horizontal derivada se requieren tres entradas: el conjunto de particiones de la relación propietaria, la relación miembro, y el conjunto de predicados semi-junta entre el propietario y el miembro. El algoritmo de fragmentación es trivial y no será presentado aquí.

Correctitud de la Fragmentación Horizontal Derivada

Completitud. La completitud de una fragmentación horizontal primaria se basa en la los predicados de selección usados. Siempre que los predicados de selección sean completos, la fragmentación resultante es completa. Ya que la base del algoritmo de fragmentación es el conjunto de predicados completos y mínimos, Pr’, la completitud se garantiza siempre y cuando no se cometan errores al definir Pr’.

La completitud de una fragmentación horizontal derivada es un poco más difícil de definir. La dificultad se debe al hecho de que los predicados que determinan la fragmentación involucran a dos relaciones. Sea R la relación miembro de una liga cuyo propietario es la relación S, la cual es fragmentada por F_S = { S₁, S₂, ..., S_w }. Además, sea A el atributo de junta entre R y S. Entonces, por cada tupo t en R, debe haber un tuplo t’ en S tal que

t[A] = t’[A]

A esta regla se le conoce como integridad referencial y asegura que los tuplos de cualquier fragmento de la relación miembro están también en la relación propietaria.

Reconstrucción. Si la relación R es fragmentada en F_R = (R₁, R₂, ..., R_w), entonces,

R = U R_{i "}R_i Î F_R

Fragmentos Disjuntos. Es fácil establecer la condición de fragmentos disjuntos para fragmentación primaria. Sin embargo, para fragmentación derivada existe una semi-junta la cual incorpora cierta complejidad. Esta condición se puede garantizar si la gráfica de junta es simple. Si no es simple, es necesario consultar los valores de tuplos actuales. En general, no se quiere que un tuplo de una relación miembro se junte con dos o más tuplos de la relación propietario cuando esos tuplos están en diferentes fragmentos del propietario. Esto no siempre es fácil de establecer e illustra el porqué se desea siempre que los esquemas de fragmentación derivada tengan una gráfica de junta simple.

Ejemplo 3.13. En el ejemplo anterior los minitérminos predicados son

m₁: (SAL £ 30000)

m₂: (SAL > 30000)

Ya que m₁y m₂ son mutuamente exclusivos, la fragmentación de S es disjunta. Para la relación E, sin embargo, se requiere que

cada ingeniero tenga un solo título
cada título tenga un solo valor de salario asociado con él

Puesto que esas dos reglas se siguen de la semántica de la base de datos, la fragmentación de E con respecto a S es disjunta.

3.7 FRAGMENTACION VERTICAL

Una fragmentación vertical de una relación R produce fragmentos R₁, R₂, ..., R_r, cada uno de los cuales contiene un subconjunto de los atributos de R así como la llave primaria de R. El objetivo de la fragmentación vertical es particionar una relación en un conjunto de relaciones más pequeñas de manera que varias de las aplicaciones de usuario se ejecutarán sobre un fragmento. En este contexto, una fragmentación "óptima" es aquella que produce un esquema de fragmentación que minimiza el tiempo de ejecución de las consultas de usuario.

La fragmentación vertical ha sido estudiada principalmente dentro del contexto de los sistemas de manejo de bases de datos centralizados como una herramienta de diseño, la cual permite que las consultas de usuario traten con relaciones más pequeñas haciendo, por tanto, un número menor de accesos a páginas.

La fragmentación vertical es inherentemente más complicada que particionamiento horizontal ya que existe un gran número de alternativas para realizarla. Por lo tanto, se utilizan heurísticas para hacer el particionamiento. Los dos enfoques básicos son:

Agrupamiento. Inicia asignando cada atributo a un fragmento, y en cada paso, algunos de los fragmentos satisfaciendo algún criterio se unen para formar un solo fragmento.
División. Inicia con una sola relación realizar un particionamiento basado en el comportamiento de acceso de las consultas sobre los atributos.

Nos concentraremos aquí al estudio del enfoque divisional ya que, por un lado, su aplicación es más natural al enfoque de diseño "top-down". Además, el enfoque divisional genera fragmentos que no se traslapan mientras que el agrupamiento típicamente resulta en fragmentos traslapados. Por supuesto, la no traslapación no incluye a las llaves primarias.

Requerimientos de información para la fragmentación vertical

Como en el caso de la fragmentación horizontal, es necesario proporcionar información para poder realizar una adecuada fragmentación vertical. Ya que el particionamiento vertical coloca en un fragmento aquellos atributos que se accesan juntos, se presenta la necesidad de una medida que relacione la afinidad de los atributos, la cual indica qué tan relacionados están los atributos. Esta medida se obtiene por datos primitivos.

Dado un conjunto de consultas Q = { q₁, q₂, ..., q_q } que serán aplicadas a la relación R[A₁, A₂, ..., A_n], se define la función

Los vectores use( q_i, · ) son fáciles de definir si el diseñador conoce las aplicaciones que serán ejecutadas en la base de datos.

Ejemplo 3.14. Considere la relación J de la Figura 3.4. Suponga que las siguientes consultas se definen sobre esta relación:

q₁: Encuentre el presupuesto de un proyecto dado su número de identificación.

SELECT PRESUPUESTO

FROM J

WHERE JNO=valor

q₂: Encuentre los nombres y presupuestos de todos los proyectos.

SELECT JNOMBRE, PRESUPUESTO

FROM J

q₃: Encuentre los nombres de los proyectos en una ciudad dada.

SELECT JNOMBRE

FROM J

WHERE LUGAR=valor

q₄: Encuentre el presupuesto total de los proyectos en cada ciudad.

SELECT SUM(PRESUPUESTO)

FROM J

WHERE LUGAR=valor

Sean A₁=JNO, A₂=JNOMBRE, A₃=PRESUPUESTO, A₄=LUGAR. La función use se puede representar por la siguiente matriz:

La medida de afinidad entre dos atributos A_i y A_j de una relación R[A₁, A₂, ..., A_n] con respecto al conjunto de consultas Q = { q₁, q₂, ..., q_q } se define como sigue:

aff(A_i,A_j) = S _{las consultas que accesan Ai y
Aj} S _Sl (ref_l(q_k) acc_l(q_k))

donde, ref_l(q_k) es el número de accesos a los atributos (A_i, A_j) para cada ejecución de la consulta q_k en el sitio S_l y acc_l(q_k) es la frecuencia de acceso de la consulta previamente definida y modificada para incluir las frecuencias en sitios diferentes.

Ejemplo 3.15. Continuando con el ejemplo 3.14, suponga que cada consulta en dicho ejemplo accesa los atributos una vez durante cada ejecución (ref_l(q_k) = 1):

Las frecuencias de acceso de las consultas están dadas por:

La afinidad de los atributos A1 y A3 se puede medir como

ya que la única aplicación que accesa ambos atributos es q₁. La matriz de afinidades entre atributos, AA, es

Algoritmo de Agrupamiento (Clustering)

La tarea fundamental en el diseño de una fragmentación vertical es encontrar algún medio para agrupar los atributos de una relación basándose en los valores de afinidad entre atributos. La idea del algoritmo de agrupamiento es tomar la matriz de afinidades entre atributos (AA) y reorganizar el orden de los atributos para formar grupos en donde los atributos dentro de cada grupo presentan alta afinidad uno con otro.

El algoritmo de energía acotada (BEA por sus siglas en inglés) encuentra un ordenamiento de los atributos, de tal manera, que se maximiza la siguiente medida de afinidad global (AM):

donde,

Algoritmo 3.3 BEA

Entrada: La matriz de afinidades entre atributos AA.

Salida: La matriz de afinidades agrupada, CA, la cual es una perturbación de AA.

Iniciación: Coloque y fije una de las columnas de AA en CA.

Iteración: Coloque las restantes n-i columnas en las restantes i+1 posiciones en la matriz CA. Para cada columna, elija la ubicación que causa la mayor contribución a la medida de afinidad global.

Ordenamiento de renglones: Ordene los renglones de acuerdo al ordenamiento de columnas.

Para definir la mejor ubicación se define la contribución de una ubicación.

donde,

Ejemplo 3.16. Considere la siguiente matriz AA y la matriz correspondiente CA en donde A₁ y A₂ han sido colocados.

A_l colocar A₃ existen tres posibilidades:

Ordenamiento(0-3-1):

Ordenamiento(1-3-2):

Ordenamiento(2-3-4):

Por lo tanto, la matriz CA tiene la forma:

Cuando A4 es colocado, se obtiene la forma final de la matriz CA (después de la reorganización entre renglones):

Algoritmo de Particionamiento

El objetivo del particionamiento es encontrar conjuntos de atributos que son accesados de manera única, o a lo más, por conjuntos disjuntos de consultas. Considere la matriz de atributos agrupada de la Figura 3.5. Si se fija un punto a lo largo de la diagonal, se identifican dos conjuntos de atributos. Un conjunto es {A₁, …, A_i} está en la esquina superior izquierda y el segundo conjunto {A_i₊₁, …, A_n} está en la esquina inferior derecha. Al primer conjunto se le llama arriba y al segundo conjunto se le denomina abajo.

Considere ahora el conjunto de consultas Q = { q₁, q₂, ..., q_q } y defina el conjunto de aplicaciones que accesan únicamente a TA, a BA, o ambas. Defina

Figura 3.5. Localización del punto de división.

Considere ahora el conjunto de consultas Q = { q₁, q₂, ..., q_q } y defina el conjunto de aplicaciones que accesan únicamente a TA, a BA, o ambas. Defina

TQ = conjunto de aplicaciones que accesan únicamente a TA

BQ = conjunto de aplicaciones que accesan únicamente a BA

OQ = conjunto de aplicaciones que accesan tanto a TA como a BA

CTQ = número total de accesos a atributos por aplicaciones que accesan únicamente a TA

CBQ = número total de accesos a atributos por aplicaciones que accesan únicamente a BA

COQ = número total de accesos a atributos por aplicaciones que accesan únicamente tanto a TA como a BA

El problema es encontrar el punto a lo largo de la diagonal que maximiza la función objetivo

z = CTQ * CBQ - COQ²

La característica importante de esta expresión es que define dos fragmentos tales que los valores de CTQ y CBQ son tan similares como sea posible. Esto nos permite balancear las cargas de procesamiento cuando los fragmentos están distribuidos en varios sitios.

Existen dos complicaciones que tienen que ser consideradas:

El particionamiento puede ser formado en la parte media de la matriz CA. Aquí se debe aplicar un corrimiento circular de un renglón hacia arriba y una columna hacia la izquierda para encontrar el mejor punto de particionamiento. Si esto se realiza para todos los posibles corrimientos el algoritmo tomaría O(n²) pasos.
Es posible que se formen más de dos grupos. Aquí la estrategia sería tratan con 1, 2, …, n-1 puntos a lo largo de la diagonal y tratar de hallar el mejor punto de particionamiento para cada uno de ellos. Claramente, este algoritmo tomaría entonces O(2ⁿ) pasos.

Ejemplo 3.17. Cuando el algoritmo de particionamiento se aplica a la matriz CA para la relación J, el resultado es la definición de los fragmentos F_J = { J₁, J₂ }, donde J₁ = {A₁, A₃} y J₂ = {A₁, A₂, A₄}. Así

J₁ = { JNO, PRESUPUESTO }

J₂ = { JNO, JNOMBRE, LUGAR }

Correctitud de la Fragmentación Vertical

Completitud. La completitud de una fragmentación vertical es garantizada por el algoritmo de particionamiento. Ya que cada atributo de la relación global se asigna a uno de los fragmentos. Siempre y cuando el conjunto de atributos A sobre los cuales se define una relación R consiste de

A = TA U TB

la completitud de la fragmentación vertical se asegura.

Reconstrucción. La reconstrucción de la relación global original se hace por medio de la operación de junta. Así, para una relación R con fragmentación vertical F_R = { R₁, R₂, ..., R_r } y llave K

R = > < _KR_{i "}R_i Î F_R

Por lo tanto, siempre que R_i sea completo, la operación de junto reconstruirá adecuadamente R. Otro punto importante es que o cada R_i debe contener a la llave de R, o debe contener los identificadores de tuplo asignados por el sistema (TID).

Fragmentos Disjuntos. Existen dos casos:

Los TID no se considera que se traslapan ya que ellos son mantenidos por el sistema.
Las llaves duplicadas no se considera que se traslapan.

3.8 FRAGMENTACION HIBRIDA

En muchos casos una fragmentación horizontal o vertical de un esquema de una base de datos no será suficiente para satisfacer los requerimientos de aplicaciones de usuario. En este caso, una fragmentación vertical puede ser seguida de uno horizontal, o viceversa, produciendo un árbol de particionamiento estructurado, como se muestra en la Figura 3.6. Ya que los dos tipos de particionamiento se aplican uno después del otro, esta alternativa se le conoce como fragmentación híbrida.

Figura 3.6. Fragmentación híbrida.

Un buen ejemplo de la necesidad de la fragmentación híbrida es la relación J, con la cual se ha trabajado. En la Figura 3.7 se muestra el árbol de reconstrucción de la fragmentación híbrida de J. Inicialmente se aplica una fragmentación horizontal y posteriormente una fragmentación vertical.

Figura 3.7. Fragmentación híbrida de la relación J.

3.9 ASIGNAMIENTO DE FRAGMENTOS

El asignamiento de recursos entre los nodos de una red de computadoras es un problema que se ha estudiado de manera extensa. Sin embargo, la mayoría de este trabajo no considera el problema de diseño de bases de datos distribuidas, en lugar de eso considera el problema de ubicar archivos individuales en redes de computadoras.

El problema de asignamiento

Suponga que hay un conjunto de fragmentos F = { F₁, F₂, ..., F_n } y una red que consiste de los sitios S = { S₁, S₂, ..., S_m } en los cuales un conjunto de consultas Q = { q₁, q₂, ..., q_q } se van a ejecutar. El problema de asignamiento determina la distribución "óptima" de F en S. La optimalidad puede ser definida de acuerdo a dos medidas:

Costo mínimo. Consiste del costo de comunicación de datos, del costo de almacenamiento, y del costo procesamiento (lecturas y actualizaciones a cada fragmento). El problema de asignamiento, entonces, pretende encontrar un esquema de asignmiento que minimiza una función de costo combinada.
Rendimiento. La estrategia de asignamiento se diseña para mantener una métrica de rendimiento. Las dos métricas más utilizadas son el tiempo de respuesta y el "throughput" (número de trabajos procesados por unidad de tiempo).

En cualquier problema de optimización existen restricciones que se deben satisfacer. El caso de distribución de fragmentos, las restricciones se establecen sobre las capacidades de almacenamiento y procesamiento de cada nodo en la red.

Requerimientos de información

En la fase de asignamiento se necesita conocer información cuantitativa relativa a la base de datos, las aplicaciones que se utilizarán, la red de comunicaciones, las capacidades de procesamiento y de almacenamiento de cada nodo en la red.

Información sobre la base de datos. Es necesario conocer la selectividad de un fragmento F_j con respecto a una consulta q_i, esto es, el número de tuplos de F_j que será necesario accesar para procesar q_i. Este valor se denota como sel( F_j ). Así también, es necesario conocer el tamaño de cada fragmento, el cual está dado por:

size(F_j ) = card( F_j ) * length( F_j )

Información sobre las aplicaciones. Es necesario distinguir el número de lecturas que una consulta q_j hace a un fragmento F_j durante su ejecución, del número de escrituras. Se requiere de una matriz que indique que consultas actualizan cuales fragmentos. Una matriz similar se necesita para indicar las lecturas de consultas a fragmentos. Finalmente, se necesita saber cual es el nodo de la red que origina cada consulta.
Información sobre cada nodo de la red. Las medidas utilizadas son el costo unitario de almacenamiento de datos en un nodo y el costo unitario de procesamiento de datos en un nodo.
Información sobre la red de comunicaciones. Las medidas a considerar son: la velocidad de comunicación, el tiempo de latencia en la comunicación y la cantidad de trabajo adicional a realizar para una comunicación.

Asignamiento de archivos vs. Asignamiento de fragmentos

En el diseño de bases de datos distribuidas no se puede considerar similar al problema de distribución de archivos por las siguientes razones:

Los fragmentos no son archivos individuales. La colocación de un fragmento usualmente tiene un impacto en la colocación de otros fragmentos. Por lo tanto, es necesario mantener las relaciones entre fragmentos.
El acceso a las bases de datos es más complicado que a archivos. Los modelos de acceso remoto a archivos no se aplican. Es necesario considerar las relaciones entre el asignamiento de fragmentos y el procesamiento de consultas.
El costo que incurre el mantenimiento de la integridad de la información debe ser considerado en las bases de datos distribuidas.
El costo que incurre el control de concurrencia a una base de datos distribuida también debe ser considerado.

Modelo de Asignamiento

Se discute ahora un modelo de asignamiento que pretende minimizar el costo total de procesamiento y almacenamiento satisfaciendo algunas restricciones en el tiempo de respuesta. El modelo tiene la siguiente forma general:

min( Costo Total )

dadas

restricciones en el tiempo de respuesta

restricciones en las capacidades de almacenamiento

restricciones en el tiempo de procesamiento

A continuación se tratará de ampliar las componentes de este modelo. Se define la variable de decisión x_ij de la siguiente manera:

Costo total

La función de costo total tiene dos componentes: procesamiento de consultas y almacenamiento. Así, puede ser expresado de la siguiente forma:

donde QPC_i es el costo de procesamiento de la consulta q_i, y STC_jk es el costo de almacenar el fragmento F_j en el nodo S_k.

El costo de almacenamiento se puede expresar como

STC_jk = USC_k * size( F_j ) * x_jk

donde USC_k es el costo de almacenamiento unitario en el nodo S_k.

El costo de procesamiento de una consulta tiene dos componentes: el costo de procesamiento y el costo de transmisión. Esto se puede expresar como:

QPC_i = PC_i + TC_i

La componente de procesamiento involucra tres factores: el costo acceso (AC), el costo de mantenimiento de la integridad (IE) y el costo debido al control de concurrencia (CC). Así podemos expresar:

PC_i = AC_i + IE_i + CC_i

La especificación detallada de cada uno de esos factores de costo depende del algoritmo utilizado para realizar estas tareas. Sin embargo, el costo de acceso se puede especificar con algún detalle:

donde los primeros dos términos dan el número total de actualizaciones y lecturas realizadas por la consulta q_i en el fragmento F_j, y LPC_k es el costo unitario de procesamiento local, en S_k, de una unidad de trabajo.

Los costos del mantenimiento de la integridad y del control de concurrencia pueden ser calculados similarmente al costo de acceso. Sin embargo, éstos no se discutirán sino en los capítulos siguientes.

Respecto a la componente de transmisión, ésta puede separarse en el procesamiento de actualizaciones y de consultas (lecturas), dado que los tiempos de procesamiento para ellas son completamente diferentes. En las actualizaciones, es necesario informar a todos los nodos con réplicas, mientras que en las lecturas o consultas, es suficiente con accesar solo una de las copias. Más aún, al final de una solicitud de actualización, no existe una transmisión de datos de regreso mas que un mensaje de confirmación, mientras que una consulta puede resultar una transmisión significativa de datos.

La componente de actualizaciones de la función de transmisión es

El primer término es por el envío del mensaje de actualización desde el nodo de origen o(i) de q_i a todos los fragmentos con réplicas que necesitan ser actualizados. El segundo término es debido al mensaje confirmación. El costo de consulta se puede especificar como:

El primer término en TCR representa el costo de transmitir la solicitud de consulta a aquellos nodos que contienen copias de los fragmentos que necesitan ser accesados. El segundo término toma en cuenta la transmisión de los resultados de esos nodos al nodo de origen. La ecuación sólo considera de entre los nodos con copias del mismo fragmento, solo el nodo que produce el costo mínimo de transmisión. Ahora, la función del costo de transmisión para la consulta q_i puede ser especificada como:

TC_i = TCU_i + TCR_i

Restricciones

Las funciones de restricción se pueden especificar con un detalle similar a la función de costo total. Sin embargo, en lugar de describir tales funciones con profundidad, se indicará simplemente cual es su forma general. La restricción del tiempo de respuesta se debe especificar como:

tiempo de ejecución de q_i £ máximo tiempo de respuesta de q_i, " q_i Î Q

La restricción de almacenamiento se puede especificar como:

La restricción del tiempo de procesamiento es:

Métodos de solución

Es sabido que el problema de asignamiento establecido como en el modelo discutido pertenece a la clase de problemas NP-completos. Por lo tanto, es necesario buscar métodos heurísticos que produzcan soluciones aproximadas. Diferentes heurísticas se han usado a la solución del modelo de asignamiento entre las cuales se pueden mencionar: la solución al problema de la valija (knapsack), técnicas tipo "branch-and-bound" y algoritmos para el flujo de redes.

Ha habido varios intentos para reducir la complejidad del problema. Una estrategia ha sido asumir que todos los particionamientos posibles han sido determinados junto con sus costos asociados y sus beneficios en términos del procesamiento de consultas. El problema entonces, es modelado como la elección del particionamiento y asignamiento óptimos para cada relación. Otra simplificación frecuentemente empleada es ignorar inicialmente la replicación de datos y enconcontrar una solución óptima para el caso no replicado. La replicación se incorpora en un segundo paso el cual aplica un algoritmo ávido que inicia a partir de la solución no replicada y trata de mejorarla iterativamente.

3.9 ASIGNAMIENTO DE FRAGMENTOS

El problema de asignamiento

Costo mínimo. Consiste del costo de comunicación de datos, del costo de almacenamiento, y del costo procesamiento (lecturas y actualizaciones a cada fragmento). El problema de asignamiento, entonces, pretende encontrar un esquema de asignmiento que minimiza una función de costo combinada.
Rendimiento. La estrategia de asignamiento se diseña para mantener una métrica de rendimiento. Las dos métricas más utilizadas son el tiempo de respuesta y el "throughput" (número de trabajos procesados por unidad de tiempo).

Requerimientos de información

Información sobre la base de datos. Es necesario conocer la selectividad de un fragmento F_j con respecto a una consulta q_i, esto es, el número de tuplos de F_j que será necesario accesar para procesar q_i. Este valor se denota como sel( F_j ). Así también, es necesario conocer el tamaño de cada fragmento, el cual está dado por:

size(F_j ) = card( F_j ) * length( F_j )

Información sobre las aplicaciones. Es necesario distinguir el número de lecturas que una consulta q_j hace a un fragmento F_j durante su ejecución, del número de escrituras. Se requiere de una matriz que indique que consultas actualizan cuales fragmentos. Una matriz similar se necesita para indicar las lecturas de consultas a fragmentos. Finalmente, se necesita saber cual es el nodo de la red que origina cada consulta.
Información sobre cada nodo de la red. Las medidas utilizadas son el costo unitario de almacenamiento de datos en un nodo y el costo unitario de procesamiento de datos en un nodo.
Información sobre la red de comunicaciones. Las medidas a considerar son: la velocidad de comunicación, el tiempo de latencia en la comunicación y la cantidad de trabajo adicional a realizar para una comunicación.

Asignamiento de archivos vs. Asignamiento de fragmentos

En el diseño de bases de datos distribuidas no se puede considerar similar al problema de distribución de archivos por las siguientes razones:

Los fragmentos no son archivos individuales. La colocación de un fragmento usualmente tiene un impacto en la colocación de otros fragmentos. Por lo tanto, es necesario mantener las relaciones entre fragmentos.
El acceso a las bases de datos es más complicado que a archivos. Los modelos de acceso remoto a archivos no se aplican. Es necesario considerar las relaciones entre el asignamiento de fragmentos y el procesamiento de consultas.
El costo que incurre el mantenimiento de la integridad de la información debe ser considerado en las bases de datos distribuidas.
El costo que incurre el control de concurrencia a una base de datos distribuida también debe ser considerado.

Modelo de Asignamiento

min( Costo Total )

dadas

restricciones en el tiempo de respuesta

restricciones en las capacidades de almacenamiento

restricciones en el tiempo de procesamiento

A continuación se tratará de ampliar las componentes de este modelo. Se define la variable de decisión x_ij de la siguiente manera:

Costo total

La función de costo total tiene dos componentes: procesamiento de consultas y almacenamiento. Así, puede ser expresado de la siguiente forma:

donde QPC_i es el costo de procesamiento de la consulta q_i, y STC_jk es el costo de almacenar el fragmento F_j en el nodo S_k.

El costo de almacenamiento se puede expresar como

STC_jk = USC_k * size( F_j ) * x_jk

donde USC_k es el costo de almacenamiento unitario en el nodo S_k.

El costo de procesamiento de una consulta tiene dos componentes: el costo de procesamiento y el costo de transmisión. Esto se puede expresar como:

QPC_i = PC_i + TC_i

La componente de procesamiento involucra tres factores: el costo acceso (AC), el costo de mantenimiento de la integridad (IE) y el costo debido al control de concurrencia (CC). Así podemos expresar:

PC_i = AC_i + IE_i + CC_i

La especificación detallada de cada uno de esos factores de costo depende del algoritmo utilizado para realizar estas tareas. Sin embargo, el costo de acceso se puede especificar con algún detalle:

La componente de actualizaciones de la función de transmisión es

TC_i = TCU_i + TCR_i

Restricciones

tiempo de ejecución de q_i £ máximo tiempo de respuesta de q_i, " q_i Î Q

La restricción de almacenamiento se puede especificar como:

La restricción del tiempo de procesamiento es:

Métodos de solución

Hosted by www.Geocities.ws