Trabajo sobre el artículo:
Seis provocaciones para Big Data
de Danah Boyd y Kate Crawford
Trabajo para la asignatura Analitica del aprendizaje conectado
del Master de Educacion y comunicacion en redes sociales
Trabajo para la asignatura Analitica del aprendizaje conectado
del Master de Educacion y comunicacion en redes sociales
Este trabajo es un texto sintético analítico con las ideas claves del artículo de las autoras Boyd y Crawford, (2012) y con aportación de referencias a otros autores que tratan la misma temática.
El artículo a analizar fué presentado en el Instituto de Internet de Oxford en un simposium sobre las dinamicas de Internet y de la sociedad en septiembre del 2011 por lo que tiene antiguedad en algunos de sus ejemplos, pero sigue formando parte del debate actual en casi todo su discurso.
El Big Data consiste en una multitud de información producida al conectarse
e interactuar en la red y estos datos pueden producir ciertos beneficios
sociales y económicos.
Según indican Boyd y Crawford, (2012) los datos que aporta el big data son “por
y sobre las personas, las cosas y sus interacciones” en estos datos, se buscan
patrones de conducta, que se derivan del estudio entre las interconexiones de
datos.
En el siguiente enlace se aporta un artículo en el que se clasifican los
datos del Big Data en siete tipos de datos:
El autor clasifica los datos con el nombre de datos estructurados a
aquellos datos que se generan en bases normales de datos y que se han producido
mediante diversas formas, ya sea por haber sido creadas por una empresa,
provocadas al realizar una valoración, tramitadas al realizar una compra,
compiladas como los censos o las informaciones de nuestros datos personales, al
matrícular el coche, comprar la casa, o sacarte el DNI o el carnet de conducir.
Para estos datos se supone que has dado un consentimiento en las redes, porque
de manera voluntaria has realizado acciones que ayudan a que estén registrados
esos datos.
Por otro lado clasifica como datos no estructurados o semiestructurados, y
los de texto y no texto, que no están en bases de datos relacionales y que pueden
ser documentos XML y NoSQL o también en otros formatos como documentos de texto,
fotografías, audios, videos, pdf.
De los datos no estructurados, semiestructurados de texto y no texto están
los datos que pueden ser más controvertidos, los que se producen de forma
voluntaria por los usuarios de las redes sociales mediante mensajes, subir videos
o fotos a una plataforma y por último, no se pueden olvidar, los datos que se
generan al ser capturados de las acciones de las personas y en las que ellas no
tienen conocimiento de que esos datos se están produciendo y capturando, como
son el GPS, o cuando realizas búsquedas en la red te registran tus búsquedas.
En el trabajo de Boyd y Crawford (2012) se preguntan si ese análisis de los
datos de la red producirá un beneficio en nuestra sociedad o por el contrario
un perjuicio. Hoy en día mediante los datos de internet se puede detectar los
brotes de enfermedades infecciosas, pero aunque eso es un gran avance, no todo
son ventajas.
En el siguiente artículo la autora Perez,G. (2016) se cuestiona los
peligros del estudio de los Big data en salud pública y en epidemiología:
Perez,G. (2016) indica que los sesgos de información en el big data posibilitan
errores, como son el uso que hacen algunas empresas de los modelos Twitterbots
por los que dichas empresas emiten mensajes de manera automatizada para
aparecer mejor posicionadas en las redes, y añade, que aunque las leyes
europeas tienen leyes que protegen los datos, eso mismo no ocurre en otros países
com leyes más laxas y que precisamente los datos obtenidos en estos paisas no
suelen servir para revertir las situaciones analizadas en sus datos debido a la
pobreza y a la falta de medios sanitarios.
La recogida de datos se produce no solo en el mundo industrial sino en el
académico, surgiendo la ciencia del estudio de datos que pretende que ser un
aporte científico y objetivo para los estudios científicos sociológicos.
Mazzocchi
(2015) plantea la ciencia basada en macrodatos no como el fin de la teoría
científica sino como nuevas aportaciones a la ciencia “El Big Data y el mito de
una ciencia sin teoría en el siguiente artículo:
Las sociedades, según las autoras, están reguladas por cuatro fuerzas: el
mercado, la ley, las normas sociales y el código. y en el Big Data, estas
fuerzas están en conflicto, porque el mercado piensa en utilizar cualquier
medio de lucrarse a costa de recoger datos, la sociedad se asusta y pregunta
por la invasión del individuo en esa recogida y las leyes deben de buscar
protegernos del abuso del mercantilismo al plantear la recogida
El siguiente artículo se debate el tema de la privacidad de los datos y del
abuso de su uso:
La autora Soto,Y. (2017) se plantea el problema de una sociedad en la que
estamos siendo vigilados constantemente, mediante el uso de herramientas que
hemos adquirido voluntariamente, como son los móviles, tabletas o Pc. Soto,
analiza el proyecto PADRIS que recoge una gran cantidad de datos de salud,
obtenidos de la población de Cataluña y que en las bases de este proyecto se
recoge que esta información podría ser usada por terceros, por lo que podría
ser usada de manera incorrecta, y ejemplifica casos de mercantilismo como son
Amazon e Inditex.
En el artículo a analizar las autoras Boyd y Crawford, (2012) se plantean
seis preguntas claves en torno al Big data.
1.
La automatización de la investigación cambia la
definición de conocimiento.
En este apartado plantean como las ciencias humanísticas comienzan a
utilizar los datos numéricos y se preguntan por si estos datos del Big Data son
objetivos. El método científico requiere de la objetividad, y para que esta sea
real, hay que plantearse de dónde provienen los datos a analizar, qué datos se
van recoger y cuales se ignorarán y preguntarse por la objetividad en las decisiones
tomadas al escoger unos datos y dejar de lado otros.
La investigación científica ha cambiado y la recogida que se produce desde
las herramientas del Big Data tienen “limitaciones y restricciones
incorporadas” en dos puntos: las pérdidas de datos y el tiempo de acceso a
datos. Twitter o facebook como ejemplo de ello permiten la recogida de datos
recientes y descuidan y se olvidan de la recogida de datos antiguos.
En el artículo “Por qué el exceso de datos pone en peligro la investigación científica” Alkhateeb, (2017) habla de la automatización del proceso científico y de la incorporación de las máquinas en la investigación:
https://www.elmundo.es/papel/todologia/2017/06/02/593010c9268e3e4e5d8b4584.html
2. Los reclamos de
objetividad y precisión son engañosos.
Las autoras Boyd y Crawford, (2012) intentan en este punto definir si las
ciencias sociales pueden ser cuantificables y objetivas mediante el uso del Big
Data y el resultado es que no, que trabajar con Big Data todavía es subjetivo
debido a que la toma de decisiones de que datos se usan y cuáles no, ya exige
una interpretación subjetiva y por otro lado existe el problema de que los
datos de internet tengan errores por los vacíos y perdidas de datos que generan
y no podemos demostrar que los datos sean aleatorios ni representativos.
La interpretación debe de ser objetiva, las autoras lo relacionan con las
investigaciones en torno al número de Dunbar:
Según Dumbar son 150 las relaciones que un individuo realiza. Aquellas
investigaciones que limitaron a ese número su estudio ya estaban generando
sesgos que no eran objetivos
Sampedro (2017) en su artículo “Nos salvarán los números de la postverdad”
plantea que los números nos llevan por la racionalidad y el pensamiento
científico
Sampedro
(2017) plantea que los números usados correctamente te llevan por caminos
seguros pero en ocasiones se pretenden sustituir por hechos alternativos que
ocultan sus verdades.
3. Los datos más grandes no siempre son los mejores
Los científicos sociales tratan de evaluar la validez del trabajo científico
mediante el uso del Big Data argumentado que su trabajo es riguroso en la
recolección y análisis de datos.
Twitter demuestra que la recolección de datos producida desde esta
plataforma no es correcta, ya que algunos usuarios tienen múltiples cuentas,
algunas cuentas son utilizadas por varias personas (como ocurre con cuentas de
partidos, organismos, sindicatos o inclusos de candidatos políticos) y algunas
personas nunca crean una cuenta y por otro lado los tweets se pierden y
eliminan con frecuencia por contenidos incorrectos, por lo que un muestreo de
los datos de Twitter no podría representar a la sociedad.
Analicemos el artículo
del 2015 titulado: Analítica de datos en Twitter
Mir (2015) se plantea la
problemática de la recogida de datos en twitter y explica las razones por las
que para su estudio se limita a recoger una selección de entre los de las celebrities.
En la era digital las investigaciones basadas en datos muy pequeños, incluso
enfocándose solamente en un individuo, pueden resultar muy reveladoras, lo
importante es responder a las preguntas que generan la investigación.
En el siguiente documento se habla sobre que el exceso de datos, pone en
peligro la investigación científica
4. No todos los datos son equivalentes
Algunos estudios basados en redes intentan desentrañar las relaciones
sociales, incluso teniendo en cuenta la proximidad física que se puede
descubrir por la geo localización, pero las relaciones sociales son más
complejas, que dos personas estén en el mismo sitio, incluso que compartan el
mismo centro de estudios o de trabajo, no significa que se conozcan. Las
elecciones de amistades en las redes pueden no ser tus elecciones en el mundo
físico, ya que las motivaciones para elegir amigos en las redes pueden
contemplar otros parámetros como la canalización de la información o los
compromisos de trabajo. El contexto importa.
En el artículo titulado: Tus contactos de Facebook
¿son amigos de verdad? se trata el tema de si son amistades reales o se buscan
conocidos o personas que te interesen para canalizar la información que quieres
que te llegue
En el enlace siguiente presento el artículo
de Dans (2009) en el que se habla de la asimetría social entre las amistades
reales del mundo físico y las de las redes y de la memoria expandida que
producen las amistades en las redes mediante poder seguir relacionándote con
gente que no recordarías y que gracias al aporte de información adicional que
tienen las redes te permite poder ubicarlas en tu estructura memorística
Las Redes articuladas son las conexiones interpersonales que publicas en
las redes.
Las redes de comportamiento son las personas que se comunican entre sí
mediante mensajes de texto, etiquetados en fotos o que se encuentran físicamente
en el mismo espacio. Pero los
estudios de datos que intentan relacionar a las personas por encontrarse en el mismo espacio olvidan las complejidades
sociales, ya que la misma ubicación no significa que formen parte de tus redes
personales, lo que puede conducir a múltiples errores en los estudios que
trabajen las redes de comportamiento.
5. El solo hecho de que sea accesible no lo hace ético
Los datos del Big data pueden comprometer la privacidad, y no son recogidos
con permiso, por lo que no se deberían de poder utilizar sin un permiso. Hay
que asegurarse de que no haya un perjuicio para los individuos o las sociedades
por el uso de esa información, por otro lado se plantea la imposibilidad de que
un investigador pida consentimiento a las personas implicadas en una recogida
de datos masiva del Big data.
Este apartado hace hincapié en que lo que se publica en la red de manera
pública no implica que esté permitido su uso para otras finalidades públicas y
que algo publicado en un determinado contesto al extraerlo de ese contexto
puede producir un gran daño.
En este artículo se plantean la necesidad de un código ético para los
científicos de datos
6. El acceso limitado a Big Data crea nuevas divisiones digitales
Gran parte del entusiasmo que rodea a Big Data proviene de la percepción de
que ofrece un acceso fácil y barato a grandes cantidades de datos. pero este
acceso a los datos es diferente según para quién, ya que unas compañías no
venden sus datos, otras venden todos y otras ofrecen unos pocos datos para su
estudio. Por lo que se va a producir una brecha entre los que pueden acceder a
todos los datos de una empresa de manera libre, los que tienen que comprarlos y
los que no pueden comprarlos.
"Solo las empresas de redes sociales tienen acceso a datos sociales
realmente grandes, especialmente datos transaccionales. Un antropólogo que
trabaje para Facebook o un sociólogo que trabaje para Google tendrá acceso a
datos que el resto de la comunidad académica no tendrá " (Boyd y Crawford,
2012)
En el sistema de investigación mediante el Bigdata va a haber diferencias
entre los ricos del Big Data y los pobres del Big Data.
Las universidades bien dotadas economicamente favoreceran que sus
estudiantes puedan acceder a toda la información de datos, y las menos dotadas
no podrán favorecer que sus estudiantes desarrollen trabajos en estos medios.
En el siguiente artículo se habla de la división digital mediante ejemplos
en los que los investigadores tienen problemas con el acceso a la información
de las redes, por otro lado explica como Twitter, después de años vendiendo sus
datos, puso sus datos a disposición solo de 6 proyectos de entre 1000 que se
presentaron y que fueron becados para poder usar toda la información.
Para extraer datos hay que tener una serie de habilidades computacionales
Los investigadores que tienen acceso a todos los datos de una empresa por
trabajar desde dentro están menos motivados en sus investigaciones a
comprometer a la empresa y por lo tanto van a realizar estudios subjetivos
El Big Data está implicado cambios históricos y filosóficos. Hay un gran impulso
desde la industrial hacia la
recopilación y extracción de datos que permitan ganar más dinero mediante una
publicidad personificada y revisan nuestras interacciones en la red, así como
los gobierno en aras de la defensa del país realizan acciones de vigilancia.
Como conclusión al estudio de este artículo incorporo una mención al artículo “Grandes datos, grandes
desafíos para las ciencias sociales” que es una revisión actualizada de este artículo y trata muchos de los aspectos del
artículo analizado, en este artículo Meneses, M.E () explica la necesidad de
incorporación de procedimientos computacionales a los estudios humanísticos,
habla del origen etimológico de datos como derivado de la palabra dar, que
resulta interesante ya que todos los usuarios de internet damos de manera gratuita nuestra información, pero las empresas usan nuestra hueya digital para el mercantilismo de los datos, explica el Big Data como fuente
para el desarrollo ejemplificado en las posibilidades del control de epidemias
como el ébola. Define la diferencia entre el Big data y la Smoll data, los
atributos para entender el Big data que son la velocidad, volumen, variedad y
velocidad, habla de los problemas que se producen en el uso de los Big data en
el estudio de campos sociológicos, como son “la veracidad, objetividad,
representatividad y los dilemas éticos asociados” trata profundamente sobre la
objetividad y cita como una gran referencia el artículo de nuestras autoras.
REFERENCIAS
Alkhateed,
A. (2017) Por qué el exceso de datos pone
en peligro la investigación cientifica. Disponible en: https://www.elmundo.es/papel/todologia/2017/06/02/593010c9268e3e4e5d8b4584.html
BrandChats
(2014) 7 tipos de datos que comprende el
Big Data. Disponible en: http://www.brandchats.com/es/2014/09/11/7-tipos-de-datos-que-comprende-el-big-data/
Dans,
E. (2009) Redes sociales, asimetría y
número de Dunbar. Disponible en: https://www.enriquedans.com/2009/08/redes-sociales-asimetria-y-numero-de-dunbar.html
Ferrer,
A. (2016) Tus contactos en Facebook ¿son
amigos de verdad?. Disponible en: https://www.quo.es/tecnologia/a53175/tus-contactos-de-facebook-son-amigos-de-verdad/
Intramed
(2018) EL Big Data y el mito de una
ciencia sin teoría. Disponible en: https://www.intramed.net/contenidover.asp?contenidoID=92288
Meneses,
M.E. (2018) Grandes Datos, grandes desafíos
para las ciencias sociales. Disponible en: http://www.scielo.org.mx/pdf/rms/v80n2/0188-2503-rms-80-02-415.pdf
Micó,
J.L. (2019) Un código ético para los
científicos de datos. Disponible en: https://www.lavanguardia.com/tecnologia/20190124/454275359355/cientificos-datos-big-data-compromiso-etico.html
Mir,
D. (2015) Analítica de datos en Twitter. Disponible
en: https://ddd.uab.cat/pub/trerecpro/2015/hdl_2072_252402/PFC_DaniMirMontserrat.pdf
Plaza,
A. (2014) Si twitter no refleja la
sociedad, ¿por qué los científicos hurgan en tus datos. Disponible en: https://www.eldiario.es/hojaderouter/internet/redes_sociales-twitter-ciencia-investigacion-datos_0_320918959.html
Perez,
G. (2015) Peligros del uso de los Big
Data en la investigación en salud pública y en epidemiologia. Disponible en:
http://scielo.isciii.es/pdf/gs/v30n1/debate2.pdf
Sampedro,
J. (2017) Números contra poverdad. Disponible
en: https://elpais.com/elpais/2017/03/24/ciencia/1490376549_895754.html
Soto,
Y. (2017) Datos masivos con privacidad y
no contra privacidad. Disponible en:https://www.researchgate.net/publication/317304333_Datos_masivos_con_privacidad_y_no_contra_privacidad
Wikipedia(2019)
Número de Dunbar. Disponible en: https://es.wikipedia.org/wiki/N%C3%BAmero_de_Dunbar