Trabajo sobre el artículo:

Seis provocaciones para Big Data

de Danah Boyd y Kate Crawford
Trabajo para la asignatura Analitica del aprendizaje conectado
del Master de Educacion y comunicacion en redes sociales

Este trabajo es un texto sintético analítico con las ideas claves del artículo de las autoras Boyd y Crawford, (2012) y con aportación de referencias a otros autores que tratan la misma temática.

El artículo a analizar fué presentado en el Instituto de Internet de Oxford en un simposium sobre las dinamicas de Internet y de la sociedad en septiembre del 2011 por lo que tiene antiguedad en algunos de sus ejemplos, pero sigue formando parte del debate actual en casi todo su discurso.

El Big Data consiste en una multitud de información producida al conectarse e interactuar en la red y estos datos pueden producir ciertos beneficios sociales y económicos.

Según indican Boyd y Crawford, (2012) los datos que aporta el big data son “por y sobre las personas, las cosas y sus interacciones” en estos datos, se buscan patrones de conducta, que se derivan del estudio entre las interconexiones de datos.

En el siguiente enlace se aporta un artículo en el que se clasifican los datos del Big Data en siete tipos de datos:

http://www.brandchats.com/es/2014/09/11/7-tipos-de-datos-que-comprende-el-big-data/

El autor clasifica los datos con el nombre de datos estructurados a aquellos datos que se generan en bases normales de datos y que se han producido mediante diversas formas, ya sea por haber sido creadas por una empresa, provocadas al realizar una valoración, tramitadas al realizar una compra, compiladas como los censos o las informaciones de nuestros datos personales, al matrícular el coche, comprar la casa, o sacarte el DNI o el carnet de conducir. Para estos datos se supone que has dado un consentimiento en las redes, porque de manera voluntaria has realizado acciones que ayudan a que estén registrados esos datos.

Por otro lado clasifica como datos no estructurados o semiestructurados, y los de texto y no texto, que no están en bases de datos relacionales y que pueden ser documentos XML y NoSQL o también en otros formatos como documentos de texto, fotografías, audios, videos, pdf.

De los datos no estructurados, semiestructurados de texto y no texto están los datos que pueden ser más controvertidos, los que se producen de forma voluntaria por los usuarios de las redes sociales mediante mensajes, subir videos o fotos a una plataforma y por último, no se pueden olvidar, los datos que se generan al ser capturados de las acciones de las personas y en las que ellas no tienen conocimiento de que esos datos se están produciendo y capturando, como son el GPS, o cuando realizas búsquedas en la red te registran tus búsquedas.

En el trabajo de Boyd y Crawford (2012) se preguntan si ese análisis de los datos de la red producirá un beneficio en nuestra sociedad o por el contrario un perjuicio. Hoy en día mediante los datos de internet se puede detectar los brotes de enfermedades infecciosas, pero aunque eso es un gran avance, no todo son ventajas.

En el siguiente artículo la autora Perez,G. (2016) se cuestiona los peligros del estudio de los Big data en salud pública y en epidemiología:

http://scielo.isciii.es/pdf/gs/v30n1/debate2.pdf

Perez,G. (2016) indica que los sesgos de información en el big data posibilitan errores, como son el uso que hacen algunas empresas de los modelos Twitterbots por los que dichas empresas emiten mensajes de manera automatizada para aparecer mejor posicionadas en las redes, y añade, que aunque las leyes europeas tienen leyes que protegen los datos, eso mismo no ocurre en otros países com leyes más laxas y que precisamente los datos obtenidos en estos paisas no suelen servir para revertir las situaciones analizadas en sus datos debido a la pobreza y a la falta de medios sanitarios.

La recogida de datos se produce no solo en el mundo industrial sino en el académico, surgiendo la ciencia del estudio de datos que pretende que ser un aporte científico y objetivo para los estudios científicos sociológicos.

Mazzocchi (2015) plantea la ciencia basada en macrodatos no como el fin de la teoría científica sino como nuevas aportaciones a la ciencia “El Big Data y el mito de una ciencia sin teoría en el siguiente artículo:

https://www.intramed.net/contenidover.asp?contenidoID=92288

Las sociedades, según las autoras, están reguladas por cuatro fuerzas: el mercado, la ley, las normas sociales y el código. y en el Big Data, estas fuerzas están en conflicto, porque el mercado piensa en utilizar cualquier medio de lucrarse a costa de recoger datos, la sociedad se asusta y pregunta por la invasión del individuo en esa recogida y las leyes deben de buscar protegernos del abuso del mercantilismo al plantear la recogida

El siguiente artículo se debate el tema de la privacidad de los datos y del abuso de su uso:

https://www.researchgate.net/publication/317304333_Datos_masivos_con_privacidad_y_no_contra_privacidad

La autora Soto,Y. (2017) se plantea el problema de una sociedad en la que estamos siendo vigilados constantemente, mediante el uso de herramientas que hemos adquirido voluntariamente, como son los móviles, tabletas o Pc. Soto, analiza el proyecto PADRIS que recoge una gran cantidad de datos de salud, obtenidos de la población de Cataluña y que en las bases de este proyecto se recoge que esta información podría ser usada por terceros, por lo que podría ser usada de manera incorrecta, y ejemplifica casos de mercantilismo como son Amazon e Inditex.

En el artículo a analizar las autoras Boyd y Crawford, (2012) se plantean seis preguntas claves en torno al Big data.

1. La automatización de la investigación cambia la definición de conocimiento.

En este apartado plantean como las ciencias humanísticas comienzan a utilizar los datos numéricos y se preguntan por si estos datos del Big Data son objetivos. El método científico requiere de la objetividad, y para que esta sea real, hay que plantearse de dónde provienen los datos a analizar, qué datos se van recoger y cuales se ignorarán y preguntarse por la objetividad en las decisiones tomadas al escoger unos datos y dejar de lado otros.

La investigación científica ha cambiado y la recogida que se produce desde las herramientas del Big Data tienen “limitaciones y restricciones incorporadas” en dos puntos: las pérdidas de datos y el tiempo de acceso a datos. Twitter o facebook como ejemplo de ello permiten la recogida de datos recientes y descuidan y se olvidan de la recogida de datos antiguos.

En el artículo “Por qué el exceso de datos pone en peligro la investigación científica” Alkhateeb, (2017) habla de la automatización del proceso científico y de la incorporación de las máquinas en la investigación:

https://www.elmundo.es/papel/todologia/2017/06/02/593010c9268e3e4e5d8b4584.html

2. Los reclamos de objetividad y precisión son engañosos.

Las autoras Boyd y Crawford, (2012) intentan en este punto definir si las ciencias sociales pueden ser cuantificables y objetivas mediante el uso del Big Data y el resultado es que no, que trabajar con Big Data todavía es subjetivo debido a que la toma de decisiones de que datos se usan y cuáles no, ya exige una interpretación subjetiva y por otro lado existe el problema de que los datos de internet tengan errores por los vacíos y perdidas de datos que generan y no podemos demostrar que los datos sean aleatorios ni representativos.

La interpretación debe de ser objetiva, las autoras lo relacionan con las investigaciones en torno al número de Dunbar:

https://es.wikipedia.org/wiki/N%C3%BAmero_de_Dunbar

Según Dumbar son 150 las relaciones que un individuo realiza. Aquellas investigaciones que limitaron a ese número su estudio ya estaban generando sesgos que no eran objetivos

Sampedro (2017) en su artículo “Nos salvarán los números de la postverdad” plantea que los números nos llevan por la racionalidad y el pensamiento científico

https://elpais.com/elpais/2017/03/24/ciencia/1490376549_895754.html

Sampedro (2017) plantea que los números usados correctamente te llevan por caminos seguros pero en ocasiones se pretenden sustituir por hechos alternativos que ocultan sus verdades.

3. Los datos más grandes no siempre son los mejores

Los científicos sociales tratan de evaluar la validez del trabajo científico mediante el uso del Big Data argumentado que su trabajo es riguroso en la recolección y análisis de datos.

Twitter demuestra que la recolección de datos producida desde esta plataforma no es correcta, ya que algunos usuarios tienen múltiples cuentas, algunas cuentas son utilizadas por varias personas (como ocurre con cuentas de partidos, organismos, sindicatos o inclusos de candidatos políticos) y algunas personas nunca crean una cuenta y por otro lado los tweets se pierden y eliminan con frecuencia por contenidos incorrectos, por lo que un muestreo de los datos de Twitter no podría representar a la sociedad.

Analicemos el artículo del 2015 titulado: Analítica de datos en Twitter

https://ddd.uab.cat/pub/trerecpro/2015/hdl_2072_252402/PFC_DaniMirMontserrat.pdf

Mir (2015) se plantea la problemática de la recogida de datos en twitter y explica las razones por las que para su estudio se limita a recoger una selección de entre los de las celebrities.

En la era digital las investigaciones basadas en datos muy pequeños, incluso enfocándose solamente en un individuo, pueden resultar muy reveladoras, lo importante es responder a las preguntas que generan la investigación.

En el siguiente documento se habla sobre que el exceso de datos, pone en peligro la investigación científica

https://www.elmundo.es/papel/todologia/2017/06/02/593010c9268e3e4e5d8b4584.html

4. No todos los datos son equivalentes

Algunos estudios basados en redes intentan desentrañar las relaciones sociales, incluso teniendo en cuenta la proximidad física que se puede descubrir por la geo localización, pero las relaciones sociales son más complejas, que dos personas estén en el mismo sitio, incluso que compartan el mismo centro de estudios o de trabajo, no significa que se conozcan. Las elecciones de amistades en las redes pueden no ser tus elecciones en el mundo físico, ya que las motivaciones para elegir amigos en las redes pueden contemplar otros parámetros como la canalización de la información o los compromisos de trabajo. El contexto importa.

En el artículo titulado: Tus contactos de Facebook ¿son amigos de verdad? se trata el tema de si son amistades reales o se buscan conocidos o personas que te interesen para canalizar la información que quieres que te llegue

https://www.quo.es/tecnologia/a53175/tus-contactos-de-facebook-son-amigos-de-verdad/

En el enlace siguiente presento el artículo de Dans (2009) en el que se habla de la asimetría social entre las amistades reales del mundo físico y las de las redes y de la memoria expandida que producen las amistades en las redes mediante poder seguir relacionándote con gente que no recordarías y que gracias al aporte de información adicional que tienen las redes te permite poder ubicarlas en tu estructura memorística

https://www.enriquedans.com/2009/08/redes-sociales-asimetria-y-numero-de-dunbar.html

Las Redes articuladas son las conexiones interpersonales que publicas en las redes.

Las redes de comportamiento son las personas que se comunican entre sí mediante mensajes de texto, etiquetados en fotos o que se encuentran físicamente en el mismo espacio. Pero los estudios de datos que intentan relacionar a las personas por encontrarse en el mismo espacio olvidan las complejidades sociales, ya que la misma ubicación no significa que formen parte de tus redes personales, lo que puede conducir a múltiples errores en los estudios que trabajen las redes de comportamiento.

5. El solo hecho de que sea accesible no lo hace ético

Los datos del Big data pueden comprometer la privacidad, y no son recogidos con permiso, por lo que no se deberían de poder utilizar sin un permiso. Hay que asegurarse de que no haya un perjuicio para los individuos o las sociedades por el uso de esa información, por otro lado se plantea la imposibilidad de que un investigador pida consentimiento a las personas implicadas en una recogida de datos masiva del Big data.

Este apartado hace hincapié en que lo que se publica en la red de manera pública no implica que esté permitido su uso para otras finalidades públicas y que algo publicado en un determinado contesto al extraerlo de ese contexto puede producir un gran daño.

En este artículo se plantean la necesidad de un código ético para los científicos de datos

https://www.lavanguardia.com/tecnologia/20190124/454275359355/cientificos-datos-big-data-compromiso-etico.html

6. El acceso limitado a Big Data crea nuevas divisiones digitales

Gran parte del entusiasmo que rodea a Big Data proviene de la percepción de que ofrece un acceso fácil y barato a grandes cantidades de datos. pero este acceso a los datos es diferente según para quién, ya que unas compañías no venden sus datos, otras venden todos y otras ofrecen unos pocos datos para su estudio. Por lo que se va a producir una brecha entre los que pueden acceder a todos los datos de una empresa de manera libre, los que tienen que comprarlos y los que no pueden comprarlos.

"Solo las empresas de redes sociales tienen acceso a datos sociales realmente grandes, especialmente datos transaccionales. Un antropólogo que trabaje para Facebook o un sociólogo que trabaje para Google tendrá acceso a datos que el resto de la comunidad académica no tendrá " (Boyd y Crawford, 2012)

En el sistema de investigación mediante el Bigdata va a haber diferencias entre los ricos del Big Data y los pobres del Big Data.

Las universidades bien dotadas economicamente favoreceran que sus estudiantes puedan acceder a toda la información de datos, y las menos dotadas no podrán favorecer que sus estudiantes desarrollen trabajos en estos medios.

En el siguiente artículo se habla de la división digital mediante ejemplos en los que los investigadores tienen problemas con el acceso a la información de las redes, por otro lado explica como Twitter, después de años vendiendo sus datos, puso sus datos a disposición solo de 6 proyectos de entre 1000 que se presentaron y que fueron becados para poder usar toda la información.

https://www.eldiario.es/hojaderouter/internet/redes_sociales-twitter-ciencia-investigacion-datos_0_320918959.html

Para extraer datos hay que tener una serie de habilidades computacionales

Los investigadores que tienen acceso a todos los datos de una empresa por trabajar desde dentro están menos motivados en sus investigaciones a comprometer a la empresa y por lo tanto van a realizar estudios subjetivos

El Big Data está implicado cambios históricos y filosóficos. Hay un gran impulso desde la industrial hacia la recopilación y extracción de datos que permitan ganar más dinero mediante una publicidad personificada y revisan nuestras interacciones en la red, así como los gobierno en aras de la defensa del país realizan acciones de vigilancia.

Como conclusión al estudio de este artículo incorporo una mención al artículo “Grandes datos, grandes desafíos para las ciencias sociales” que es una revisión actualizada de este artículo y trata muchos de los aspectos del artículo analizado, en este artículo Meneses, M.E () explica la necesidad de incorporación de procedimientos computacionales a los estudios humanísticos, habla del origen etimológico de datos como derivado de la palabra dar, que resulta interesante ya que todos los usuarios de internet damos de manera gratuita nuestra información, pero las empresas usan nuestra hueya digital para el mercantilismo de los datos, explica el Big Data como fuente para el desarrollo ejemplificado en las posibilidades del control de epidemias como el ébola. Define la diferencia entre el Big data y la Smoll data, los atributos para entender el Big data que son la velocidad, volumen, variedad y velocidad, habla de los problemas que se producen en el uso de los Big data en el estudio de campos sociológicos, como son “la veracidad, objetividad, representatividad y los dilemas éticos asociados” trata profundamente sobre la objetividad y cita como una gran referencia el artículo de nuestras autoras.

http://www.scielo.org.mx/pdf/rms/v80n2/0188-2503-rms-80-02-415.pdf

REFERENCIAS

Alkhateed, A. (2017) Por qué el exceso de datos pone en peligro la investigación cientifica. Disponible en: https://www.elmundo.es/papel/todologia/2017/06/02/593010c9268e3e4e5d8b4584.html

BrandChats (2014) 7 tipos de datos que comprende el Big Data. Disponible en: http://www.brandchats.com/es/2014/09/11/7-tipos-de-datos-que-comprende-el-big-data/

Dans, E. (2009) Redes sociales, asimetría y número de Dunbar. Disponible en: https://www.enriquedans.com/2009/08/redes-sociales-asimetria-y-numero-de-dunbar.html

Ferrer, A. (2016) Tus contactos en Facebook ¿son amigos de verdad?. Disponible en: https://www.quo.es/tecnologia/a53175/tus-contactos-de-facebook-son-amigos-de-verdad/

Intramed (2018) EL Big Data y el mito de una ciencia sin teoría. Disponible en: https://www.intramed.net/contenidover.asp?contenidoID=92288

Meneses, M.E. (2018) Grandes Datos, grandes desafíos para las ciencias sociales. Disponible en: http://www.scielo.org.mx/pdf/rms/v80n2/0188-2503-rms-80-02-415.pdf

Micó, J.L. (2019) Un código ético para los científicos de datos. Disponible en: https://www.lavanguardia.com/tecnologia/20190124/454275359355/cientificos-datos-big-data-compromiso-etico.html

Mir, D. (2015) Analítica de datos en Twitter. Disponible en: https://ddd.uab.cat/pub/trerecpro/2015/hdl_2072_252402/PFC_DaniMirMontserrat.pdf

Plaza, A. (2014) Si twitter no refleja la sociedad, ¿por qué los científicos hurgan en tus datos. Disponible en: https://www.eldiario.es/hojaderouter/internet/redes_sociales-twitter-ciencia-investigacion-datos_0_320918959.html

Perez, G. (2015) Peligros del uso de los Big Data en la investigación en salud pública y en epidemiologia. Disponible en: http://scielo.isciii.es/pdf/gs/v30n1/debate2.pdf

Sampedro, J. (2017) Números contra poverdad. Disponible en: https://elpais.com/elpais/2017/03/24/ciencia/1490376549_895754.html

Soto, Y. (2017) Datos masivos con privacidad y no contra privacidad. Disponible en:https://www.researchgate.net/publication/317304333_Datos_masivos_con_privacidad_y_no_contra_privacidad

Wikipedia(2019) Número de Dunbar. Disponible en: https://es.wikipedia.org/wiki/N%C3%BAmero_de_Dunbar

Claraluzfernandezvecino

sábado, 16 de marzo de 2019

Analitica del aprendizaje conectado

En el artículo “Por qué el exceso de datos pone en peligro la investigación científica” Alkhateeb, (2017) habla de la automatización del proceso científico y de la incorporación de las máquinas en la investigación:

https://www.elmundo.es/papel/todologia/2017/06/02/593010c9268e3e4e5d8b4584.html

CUADERNO DE BITÁCORA VIRTUAL: ETNOGRAFÍA ARMÓNICA