Włodzimierz Gogołek, Katarzyna Jarzyńska, Konrad Żukowski, Piotr Wierzbicki, Urszula Durlak
Citizen Big Data Refining on the example of the capital city of Warsaw. Analiza zasobów informacyjnych Big Data. Citizen Science na przykładzie miasta stołecznego Warszawy. Urban Development Issues, vol. 73, 08 https://doi.org/10.51733/udi.2022.73.08
Słowa kluczowe: City Life, Citizen Science, Big Data, information sources, current issues of the city, Refining Information, Artificial Intelligence, methodology, Citizen Big Data Refining
Keywords: życie miasta, nauka obywatelska, Big Data, źródła informacji, aktualne problemy miasta, rafinacja informacji, sztuczna inteligencja, metodologia, rafinacja Citizen Big Data |
ABSTRACT
In view of the growing usefulness of Big Data (BD) in the functioning of Citizen Science (CS), the primary purpose of the article was the attempt to document the outline of the methodology of Refining Information (RI, refining) in CS. The first stage of refining is the appropriate collection and aggregation of huge sets – Big Data – of information created by citizens. It is a new form of social participation in building huge information resources that can be effectively used in the search for the main issues of the city. The advantage of aggregated information, apart from its size, is that citizens’ personal entries are up-to-date. We also try to present an effective way of quantitative analysis of such information, using the method and tools of the Refining Information. Based on the results of the case study of the assessment of the state and dynamics of changes in the current topics in City Life the utility obtained thanks to the usage of RI was confirmed. Apart from showing the possibility of collecting thematic information from the network and presenting the tools for its effective analysis (RI), the final goal of the article is to present the results of our research – the current problems of the city. It is a form of confirming the effectiveness of RI in detecting the issues on the example of the Capital City of Warsaw. The results of the research – with the use of Refining Information in the activities of CS – and several dozen our empirical studies mentioned in the bibliography are an attempt to confirm the validity of the presented Citizen Big Data Refining methodology as part of the new form of CS.
In view of the growing usefulness of Big Data (BD) in the functioning of Citizen Science (CS), the primary purpose of the article was the attempt to document the outline of the methodology of Refining Information (RI, refining) in CS. The first stage of refining is the appropriate collection and aggregation of huge sets – Big Data – of information created by citizens. It is a new form of social participation in building huge information resources that can be effectively used in the search for the main issues of the city. The advantage of aggregated information, apart from its size, is that citizens’ personal entries are up-to-date. We also try to present an effective way of quantitative analysis of such information, using the method and tools of the Refining Information. Based on the results of the case study of the assessment of the state and dynamics of changes in the current topics in City Life the utility obtained thanks to the usage of RI was confirmed. Apart from showing the possibility of collecting thematic information from the network and presenting the tools for its effective analysis (RI), the final goal of the article is to present the results of our research – the current problems of the city. It is a form of confirming the effectiveness of RI in detecting the issues on the example of the Capital City of Warsaw. The results of the research – with the use of Refining Information in the activities of CS – and several dozen our empirical studies mentioned in the bibliography are an attempt to confirm the validity of the presented Citizen Big Data Refining methodology as part of the new form of CS.
ABSTRAKT
W związku z rosnącą przydatnością Big Data (BD) w funkcjonowaniu Nauki Obywatelskiej (Citizen Science, CS), głównym celem artykułu jest próba udokumentowania zarysu metodologii rafinacji informacji w nauce obywatelskiej. Pierwszym etapem rafinacji jest odpowiednie gromadzenie i agregowanie ogromnych zbiorów – Big Data – informacji wytwarzanych przez obywateli. Jest to nowa forma społecznej partycypacji w budowaniu zasobów informacji, które mogą być skutecznie wykorzystywane w wyszukiwaniu głównych problemów miasta. Zaletą informacji zagregowanych, oprócz ich wielkości, jest aktualność wpisów obywateli. Staramy się przedstawić efektywny sposób analizy ilościowej tych informacji, wykorzystując metodę i narzędzia Rafinacji Informacji (RI). Na podstawie wyników studium przypadku oceny stanu i dynamiki zmian aktualnych tematów w Życiu Miasta potwierdzono użyteczność uzyskaną dzięki wykorzystaniu RI. Oprócz ukazania możliwości zbierania informacji tematycznych w sieci i zaprezentowania narzędzi do ich efektywnej analizy (RI), celem artykułu jest przedstawienie wyników naszych badań – aktualnych problemów miasta. Jest to forma potwierdzenia skuteczności RI w wykrywaniu problemów na przykładzie Miasta Stołecznego Warszawy. Wyniki badań – z wykorzystaniem Rafinacji Informacji w działaniach Nauki obywatelskiej – oraz kilkadziesiąt naszych badań empirycznych wymienionych w bibliografii są próbą potwierdzenia zasadności prezentowanej metodologii Rafinacji Citizen Big Data jako elementu nowej formy nauki obywatelskiej.
W związku z rosnącą przydatnością Big Data (BD) w funkcjonowaniu Nauki Obywatelskiej (Citizen Science, CS), głównym celem artykułu jest próba udokumentowania zarysu metodologii rafinacji informacji w nauce obywatelskiej. Pierwszym etapem rafinacji jest odpowiednie gromadzenie i agregowanie ogromnych zbiorów – Big Data – informacji wytwarzanych przez obywateli. Jest to nowa forma społecznej partycypacji w budowaniu zasobów informacji, które mogą być skutecznie wykorzystywane w wyszukiwaniu głównych problemów miasta. Zaletą informacji zagregowanych, oprócz ich wielkości, jest aktualność wpisów obywateli. Staramy się przedstawić efektywny sposób analizy ilościowej tych informacji, wykorzystując metodę i narzędzia Rafinacji Informacji (RI). Na podstawie wyników studium przypadku oceny stanu i dynamiki zmian aktualnych tematów w Życiu Miasta potwierdzono użyteczność uzyskaną dzięki wykorzystaniu RI. Oprócz ukazania możliwości zbierania informacji tematycznych w sieci i zaprezentowania narzędzi do ich efektywnej analizy (RI), celem artykułu jest przedstawienie wyników naszych badań – aktualnych problemów miasta. Jest to forma potwierdzenia skuteczności RI w wykrywaniu problemów na przykładzie Miasta Stołecznego Warszawy. Wyniki badań – z wykorzystaniem Rafinacji Informacji w działaniach Nauki obywatelskiej – oraz kilkadziesiąt naszych badań empirycznych wymienionych w bibliografii są próbą potwierdzenia zasadności prezentowanej metodologii Rafinacji Citizen Big Data jako elementu nowej formy nauki obywatelskiej.
REFERENCES
Campos R., Mangaravite V., Pasquali A., Jorge A.M., Nunes C., Jatowt A., 2018, YAKE! Collectio-n-Independent Automatic Keyword Extractor, [in:] G. Pasi, B. Piwowarski, L. Azzopardi, A. Hanbury (eds.), Advances in Information Retrieval, ECIR. Lecture Notes in Computer Science, 10772, Springer, Cham. DOI: 10.1007/978-3-319-76941-7_80 [accessed: 12 December 2022].
Chen W., Quan-Haase A., 2018, Big Data Ethics and Politics: Toward New Understandings, Social Science Computer Review 38, 089443931881073. DOI: 10.1177/0894439318810734 [accessed: 12 December 2022].
Cappa F., 2022, Big data from customers and non-customers through crowdsourcing, citizen science and crowdfunding, Journal of Knowledge Management, 26, 11, 308 – 323. DOI: 10.1108/JKM-11-2021-0871 [accessed: 12 December 2022].
Cappa F., Franco S., Rosso F., 2022, Citizens and cities: Leveraging citizen science and big data for sustainable urban development, Business Strategy and the Environment, 31, 2.
Dash S., Shakyawar S., Sharma M., Kaushik S., 2019, Big data in healthcare: management, analysis and future prospects, Journal of Big Data, 6(1), 1 – 25.
Eberendu A., 2016, Unstructured Data: an overview of the data of Big Data, International Journal of Computer Trends and Technology, 38, 46 – 50. DOI: 10.14445/22312803/IJCTT-V38P109 [accessed: 12 December 2022].
Gogołek W., Kuczma P., 2013, Refining Network Information on the Example of Parliamentary Elections. Part 1. Blogs, Forums, Sentimental Analysis, Media Studies, 53, 1 – 21.
Gogołek W., 2022, Big Data On the Media. Dominants of the Media World, Studia Medioznawcze 2, 1171 – 1180.
Gogołek W., Jaruga D., Kowalik K., Celiński P., 2015, Research on the use of network information refining. Presidential and parliamentary elections 2015 [Z badań nad wykorzystaniem rafinacji informacji sieciowej. Wybory prezydenckie i parlamentarne 2015], Studia Medioznawcze, 3, 31 – 40.
Gogołek W., 2017, Refining Big Data, Bulletin of Science, Technology & Society 37(4), 212 – 217.
Gogołek W., Pruchnik P., 2021, Machine learning. Edukacja i koronawirus, [in:] D. Siemieniecka, K. Majewska (eds.), Teoretyczne i praktyczne aspekty pedagogiki medialnej, Wydawnictwo UMK, Toruń, 189 – 204. DOI: 10.12775/978-83-231-4552-3 [accessed: 12 December 2022].
Jaskułowski T., Gańczak F., Knoch K., Abryszeński P., Pejaś E., 2020, Raporty Polskie Stasi 1981 – 1989. Tom 1: W przededniu stanu wojennego: czerwiec – grudzień 1981, IPN, Szczecin.
Lotfian M., Ingensand J., Brovelli M.A., 2021, The Partnership of Citizen Science and Machine Learning: Benefits, Risks, and Future Challenges for Engagement, Data Collection, and Data Quality, Sustainability, 13, 8087. DOI: 10.3390/su13148087 [accessed: 12 December 2022].
Mazur M., 2019, Cambridge Analytica, [in:] O. Wasiuta, R. Klepka (eds.), Vademecum bezpieczeństwa informacyjnego, 1, AT Wydawnictwo – Wydawnictwo Libron, Kraków.
Maaten L. van der, Hinton G., 2008, Vizualizing data using tSNE, Journal of Machine Learning Research, 9, 2579– 2605.
McInnes L., Healy J., Melville J., 2020, UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. DOI: 10.48550/arXiv.1802.03426 [accessed: 12 December 2022].
Makulski P., 2018, The New Communication Technologies in the Management of Polish Cities. PhD thesis, University of Warsaw.
Mohammed A.H., Ali H. 2021, Survey of BERT (Bidirectional Encoder Representation Transformer) types, Journal of Physics: Conference Series, 1963.
Ogrean C., 2018, Relevance of Big Data for Business and Management. Exploratory Insights (Part I), Studies in Business and Economics, 13, 153 – 163. DOI: 10.2478/sbe-2018-0027 [accessed: 12 December 2022].
Rodrigues J.F., Florea L., Oliveira Maria C.F. de, Diamond D., Oliveira Jr O.N., 2021, Big data and machine learning for materials science, Discover Materials 1(1), 1 – 27.
SETI@home (w.d.). Access: https://en.wikipedia.org [accessed: 03 September 2021].
Sinha D.O., Richard K.F., Unsworth R., McKenzie L.J., Benjamin L., Jones. B.L., Leanne C., Cullen-Unsworth L.C., 2021, Citizen Science Driven Big Data Collection Requires Improved and Inclusive Societal Engagement; Front, Marine Science. DOI: https://doi.org/10.3389/fmars.2021.610397 [accessed: 12 December 2022].
Tanwar M., Duggal R., Khatri S.K., 2015, Unravelling unstructured data: A wealth of information in big data, [in:] 4th International Conference on Reliability, Infocom Technologies and Optimization (ICRITO) (Trends and Future Directions), 1 – 6. DOI: 10.1109/ ICRITO.2015.7359270 [accessed: 12 December 2022].
Wirth R., Hipp J., 2000, Crisp-dm: towards a standard process model for data mining. Access: https://disi.unibo.it [accessed: 12 December 2022].
Woch A., 2019, Statistic indicators of evaluation of literature popularity by the example of chosen books, [in:] A. Opolska--Bielańska (ed.), Logistyka i administrowanie w mediach. Zarządzanie Big Data, ASPRA-JR, Warszawa.
Campos R., Mangaravite V., Pasquali A., Jorge A.M., Nunes C., Jatowt A., 2018, YAKE! Collectio-n-Independent Automatic Keyword Extractor, [in:] G. Pasi, B. Piwowarski, L. Azzopardi, A. Hanbury (eds.), Advances in Information Retrieval, ECIR. Lecture Notes in Computer Science, 10772, Springer, Cham. DOI: 10.1007/978-3-319-76941-7_80 [accessed: 12 December 2022].
Chen W., Quan-Haase A., 2018, Big Data Ethics and Politics: Toward New Understandings, Social Science Computer Review 38, 089443931881073. DOI: 10.1177/0894439318810734 [accessed: 12 December 2022].
Cappa F., 2022, Big data from customers and non-customers through crowdsourcing, citizen science and crowdfunding, Journal of Knowledge Management, 26, 11, 308 – 323. DOI: 10.1108/JKM-11-2021-0871 [accessed: 12 December 2022].
Cappa F., Franco S., Rosso F., 2022, Citizens and cities: Leveraging citizen science and big data for sustainable urban development, Business Strategy and the Environment, 31, 2.
Dash S., Shakyawar S., Sharma M., Kaushik S., 2019, Big data in healthcare: management, analysis and future prospects, Journal of Big Data, 6(1), 1 – 25.
Eberendu A., 2016, Unstructured Data: an overview of the data of Big Data, International Journal of Computer Trends and Technology, 38, 46 – 50. DOI: 10.14445/22312803/IJCTT-V38P109 [accessed: 12 December 2022].
Gogołek W., Kuczma P., 2013, Refining Network Information on the Example of Parliamentary Elections. Part 1. Blogs, Forums, Sentimental Analysis, Media Studies, 53, 1 – 21.
Gogołek W., 2022, Big Data On the Media. Dominants of the Media World, Studia Medioznawcze 2, 1171 – 1180.
Gogołek W., Jaruga D., Kowalik K., Celiński P., 2015, Research on the use of network information refining. Presidential and parliamentary elections 2015 [Z badań nad wykorzystaniem rafinacji informacji sieciowej. Wybory prezydenckie i parlamentarne 2015], Studia Medioznawcze, 3, 31 – 40.
Gogołek W., 2017, Refining Big Data, Bulletin of Science, Technology & Society 37(4), 212 – 217.
Gogołek W., Pruchnik P., 2021, Machine learning. Edukacja i koronawirus, [in:] D. Siemieniecka, K. Majewska (eds.), Teoretyczne i praktyczne aspekty pedagogiki medialnej, Wydawnictwo UMK, Toruń, 189 – 204. DOI: 10.12775/978-83-231-4552-3 [accessed: 12 December 2022].
Jaskułowski T., Gańczak F., Knoch K., Abryszeński P., Pejaś E., 2020, Raporty Polskie Stasi 1981 – 1989. Tom 1: W przededniu stanu wojennego: czerwiec – grudzień 1981, IPN, Szczecin.
Lotfian M., Ingensand J., Brovelli M.A., 2021, The Partnership of Citizen Science and Machine Learning: Benefits, Risks, and Future Challenges for Engagement, Data Collection, and Data Quality, Sustainability, 13, 8087. DOI: 10.3390/su13148087 [accessed: 12 December 2022].
Mazur M., 2019, Cambridge Analytica, [in:] O. Wasiuta, R. Klepka (eds.), Vademecum bezpieczeństwa informacyjnego, 1, AT Wydawnictwo – Wydawnictwo Libron, Kraków.
Maaten L. van der, Hinton G., 2008, Vizualizing data using tSNE, Journal of Machine Learning Research, 9, 2579– 2605.
McInnes L., Healy J., Melville J., 2020, UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. DOI: 10.48550/arXiv.1802.03426 [accessed: 12 December 2022].
Makulski P., 2018, The New Communication Technologies in the Management of Polish Cities. PhD thesis, University of Warsaw.
Mohammed A.H., Ali H. 2021, Survey of BERT (Bidirectional Encoder Representation Transformer) types, Journal of Physics: Conference Series, 1963.
Ogrean C., 2018, Relevance of Big Data for Business and Management. Exploratory Insights (Part I), Studies in Business and Economics, 13, 153 – 163. DOI: 10.2478/sbe-2018-0027 [accessed: 12 December 2022].
Rodrigues J.F., Florea L., Oliveira Maria C.F. de, Diamond D., Oliveira Jr O.N., 2021, Big data and machine learning for materials science, Discover Materials 1(1), 1 – 27.
SETI@home (w.d.). Access: https://en.wikipedia.org [accessed: 03 September 2021].
Sinha D.O., Richard K.F., Unsworth R., McKenzie L.J., Benjamin L., Jones. B.L., Leanne C., Cullen-Unsworth L.C., 2021, Citizen Science Driven Big Data Collection Requires Improved and Inclusive Societal Engagement; Front, Marine Science. DOI: https://doi.org/10.3389/fmars.2021.610397 [accessed: 12 December 2022].
Tanwar M., Duggal R., Khatri S.K., 2015, Unravelling unstructured data: A wealth of information in big data, [in:] 4th International Conference on Reliability, Infocom Technologies and Optimization (ICRITO) (Trends and Future Directions), 1 – 6. DOI: 10.1109/ ICRITO.2015.7359270 [accessed: 12 December 2022].
Wirth R., Hipp J., 2000, Crisp-dm: towards a standard process model for data mining. Access: https://disi.unibo.it [accessed: 12 December 2022].
Woch A., 2019, Statistic indicators of evaluation of literature popularity by the example of chosen books, [in:] A. Opolska--Bielańska (ed.), Logistyka i administrowanie w mediach. Zarządzanie Big Data, ASPRA-JR, Warszawa.