Repository logo
 

FCT (DCEA) - Mestrado em Engenharia Informática

Permanent URI for this collection

Browse

Recent Submissions

Now showing 1 - 10 of 59
  • DTIP: a scalable pipeline for traffic congestion detection using floating car data
    Publication . Silva, Gil Bernardo Cardoso Rebelo da; Soares, Christophe; Torres, José
    O congestionamento do tráfego urbano continua sendo um obstáculo crítico para a mobilidade, segurança e sustentabilidade nas cidades modernas. Apresentamos o Distributed Traffic Intelligence Pipeline (DTIP), um sistema modular e interpretável projetado para estimar níveis de congestionamento a partir de Floating Car Data (FCD), ou seja, trajetórias de veículos baseadas em Global Positioning System (GPS), e para apoiar a validação de relatórios de perigos relacionados ao tráfego. O framework proposto integra ferramentas de código aberto para processamento de dados, “map-matching” e extração de características, culminando num modelo de aprendizagem supervisionado baseado em Extreme Gradient Boosting (XGBoost). O modelo foi treinado com dados de Vila Nova de Gaia, Portugal, e alcançou um F1-score ponderado acima de 97%, distinguindo com sucesso quatro classes de severidade de congestionamento. Para avaliar ainda mais a plausibilidade das suas previsões, uma camada de simulação qualitativa utilizando Simulation of Urban Mobility (SUMO) foi incorporada. Os resultados da simulação alinharam-se bem com as saídas do modelo na maioria dos cenários de teste, reforçando a validade comportamental das estimativas de congestionamento. Desenvolvido com escalabilidade e implantação de baixa latência em mente, o DTIP oferece uma contribuição prática para o desenvolvimento de sistemas de monitoramento de tráfego urbano transparentes e eficientes. A sua natureza aberta e modular o torna adequado para adaptação a outras cidades ou para integração futura em infraestruturas de suporte a decisões em tempo real.
  • Framework modular de RAG plug-and-play para chatbots empresariais em hardware com recursos limitados
    Publication . Moutinho, Nuno Ricardo Moreira; Soares, Christophe; Moutinho, Nuno Ricardo Moreira
    Com o crescente interesse por sistemas baseados em modelos de linguagem de grande escala, muitas empresas procuram incorporar soluções de chatbots inteligentes para apoio interno e resposta a clientes. No entanto, as abordagens mais avançadas, como o Retrieval-Augmented Generation, continuam inacessíveis para pequenas e médias empresas (PMEs) devido aos elevados requisitos computacionais, dependência de infraestrutura em cloud e complexidade de configuração. Esta dissertação propõe uma solução modular e plug-and-play que permite a qualquer organização instalar e executar localmente um sistema RAG em hardware modesto, com ou sem GPU. A arquitetura desenvolvida suporta ingestão de documentos em múltiplos formatos, recuperação híbrida (densa e esparsa) e geração de respostas com modelos LLM quantizados, utilizando bibliotecas como llama.cpp, FAISS e SQLite FTS5. Um processo automático de benchmarking permite adaptar o sistema ao hardware disponível, sugerindo configurações ideais de forma transparente para o utilizador. A solução inclui ainda um mecanismo de mitigação de alucinações, com pontuação de confiança, citações e recusa de resposta sempre que necessário. Os testes realizados demonstram que a aplicação é capaz de funcionar com eficácia em dispositivos com apenas CPU, oferecendo tempos de resposta inferiores a 9 segundos e elevada precisão em respostas fundamentadas. Os resultados obtidos validam a viabilidade de democratizar o acesso a sistemas RAG personalizados, seguros e eficientes, especialmente em contextos empresariais com restrições orçamentais e requisitos de privacidade.
  • Blockchain-based system for document storage and signatures of consenting forms
    Publication . Pinto, Rúben José Saraiva; Soares, Christophe; Pereira, Ivo
    Nowadays, decentralized models connecting various users and entities have gained prominence across the healthcare, finance, and Supply Chain Domains. Decentralized applications represent a transformational approach to data management and transaction execution, emphasizing security, data integrity, and transparency. At the core of these applications lies the blockchain system. This decentralized architecture supports a framework that guarantees data immutability and ensures network-wide transparency through consensus mechanisms. This work aims to explore the application of a blockchain-based system for managing, storing, and signing consent forms within a decentralized framework. By leveraging smart contracts, the system facilitates the creation, modification, deletion, and storage of documents issued by authorized medical entities. Patients can sign these documents, with every alteration and transaction meticulously tracked and recorded, enhancing privacy and data integrity. In addition to these benefits, a private system with role-based access control restricts access to consent forms, as determined by the medical authority that created the documents. The proposed project of this theses aims to leverage these benefits by implementing a Corda application, a blockchain-based solution designed for managing consent forms within the healthcare ecosystem. This solution will enable healthcare providers, patients, and other stakeholders to securely access, share, and manage sensitive medical data with full confidence in its integrity and privacy. By incorporating decentralized technology, the project seeks to create a system where patient consent is stored immutably on the blockchain, ensuring that no unauthorized modifications can be made. Furthermore, the evaluation and testing section of this work reinforces the access security and permission enforcement mechanisms that are proposed and implemented. Rigorous tests and practical examples demonstrate the system's ability to protect patient data and uphold privacy standards, ensuring that only authorized users can interact with sensitive information.
  • Blockchain solution for UCO traceability in a recycling supply chain
    Publication . Lopes, João Filipe Santos; Soares, Christophe; Moreira, Rui Silva
    The recycling of Used Cooking Oil (UCO) is vital to a circular economy, converting waste oils from food production, restaurants, and households into valuable biofuels. This process promotes sustainability and provides an environmentally responsible way to reduce reliance on fossil fuels and carbon emissions. However, the UCO supply chain faces traceability and quality control challenges that can lead to inefficiencies, financial losses, regulatory non-compliance, waste, and even fraud. Implementing a robust traceability system can improve accountability, ensure regulatory compliance, and enhance overall transparency in the recycling process. This dissertation proposes a blockchain-based system to improve UCO traceability, addressing common challenges in the supply chain by tracking the UCO’s journey from its collection to its storage in a warehouse. The system was implemented using Hyperledger Fabric, selected for its flexibility and support for permissioned networks, with RabbitMQ to manage transaction requests across peer nodes. The study adopts a qualitative methodology that relies on a review of the literature and an analysis of related supply chain management scenarios. This research builds on Hardlevel’s UCO management practices to explore blockchain’s potential to improve traceability in the industry, leveraging Hardlevel’s role as a leading waste management company in Portugal.
  • Psoriasis support system based on semantic segmentation AI models
    Publication . Lopes, Toni Marcos Silva; Moreira, Rui Silva; Soares, Christophe
    Psoriasis is a chronic inflammatory skin disease characterized by the presence of lesions that vary in shape, size, and color. Accurate segmentation of these lesions from clinical images is crucial for effective diagnosis and treatment monitoring. However, the variability in image dimensions, lighting conditions, and the presence of noise in real-world datasets complicates the segmentation task. Additionally, available datasets for psoriasis lesion segmentation are often small, making it challenging to train deep learning models effectively without overfitting. The project aims to enhance the segmentation accuracy of psoriasis lesions by employing a range of AI models and optimizing their performance through the application of advanced pre-processing techniques and data augmentation strategies. The AI models tested include Mask R-CNN, U-Net, YOLOv8n, FCN, DeepLabV3+, BiSeNet, HRNet, PSPNet, and SegNet. Pre-processing techniques, such as bilateral smooth filters and adaptive median filters, were applied to enhance image quality and reduce noise. Furthermore, data augmentations, including random adjustments in brightness, contrast, cropping, rotation, flipping, and scaling, were used to simulate real-world variations and increase the robustness of the models. These augmentations were carefully replicated from related works to mimic their experimental setups. The evaluation of multiple AI models for psoriasis lesion segmentation demonstrated that applying effective pre-processing and data augmentation techniques significantly improves model performance. Among the tested models, FCN achieved the highest F1 score of 0.889, using a bilateral smooth filter and translation augmentations. U-Net and SegNet followed closely, with U-Net reaching an F1 score of 0.885 and SegNet 0.880, both benefiting from similar pre-processing and augmentation strategies. Mask R-CNN and BiseNet also showed competitive results, underscoring the importance of carefully selected augmentations that mimic real-world variability. These findings highlight the value of pre-processing and augmentation in enhancing model generalization, particularly in small, diverse datasets. In addition to the AI-based segmentation work, the project also incorporates a mobile application designed to assist patients in tracking their psoriasis lesions over time. This application enables users to monitor whether lesions are improving or worsening, providing valuable insights for deciding when to consult a dermatologist. By helping patients recognize early signs of deterioration, the application plays a crucial role in supporting more proactive and informed healthcare decisions.
  • Sistema assistido para seleção de RH (SA4S-RH)
    Publication . Mota, Samuel Marques; Moreira, Rui Silva; Pereira, Ivo
    A complexidade envolvida na seleção de candidatos pelas empresas exige a aplicação de diversas tecnologias, que desempenham um papel crucial na otimização da triagem e na escolha dos profissionais mais adequados para cada posição. As metodologias tradicionais apoiam-se sobretudo na correspondência direta (matching) de palavras-chave (keywords) relevantes extraídas do currículo e da descrição da vaga. Contudo, estas limitam-se à avaliação superficial, sendo pouco adaptativas devido à grande variação semântica da linguagem. Para resolver esse problema, foi proposta a pipeline SA4S-RH, onde foram usadas ferramentas com base na análise de processamento de linguagem natural, para analisar e interpretar o contexto das skills apresentadas de cada candidato com base na análise textual profunda e a atribuição de uma skill na taxonomia ESCO com recurso a um modelo de linguagem (Large Language Model). Esta abordagem permitiu a normalização das competências extraídas de cada candidato e dos requisitos da descrição da vaga para poder ser feita uma comparação justa. Paralelamente, esta abordagem permite tirar conclusões sobre o estado atual do mercado de trabalho, como as competências mais procuradas e as mais em falta. Para avaliar os resultados obtidos pelo modelo de linguagem (Large Language Model) na tarefa de atribuição de entidades (Entity Linking) da taxonomia ESCO, foram definidas métricas claras e mensuráveis, como a taxa de acerto em relação a um dataset sintético, anotado com a entidade ESCO esperada e a atribuída pelo modelo. Essa abordagem permitiu uma avaliação objetiva do desempenho da pipeline SA4S-RH, com foco na precisão do modelo na correspondência entre as menções de Skills extraídas e as entidades da taxonomia ESCO. Os resultados obtidos pela aplicação da pipeline SA4S-RH mostraram uma promissora capacidade na utilização de LLM para tarefas de processamento de linguagem natural, na tarefa de Entity Linking. A precisão de 70,63%, alcançada no reconhecimento correto de Skills, indica que a utilização de LLMs para tarefas de Entity Linking pode ser eficaz em contextos onde a identificação de habilidades profissionais a partir de descrições textuais é crítica, bem como na análise de vagas de emprego ou currículos.
  • Uma proposta de data mining para análise de dados referentes aos incêndios florestais ocorridos em Portugal
    Publication . Almeida Júnior, Paulo César de; Soares, Christophe; Torres, José
    Incêndios florestais representam um desafio mundial expressivo, exigindo uma compreensão aprofundada de seus fatores desencadeantes para uma gestão eficaz. Este estudo aborda a necessidade de prevenção, detecção e supressão de incêndios, bem como a consideração das interações ecológicas envolvidas. A mineração de dados de incidentes históricos de incêndios florestais revela-se crucial para a previsão e a compreensão desses eventos. Sendo assim a pesquisa se concentra na construção de modelos preditivos, baseados em algoritmos de aprendizado de máquina, um modelo de aprendizagem supervisionada, que relaciona variáveis independentes (como datas de ocorrências, localidades, duração, índices de severidade meteorológica e de perigo de incêndios e causas) com uma variável dependente (a classe de área ardida). Dois pontos fundamentais são abordados: uma análise exploratória de dados de incêndios ocorridos em Portugal entre 2011 e 2022 e a criação de um modelo preditivo para classificar a faixa de área ardida em registros históricos do conjunto de dados. Os resultados revelaram insights significativos. Visto que a análise exploratória dos dados forneceu uma visão abrangente dos incêndios, identificando áreas suscetíveis e destacando o impacto da ação humana na ampliação desses incidentes. Os fatores meteorológicos, representados pelos índices de severidade meteorológica e risco de incêndio, demonstram uma associação direta com o aumento das ocorrências. A pesquisa superou desafios iniciais, como o desbalanceamento de classes, por meio do método Synthetic Minority Oversampling Technique (SMOTE), resultando em modelos de alta qualidade. O Random Forest, após o balanceamento das classes, emergiu como uma abordagem promissora, obtendo métricas de desempenho notáveis, incluindo uma accuracy de 96% e valores de F1-score consistentemente acima de 87%. As várias análises e dados estatísticos gerados por esta pesquisa contribuem para a compreensão e a prevenção de incêndios florestais, com implicações práticas na gestão desses eventos. A capacidade de predição aprimorada e a identificação de fatores-chave oferecem uma base sólida para estratégias de prevenção e resposta mais eficazes.
  • Machine learning for earthquake damage detection: a comparative analysis of algorithm performance
    Publication . Costa, André Manuel Alves; Gouveia, Feliz Ribeiro; Silva, Vítor Emanuel Marta da
    This work aims to analyse and improve the results of machine learning algorithms for estimating damage in buildings following an earthquake, thus enabling rapid post-earthquake assessment to prevent further physical, economic and social damage. Using real datasets, nine algorithms were tested and compared: Ridge Regressor, Lasso Regressor, Support Vector Regressor, Decision Tree, Random Forest, Gradient Boost, Extreme Gradient Boost, Artificial Neural Networks and Multi-layer Perceptron. The key findings of the research resulted in the demonstration of the importance of dataset practicality, while encompassing heterogeneity of buildings, and highlights the positive impact of data transformation on algorithm performance when compared to previous research papers lacking such transformations. Furthermore, it was concluded that the Artificial Neural Network algorithm consistently outperforms others, justifying its academic and practical preference despite the longer training times and reaffirming its significance in earthquake damage prediction. It was possible to assess that other algorithms such as Gradient Boost, Extreme Gradient Boost and Random Forest are acceptable, practical, understandable and reliable alternatives. These findings contribute to the advance of earthquake engineering and highlight the potential of Machine Learning in post-earthquake risk mitigation.
  • Blockchain timetabling scheduling system
    Publication . Pereira, Bruno Miguel Batista; Pereira, Ivo; Soares, Christophe
    In today’s world, how individuals organize their lives is increasingly vital. Everyone has their way of managing time. This shows how important it is to have schedules that match their rhythms. Offering individuals the chance to tailor their schedules would greatly benefit many. This thesis presents a potential solution to this widespread issue. The system proposed in this research offers a solution to the described challenge. It brings together two main aspects, the creation of personal schedules within boundaries set by employers, whether they be companies, universities, or other management entities. The intriguing and democratic aspect of this system is its second phase. Those who will use the system can also voice their preferences. The system will produce a range of schedules, allowing users to vote on their favored option. These votes are stored on a blockchain, ensuring enhanced reliability, transparency, and security that other methods might not offer. This system is applicable across a broad spectrum of sectors and situations. This scheduling tool works for many different places, like hospitals, workplaces, schools, and many others. The university scenario was more detailed and explored in this thesis as a test case. To handle the high computational demands, was opted for an innovative approach. Used Graphics Processing Unit (GPU)s instead of traditional Central processing unit (CPU)s for the scheduling component. The GPU’s inherent capabilities make parallel operations faster and generation quicker. The findings from this study suggest that such a system can be applied in real-life scenarios with promising results. It also demonstrates that using GPUs was the right choice in terms of performance and resource optimization. To sum up, this system combines a tool for creating schedules with blockchain voting to provide a complete solution for generating schedules. In addition to efficient resource distribution, it also ensures fairness and trust in decision-making. It does this by integrating its important parts. This research significantly contributes to the fields of optimization and constraint satisfaction, with potential applications extending beyond the educational scenario discussed here.
  • Airmon: sistema IoT de monitorização e classificação da ocupação em salas de aula
    Publication . Vargas, João Diogo Silvestre; Sobral, Pedro; Moreira, Rui Silva
    A gestão dos parâmetros ambientais em espaços fechados é de extrema importância para manter a salubridade e conforto dos recintos, principalmente em espaços públicos muito frequentados. Em particular, em ambientes escolares, a má gestão destes parâmetros, pode impactar negativamente o bemestar dos alunos e docentes, manifestando-se em dificuldades de concentração, fadiga e/ou dores de cabeça, afetando, consequentemente, o processo de ensino-aprendizagem. A utilização de inteligência artificial para classificar a ocupação desses espaços, oferece a oportunidade de otimizar a sua gestão e planeamento, tornando o processo educacional mais eficiente e adaptado às necessidades dos intervenientes. Este trabalho tem como objetivo contribuir para uma possível solução para a lacuna existente relativamente à gestão de parâmetros ambientais, através da conceção e implementação de um sistema de monitorização de baixo custo e alta escalabilidade, visando a recolha e agregação precisa de dados ambientais, oriundos de diversas salas de aula, distribuídas por diferentes estabelecimentos de ensino e com a capacidade de integrar todos os que se pretendam associar ao projeto. Foram desenvolvidas caixas equipadas com um conjunto diversificado de sensores de baixo custo e consumo energético. O sistema disponibiliza uma interface intuitiva para o acesso e monitorização em tempo real de variáveis como os níveis de CO2, humidade, temperatura e partículas, referentes a cada sala de aula das escolas monitorizadas. Adicionalmente, os dados ambientais foram complementados com a indicação da ocupação das salas, através da colaboração da comunidade escolar, fornecendo assim uma solução que respeita a privacidade das pessoas envolvidas, não requerendo a utilização de métodos de recolha de dados invasivos, como câmaras. A estes dados foram aplicadas técnicas de inteligência artificial com o intuito de classificar a ocupação das salas de aula, obtendo uma acurácia de, no mínimo, 83% na classificação da ocupação com um modelo geral para todas as salas de aula e de, pelo menos, 85% quando treinadas para uma sala específica.