| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| Dissertação de mestrado_41781 | 2.6 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Com o crescente interesse por sistemas baseados em modelos de linguagem de grande escala, muitas empresas procuram incorporar soluções de chatbots inteligentes para apoio interno e resposta a clientes. No entanto, as abordagens mais avançadas, como o Retrieval-Augmented Generation, continuam inacessíveis para pequenas e médias empresas (PMEs) devido aos elevados requisitos computacionais, dependência de infraestrutura em cloud e complexidade
de configuração.
Esta dissertação propõe uma solução modular e plug-and-play que permite a qualquer organização instalar e executar localmente um sistema RAG em hardware modesto, com ou sem GPU. A arquitetura desenvolvida suporta ingestão de documentos em múltiplos formatos, recuperação híbrida (densa e esparsa) e geração de respostas com modelos LLM quantizados, utilizando bibliotecas como llama.cpp, FAISS e SQLite FTS5. Um processo automático de benchmarking permite adaptar o sistema ao hardware disponível, sugerindo configurações ideais de forma transparente para o utilizador.
A solução inclui ainda um mecanismo de mitigação de alucinações, com pontuação de confiança, citações e recusa de resposta sempre que necessário. Os testes realizados demonstram que a aplicação é capaz de funcionar com eficácia em dispositivos com apenas CPU, oferecendo tempos de resposta inferiores a 9 segundos e elevada precisão em respostas fundamentadas.
Os resultados obtidos validam a viabilidade de democratizar o acesso a sistemas RAG personalizados, seguros e eficientes, especialmente em contextos empresariais com restrições orçamentais e requisitos de privacidade.
