CONTEXTO: A notificação de eventos de segurança gera informações valiosas sobre problemas de segurança sistêmicos, mas, para compreender esses dados, é preciso usar ferramentas computacionais para analisar grandes volumes de dados qualitativos de forma eficiente. O processamento de linguagem natural (PLN) combinado com o aprendizado preditivo proporciona uma abordagem automatizada para avaliar esses dados e apoiar o trabalho dos analistas de segurança do paciente. OBJETIVOS: O objetivo deste estudo foi usar o PLN e técnicas de inteligência artificial para desenvolver uma abordagem generalizável, ampliável e confiável para classificar notificações de eventos, com o propósito de efetuar melhorias na segurança e qualidade do cuidado prestado ao paciente. MÉTODOS: Conjuntos de dados para 14 rótulos (temas) diferentes foram vetorizados usando uma abordagem de saco de palavras (bag of words), tf-idf ou integração de documentos, sendo então aplicados a uma série de algoritmos de classificação por meio de uma busca em grade de hiperparâmetros para derivar um modelo otimizado. As notificações também foram analisadas em busca dos termos fortemente associados a cada tema, por meio do cálculo de um escore F ajustado. RESULTADOS: A pontuação F(1) para cada modelo otimizado variou de 0,951 ("Queda") a 0,544 ("Ambiente"). A abordagem de saco de palavras demonstrou ser ideal para 12 dos 14 rótulos, e o algoritmo bayesiano ingênuo teve o melhor desempenho para nove rótulos. A máquina vetorial de suporte linear foi considerada ideal para três rótulos, e a XGBoost, para quatro dos 14 rótulos. Os rótulos com termos associados de forma mais distinta tiveram melhor desempenho do que os temas menos distintos, o que foi demonstrado por um coeficiente de correlação de Pearson de 0,634. CONCLUSÕES: Conseguimos demonstrar a adequação de um modelo analítico que aplica de forma ampla o PLN e a modelagem preditiva para categorizar notificações de segurança do paciente em diversas organizações de saúde. Esse modelo permite aos analistas identificar e estruturar mais rapidamente as informações contidas nos dados de segurança do paciente, o que pode melhorar a avaliação e o uso dessas informações ao longo do tempo.
doi: 10.1055/s-0041-1735620.
BACKGROUND: Patient safety event reports provide valuable insight into systemic safety issues but deriving insights from these reports requires computational tools to efficiently parse through large volumes of qualitative data. Natural language processing (NLP) combined with predictive learning provides an automated approach to evaluating these data and supporting the work of patient safety analysts. OBJECTIVES: The objective of this study was to use NLP and machine learning techniques to develop a generalizable, scalable, and reliable approach to classifying event reports for the purpose of driving improvements in the safety and quality of patient care. METHODS: Datasets for 14 different labels (themes) were vectorized using a bag-of-words, tf-idf, or document embeddings approach and then applied to a series of classification algorithms via a hyperparameter grid search to derive an optimized model. Reports were also analyzed for terms strongly associated with each theme using an adjusted F-score calculation. RESULTS: F(1) score for each optimized model ranged from 0.951 ("Fall") to 0.544 ("Environment"). The bag-of-words approach proved optimal for 12 of 14 labels, and the naïve Bayes algorithm performed best for nine labels. Linear support vector machine was demonstrated as optimal for three labels and XGBoost for four of the 14 labels. Labels with more distinctly associated terms performed better than less distinct themes, as shown by a Pearson's correlation coefficient of 0.634. CONCLUSIONS: We were able to demonstrate an analytical pipeline that broadly applies NLP and predictive modeling to categorize patient safety reports from multiple facilities. This pipeline allows analysts to more rapidly identify and structure information contained in patient safety data, which can enhance the evaluation and the use of this information over time.