Gerenciamento da identificação de pacientes e de tumores: programa de qualidade em um repositório de dados clínicos multicêntricos de câncer

Pallier K,
Prot O,
Naldi S,
et al.
Título original
Patient Identification and Tumor Identification Management: Quality Program in a Cancer Multicentric Clinical Data Warehouse
Resumo

Resumo
Contexto:
O Regional Basis of Solid Tumor (Base Regional de Tumor Sólido) - (RBST), um repositório de dados clínicos, centraliza informações relacionadas ao atendimento ao paciente com câncer em cinco estabelecimentos de saúde em dois departamentos franceses.
Objetivo:
Desenvolver algoritmos que combinem dados heterogêneos com pacientes “reais” e tumores “reais” em relação à identificação do paciente (IP) e identificação do tumor (IT).
Métodos:
Um banco de dados de gráficos programado em java Neo4j foi usado para construir o RBST com dados de aproximadamente 20.000 pacientes. O algoritmo IP usando a distância de Levenshtein foi baseado nos critérios regulatórios que identificam um paciente. Um algoritmo de IT foi construído com base em seis características: localização e lateralidade do tumor, data do diagnóstico, histologia, estado primário e metastático. Dada a natureza heterogênea e a semântica dos dados coletados, foi necessária a criação de repositórios (repositórios de órgãos, sinônimos e histologia). O algoritmo IT usou o coeficiente Dice para combinar tumores.
Resultados:
Os pacientes eram considerados se houve concordância completa do nome, sobrenome, sexo e data/mês/ano de nascimento. A esses parâmetros foram atribuídos pesos de 28%, 28%, 21% e 23% (com 18% para o ano, 2,5% para o mês e 2,5% para o dia), respectivamente. O algoritmo apresentou sensibilidade de 99,69% (intervalo de confiança de 95% [IC] [98,89%, 99,96%]) e especificidade de 100% (IC 95% [99,72%, 100%]). O algoritmo IT utilizou repositórios, os pesos foram atribuídos à data do diagnóstico e ao órgão associado (37,5% e 37,5%, respectivamente), à lateralidade (16%), à histologia (5%) e ao status metastático (4%). Este algoritmo teve uma sensibilidade de 71% (IC 95% [62,68%, 78,25%]) e uma especificidade de 100% (IC 95% [94,31%, 100%]).
Conclusão:
O RBST engloba dois controles de qualidade: IP e IT. Ele possibilita a implementação da estruturação transversal e a avaliação do desempenho do cuidado prestado.
 

Resumo original

Abstract
Background:
The Regional Basis of Solid Tumor (RBST), a clinical data warehouse, centralizes information related to cancer patient care in 5 health establishments in 2 French departments.
Purpose:
To develop algorithms matching heterogeneous data to “real” patients and “real” tumors with respect to patient identification (PI) and tumor identification (TI).
Methods:
A graph database programed in java Neo4j was used to build the RBST with data from ~20 000 patients. The PI algorithm using the Levenshtein distance was based on the regulatory criteria identifying a patient. A TI algorithm was built on 6 characteristics: tumor location and laterality, date of diagnosis, histology, primary and metastatic status. Given the heterogeneous nature and semantics of the collected data, the creation of repositories (organ, synonym, and histology repositories) was required. The TI algorithm used the Dice coefficient to match tumors.
Results:
Patients matched if there was complete agreement of the given name, surname, sex, and date/month/year of birth. These parameters were assigned weights of 28%, 28%, 21%, and 23% (with 18% for year, 2.5% for month, and 2.5% for day), respectively. The algorithm had a sensitivity of 99.69% (95% confidence interval [CI] [98.89%, 99.96%]) and a specificity of 100% (95% CI [99.72%, 100%]). The TI algorithm used repositories, weights were assigned to the diagnosis date and associated organ (37.5% and 37.5%, respectively), laterality (16%) histology (5%), and metastatic status (4%). This algorithm had a sensitivity of 71% (95% CI [62.68%, 78.25%]) and a specificity of 100% (95% CI [94.31%, 100%]).
Conclusion:
The RBST encompasses 2 quality controls: PI and TI. It facilitates the implementation of transversal structuring and assessments of the performance of the provided care.

Revista
Cancer Informatics
Data de publicação
doi
10.1177/11769351231172609