编辑推荐:
随着大语言模型(LLM)在医疗领域应用渐广,医疗数据隐私保护迫在眉睫。研究人员围绕云医疗数据共享展开研究,提出基于格的功能加密(FE)方案 PQHealthcare,可实现高效安全的数据共享,为医疗数据隐私保护提供了新路径。
在数字化浪潮中,大语言模型(LLM)发展迅猛,尤其在医疗领域,其借助大量个人医疗数据进行训练,有望提升医疗服务的精准度与效率。然而,这一过程却隐藏着巨大的隐私危机。想象一下,患者的敏感医疗信息,如疾病史、基因数据等,一旦泄露,不仅会侵犯个人隐私,还可能引发一系列严重后果。此前,OpenAI 的 ChatGPT 就因数据泄露问题饱受诟病,不仅泄露用户支付数据,还致使三星敏感商业秘密外流,给各方带来了极大损失。据 IBM 数据显示,近 50% 的数据泄露事件发生在多云环境,公共云数据泄露的平均成本高达约 500 万美元。在这样的背景下,如何保障医疗数据在云服务中的安全共享,成为亟待解决的难题。
为了攻克这一难题,来自国内的研究人员积极投身于相关研究。他们开展了关于构建安全高效云医疗数据共享系统的研究,并取得了显著成果。该研究成果发表在《Computer Standards 》上,为医疗数据隐私保护开辟了新方向。
研究人员主要运用了以下关键技术方法:
一是采用功能加密(FE)技术。与传统公钥加密(PKE)不同,FE 可基于身份或属性对解密消息进行更细粒度的访问控制,适用于医疗数据部分披露的场景。
二是提出一种新的两阶段采样方法。通过精心设计,结合拒绝采样过程,克服了以往基于格的 FE 方案中模数过大导致效率低下的问题,提高了整体效率。
三是引入可搜索对称加密(SSE)。允许用户在不泄露搜索关键词和文件内容的情况下,对加密数据进行搜索,进一步增强了数据隐私保护。
下面来详细看看研究结果:
- 新采样方法:研究人员创新性地提出了一种更高效的两阶段采样方法。传统基于格的采样方法存在局限性,要么依赖陷门,要么需要特定的小工具矩阵,而该研究不具备这些条件。于是,他们借鉴传统 GPV 两阶段采样技术,重新定义参数。在第一阶段,从均匀分布中采样A,从离散高斯分布中选取y;第二阶段,根据给定的小T,从另一高斯分布中抽取v ,并通过计算和拒绝采样得到所需分布。这种方法无需设置过高的参数值,就能降低输出采样向量的范数,提高了各类 FE 构造的效率。
- IB-FEIP 方案构建:研究人员基于上述采样方法,构建了新的公共索引身份基内积功能加密(IB-FEIP)方案。他们选用ABB方案用于身份比较函数类,ALS方案用于内积函数类,使该方案在不可区分设置下具有自适应安全性。在云医疗数据共享场景中,该方案能有效保障数据安全。例如,用户利用主公共密钥加密原始医疗数据并上传至云服务器,LLM 参与方根据自身身份和训练属性向认证机构(CA)申请 FE 密钥,云服务器用该密钥解密相关数据进行处理后返回结果,整个过程确保了医疗数据的隐私保护。
- 集成数据共享与搜索方案:研究将内积 FE 外包数据共享方案与可搜索对称功能加密(SSE)方案相结合。一方面,用户可将医疗数据外包给云服务提供商,支持 LLM 在隐私保护下进行训练;另一方面,其他用户能对加密医疗数据进行私密搜索。在搜索过程中,用户 A 加密文件并构建结构化加密数据库上传至云服务器,用户 B 生成搜索令牌发送给云服务器,云服务器根据令牌在加密数据库中搜索并返回相关加密文件,实现了隐私保护下的高效数据搜索。
在研究结论与讨论部分,该研究提出的方案具有多方面重要意义。从数据隐私保护角度看,有效解决了医疗数据在云服务中共享和使用时的隐私泄露风险,无论是面对内部好奇的云服务方,还是外部未经授权的数据访问方,都能提供可靠的安全防护。从技术创新层面,新的两阶段采样方法为 FE 构造带来了效率提升,突破了传统方法的局限,且构建的 IB-FEIP 方案实现了效率与自适应安全性的统一,为云医疗数据共享技术发展提供了新的思路和方法。从应用前景而言,该研究成果可广泛应用于各类云医疗服务场景,如医疗大数据分析、远程医疗等,推动医疗行业数字化转型,助力提升医疗服务质量和效率,为未来智慧医疗的发展奠定了坚实基础。