机器学习在数据理解领域及上海光源生物医学数据库应用方面取得重要进展

近日,中国科学院上海应用物理研究所李勇平研究组在医学图像检索方面的文章《Bag-of-Features Based Medical Image Retrieval via Multiple Assignment and Visual Words Weighting》(doi: 10.1109/TMI.2011.2161673)被医学成像领域顶级期刊《IEEE Transactions on Medical Imaging》接收。不久之前,该研究小组在模式识别领域权威杂志《Pattern Recognition》上面发表了在蛋白质数据库检索方面的文章《Learning context-sensitive similarity by shortest path propagation》(doi: 10.1016/j.patcog.2011.02.007)。
基于上海光源大科学装置的发展和使用,生命科学领域将产生大量的蛋白质和医学图像数据。在这种情况下,如何对蛋白质和医学图像等数据库进行精确高效的检索,对推进相关领域研究的发展有着十分重要的意义。李勇平研究小组自2009年SSRF对外开放运行以来,将机器学习应用研究重点从生物特征识别(Biometrics)领域转向了SSRF数据理解方面,在医学图像的Bag-of-Features表达和蛋白质检索中的相似度学习这两个问题上,做出了创新性的研究成果:
   1.针对医学图像的Bag-of-Features表达中码本的量化和加权问题,突破传统的“0,1”量化的概念,创新性地提出了“多重软量化”的概念,并且对量化权重进行数学建模,得到了可以通过二次规划(QP)数学工具解的量化权重方法;另外,对于码本的加权问题,首次提出了利用每个码字构建弱分类器之后通过Ada-Boost算法来求取其权重的策略。相关论文被医学成像领域的顶级期刊《IEEE Transactions on Medical Imaging》接收。
   2.针对蛋白质数据库检索中两个蛋白质对比的相似度计算问题,突破传统的“两个蛋白质相似度只与这两个蛋白质有关”的思路,创新性地提出了“两个蛋白质相似度也与数据库中其他蛋白质相关” 的环境敏感相似度假设,并进一步探讨了“与哪些蛋白质相关”的问题,对数据集进行了图模型的表达,提出了利用两个蛋白质之间的最短路径对相似度进行扩散的计算方法。相关论文发表在模式识别领域权威杂志《Pattern Recognition》:Jingyan Wanga,etc. Pattern Recognition, Volume 44, Issues 10-11, October-November 2011, Pages 2367-2374.。
这两项工作主要由博士研究生王靖琰在李勇平研究员的指导下完成。该研究得到了973项目“基于上海光源针对重大疾病医学影像的若干关键问题研究”(2010CB834302)和“基于上海同步辐射光源的结构生物学技术和方法研究”(2011CB911100)的大力支持。