浏览全部资源
扫码关注微信
1. 湖北大学计算机与信息工程学院,湖北,武汉,430062
2. 中国科学院信息工程研究所信息安全国家重点实验室,北京,100093
3. 北京电子科技学院,北京,100070
4. 湖北大学计算机与信息工程学院,湖北,武汉,430062
5. 中国科学院信息工程研究所信息安全国家重点实验室,北京,100093
6. 北京电子科技学院,北京,100070
网络出版:2016-08-25,
纸质出版:2016
移动端阅览
梁俊杰, 李凤华, 刘琼妮, 等. MapReduce框架下的优化高维索引与KNN查询[J]. 电子学报, 2016,44(8):1873-1880.
Optimized High-Dimensional Index and KNN Query in MapReduce[J]. Acta Electronica Sinica, 2016, 44(8): 1873-1880.
梁俊杰, 李凤华, 刘琼妮, 等. MapReduce框架下的优化高维索引与KNN查询[J]. 电子学报, 2016,44(8):1873-1880. DOI: 10.3969/j.issn.0372-2112.2016.08.015.
Optimized High-Dimensional Index and KNN Query in MapReduce[J]. Acta Electronica Sinica, 2016, 44(8): 1873-1880. DOI: 10.3969/j.issn.0372-2112.2016.08.015.
针对大规模高维数据近似查询效率低下的问题,利用MapReduce编程模型在大规模集群上的数据与任务的并行计算与处理优势,提出MapReduce框架下大规模高维数据索引及KNN查询方法(iPBM),重点突破MapReduce数据块(block)的优化划分与各数据块对计算的共同贡献两大难题,利用两阶段数据划分策略并依据相关性与并行性原则将数据均匀分配到各数据块中,设计分布式的双层空间索引结构与并行KNN查询算法,检索时利用全局索引、局部索引与二维位码索引实现三层数据过滤,大幅缩小搜索范围并降低高维向量计算代价,实验表明iPBM对大规模高维数据的近似查询具有准确性、高效性和扩展性.
To address the low efficiency problem caused by the approximate large-scale high-dimensional data query
we propose a novel high-dimensional index and KNN query method
called iPBM
which exploits two main problems
including the optimal division on the MapReduce's data block and their contributions to the computing.Specifically
based on the principles of relativity and parallelity
iPBM employs a two-phase partitioning scheme of clustering and zoning to equally split the data to the available blocks
then we design a distributed two-layer index structure and parallel KNN query algorithm.With fully considering the global index
local index and two-dimensional bitcode property
iPBM achieves triple-layers filtering
and thus the number of queried area and the computing cost on the high-dimensional data is minimized.The accuracy
efficiency and scalability of the proposed iPBM are thoroughly evaluated via detailed simulations.
0
浏览量
789
下载量
5
CSCD
关联资源
相关文章
相关作者
相关机构