多模态+数据工程新突破!连中SCI一区TOP刊!

张开发
2026/4/10 17:11:14 15 分钟阅读

分享文章

多模态+数据工程新突破!连中SCI一区TOP刊!
分享一个被低估但越来越受重视的方向多模态数据工程。有人问数据工程有什么好研究的模型架构才是创新核心这个认知已经过时了。高质量数据对多模态性能的影响懂的都懂。现在顶会顶刊对数据贡献的认可度明显提升NeurIPS、ICLR都有专门的数据赛道。当然热度上来后审稿也更挑剔简单清洗套路直接pass可以重点关注跨模态数据对齐策略、自动化标注流程、数据质量评估体系这些硬核方向。CVPR最近那篇多模态数据清洗框架就是个好例子详见下文对模型性能提升显著。为帮助更高效构建高质量数据集整理了该方向的创新点挖掘指南 baseline复现代码含注释 审稿避坑清单从选题到复现到投稿一条龙需要可取~点击领取标题: ByteHouse: ByteDance’s Cloud-Native Data Warehouse for Real-Time Multimodal Data Analytics关键词: OLAP, Multimodal Data, Cloud-Native, Query Optimization, Data Warehouse单位ByteDance, 上海交通大学方法: 该论文旨在解决现有数据分析系统在实时多模态数据分析上面临的I/O低效、查询优化不足以及资源解耦导致的性能下降等挑战。为此论文提出了名为ByteHouse的云原生数据仓库解决方案其核心工作原理是构建了一个分层的架构存储层集成了统一表引擎、SSD支持的集群级缓存(CrossCache)和虚拟文件系统(NexusFS)计算层支持分析、批处理和增量三种执行模式并针对混合查询进行了优化控制层则负责全局元数据、事务协调并采用基于历史执行轨迹和AI辅助的优化器。创新点:提出了ByteHouse这一云原生共享存储数据仓库实现了对实时多模态数据分析的高吞吐量摄取和超低延迟混合查询支持。设计了垂直整合的存储层通过统一表引擎、自描述文件格式、基于SSD的块级缓存和缓冲管理的虚拟文件系统降低了存储和计算节点间的I/O开销。提出了一种统一的执行框架结合了分析、批处理和增量模式并通过融合检索操作符和混合查询优化来处理复杂工作负载。通过在公共基准和字节跳动内部工作负载上的广泛评估验证了ByteHouse在分析查询ClickBench延迟降低25%以上和多模态数据处理Cohere和C4吞吐量提高50%以上方面显著优于现有系统。标题: SemBench: A Benchmark for Semantic Query Processing Engines关键词: Semantic Query Processing, LLM, Multimodal Data, Benchmark, Database单位康奈尔大学, 纽伦堡工业大学方法: 该论文旨在解决现有基准测试无法有效评估依赖大语言模型LLM生成和推理能力的语义查询处理引擎SQPEs的问题。论文提出了名为SemBench的基准测试其核心工作原理是扩展SQL并引入语义操作符通过自然语言指令配置利用LLM对多模态数据执行语义过滤、连接、映射、排序和分类等操作。SemBench通过多样化的场景、模态和操作符来模拟真实世界的复杂查询并利用手动标注数据生成真值以评估SQPEs的准确性、处理成本和可伸缩性。创新点:引入了一个针对新兴语义查询处理系统的新基准测试该基准包含在多模态数据上执行语义操作符的查询涵盖5个场景和55个查询支持文本、图像和音频三种模态分析。对包括学术界和工业界在内的多种语义查询处理引擎进行了初步实验研究提供了对这些系统当前优势和劣势的深入见解。分析了实验结果将性能差异与特定查询属性联系起来并研究了不同性能优化技术的影响为未来的研究方向提供了指导。通过引入不同查询类型聚合、检索、排序、分组对应的质量评估指标相对误差、F1分数、Spearman秩相关系数、调整兰德指数实现了对LLM输出固有的随机性和不确定性的量化评估。点击领取

更多文章