Bendi新闻
>
FineWeb技术报告出炉!揭秘HuggingFace规模最大、质量最高预训练数据集
FineWeb技术报告出炉!揭秘HuggingFace规模最大、质量最高预训练数据集
6月前
新智元报道
新智元报道
【新智元导读】从大规模网络爬取、精细过滤到去重技术,通过FineWeb的技术报告探索如何打造高质量数据集,为大型语言模型(LLM)预训练提供更优质的性能。
创建数据集的准备工作
数据集是怎么去重和过滤的
数据去重
数据过滤
移除以标点符号结尾的行的比例≤0.12的文档(移除了10.14%的token) 移除在重复行中字符的比例≥0.1的文档(移除了12.47%的token) 移除短于30个字符的行的比例≥0.67的文档(移除了3.73%的token)
FineWeb数据集的表现
微信扫码关注该文公众号作者
来源:新智元
相关新闻
开源15T tokens!HuggingFace放出规模最大、质量最高预训练数据集ICLR 2024 | 图领域首个通用框架!任意数据集、分类问题都可搞定!华盛顿大学&北大&京东出品万亿token!史上最大多模态数据集诞生图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东一万亿token!34亿张图像,扩大10倍!史上最大开源多模态数据集MINT-1T发布!史上首个100%开源大模型重磅登场!破纪录公开代码/权重/数据集/训练全过程,AMD都能训进口豪车集体造反,内幕揭秘!2025 QS排名预测出炉!哥大、UCLA集体出局?进口豪车经销商集体造反内幕揭秘:真的太解气了!最高可获赔$375!加拿大雅虎数据泄露集体诉讼和解:用户索赔就能领钱Karpathy点赞,这份报告教你如何用 LLaMa 3创建高质量网络数据集生成式模型不只会「模仿」!哈佛、UCSB等最新成果:性能可超越训练集专家水平缺卡、缺电、缺组网技术!谁能为马斯克构建出全球最强大的 10 万卡超级集群?一夜疯涨1万亿!苹果启动史上最大规模回购:1100亿美元!全球资产集体嗨了!人民币暴力升值!期待节后大A表现!海归精英集结广州!4.27广州海归招聘会岗位大揭秘,不要错过求职好机会!校招 | CCTC三环集团2025届校招!大量非技术岗,带薪年假、人才补贴,多样福利,适合留学生靠Scaling Laws炼出4D版视频生成模型,多伦多大学北交大等携手开源81K高质量数据集用GPT-3.5生成数据集!北大天工等团队图像编辑新SOTA,可精准模拟物理世界场景今日arXiv最热NLP大模型论文:IBM研究院提出Genie方法,自动生成高质量数据集LAMM:多模态指令微调数据集、框架、评测基准苹果开源7B大模型,训练过程数据集一口气全给了,网友:开放得不像苹果支持华为鸿蒙智联!集刮痧、拔罐、热敷按摩、红光疗护于一身的迷你吸痧仪~用完一身舒畅!CVPR 2024 | COCO数据集升级!字节提出新一代数据集COCONut重磅!《相约今宵-2024澳洲春晚》悉尼节目单出炉!政商云集,明星闪耀,精彩不断!相约共度春节盛会!