Bendi新闻
>
南大周志华团队8年力作!「学件」系统解决机器学习复用难题,「模型融合」涌现科研新范式
南大周志华团队8年力作!「学件」系统解决机器学习复用难题,「模型融合」涌现科研新范式
10月前
新智元报道
新智元报道
【新智元导读】南京大学周志华教授团队推出的北冥坞,可以供研究者和用户像HuggingFace一样上传,使用机器学习模型。而且还创造性地通过基座系统,使不同的模型能够协同工作,应对复杂的任务,为全世界机器学习社区提供了一种全新的研究范式。
HuggingFace是目前最火热的机器学习开源社区,汇集30万个不同的机器学习模型,有超过10万个应用可供用户访问和使用。
如果HuggingFace上这30万个模型,可以自由组合,共同完成新的学习任务,那会是一种什么样的画面?
其实在HuggingFace问世的2016年,南京大学周志华教授就提出了「学件」(Learnware)概念,描绘了这样的蓝图。
最近,南京大学周志华教授团队推出了一个这样的平台——北冥坞。
地址:https://bmwu.cloud/
论文地址:https://arxiv.org/abs/2401.14427
学件由机器学习模型和描述模型的规约构成,即「学件 = 模型 + 规约」。
学件的规约由「语义规约」和「统计规约」两部分组成:
语义规约通过文本对模型的类型及功能进行描述; 统计规约则通过各类机器学习技术,刻画模型所蕴含的统计信息。
学件基座系统
机器学习在很多领域取得了巨大成功,但依然面临着诸多问题,例如需要大量的训练数据和高超的训练技巧、持续学习的困难、灾难性遗忘的风险以及数据隐私/所有权的泄漏等。
缺乏训练数据/技能:即使对于缺乏训练技能或数据量较小的普通用户,也可以获得强大的机器学习模型,因为用户可以从学件基座系统中获取性能优良的学件,并进一步调整或改进,而不是自己从头开始构建模型。 持续学习:随着在各种不同任务上训练得到的、性能优良的学件被不断提交,学件基座系统中的知识将不断丰富,进而自然地实现持续和终身学习。 灾难性遗忘:一旦学件被接收,它将永远被容纳在学件基座系统中,除非其各方面功能都可以被其他学件所替代。因此,学件基座系统中的旧知识总是会被保留,而不会被遗忘。 数据隐私/所有权:开发者只提交模型而不共享私有数据,因此数据隐私/所有权可以得到很好的保护。尽管无法完全排除对模型进行逆向工程的可能性,但与许多其它隐私保护方案相比,学件基座系统泄露隐私的风险非常小。
学件基座系统的构成
如下图所示,系统工作流程分为以下两个阶段:
提交阶段:开发者自发地提交各式各样的学件到学件基座系统,而系统会对这些学件进行质量检查和进一步的组织。 部署阶段:当用户提交任务需求后,学件基座系统会根据学件规约推荐对用户任务有帮助的学件并指导用户进行部署和复用。
规约世界
规约是学件基座系统的核心组件,串联了系统中关于学件的全部流程,包括学件上传、组织、查搜、部署与复用。
如下图所示,北冥坞的系统架构包含四个层次,从学件存储层至用户交互层,首次自底向上系统性地实现了学件范式。四个层次的具体功能如下:
学件存储层:管理以zip包格式存储的学件,并通过学件数据库提供相关信息的获取方式; 系统引擎层:囊括了学件范式中的所有流程,包括学件上传、检测、组织、查搜、部署和复用,并以learnware Python包的形式独立于后端和前端运行,为学件相关任务和科研探索提供了丰富的算法接口; 系统后端层:实现了北冥坞的工业级部署,提供了稳定的系统在线服务,并通过提供丰富的后端API支撑了前端和客户端的用户交互; 用户交互层:实现了基于网页的前端和基于命令行的客户端,为用户交互提供了丰富且便捷的方式。
不同的任务场景:
此外,与从头开始训练模型相比,利用学件基座系统可以减少约2000个样本。
微信扫码关注该文公众号作者
来源:新智元
相关新闻
一秒侦破大模型“高分低能”:贾佳亚团队联手剑桥清华等共推评测新范式戴康:印度股市创新高!重温:新范式,印度股市的“牛途”为新剧,贾玲“整容式”减肥100斤!热搜爆了!网友评:太励志!斯坦福团队开发生成式AI模型,设计易于合成的新抗生素分子对抗「超级细菌」「赛博联物」完成数千万元PreA轮融资,用高精度电测技术解决分布式能源管理难题|36氪首发生成式模型不只会「模仿」!哈佛、UCSB等最新成果:性能可超越训练集专家水平“沉浸式”游中国!8天7夜,带休斯顿青少年寻访华人文化根脉“沉浸式”游中国!8天7夜,带湾区青少年寻访华人文化根脉“沉浸式”游中国!8天7夜,带西雅图青少年寻访华人文化根脉告别东奔西走!终于有家“一站式”学习中心治愈了家长的痛点:孩子开心爹妈省心戴康:一张图看懂《新范式,印度股市的“牛途”——“债务周期大局观”系列(八)》戴康:新范式,印度股市的“牛途”——“债务周期大局观”系列(八)商汤进入2.0时代:“日日新”大模型驱动生成式AI业务收入率先突破10亿MTA推出新款“开放式通道”地铁车厢!引发调查!纽约一地区粪便从天而降,多在下午和晚上“确认式申报”来了!2024年起,纳税申报大不同大模型时代,南大周志华埋头做学件,最新论文上线年前最后一次特价,一站式买齐“过年N件套”!件件都优惠,婆婆都夸太会买「启发式」新物种,猿辅导教育大模型AI场景测试曝光|36氪首发“便携式彩妆”成为新热点!这家创业品牌的五种产品堆叠只有一管口红高大模型时代,南大周志华团队最新论文上线!用“咏春式”穿搭,打开龙年新春第一式解码临床心理学:在申请时如何利用“层进式”模型确定研究方向?|直播回顾拿出6部神级纪录片!BBC官方合作的“自鸡神器”,解锁一段沉浸式“学习之旅”林志玲“毁容式”近照曝光,身材浮肿,面容苍老:结婚4年,她到底经历了什么?