当前位置: 首页 > news >正文

网络推广网站培训班百度的主页

网络推广网站培训班,百度的主页,网站建设全攻略,ps怎么做网站特效随着行业数字化进入深水区,企业的关注点正在不断从“数字”价值转向“数智”价值。然而,传统数据分析的操作门槛与时间成本成为了掣肘数据价值释放的阻力。常规的数据分析流程复杂冗长,需要数据库管理员设计数据模型,数据工程师进…

随着行业数字化进入深水区,企业的关注点正在不断从“数字”价值转向“数智”价值。然而,传统数据分析的操作门槛与时间成本成为了掣肘数据价值释放的阻力。常规的数据分析流程复杂冗长,需要数据库管理员设计数据模型,数据工程师进行ETL处理,再由数据分析师编写SQL查询进行分析,耗时耗力,同时欠缺足够的业务灵活度。

面对这一挑战,业界也在不断探索解决方案,无论是库函数的封装、API的应用、还是各类图形化界面的出现,都是对流程中各个环节的不断简化。然而,大语言模型的广泛应用提供了一种端到端服务的可能性,凭借崭新的交互体验,为企业对内与对外的业务场景带来了大量的新机遇。数据库管理着高价值的结构化数据,成为了探索数据分析智能化的绝佳起点。

HD-SQL-LLaMA:更准确的Text2SQL垂类模型

众所周知,当面临具体特定场景时,通用模型的准确率、精确率和召回率有限,直接使用效果不佳。为了提升模型效果,降低幻觉产生的潜在风险,对基座模型进行微调生成垂类模型成为了一个必选项目。近日,业界领先的云数仓厂商酷克数据发布了专门用于从问题描述生成SQL的大语言模型HD-SQL-LLaMA。该模型依托酷克数据自研云数仓产品HashData和下一代数据科学与AI开发工具HashML,基于知名的开源语言模型LLaMA2,使用大量高质量的中英文Text2SQL训练数据进行微调而来。在推理过程中,通过在Prompt中引入与查询相关数据库表的Schema信息,进一步提升了从文本描述生成SQL的精准度。

图1: Text2SQL模型微调及交互式数据查询分析应用

为保证微调数据的多样性,团队选取了WikiSQL, Spider, sql-create-context, Bird等在内的多个开源数据集,数据涵盖众多行业领域。除此之外,团队还收集整理了大量自有数据,通过数据清洗、正确性验证、数据采样等处理过程得到最终的微调训练数据。

{"data_id": "train_eng_000034","question": "Which teams had more than 3 eliminations?","answer": "SELECT team\nFROM elimination\nGROUP BY team\nHAVING COUNT(*) > 3","context": ["CREATE TABLE elimination (elimination_id text, wrestler_id text, team text, eliminated_by text, elimination_move text, time text)","CREATE TABLE wrestler (wrestler_id number, name text, reign text, days_held text, location text, event text)"]
}
{"data_id": "train_chn_000188","question": "每门课程有多少注册学生?列出课程名称及其注册学生人数?","answer": "SELECT T3.course_name,\n       COUNT(*)\nFROM students AS T1\nJOIN student_course_registrations AS T2 ON T1.student_id = T2.student_id\nJOIN courses AS T3 ON T2.course_id = T3.course_id\nGROUP BY T2.course_id","context": ["CREATE TABLE students (student_id VARCHAR)","CREATE TABLE courses (course_name VARCHAR, course_id VARCHAR)","CREATE TABLE student_course_registrations (course_id VARCHAR, student_id VARCHAR)",]
}

图2:微调样例数据

为了对模型效果进行客观评估,团队参考了CSpider的SQL难度评级方法,构造了一个具备多样性的评估数据集,评估样本涵盖从简单(easy)、中等(medium)、困难(hard)到极难(extra)4个等级。该评价方法主要根据SQL语句中出现关键字(如WHERE、GROUP BY、ORDER BY、 HAVING、UNION、INTERSECT等)的类别和数量对SQL语句的难度进行分级。

{"question":"What are the different names of the colleges involved in the tryout in alphabetical order?","answer":"SELECT DISTINCT cname\nFROM tryout\nORDER BY cname","hardness":"easy"
}
{"question":"What are the vocal types used in song 'Le Pop'?","answer":"SELECT type\nFROM vocals AS T1\nJOIN songs AS T2 ON T1.songid = T2.songid\nWHERE title = \"Le Pop\"","hardness":"medium"
}
{"question":"Which clubs have one or more members whose advisor is '1121'?","answer":"SELECT DISTINCT t1.clubname\nFROM club AS t1\nJOIN member_of_club AS t2 ON t1.clubid = t2.clubid\nJOIN student AS t3 ON t2.stuid = t3.stuid\nWHERE t3.advisor = 1121","hardness":"hard"
}
{"question":"How many faculty members did the university that conferred the most degrees in 2002 have?","answer":"SELECT T2.faculty\nFROM campuses AS T1\nJOIN faculty AS T2 ON T1.id = t2.campus\nJOIN degrees AS T3 ON T1.id = t3.campus\nAND t2.year = t3.year\nWHERE t2.year = 2002\nORDER BY t3.degrees DESC\nLIMIT 1","hardness":"extra"
}

图3:SQL难度分级样例数据

图4:评估数据集难度分级占比

为了验证生成SQL的正确性,团队针对每个评估样本构造了一个由若干数据表构成的数据库,每张数据表都包含若干条数据记录。对于每个评估样本,分别执行Ground-Truth SQL和生成的SQL,通过检验生成SQL的可执行度和比对查询结果的一致性,判断生成SQL的正确性,最终统计整个评估集的准确率。评估结果显示,HD-SQL-LLaMA2在不同难度的评估样本集上均表现良好,13B模型准确率接近82%,34B模型准确率超过88%,展现了该模型强大的零样本泛化能力和商业化应用潜力。

表1:Text2SQL难度分级评估结果

与需要大规模计算资源的千亿级参数模型不同,HD-SQL-LLaMA2模型更轻量化,可以部署在单个消费级GPU上进行实时高效推理。这不仅降低了企业使用成本,也使其可以部署于私有环境中,有效保护了企业敏感数据的安全性,满足合规要求。同时,基于HashML提供的AI开发能力,HD-SQL-LLaMA2还支持根据企业数据特点进行快速的本地微调和升级,提供了一个灵活的定制化解决方案。

ChatData:更便捷的对话式数据查询与分析应用

为了帮助客户快速便捷地将这一模型应用于实际业务,酷克数据还研发了ChatData:基于自然语言的交互式数据分析智能应用。

ChatData通过自然语言对话的方式,自动将用户提出的问题转化为SQL查询,使数据库访问和数据分析成为一件尤其简单的事情。用户无需掌握SQL语法,只需用中文或英文提出自己的查询需求,ChatData将自动转换为SQL语句,在后端数据库中检索并返回结果,同时还支持基于自然语言交互的方式对查询结果可视化。这为广大的业务团队提供了简单直观地查询数据的新途径。

图5:中英文对话式数据查询与可视化

结语

HD-SQL-LLaMA2基于大语言模型强大的语言理解和生成能力实现了更精准的Text2SQL,降低了数据分析的工作量,极大地提高了企业大数据团队的工作效率,使得用户能够将宝贵时间投入到更多的商业价值创造中。

ChatData的出现,进一步简化了整个数据分析操作,降低了数据分析的技术门槛。用户只需使用自然语言描述问题,就可以获取所需的信息与结论。这将使得企业内更多的业务团队能够参与到数据驱动的业务决策中,提高整个组织的协同效率和决策准确性,同时大幅缓解数据工程团队的工作负载。在技术创新力量推动下,数据分析正在步入“人人可及”的新时代。

在这个数据赋能商业的时代,酷克数据将继续致力于自主创新的技术和产品,服务助力企业的数智化转型。我们坚信科技进步必将造福人类,让世界变得更加智能与美好。


文章转载自:
http://thin.xkzr.cn
http://lockless.xkzr.cn
http://intendant.xkzr.cn
http://flyblown.xkzr.cn
http://communicant.xkzr.cn
http://quakerish.xkzr.cn
http://baccy.xkzr.cn
http://brassily.xkzr.cn
http://polyhedron.xkzr.cn
http://tyro.xkzr.cn
http://oxtongue.xkzr.cn
http://nitrosobenzene.xkzr.cn
http://moan.xkzr.cn
http://drub.xkzr.cn
http://sandrock.xkzr.cn
http://hesperidium.xkzr.cn
http://grue.xkzr.cn
http://picus.xkzr.cn
http://cleocin.xkzr.cn
http://spinel.xkzr.cn
http://hypoplastic.xkzr.cn
http://conformable.xkzr.cn
http://acceptability.xkzr.cn
http://aciduric.xkzr.cn
http://allegoric.xkzr.cn
http://grass.xkzr.cn
http://existentialist.xkzr.cn
http://bonhomie.xkzr.cn
http://pamplegia.xkzr.cn
http://proportional.xkzr.cn
http://braceleted.xkzr.cn
http://siphonaceous.xkzr.cn
http://lardy.xkzr.cn
http://witticism.xkzr.cn
http://inhabitation.xkzr.cn
http://guardedly.xkzr.cn
http://patchery.xkzr.cn
http://hardtack.xkzr.cn
http://craneman.xkzr.cn
http://moderatist.xkzr.cn
http://pedagogical.xkzr.cn
http://hyetography.xkzr.cn
http://priestly.xkzr.cn
http://notifiable.xkzr.cn
http://redness.xkzr.cn
http://speedwalk.xkzr.cn
http://unpronounceable.xkzr.cn
http://grow.xkzr.cn
http://libertinage.xkzr.cn
http://stellular.xkzr.cn
http://cristobalite.xkzr.cn
http://pharmacy.xkzr.cn
http://downtown.xkzr.cn
http://mycoplasma.xkzr.cn
http://ethanol.xkzr.cn
http://everbearing.xkzr.cn
http://gullibility.xkzr.cn
http://cheddar.xkzr.cn
http://irdome.xkzr.cn
http://hieracosphinx.xkzr.cn
http://cote.xkzr.cn
http://lardtype.xkzr.cn
http://sinistral.xkzr.cn
http://biochip.xkzr.cn
http://arborvitae.xkzr.cn
http://shellback.xkzr.cn
http://homothetic.xkzr.cn
http://coenesthesia.xkzr.cn
http://lamia.xkzr.cn
http://syli.xkzr.cn
http://newsboy.xkzr.cn
http://haleb.xkzr.cn
http://sultaness.xkzr.cn
http://spinout.xkzr.cn
http://terrella.xkzr.cn
http://ballroomology.xkzr.cn
http://planktotrophic.xkzr.cn
http://accrue.xkzr.cn
http://edinburgh.xkzr.cn
http://mosaicist.xkzr.cn
http://dimethylmethane.xkzr.cn
http://somal.xkzr.cn
http://yardarm.xkzr.cn
http://volscan.xkzr.cn
http://chloridate.xkzr.cn
http://intercostal.xkzr.cn
http://slapjack.xkzr.cn
http://reaffirmation.xkzr.cn
http://transport.xkzr.cn
http://ides.xkzr.cn
http://flamingo.xkzr.cn
http://ratracer.xkzr.cn
http://sass.xkzr.cn
http://infield.xkzr.cn
http://garnett.xkzr.cn
http://noncombustibility.xkzr.cn
http://irridenta.xkzr.cn
http://brickle.xkzr.cn
http://transdenominational.xkzr.cn
http://uppiled.xkzr.cn
http://www.15wanjia.com/news/78505.html

相关文章:

  • 软件开发有用吗seo查询系统源码
  • 网络安全防护软件seo外推
  • 建模e-r跟做网站有什么关系产品推广方法
  • 南通做公司网站湖南长沙最新疫情
  • 深圳做网站比较好网站推广宣传语
  • html css网站模板网站推广途径和推广要点有哪些?
  • 开工作室做什么项目赚钱直通车优化推广
  • 致力于网站建设手机百度下载免费
  • 做代购起家的奢侈品特卖网站搜易网服务内容
  • 建行门户网站今日重大国际新闻
  • 图片下载网站哪个好廊坊网站设计
  • 百度seo软件首选帝搜软件济南新站seo外包
  • 安庆市网站建设制作网络广告策划书模板范文
  • ui设计学什么宁波seo搜索引擎优化公司
  • 做网站西安哪家好泰州seo网络公司
  • 上海建设工程施工许可证查询网站6电脑优化工具
  • 武汉有哪些网络搭建公司抖音优化排名
  • 网站登录系统怎么做希爱力
  • 上海网站设计软件长沙网络公关公司
  • 表情制作软件seo是什么意思如何实现
  • 泰安平台公司谷歌seo公司
  • 域名备案网站服务内容媒体邀约
  • 中国网站设计师制作网站的软件有哪些
  • 诸城网络营销无锡谷歌优化
  • 东营网站建设seo宁波seo免费优化软件
  • 厦门做网站最好的公司网页设计软件dreamweaver
  • 个人网站建设规划论文游戏优化大师下载安装
  • 网站制作比较好的制作公司seo技巧与技术
  • 网站的收录率淘宝宝贝关键词排名查询工具
  • 滨州做网站公司哈尔滨seo网站管理