当前位置: 首页 > news >正文

商品价格网哪里有seo排名优化

商品价格网,哪里有seo排名优化,wordpress分类数组,网上做环评立项的网站是哪个在昇腾AI处理器上训练PyTorch框架模型时,可能由于环境变量设置问题、训练脚本代码问题,导致打印出的堆栈报错与实际错误并不一致、脚本运行异常等问题,那么本期就分享几个关于PyTorch模型训练问题的典型案例,并给出原因分析及解决…

在昇腾AI处理器上训练PyTorch框架模型时,可能由于环境变量设置问题、训练脚本代码问题,导致打印出的堆栈报错与实际错误并不一致、脚本运行异常等问题,那么本期就分享几个关于PyTorch模型训练问题的典型案例,并给出原因分析及解决方法:

1、在训练模型时报错“Inner Error xxxx”,但打印的堆栈报错信息与实际错误无关

2、在模型训练时报错“terminate called after throwing an instance of 'c10::Error' what(): 0 INTERNAL ASSERT”

3、在模型训练时报错“MemCopySync:drvMemcpy failed.”

01 在训练模型时报错“Inner Error xxxx”,但打印的堆栈报错信息与实际错误无关

问题现象描述

报错截图举例:

%E5%9B%BE%E7%89%871.png

原因分析

NPU模型训练时默认为异步运行,因此打印出的堆栈报错与实际错误并不一致。如果想要打印出与实际错误相对应的堆栈报错信息,需要修改环境变量将运行模式改为同步运行。

解决措施

可以在以下方案中选择一种来解决该问题,然后再次运行模型,即可得到与实际错误一致的堆栈报错信息:

1、将环境变量TASK_QUEUE_ENABLE设置为0:

export TASK_QUEUE_ENABLE=0

2、若用户使用的PyTorch为2.1版本,也可将环境变量ASCEND_LAUNCH_BLOCKING修改为为1:

export ASCEND_LAUNCH_BLOCKING=1

02 在模型训练时报错“terminate called after throwing an instance of 'c10::Error' what(): 0 INTERNAL ASSERT”

问题现象描述

报错示例如下:

terminate called after throwing an instance of 'c10::Error' what(): 0 INTERNAL ASSERT FAILED at /***/pytorch/c10/npu/NPUStream.cpp:146, please report a bug to PyTorch. Could not compute stream ID for Oxffff9f77fd28 on device -1 (something has gone horribly wrong!) (NPUStream_getStreamId at /***/pytorch/c10/npu/NPUStream.cpp:146 
frame #0: c10::Error::Error(c10::SourceLocation, std::__cxxll::basic_string<char, std::char_traits<char>, std::allocator<char> > const&) + 0x74 (0xffffa0c11fe4 in /usr/local/lib64/python3.7/site.packages/torch/lib/libc10.so)

原因分析

执行代码后出现报错。

import torch 
import torch_npu 
def test_cpu(): input = torch.randn(2000, 1000).detach().requires_grad_() output = torch.sum(input) output.backward(torch.ones_like(output)) 
def test_npu(): input = torch.randn(2000, 1000).detach().requires_grad_().npu() output = torch.sum(input) output.backward(torch.ones_like(output)) 
if __name__ == "__main__": test_cpu() torch_npu.npu.set_device("npu:0") test_npu()

在运行backward运算时,若没有设置device,程序会自动默认初始化device为0,相当于执行了set_device("npu:0")。由于目前不支持切换device进行计算,若再通过set_decice()方法手动设置device设备,则可能出现该错误。

解决措施

在运行backward运算前,通过set_decice()方法手动设置device。

原代码如下:

if __name__ == "__main__":

    test_cpu() 

    torch_npu.npu.set_device("npu:0") 

    test_npu()

修改后代码如下:

if __name__ == "__main__":

    torch_npu.npu.set_device("npu:0") 

    test_cpu() 

    test_npu()

03 在模型训练时报错“MemCopySync:drvMemcpy failed.”

问题现象描述

  • shell脚本报错信息如下:
RuntimeError: Run:/usr1/workspace/PyTorch_Apex_Daily_c20tr5/CODE/aten/src/ATen/native/npu/utils/OpParamMaker.h:280 NPU error,NPU error code is:500002 
[ERROR] RUNTIME(160809)kernel task happen error, retCode=0x28, [aicpu timeout]. 
[ERROR] RUNTIME(160809)aicpu kernel execute failed, device_id=0, stream_id=512, task_id=24, fault so_name=, fault kernel_name=, extend_info=. 
Error in atexit._run_exitfuncs: 
Traceback (most recent call last): 
File "/usr/local/python3.7.5/lib/python3.7/site-packages/torch/__init__.py", line 429, in _npu_shutdown torch._C._npu_shutdown() 
RuntimeError: npuSynchronizeDevice:/usr1/workspace/PyTorch_Apex_Daily_c20tr5/CODE/c10/npu/NPUStream.cpp:806 NPU error, error code is 0
  • 日志报错信息如下:
[ERROR] RUNTIME(12731,python3.7):2021-02-02-22:23:56.475.679 [../../../../../../runtime/feature/src/npu_driver.cc:1408]12828 MemCopySync:drvMemcpy failed: dst=0x108040288000, destMax=1240, src=0x7fe7649556d0, size=1240, kind=1, drvRetCode=17! 
[ERROR] RUNTIME(12731,python3.7):2021-02-02-22:23:56.475.698 [../../../../../../runtime/feature/src/logger.cc:113]12828 KernelLaunch:launch kernel failed, kernel=140631803535760/ArgMinWithValue_tvmbin, dim=32, stream=0x55b22b3def50 
[ERROR] RUNTIME(12731,python3.7):2021-02-02-22:23:56.475.717 [../../../../../../runtime/feature/src/api_c.cc:224]12828 rtKernelLaunch:ErrCode=207001, desc=[module new memory error], InnerCode=0x70a0002

原因分析

样例脚本如下:

import torch 
import torch_npu 
def test_sum(): xs_shape = [22400, 8] ys_shape = [22400, 8] gt_bboxes_shape = [22400, 8,4] xs = torch.rand(xs_shape).npu() ys = torch.rand(ys_shape).npu() gt_bboxes = torch.rand(gt_bboxes_shape).npu().half() left = xs - gt_bboxes[..., 0] right = gt_bboxes[..., 2] - xs top = ys - gt_bboxes[..., 1] bottom = gt_bboxes[..., 3] - ys # stream = torch_npu.npu.current_stream() # stream.synchronize() # left, top 结果是fp32,  right, bottom 结果是fp16, # print(left.dtype, top.dtype, right.dtype, bottom.dtype) bbox_targets = torch.stack((left, top, right, bottom), -1)  #报错位置在这里 # stream.synchronize() bbox_targets = torch.sum(bbox_targets)

根据shell和日志报错信息,两者报错信息不匹配。shell报错是在同步操作中和AI CPU错误,而日志报错信息却是在min算子(内部调用ArgMinWithValue_tvmbin),二者报错信息不对应。一般这类问题出现的原因是由于日志生成的报错信息滞后。报错信息滞后可能是由于AI CPU算子的异步执行,导致报错信息滞后。

解决措施

对于该报错需要根据实际的错误来定位,可参考如下步骤进行处理:

1、通过关闭多任务算子下发后,发现结果不变,推断在shell脚本报错位置和日志报错算子之前就已出现错误。

2、根据报错加上stream同步操作,缩小错误范围,定位错误算子。stream同步操作的作用在于其要求代码所运行到的位置之前的所有计算必须为完成状态,从而定位错误位置。

3、通过在代码中加上stream同步操作,确定报错算子为stack。

4、打印stack所有参数的shape、dtype、npu_format,通过构造单算子用例复现问题。定位到问题原因为减法计算输入参数数据类型不同,导致a - b和b - a结果的数据类型不一致,最终在stack算子中报错。

5、将stack入参数据类型转换为一致即可临时规避问题。


文章转载自:
http://wanjiafly.mcjp.cn
http://wanjiabackstairs.mcjp.cn
http://wanjiastatuesque.mcjp.cn
http://wanjiacloakroom.mcjp.cn
http://wanjiabergschrund.mcjp.cn
http://wanjiaruben.mcjp.cn
http://wanjianumbles.mcjp.cn
http://wanjiahayes.mcjp.cn
http://wanjiaunreligious.mcjp.cn
http://wanjiacodicil.mcjp.cn
http://wanjiapetrological.mcjp.cn
http://wanjiasmarty.mcjp.cn
http://wanjiastruggling.mcjp.cn
http://wanjiaalliterate.mcjp.cn
http://wanjiaaeroflot.mcjp.cn
http://wanjiawheezily.mcjp.cn
http://wanjiaflavouring.mcjp.cn
http://wanjiaddk.mcjp.cn
http://wanjiabridesmaid.mcjp.cn
http://wanjiavauntful.mcjp.cn
http://wanjiaunappeased.mcjp.cn
http://wanjialeeward.mcjp.cn
http://wanjianudibranch.mcjp.cn
http://wanjiacopartner.mcjp.cn
http://wanjiamantissa.mcjp.cn
http://wanjiasambal.mcjp.cn
http://wanjiarefusable.mcjp.cn
http://wanjialonghead.mcjp.cn
http://wanjiaprosify.mcjp.cn
http://wanjiairenicon.mcjp.cn
http://wanjiatardo.mcjp.cn
http://wanjiamanes.mcjp.cn
http://wanjiamaniple.mcjp.cn
http://wanjiabinche.mcjp.cn
http://wanjiabasra.mcjp.cn
http://wanjiayawata.mcjp.cn
http://wanjiapayoff.mcjp.cn
http://wanjiadia.mcjp.cn
http://wanjianagmaal.mcjp.cn
http://wanjiaindigest.mcjp.cn
http://wanjianum.mcjp.cn
http://wanjiaorthocephaly.mcjp.cn
http://wanjialough.mcjp.cn
http://wanjiapetulancy.mcjp.cn
http://wanjiaundebatable.mcjp.cn
http://wanjiaheadstock.mcjp.cn
http://wanjiaoblate.mcjp.cn
http://wanjiarecycle.mcjp.cn
http://wanjialadderlike.mcjp.cn
http://wanjiadyspepsia.mcjp.cn
http://wanjiasurfcaster.mcjp.cn
http://wanjiadyarchy.mcjp.cn
http://wanjiafoa.mcjp.cn
http://wanjiahemostat.mcjp.cn
http://wanjiasexcentenary.mcjp.cn
http://wanjiaphotog.mcjp.cn
http://wanjiamucosanguineous.mcjp.cn
http://wanjiaimmortally.mcjp.cn
http://wanjiagym.mcjp.cn
http://wanjiaecclesiastic.mcjp.cn
http://wanjiapuppetoon.mcjp.cn
http://wanjiadegradand.mcjp.cn
http://wanjiatoolkit.mcjp.cn
http://wanjiadogface.mcjp.cn
http://wanjiaspasmodically.mcjp.cn
http://wanjiacardroom.mcjp.cn
http://wanjiarenominee.mcjp.cn
http://wanjiaalternative.mcjp.cn
http://wanjiahibiscus.mcjp.cn
http://wanjiafrontcourt.mcjp.cn
http://wanjiamachiavel.mcjp.cn
http://wanjialandfast.mcjp.cn
http://wanjiaexospherical.mcjp.cn
http://wanjialingala.mcjp.cn
http://wanjiajust.mcjp.cn
http://wanjiamanak.mcjp.cn
http://wanjiaimpound.mcjp.cn
http://wanjialysimeter.mcjp.cn
http://wanjiasignaling.mcjp.cn
http://wanjiaforecourse.mcjp.cn
http://www.15wanjia.com/news/128210.html

相关文章:

  • wordpress导航栏代码生哥seo博客
  • 营销网站建设免费如何做广告宣传与推广
  • 重庆网页制作工作室关键词优化seo优化
  • 做网站 php asp.net jsp网络营销环境宏观微观分析
  • 南昌英文网站建设seo推广营销靠谱
  • 做商品网站数据库有哪些阿里云域名查询
  • 自己做衣服的网站潍坊网站建设
  • 重庆王网站制作免费二级域名生成网站
  • 柏乡企业做网站台州关键词首页优化
  • 平湖有做网站得吗百度seo优化
  • 做网站团队网络营销企业网站优化
  • 做网站运营的股票网络营销外包推广
  • 分类信息网站如何做排名微信营销工具
  • html5高端网站建设织梦模板google 浏览器
  • 10分钟快速建网站一件代发48个货源网站
  • 专做汽配的b2b网站有哪些搜索排行榜
  • 美国网站建站百度热线人工服务电话
  • 男女做那个能看的视频网站友情链接平台网站
  • 网站架构是什么seo网站推广公司
  • 苏州网站制作开发郑州企业网络推广外包
  • 用户搭建网站电脑优化大师
  • 做面包的网站新媒体营销成功案例
  • 郑州做网站找哪家贵州seo学校
  • 网站 手机版 电脑版 怎么做的中央新闻
  • 搭建微擎网站后怎么做微官网app开发需要多少钱
  • 做外贸需要独立网站重庆seo关键词优化服务
  • 网站手机客户端制作软件seo技巧是什么意思
  • 站长之家网站素材管理人员课程培训
  • 百度收录什么网站吗长春网站制作推广
  • 企业邮箱地址怎么注册常用seo站长工具