	.version 2.2
	.target sm_20
	// compiled with ../../../External/3rdParty/NVIDIA/CUDA/win/bin/../open64/lib//be.exe
	// nvopencc 3.2 built on 2010-11-04

	.visible .func (.param .s32 __cudaretf__Z15IntegerMultiplyii) _Z15IntegerMultiplyii (.param .s32 __cudaparmf1__Z15IntegerMultiplyii, .param .s32 __cudaparmf2__Z15IntegerMultiplyii)

	.visible .func (.param .s32 __cudaretf__Z17Standard2DKernelXv) _Z17Standard2DKernelXv ()

	.visible .func (.param .s32 __cudaretf__Z17Standard2DKernelYv) _Z17Standard2DKernelYv ()

	.visible .func (.param .align 16 .b8 __cudaretf__Z13Half4ToFloat47ushort4[16]) _Z13Half4ToFloat47ushort4 (.param .align 8 .b8 __cudaparmf1__Z13Half4ToFloat47ushort4[8])

	.visible .func (.param .align 8 .b8 __cudaretf__Z13Float4ToHalf46float4[8]) _Z13Float4ToHalf46float4 (.param .align 16 .b8 __cudaparmf1__Z13Float4ToHalf46float4[16])

	.visible .func (.param .u32 __cudaretf__Z4Mix3RjS_S_) _Z4Mix3RjS_S_ (.param .u64 __cudaparmf1__Z4Mix3RjS_S_, .param .u64 __cudaparmf2__Z4Mix3RjS_S_, .param .u64 __cudaparmf3__Z4Mix3RjS_S_)

	.visible .func (.param .s32 __cudaretf__Z4Randj) _Z4Randj (.param .u32 __cudaparmf1__Z4Randj)

	.visible .func (.param .s32 __cudaretf__Z6Rand2Djjj) _Z6Rand2Djjj (.param .u32 __cudaparmf1__Z6Rand2Djjj, .param .u32 __cudaparmf2__Z6Rand2Djjj, .param .u32 __cudaparmf3__Z6Rand2Djjj)

	.visible .func (.param .s32 __cudaretf__Z6Rand2Dj) _Z6Rand2Dj (.param .u32 __cudaparmf1__Z6Rand2Dj)

	.visible .func (.param .align 8 .b8 __cudaretf__Z6Read2DI7ushort4ET_PKS1_iii[8]) _Z6Read2DI7ushort4ET_PKS1_iii (.param .u64 __cudaparmf1__Z6Read2DI7ushort4ET_PKS1_iii, .param .s32 __cudaparmf2__Z6Read2DI7ushort4ET_PKS1_iii, .param .s32 __cudaparmf3__Z6Read2DI7ushort4ET_PKS1_iii, .param .s32 __cudaparmf4__Z6Read2DI7ushort4ET_PKS1_iii)

	.visible .func (.param .align 16 .b8 __cudaretf__Z6Read2DI6float4ET_PKS1_iii[16]) _Z6Read2DI6float4ET_PKS1_iii (.param .u64 __cudaparmf1__Z6Read2DI6float4ET_PKS1_iii, .param .s32 __cudaparmf2__Z6Read2DI6float4ET_PKS1_iii, .param .s32 __cudaparmf3__Z6Read2DI6float4ET_PKS1_iii, .param .s32 __cudaparmf4__Z6Read2DI6float4ET_PKS1_iii)

	.visible .func _Z7Write2DI7ushort4EvT_PS1_iii (.param .align 8 .b8 __cudaparmf1__Z7Write2DI7ushort4EvT_PS1_iii[8], .param .u64 __cudaparmf2__Z7Write2DI7ushort4EvT_PS1_iii, .param .s32 __cudaparmf3__Z7Write2DI7ushort4EvT_PS1_iii, .param .s32 __cudaparmf4__Z7Write2DI7ushort4EvT_PS1_iii, .param .s32 __cudaparmf5__Z7Write2DI7ushort4EvT_PS1_iii)

	.visible .func _Z7Write2DI6float4EvT_PS1_iii (.param .align 16 .b8 __cudaparmf1__Z7Write2DI6float4EvT_PS1_iii[16], .param .u64 __cudaparmf2__Z7Write2DI6float4EvT_PS1_iii, .param .s32 __cudaparmf3__Z7Write2DI6float4EvT_PS1_iii, .param .s32 __cudaparmf4__Z7Write2DI6float4EvT_PS1_iii, .param .s32 __cudaparmf5__Z7Write2DI6float4EvT_PS1_iii)

	.visible .func (.param .align 16 .b8 __cudaretf__Z18UnpremultiplyPixel8PixelRGB[16]) _Z18UnpremultiplyPixel8PixelRGB (.param .align 16 .b8 __cudaparmf1__Z18UnpremultiplyPixel8PixelRGB[16])

	.visible .func (.param .f32 __cudaretf__Z13ToLinearColorf) _Z13ToLinearColorf (.param .f32 __cudaparmf1__Z13ToLinearColorf)

	.visible .func (.param .f32 __cudaretf__Z15FromLinearColorf) _Z15FromLinearColorf (.param .f32 __cudaparmf1__Z15FromLinearColorf)

	.visible .func (.param .align 16 .b8 __cudaretf__Z25PremultiplyLinearizePixel8PixelRGB[16]) _Z25PremultiplyLinearizePixel8PixelRGB (.param .align 16 .b8 __cudaparmf1__Z25PremultiplyLinearizePixel8PixelRGB[16])

	.visible .func (.param .align 16 .b8 __cudaretf__Z29UnpremultiplyUnlinearizePixel8PixelRGB[16]) _Z29UnpremultiplyUnlinearizePixel8PixelRGB (.param .align 16 .b8 __cudaparmf1__Z29UnpremultiplyUnlinearizePixel8PixelRGB[16])

	.visible .func (.param .align 16 .b8 __cudaretf__Z20PremultiplyLinearize6float4[16]) _Z20PremultiplyLinearize6float4 (.param .align 16 .b8 __cudaparmf1__Z20PremultiplyLinearize6float4[16])

	.visible .func (.param .align 16 .b8 __cudaretf__Z24UnpremultiplyUnlinearize6float4[16]) _Z24UnpremultiplyUnlinearize6float4 (.param .align 16 .b8 __cudaparmf1__Z24UnpremultiplyUnlinearize6float4[16])

	.visible .func (.param .align 16 .b8 __cudaretf__Z13sampleTextureff[16]) _Z13sampleTextureff (.param .f32 __cudaparmf1__Z13sampleTextureff, .param .f32 __cudaparmf2__Z13sampleTextureff)

	.visible .func (.param .f32 __cudaretf__Z8distanceff6float2S_) _Z8distanceff6float2S_ (.param .f32 __cudaparmf1__Z8distanceff6float2S_, .param .f32 __cudaparmf2__Z8distanceff6float2S_, .param .align 8 .b8 __cudaparmf3__Z8distanceff6float2S_[8], .param .align 8 .b8 __cudaparmf4__Z8distanceff6float2S_[8])

	.visible .func (.param .f32 __cudaretf__Z4lerpfff) _Z4lerpfff (.param .f32 __cudaparmf1__Z4lerpfff, .param .f32 __cudaparmf2__Z4lerpfff, .param .f32 __cudaparmf3__Z4lerpfff)

	.visible .func (.param .align 8 .b8 __cudaretf__Z7average6float2S_[8]) _Z7average6float2S_ (.param .align 8 .b8 __cudaparmf1__Z7average6float2S_[8], .param .align 8 .b8 __cudaparmf2__Z7average6float2S_[8])

	.visible .func (.param .align 8 .b8 __cudaretf__Z7average6float2S_S_S_[8]) _Z7average6float2S_S_S_ (.param .align 8 .b8 __cudaparmf1__Z7average6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf2__Z7average6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf3__Z7average6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf4__Z7average6float2S_S_S_[8])

	.visible .func (.param .align 16 .b8 __cudaretf__Z3sum6float4S_[16]) _Z3sum6float4S_ (.param .align 16 .b8 __cudaparmf1__Z3sum6float4S_[16], .param .align 16 .b8 __cudaparmf2__Z3sum6float4S_[16])

	.visible .func (.param .align 16 .b8 __cudaretf__Z6weight6float4f[16]) _Z6weight6float4f (.param .align 16 .b8 __cudaparmf1__Z6weight6float4f[16], .param .f32 __cudaparmf2__Z6weight6float4f)

	.visible .func (.param .align 4 .b8 __cudaretf__Z9normalize6float3[12]) _Z9normalize6float3 (.param .align 4 .b8 __cudaparmf1__Z9normalize6float3[12])

	.visible .func (.param .align 4 .b8 __cudaretf__Z6vector6float3S_[12]) _Z6vector6float3S_ (.param .align 4 .b8 __cudaparmf1__Z6vector6float3S_[12], .param .align 4 .b8 __cudaparmf2__Z6vector6float3S_[12])

	.visible .func (.param .align 4 .b8 __cudaretf__Z12crossProduct6float3S_[12]) _Z12crossProduct6float3S_ (.param .align 4 .b8 __cudaparmf1__Z12crossProduct6float3S_[12], .param .align 4 .b8 __cudaparmf2__Z12crossProduct6float3S_[12])

	.visible .func (.param .f32 __cudaretf__Z12innerProduct6float3S_) _Z12innerProduct6float3S_ (.param .align 4 .b8 __cudaparmf1__Z12innerProduct6float3S_[12], .param .align 4 .b8 __cudaparmf2__Z12innerProduct6float3S_[12])

	.visible .func (.param .f32 __cudaretf__Z5GetW0f) _Z5GetW0f (.param .f32 __cudaparmf1__Z5GetW0f)

	.visible .func (.param .f32 __cudaretf__Z5GetW1f) _Z5GetW1f (.param .f32 __cudaparmf1__Z5GetW1f)

	.visible .func (.param .align 16 .b8 __cudaretf__Z12bicubicTex2Dff[16]) _Z12bicubicTex2Dff (.param .f32 __cudaparmf1__Z12bicubicTex2Dff, .param .f32 __cudaparmf2__Z12bicubicTex2Dff)

	.visible .func (.param .align 8 .b8 __cudaretf__Z9ComputeUV6float3S_S_S_ff[8]) _Z9ComputeUV6float3S_S_S_ff (.param .align 4 .b8 __cudaparmf1__Z9ComputeUV6float3S_S_S_ff[12], .param .align 4 .b8 __cudaparmf2__Z9ComputeUV6float3S_S_S_ff[12], .param .align 4 .b8 __cudaparmf3__Z9ComputeUV6float3S_S_S_ff[12], .param .align 4 .b8 __cudaparmf4__Z9ComputeUV6float3S_S_S_ff[12], .param .f32 __cudaparmf5__Z9ComputeUV6float3S_S_S_ff, .param .f32 __cudaparmf6__Z9ComputeUV6float3S_S_S_ff)

	.visible .func (.param .align 16 .b8 __cudaretf__Z12QuadCoverage6float2S_S_S_[16]) _Z12QuadCoverage6float2S_S_S_ (.param .align 8 .b8 __cudaparmf1__Z12QuadCoverage6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf2__Z12QuadCoverage6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf3__Z12QuadCoverage6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf4__Z12QuadCoverage6float2S_S_S_[8])

	.visible .func (.param .align 16 .b8 __cudaretf__Z10SampleQuad6float2S_S_S_[16]) _Z10SampleQuad6float2S_S_S_ (.param .align 8 .b8 __cudaparmf1__Z10SampleQuad6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf2__Z10SampleQuad6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf3__Z10SampleQuad6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf4__Z10SampleQuad6float2S_S_S_[8])

	//-----------------------------------------------------------
	// Compiling C:/Users/dvaeng/AppData/Local/Temp/tmpxft_00003ec0_00000000-11_Basic3D.cpp3.i (C:/Users/dvaeng/AppData/Local/Temp/ccBI#.a16340)
	//-----------------------------------------------------------

	//-----------------------------------------------------------
	// Options:
	//-----------------------------------------------------------
	//  Target:ptx, ISA:sm_20, Endian:little, Pointer Size:64
	//  -O3	(Optimization level)
	//  -g0	(Debug level)
	//  -m2	(Report advisories)
	//-----------------------------------------------------------

	.file	1	"C:/Users/dvaeng/AppData/Local/Temp/tmpxft_00003ec0_00000000-10_Basic3D.cudafe2.gpu"
	.file	2	"c:\Mulder64\shared\adobe\MediaCore\GPUFoundation\API\Inc\GPUFoundation/PixelFormat.h"
	.file	3	"c:\Mulder64\shared\adobe\MediaCore\GPUFoundation\API\Inc\GPUFoundation/KernelSupport/PixelRGB.h"
	.file	4	"c:/Mulder64/shared/adobe/MediaCore/Display/Src/CUDA/Effects/Basic3D.cu"
	.file	5	"C:\Program Files (x86)\Microsoft Visual Studio 9.0\VC\include\crtdefs.h"
	.file	6	"c:\Mulder64\shared\adobe\MediaCore\External\3rdParty\NVIDIA\CUDA\win\include\crt/device_runtime.h"
	.file	7	"c:\Mulder64\shared\adobe\MediaCore\External\3rdParty\NVIDIA\CUDA\win\include\host_defines.h"
	.file	8	"c:\Mulder64\shared\adobe\MediaCore\External\3rdParty\NVIDIA\CUDA\win\include\builtin_types.h"
	.file	9	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\device_types.h"
	.file	10	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\driver_types.h"
	.file	11	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\surface_types.h"
	.file	12	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\texture_types.h"
	.file	13	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\vector_types.h"
	.file	14	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\builtin_types.h"
	.file	15	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\host_defines.h"
	.file	16	"c:\Mulder64\shared\adobe\MediaCore\External\3rdParty\NVIDIA\CUDA\win\include\device_launch_parameters.h"
	.file	17	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\crt\storage_class.h"
	.file	18	"C:\Program Files (x86)\Microsoft Visual Studio 9.0\VC\include\time.h"
	.file	19	"c:\Mulder64\shared\adobe\MediaCore\GPUFoundation\API\Inc\GPUFoundation/KernelSupport/Utils.h"
	.file	20	"c:\Mulder64\shared\adobe\MediaCore\External\3rdParty\NVIDIA\CUDA\win\include\common_functions.h"
	.file	21	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\math_functions.h"
	.file	22	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\math_constants.h"
	.file	23	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\device_functions.h"
	.file	24	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\sm_11_atomic_functions.h"
	.file	25	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\sm_12_atomic_functions.h"
	.file	26	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\sm_13_double_functions.h"
	.file	27	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\sm_20_atomic_functions.h"
	.file	28	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\sm_20_intrinsics.h"
	.file	29	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\surface_functions.h"
	.file	30	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\texture_fetch_functions.h"
	.file	31	"c:\mulder64\shared\adobe\mediacore\external\3rdparty\nvidia\cuda\win\include\math_functions_dbl_ptx3.h"


	.visible .func (.param .s32 __cudaretf__Z15IntegerMultiplyii) _Z15IntegerMultiplyii (.param .s32 __cudaparmf1__Z15IntegerMultiplyii, .param .s32 __cudaparmf2__Z15IntegerMultiplyii)
	{
	.reg .u32 %r<7>;
	.loc	19	60	0
$LDWbegin__Z15IntegerMultiplyii:
	ld.param.u32 	%r1, [__cudaparmf1__Z15IntegerMultiplyii];
	mov.s32 	%r2, %r1;
	ld.param.u32 	%r3, [__cudaparmf2__Z15IntegerMultiplyii];
	mov.s32 	%r4, %r3;
	.loc	19	64	0
	mul.lo.s32 	%r5, %r2, %r4;
	st.param.s32 	[__cudaretf__Z15IntegerMultiplyii], %r5;
	ret;
$LDWend__Z15IntegerMultiplyii:
	} // _Z15IntegerMultiplyii

	.visible .func (.param .s32 __cudaretf__Z17Standard2DKernelXv) _Z17Standard2DKernelXv ()
	{
	.reg .u32 %r<7>;
	.loc	19	73	0
$LDWbegin__Z17Standard2DKernelXv:
	.loc	19	74	0
	mov.u32 	%r1, %tid.x;
	cvt.s32.u32 	%r2, %ctaid.x;
	cvt.s32.u32 	%r3, %ntid.x;
	mul.lo.s32 	%r4, %r2, %r3;
	add.u32 	%r5, %r1, %r4;
	st.param.s32 	[__cudaretf__Z17Standard2DKernelXv], %r5;
	ret;
$LDWend__Z17Standard2DKernelXv:
	} // _Z17Standard2DKernelXv

	.visible .func (.param .s32 __cudaretf__Z17Standard2DKernelYv) _Z17Standard2DKernelYv ()
	{
	.reg .u32 %r<7>;
	.loc	19	77	0
$LDWbegin__Z17Standard2DKernelYv:
	.loc	19	78	0
	mov.u32 	%r1, %tid.y;
	cvt.s32.u32 	%r2, %ctaid.y;
	cvt.s32.u32 	%r3, %ntid.y;
	mul.lo.s32 	%r4, %r2, %r3;
	add.u32 	%r5, %r1, %r4;
	st.param.s32 	[__cudaretf__Z17Standard2DKernelYv], %r5;
	ret;
$LDWend__Z17Standard2DKernelYv:
	} // _Z17Standard2DKernelYv

	.visible .func (.param .align 16 .b8 __cudaretf__Z13Half4ToFloat47ushort4[16]) _Z13Half4ToFloat47ushort4 (.param .align 8 .b8 __cudaparmf1__Z13Half4ToFloat47ushort4[8])
	{
	.reg .u32 %r<14>;
	.reg .f32 %f<9>;
	.loc	19	86	0
$LDWbegin__Z13Half4ToFloat47ushort4:
	ld.param.u16 	%r1, [__cudaparmf1__Z13Half4ToFloat47ushort4+0];
	mov.s32 	%r2, %r1;
	ld.param.u16 	%r3, [__cudaparmf1__Z13Half4ToFloat47ushort4+2];
	mov.s32 	%r4, %r3;
	ld.param.u16 	%r5, [__cudaparmf1__Z13Half4ToFloat47ushort4+4];
	mov.s32 	%r6, %r5;
	ld.param.u16 	%r7, [__cudaparmf1__Z13Half4ToFloat47ushort4+6];
	mov.s32 	%r8, %r7;
	.loc	19	87	0
	cvt.u16.u32 	%r9, %r4;
	{ .reg .b32 %b1;
	mov.b32		%b1, %r9;
	cvt.ftz.f32.f16	%f1, %b1; }
	cvt.u16.u32 	%r10, %r6;
	{ .reg .b32 %b1;
	mov.b32		%b1, %r10;
	cvt.ftz.f32.f16	%f2, %b1; }
	cvt.u16.u32 	%r11, %r8;
	{ .reg .b32 %b1;
	mov.b32		%b1, %r11;
	cvt.ftz.f32.f16	%f3, %b1; }
	cvt.u16.u32 	%r12, %r2;
	{ .reg .b32 %b1;
	mov.b32		%b1, %r12;
	cvt.ftz.f32.f16	%f4, %b1; }
	st.param.f32 	[__cudaretf__Z13Half4ToFloat47ushort4+0], %f4;
	mov.f32 	%f5, %f1;
	st.param.f32 	[__cudaretf__Z13Half4ToFloat47ushort4+4], %f5;
	mov.f32 	%f6, %f2;
	st.param.f32 	[__cudaretf__Z13Half4ToFloat47ushort4+8], %f6;
	mov.f32 	%f7, %f3;
	st.param.f32 	[__cudaretf__Z13Half4ToFloat47ushort4+12], %f7;
	ret;
$LDWend__Z13Half4ToFloat47ushort4:
	} // _Z13Half4ToFloat47ushort4

	.visible .func (.param .align 8 .b8 __cudaretf__Z13Float4ToHalf46float4[8]) _Z13Float4ToHalf46float4 (.param .align 16 .b8 __cudaparmf1__Z13Float4ToHalf46float4[16])
	{
	.reg .u32 %r<13>;
	.reg .f32 %f<10>;
	.loc	19	95	0
$LDWbegin__Z13Float4ToHalf46float4:
	ld.param.f32 	%f1, [__cudaparmf1__Z13Float4ToHalf46float4+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z13Float4ToHalf46float4+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z13Float4ToHalf46float4+8];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf1__Z13Float4ToHalf46float4+12];
	mov.f32 	%f8, %f7;
	.loc	19	96	0
	{ .reg .b32 %b1;
	cvt.rn.ftz.f16.f32	%b1, %f4;
	mov.b32		%r1, %b1; }
	cvt.u16.u32 	%r2, %r1;
	{ .reg .b32 %b1;
	cvt.rn.ftz.f16.f32	%b1, %f6;
	mov.b32		%r3, %b1; }
	cvt.u16.u32 	%r4, %r3;
	{ .reg .b32 %b1;
	cvt.rn.ftz.f16.f32	%b1, %f8;
	mov.b32		%r5, %b1; }
	cvt.u16.u32 	%r6, %r5;
	{ .reg .b32 %b1;
	cvt.rn.ftz.f16.f32	%b1, %f2;
	mov.b32		%r7, %b1; }
	cvt.u16.u32 	%r8, %r7;
	st.param.u16 	[__cudaretf__Z13Float4ToHalf46float4+0], %r8;
	mov.s32 	%r9, %r2;
	st.param.u16 	[__cudaretf__Z13Float4ToHalf46float4+2], %r9;
	mov.s32 	%r10, %r4;
	st.param.u16 	[__cudaretf__Z13Float4ToHalf46float4+4], %r10;
	mov.s32 	%r11, %r6;
	st.param.u16 	[__cudaretf__Z13Float4ToHalf46float4+6], %r11;
	ret;
$LDWend__Z13Float4ToHalf46float4:
	} // _Z13Float4ToHalf46float4

	.visible .func (.param .u32 __cudaretf__Z4Mix3RjS_S_) _Z4Mix3RjS_S_ (.param .u64 __cudaparmf1__Z4Mix3RjS_S_, .param .u64 __cudaparmf2__Z4Mix3RjS_S_, .param .u64 __cudaparmf3__Z4Mix3RjS_S_)
	{
	.reg .u32 %r<75>;
	.reg .u64 %rd<8>;
	.loc	19	138	0
$LDWbegin__Z4Mix3RjS_S_:
	ld.param.u64 	%rd1, [__cudaparmf1__Z4Mix3RjS_S_];
	mov.s64 	%rd2, %rd1;
	ld.param.u64 	%rd3, [__cudaparmf2__Z4Mix3RjS_S_];
	mov.s64 	%rd4, %rd3;
	ld.param.u64 	%rd5, [__cudaparmf3__Z4Mix3RjS_S_];
	mov.s64 	%rd6, %rd5;
	.loc	19	139	0
	ld.u32 	%r1, [%rd2+0];
	ld.u32 	%r2, [%rd4+0];
	sub.u32 	%r3, %r1, %r2;
	st.u32 	[%rd2+0], %r3;
	ld.u32 	%r4, [%rd6+0];
	sub.u32 	%r5, %r3, %r4;
	st.u32 	[%rd2+0], %r5;
	ld.u32 	%r6, [%rd6+0];
	shr.u32 	%r7, %r6, 13;
	xor.b32 	%r8, %r5, %r7;
	st.u32 	[%rd2+0], %r8;
	.loc	19	140	0
	ld.u32 	%r9, [%rd4+0];
	ld.u32 	%r10, [%rd6+0];
	sub.u32 	%r11, %r9, %r10;
	st.u32 	[%rd4+0], %r11;
	ld.u32 	%r12, [%rd2+0];
	sub.u32 	%r13, %r11, %r12;
	st.u32 	[%rd4+0], %r13;
	ld.u32 	%r14, [%rd2+0];
	shl.b32 	%r15, %r14, 8;
	xor.b32 	%r16, %r13, %r15;
	st.u32 	[%rd4+0], %r16;
	.loc	19	141	0
	ld.u32 	%r17, [%rd6+0];
	ld.u32 	%r18, [%rd2+0];
	sub.u32 	%r19, %r17, %r18;
	st.u32 	[%rd6+0], %r19;
	ld.u32 	%r20, [%rd4+0];
	sub.u32 	%r21, %r19, %r20;
	st.u32 	[%rd6+0], %r21;
	ld.u32 	%r22, [%rd4+0];
	shr.u32 	%r23, %r22, 13;
	xor.b32 	%r24, %r21, %r23;
	st.u32 	[%rd6+0], %r24;
	.loc	19	142	0
	ld.u32 	%r25, [%rd2+0];
	ld.u32 	%r26, [%rd4+0];
	sub.u32 	%r27, %r25, %r26;
	st.u32 	[%rd2+0], %r27;
	ld.u32 	%r28, [%rd6+0];
	sub.u32 	%r29, %r27, %r28;
	st.u32 	[%rd2+0], %r29;
	ld.u32 	%r30, [%rd6+0];
	shr.u32 	%r31, %r30, 12;
	xor.b32 	%r32, %r29, %r31;
	st.u32 	[%rd2+0], %r32;
	.loc	19	143	0
	ld.u32 	%r33, [%rd4+0];
	ld.u32 	%r34, [%rd6+0];
	sub.u32 	%r35, %r33, %r34;
	st.u32 	[%rd4+0], %r35;
	ld.u32 	%r36, [%rd2+0];
	sub.u32 	%r37, %r35, %r36;
	st.u32 	[%rd4+0], %r37;
	ld.u32 	%r38, [%rd2+0];
	shl.b32 	%r39, %r38, 16;
	xor.b32 	%r40, %r37, %r39;
	st.u32 	[%rd4+0], %r40;
	.loc	19	144	0
	ld.u32 	%r41, [%rd6+0];
	ld.u32 	%r42, [%rd2+0];
	sub.u32 	%r43, %r41, %r42;
	st.u32 	[%rd6+0], %r43;
	ld.u32 	%r44, [%rd4+0];
	sub.u32 	%r45, %r43, %r44;
	st.u32 	[%rd6+0], %r45;
	ld.u32 	%r46, [%rd4+0];
	shr.u32 	%r47, %r46, 5;
	xor.b32 	%r48, %r45, %r47;
	st.u32 	[%rd6+0], %r48;
	.loc	19	145	0
	ld.u32 	%r49, [%rd2+0];
	ld.u32 	%r50, [%rd4+0];
	sub.u32 	%r51, %r49, %r50;
	st.u32 	[%rd2+0], %r51;
	ld.u32 	%r52, [%rd6+0];
	sub.u32 	%r53, %r51, %r52;
	st.u32 	[%rd2+0], %r53;
	ld.u32 	%r54, [%rd6+0];
	shr.u32 	%r55, %r54, 3;
	xor.b32 	%r56, %r53, %r55;
	st.u32 	[%rd2+0], %r56;
	.loc	19	146	0
	ld.u32 	%r57, [%rd4+0];
	ld.u32 	%r58, [%rd6+0];
	sub.u32 	%r59, %r57, %r58;
	st.u32 	[%rd4+0], %r59;
	ld.u32 	%r60, [%rd2+0];
	sub.u32 	%r61, %r59, %r60;
	st.u32 	[%rd4+0], %r61;
	ld.u32 	%r62, [%rd2+0];
	shl.b32 	%r63, %r62, 10;
	xor.b32 	%r64, %r61, %r63;
	st.u32 	[%rd4+0], %r64;
	.loc	19	147	0
	ld.u32 	%r65, [%rd6+0];
	ld.u32 	%r66, [%rd2+0];
	sub.u32 	%r67, %r65, %r66;
	st.u32 	[%rd6+0], %r67;
	ld.u32 	%r68, [%rd4+0];
	sub.u32 	%r69, %r67, %r68;
	st.u32 	[%rd6+0], %r69;
	ld.u32 	%r70, [%rd4+0];
	shr.u32 	%r71, %r70, 15;
	xor.b32 	%r72, %r69, %r71;
	st.u32 	[%rd6+0], %r72;
	.loc	19	148	0
	mov.s32 	%r73, %r72;
	st.param.u32 	[__cudaretf__Z4Mix3RjS_S_], %r73;
	ret;
$LDWend__Z4Mix3RjS_S_:
	} // _Z4Mix3RjS_S_

	.visible .func (.param .s32 __cudaretf__Z4Randj) _Z4Randj (.param .u32 __cudaparmf1__Z4Randj)
	{
	.reg .u32 %r<14>;
	.loc	19	152	0
$LDWbegin__Z4Randj:
	ld.param.u32 	%r1, [__cudaparmf1__Z4Randj];
	mov.s32 	%r2, %r1;
	.loc	19	163	0
	mul.lo.u32 	%r3, %r2, 1103515245;
	add.u32 	%r4, %r3, 12345;
	shr.u32 	%r5, %r4, 16;
	and.b32 	%r6, %r5, 255;
	shl.b32 	%r7, %r6, 7;
	mul.lo.u32 	%r8, %r2, -1029531031;
	sub.u32 	%r9, %r8, 740551042;
	shr.u32 	%r10, %r9, 16;
	and.b32 	%r11, %r10, 255;
	xor.b32 	%r12, %r7, %r11;
	st.param.s32 	[__cudaretf__Z4Randj], %r12;
	ret;
$LDWend__Z4Randj:
	} // _Z4Randj

	.visible .func (.param .s32 __cudaretf__Z6Rand2Djjj) _Z6Rand2Djjj (.param .u32 __cudaparmf1__Z6Rand2Djjj, .param .u32 __cudaparmf2__Z6Rand2Djjj, .param .u32 __cudaparmf3__Z6Rand2Djjj)
	{
	.reg .u32 %r<54>;
	.loc	19	169	0
$LDWbegin__Z6Rand2Djjj:
	ld.param.u32 	%r1, [__cudaparmf1__Z6Rand2Djjj];
	mov.s32 	%r2, %r1;
	ld.param.u32 	%r3, [__cudaparmf2__Z6Rand2Djjj];
	mov.s32 	%r4, %r3;
	ld.param.u32 	%r5, [__cudaparmf3__Z6Rand2Djjj];
	mov.s32 	%r6, %r5;
	.loc	19	139	0
	sub.u32 	%r7, %r2, %r4;
	sub.u32 	%r8, %r7, %r6;
	shr.u32 	%r9, %r6, 13;
	xor.b32 	%r10, %r8, %r9;
	.loc	19	140	0
	sub.u32 	%r11, %r4, %r6;
	sub.u32 	%r12, %r11, %r10;
	shl.b32 	%r13, %r10, 8;
	xor.b32 	%r14, %r12, %r13;
	.loc	19	141	0
	sub.u32 	%r15, %r6, %r10;
	sub.u32 	%r16, %r15, %r14;
	shr.u32 	%r17, %r14, 13;
	xor.b32 	%r18, %r16, %r17;
	.loc	19	142	0
	sub.u32 	%r19, %r10, %r14;
	sub.u32 	%r20, %r19, %r18;
	shr.u32 	%r21, %r18, 12;
	xor.b32 	%r22, %r20, %r21;
	.loc	19	143	0
	sub.u32 	%r23, %r14, %r18;
	sub.u32 	%r24, %r23, %r22;
	shl.b32 	%r25, %r22, 16;
	xor.b32 	%r26, %r24, %r25;
	.loc	19	144	0
	sub.u32 	%r27, %r18, %r22;
	sub.u32 	%r28, %r27, %r26;
	shr.u32 	%r29, %r26, 5;
	xor.b32 	%r30, %r28, %r29;
	.loc	19	145	0
	sub.u32 	%r31, %r22, %r26;
	sub.u32 	%r32, %r31, %r30;
	shr.u32 	%r33, %r30, 3;
	xor.b32 	%r34, %r32, %r33;
	.loc	19	146	0
	sub.u32 	%r35, %r26, %r30;
	sub.u32 	%r36, %r35, %r34;
	shl.b32 	%r37, %r34, 10;
	xor.b32 	%r38, %r36, %r37;
	.loc	19	147	0
	sub.u32 	%r39, %r30, %r34;
	sub.u32 	%r40, %r39, %r38;
	shr.u32 	%r41, %r38, 15;
	xor.b32 	%r42, %r40, %r41;
	.loc	19	170	0
	mul.lo.u32 	%r43, %r42, 1103515245;
	add.u32 	%r44, %r43, 12345;
	shr.u32 	%r45, %r44, 16;
	and.b32 	%r46, %r45, 255;
	shl.b32 	%r47, %r46, 7;
	mul.lo.u32 	%r48, %r42, -1029531031;
	sub.u32 	%r49, %r48, 740551042;
	shr.u32 	%r50, %r49, 16;
	and.b32 	%r51, %r50, 255;
	xor.b32 	%r52, %r47, %r51;
	st.param.s32 	[__cudaretf__Z6Rand2Djjj], %r52;
	ret;
$LDWend__Z6Rand2Djjj:
	} // _Z6Rand2Djjj

	.visible .func (.param .s32 __cudaretf__Z6Rand2Dj) _Z6Rand2Dj (.param .u32 __cudaparmf1__Z6Rand2Dj)
	{
	.reg .u32 %r<60>;
	.loc	19	175	0
$LDWbegin__Z6Rand2Dj:
	ld.param.u32 	%r1, [__cudaparmf1__Z6Rand2Dj];
	mov.s32 	%r2, %r1;
	.loc	19	143	0
	cvt.s32.u32 	%r3, %ctaid.y;
	cvt.s32.u32 	%r4, %ntid.y;
	mul.lo.s32 	%r5, %r3, %r4;
	cvt.s32.u32 	%r6, %ctaid.x;
	cvt.s32.u32 	%r7, %ntid.x;
	mul.lo.s32 	%r8, %r6, %r7;
	mov.u32 	%r9, %tid.y;
	add.u32 	%r10, %r5, %r9;
	mov.u32 	%r11, %tid.x;
	add.u32 	%r12, %r8, %r11;
	shr.u32 	%r13, %r10, 13;
	sub.u32 	%r14, %r2, %r12;
	sub.u32 	%r15, %r12, %r10;
	sub.u32 	%r16, %r14, %r10;
	xor.b32 	%r17, %r13, %r16;
	shl.b32 	%r18, %r17, 8;
	sub.u32 	%r19, %r15, %r17;
	sub.u32 	%r20, %r10, %r17;
	xor.b32 	%r21, %r18, %r19;
	shr.u32 	%r22, %r21, 13;
	sub.u32 	%r23, %r20, %r21;
	sub.u32 	%r24, %r17, %r21;
	xor.b32 	%r25, %r22, %r23;
	shr.u32 	%r26, %r25, 12;
	sub.u32 	%r27, %r24, %r25;
	xor.b32 	%r28, %r26, %r27;
	sub.u32 	%r29, %r21, %r25;
	sub.u32 	%r30, %r29, %r28;
	shl.b32 	%r31, %r28, 16;
	xor.b32 	%r32, %r30, %r31;
	.loc	19	144	0
	sub.u32 	%r33, %r25, %r28;
	sub.u32 	%r34, %r33, %r32;
	shr.u32 	%r35, %r32, 5;
	xor.b32 	%r36, %r34, %r35;
	.loc	19	145	0
	sub.u32 	%r37, %r28, %r32;
	sub.u32 	%r38, %r37, %r36;
	shr.u32 	%r39, %r36, 3;
	xor.b32 	%r40, %r38, %r39;
	.loc	19	146	0
	sub.u32 	%r41, %r32, %r36;
	sub.u32 	%r42, %r41, %r40;
	shl.b32 	%r43, %r40, 10;
	xor.b32 	%r44, %r42, %r43;
	.loc	19	147	0
	sub.u32 	%r45, %r36, %r40;
	sub.u32 	%r46, %r45, %r44;
	shr.u32 	%r47, %r44, 15;
	xor.b32 	%r48, %r46, %r47;
	.loc	19	176	0
	mul.lo.u32 	%r49, %r48, 1103515245;
	add.u32 	%r50, %r49, 12345;
	shr.u32 	%r51, %r50, 16;
	and.b32 	%r52, %r51, 255;
	shl.b32 	%r53, %r52, 7;
	mul.lo.u32 	%r54, %r48, -1029531031;
	sub.u32 	%r55, %r54, 740551042;
	shr.u32 	%r56, %r55, 16;
	and.b32 	%r57, %r56, 255;
	xor.b32 	%r58, %r53, %r57;
	st.param.s32 	[__cudaretf__Z6Rand2Dj], %r58;
	ret;
$LDWend__Z6Rand2Dj:
	} // _Z6Rand2Dj

	.visible .func (.param .align 8 .b8 __cudaretf__Z6Read2DI7ushort4ET_PKS1_iii[8]) _Z6Read2DI7ushort4ET_PKS1_iii (.param .u64 __cudaparmf1__Z6Read2DI7ushort4ET_PKS1_iii, .param .s32 __cudaparmf2__Z6Read2DI7ushort4ET_PKS1_iii, .param .s32 __cudaparmf3__Z6Read2DI7ushort4ET_PKS1_iii, .param .s32 __cudaparmf4__Z6Read2DI7ushort4ET_PKS1_iii)
	{
	.reg .u32 %r<14>;
	.reg .u64 %rd<7>;
	.loc	19	114	0
$LDWbegin__Z6Read2DI7ushort4ET_PKS1_iii:
	ld.param.u64 	%rd1, [__cudaparmf1__Z6Read2DI7ushort4ET_PKS1_iii];
	mov.s64 	%rd2, %rd1;
	ld.param.u32 	%r1, [__cudaparmf2__Z6Read2DI7ushort4ET_PKS1_iii];
	mov.s32 	%r2, %r1;
	ld.param.u32 	%r3, [__cudaparmf3__Z6Read2DI7ushort4ET_PKS1_iii];
	mov.s32 	%r4, %r3;
	ld.param.u32 	%r5, [__cudaparmf4__Z6Read2DI7ushort4ET_PKS1_iii];
	mov.s32 	%r6, %r5;
	.loc	19	115	0
	mul.lo.s32 	%r7, %r2, %r6;
	add.s32 	%r8, %r4, %r7;
	cvt.s64.s32 	%rd3, %r8;
	mul.wide.s32 	%rd4, %r8, 8;
	add.u64 	%rd5, %rd2, %rd4;
	ld.v4.u16 	{%r9,%r10,%r11,%r12}, [%rd5+0];
	st.param.u16 	[__cudaretf__Z6Read2DI7ushort4ET_PKS1_iii+0], %r9;
	st.param.u16 	[__cudaretf__Z6Read2DI7ushort4ET_PKS1_iii+2], %r10;
	st.param.u16 	[__cudaretf__Z6Read2DI7ushort4ET_PKS1_iii+4], %r11;
	st.param.u16 	[__cudaretf__Z6Read2DI7ushort4ET_PKS1_iii+6], %r12;
	ret;
$LDWend__Z6Read2DI7ushort4ET_PKS1_iii:
	} // _Z6Read2DI7ushort4ET_PKS1_iii

	.visible .func (.param .align 16 .b8 __cudaretf__Z6Read2DI6float4ET_PKS1_iii[16]) _Z6Read2DI6float4ET_PKS1_iii (.param .u64 __cudaparmf1__Z6Read2DI6float4ET_PKS1_iii, .param .s32 __cudaparmf2__Z6Read2DI6float4ET_PKS1_iii, .param .s32 __cudaparmf3__Z6Read2DI6float4ET_PKS1_iii, .param .s32 __cudaparmf4__Z6Read2DI6float4ET_PKS1_iii)
	{
	.reg .u32 %r<10>;
	.reg .u64 %rd<7>;
	.reg .f32 %f<6>;
	.loc	19	114	0
$LDWbegin__Z6Read2DI6float4ET_PKS1_iii:
	ld.param.u64 	%rd1, [__cudaparmf1__Z6Read2DI6float4ET_PKS1_iii];
	mov.s64 	%rd2, %rd1;
	ld.param.u32 	%r1, [__cudaparmf2__Z6Read2DI6float4ET_PKS1_iii];
	mov.s32 	%r2, %r1;
	ld.param.u32 	%r3, [__cudaparmf3__Z6Read2DI6float4ET_PKS1_iii];
	mov.s32 	%r4, %r3;
	ld.param.u32 	%r5, [__cudaparmf4__Z6Read2DI6float4ET_PKS1_iii];
	mov.s32 	%r6, %r5;
	.loc	19	115	0
	mul.lo.s32 	%r7, %r2, %r6;
	add.s32 	%r8, %r4, %r7;
	cvt.s64.s32 	%rd3, %r8;
	mul.wide.s32 	%rd4, %r8, 16;
	add.u64 	%rd5, %rd2, %rd4;
	ld.v4.f32 	{%f1,%f2,%f3,%f4}, [%rd5+0];
	st.param.f32 	[__cudaretf__Z6Read2DI6float4ET_PKS1_iii+0], %f1;
	st.param.f32 	[__cudaretf__Z6Read2DI6float4ET_PKS1_iii+4], %f2;
	st.param.f32 	[__cudaretf__Z6Read2DI6float4ET_PKS1_iii+8], %f3;
	st.param.f32 	[__cudaretf__Z6Read2DI6float4ET_PKS1_iii+12], %f4;
	ret;
$LDWend__Z6Read2DI6float4ET_PKS1_iii:
	} // _Z6Read2DI6float4ET_PKS1_iii

	.visible .func _Z7Write2DI7ushort4EvT_PS1_iii (.param .align 8 .b8 __cudaparmf1__Z7Write2DI7ushort4EvT_PS1_iii[8], .param .u64 __cudaparmf2__Z7Write2DI7ushort4EvT_PS1_iii, .param .s32 __cudaparmf3__Z7Write2DI7ushort4EvT_PS1_iii, .param .s32 __cudaparmf4__Z7Write2DI7ushort4EvT_PS1_iii, .param .s32 __cudaparmf5__Z7Write2DI7ushort4EvT_PS1_iii)
	{
	.reg .u32 %r<18>;
	.reg .u64 %rd<7>;
	.loc	19	125	0
$LDWbegin__Z7Write2DI7ushort4EvT_PS1_iii:
	ld.param.u16 	%r1, [__cudaparmf1__Z7Write2DI7ushort4EvT_PS1_iii+0];
	mov.s32 	%r2, %r1;
	ld.param.u16 	%r3, [__cudaparmf1__Z7Write2DI7ushort4EvT_PS1_iii+2];
	mov.s32 	%r4, %r3;
	ld.param.u16 	%r5, [__cudaparmf1__Z7Write2DI7ushort4EvT_PS1_iii+4];
	mov.s32 	%r6, %r5;
	ld.param.u16 	%r7, [__cudaparmf1__Z7Write2DI7ushort4EvT_PS1_iii+6];
	mov.s32 	%r8, %r7;
	ld.param.u64 	%rd1, [__cudaparmf2__Z7Write2DI7ushort4EvT_PS1_iii];
	mov.s64 	%rd2, %rd1;
	ld.param.u32 	%r9, [__cudaparmf3__Z7Write2DI7ushort4EvT_PS1_iii];
	mov.s32 	%r10, %r9;
	ld.param.u32 	%r11, [__cudaparmf4__Z7Write2DI7ushort4EvT_PS1_iii];
	mov.s32 	%r12, %r11;
	ld.param.u32 	%r13, [__cudaparmf5__Z7Write2DI7ushort4EvT_PS1_iii];
	mov.s32 	%r14, %r13;
	.loc	19	126	0
	mul.lo.s32 	%r15, %r10, %r14;
	add.s32 	%r16, %r12, %r15;
	cvt.s64.s32 	%rd3, %r16;
	mul.wide.s32 	%rd4, %r16, 8;
	add.u64 	%rd5, %rd2, %rd4;
	st.v4.u16 	[%rd5+0], {%r2,%r4,%r6,%r8};
	.loc	19	127	0
	ret;
$LDWend__Z7Write2DI7ushort4EvT_PS1_iii:
	} // _Z7Write2DI7ushort4EvT_PS1_iii

	.visible .func _Z7Write2DI6float4EvT_PS1_iii (.param .align 16 .b8 __cudaparmf1__Z7Write2DI6float4EvT_PS1_iii[16], .param .u64 __cudaparmf2__Z7Write2DI6float4EvT_PS1_iii, .param .s32 __cudaparmf3__Z7Write2DI6float4EvT_PS1_iii, .param .s32 __cudaparmf4__Z7Write2DI6float4EvT_PS1_iii, .param .s32 __cudaparmf5__Z7Write2DI6float4EvT_PS1_iii)
	{
	.reg .u32 %r<10>;
	.reg .u64 %rd<7>;
	.reg .f32 %f<10>;
	.loc	19	125	0
$LDWbegin__Z7Write2DI6float4EvT_PS1_iii:
	ld.param.f32 	%f1, [__cudaparmf1__Z7Write2DI6float4EvT_PS1_iii+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z7Write2DI6float4EvT_PS1_iii+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z7Write2DI6float4EvT_PS1_iii+8];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf1__Z7Write2DI6float4EvT_PS1_iii+12];
	mov.f32 	%f8, %f7;
	ld.param.u64 	%rd1, [__cudaparmf2__Z7Write2DI6float4EvT_PS1_iii];
	mov.s64 	%rd2, %rd1;
	ld.param.u32 	%r1, [__cudaparmf3__Z7Write2DI6float4EvT_PS1_iii];
	mov.s32 	%r2, %r1;
	ld.param.u32 	%r3, [__cudaparmf4__Z7Write2DI6float4EvT_PS1_iii];
	mov.s32 	%r4, %r3;
	ld.param.u32 	%r5, [__cudaparmf5__Z7Write2DI6float4EvT_PS1_iii];
	mov.s32 	%r6, %r5;
	.loc	19	126	0
	mul.lo.s32 	%r7, %r2, %r6;
	add.s32 	%r8, %r4, %r7;
	cvt.s64.s32 	%rd3, %r8;
	mul.wide.s32 	%rd4, %r8, 16;
	add.u64 	%rd5, %rd2, %rd4;
	st.v4.f32 	[%rd5+0], {%f2,%f4,%f6,%f8};
	.loc	19	127	0
	ret;
$LDWend__Z7Write2DI6float4EvT_PS1_iii:
	} // _Z7Write2DI6float4EvT_PS1_iii

	.visible .func (.param .align 16 .b8 __cudaretf__Z18UnpremultiplyPixel8PixelRGB[16]) _Z18UnpremultiplyPixel8PixelRGB (.param .align 16 .b8 __cudaparmf1__Z18UnpremultiplyPixel8PixelRGB[16])
	{
	.reg .f32 %f<23>;
	.reg .pred %p<3>;
	.loc	3	206	0
$LDWbegin__Z18UnpremultiplyPixel8PixelRGB:
	ld.param.f32 	%f1, [__cudaparmf1__Z18UnpremultiplyPixel8PixelRGB+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z18UnpremultiplyPixel8PixelRGB+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z18UnpremultiplyPixel8PixelRGB+8];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf1__Z18UnpremultiplyPixel8PixelRGB+12];
	mov.f32 	%f8, %f7;
	.loc	3	208	0
	cvt.ftz.sat.f32.f32 	%f9, %f8;
	mov.f32 	%f10, %f9;
	mov.f32 	%f11, 0fb70637bd;    	// -8e-006
	add.ftz.f32 	%f12, %f9, %f11;
	mov.f32 	%f13, 0f00000000;    	// 0
	setp.le.ftz.f32 	%p1, %f12, %f13;
	@%p1 bra 	$Lt_13_1282;
	.loc	3	213	0
	rcp.approx.ftz.f32 	%f14, %f9;
	mul.ftz.f32 	%f15, %f14, %f6;
	.loc	3	214	0
	mul.ftz.f32 	%f16, %f14, %f4;
	.loc	3	215	0
	mul.ftz.f32 	%f17, %f14, %f2;
	bra.uni 	$Lt_13_1026;
$Lt_13_1282:
	.loc	3	219	0
	mov.f32 	%f15, 0f00000000;    	// 0
	mov.f32 	%f16, 0f00000000;    	// 0
	mov.f32 	%f17, 0f00000000;    	// 0
	mov.f32 	%f10, 0f00000000;    	// 0
$Lt_13_1026:
	.loc	3	224	0
	mov.f32 	%f18, %f17;
	st.param.f32 	[__cudaretf__Z18UnpremultiplyPixel8PixelRGB+0], %f18;
	mov.f32 	%f19, %f16;
	st.param.f32 	[__cudaretf__Z18UnpremultiplyPixel8PixelRGB+4], %f19;
	mov.f32 	%f20, %f15;
	st.param.f32 	[__cudaretf__Z18UnpremultiplyPixel8PixelRGB+8], %f20;
	mov.f32 	%f21, %f10;
	st.param.f32 	[__cudaretf__Z18UnpremultiplyPixel8PixelRGB+12], %f21;
	ret;
$LDWend__Z18UnpremultiplyPixel8PixelRGB:
	} // _Z18UnpremultiplyPixel8PixelRGB

	.visible .func (.param .f32 __cudaretf__Z13ToLinearColorf) _Z13ToLinearColorf (.param .f32 __cudaparmf1__Z13ToLinearColorf)
	{
	.reg .f32 %f<15>;
	.reg .pred %p<3>;
	.loc	3	231	0
$LDWbegin__Z13ToLinearColorf:
	ld.param.f32 	%f1, [__cudaparmf1__Z13ToLinearColorf];
	mov.f32 	%f2, %f1;
	mov.f32 	%f3, 0f00000000;     	// 0
	setp.lt.ftz.f32 	%p1, %f2, %f3;
	@!%p1 bra 	$Lt_14_1026;
	.loc	3	234	0
	neg.ftz.f32 	%f4, %f2;
	lg2.approx.ftz.f32 	%f5, %f4;
	mov.f32 	%f6, 0f400ccccd;     	// 2.2
	mul.ftz.f32 	%f7, %f5, %f6;
	ex2.approx.ftz.f32 	%f8, %f7;
	neg.ftz.f32 	%f9, %f8;
	bra.uni 	$LBB4__Z13ToLinearColorf;
$Lt_14_1026:
	.loc	3	236	0
	lg2.approx.ftz.f32 	%f10, %f2;
	mov.f32 	%f11, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f12, %f10, %f11;
	ex2.approx.ftz.f32 	%f9, %f12;
$LBB4__Z13ToLinearColorf:
	mov.f32 	%f13, %f9;
	st.param.f32 	[__cudaretf__Z13ToLinearColorf], %f13;
	ret;
$LDWend__Z13ToLinearColorf:
	} // _Z13ToLinearColorf

	.visible .func (.param .f32 __cudaretf__Z15FromLinearColorf) _Z15FromLinearColorf (.param .f32 __cudaparmf1__Z15FromLinearColorf)
	{
	.reg .f32 %f<15>;
	.reg .pred %p<3>;
	.loc	3	239	0
$LDWbegin__Z15FromLinearColorf:
	ld.param.f32 	%f1, [__cudaparmf1__Z15FromLinearColorf];
	mov.f32 	%f2, %f1;
	mov.f32 	%f3, 0f00000000;     	// 0
	setp.lt.ftz.f32 	%p1, %f2, %f3;
	@!%p1 bra 	$Lt_15_1026;
	.loc	3	242	0
	neg.ftz.f32 	%f4, %f2;
	lg2.approx.ftz.f32 	%f5, %f4;
	mov.f32 	%f6, 0f3ee8ba2e;     	// 0.454545
	mul.ftz.f32 	%f7, %f5, %f6;
	ex2.approx.ftz.f32 	%f8, %f7;
	neg.ftz.f32 	%f9, %f8;
	bra.uni 	$LBB4__Z15FromLinearColorf;
$Lt_15_1026:
	.loc	3	244	0
	lg2.approx.ftz.f32 	%f10, %f2;
	mov.f32 	%f11, 0f3ee8ba2e;    	// 0.454545
	mul.ftz.f32 	%f12, %f10, %f11;
	ex2.approx.ftz.f32 	%f9, %f12;
$LBB4__Z15FromLinearColorf:
	mov.f32 	%f13, %f9;
	st.param.f32 	[__cudaretf__Z15FromLinearColorf], %f13;
	ret;
$LDWend__Z15FromLinearColorf:
	} // _Z15FromLinearColorf

	.visible .func (.param .align 16 .b8 __cudaretf__Z25PremultiplyLinearizePixel8PixelRGB[16]) _Z25PremultiplyLinearizePixel8PixelRGB (.param .align 16 .b8 __cudaparmf1__Z25PremultiplyLinearizePixel8PixelRGB[16])
	{
	.reg .f32 %f<47>;
	.reg .pred %p<5>;
	.loc	3	252	0
$LDWbegin__Z25PremultiplyLinearizePixel8PixelRGB:
	ld.param.f32 	%f1, [__cudaparmf1__Z25PremultiplyLinearizePixel8PixelRGB+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z25PremultiplyLinearizePixel8PixelRGB+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z25PremultiplyLinearizePixel8PixelRGB+8];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf1__Z25PremultiplyLinearizePixel8PixelRGB+12];
	mov.f32 	%f8, %f7;
	.loc	3	254	0
	cvt.ftz.sat.f32.f32 	%f9, %f8;
	.loc	3	255	0
	mov.f32 	%f10, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p1, %f2, %f10;
	@!%p1 bra 	$Lt_16_4098;
	.loc	3	234	0
	neg.ftz.f32 	%f11, %f2;
	lg2.approx.ftz.f32 	%f12, %f11;
	mov.f32 	%f13, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f14, %f12, %f13;
	ex2.approx.ftz.f32 	%f15, %f14;
	neg.ftz.f32 	%f16, %f15;
	bra.uni 	$LDWendi___log2f_193_5;
$Lt_16_4098:
	.loc	3	236	0
	lg2.approx.ftz.f32 	%f17, %f2;
	mov.f32 	%f18, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f19, %f17, %f18;
	ex2.approx.ftz.f32 	%f16, %f19;
$LDWendi___log2f_193_5:
	.loc	3	256	0
	mov.f32 	%f20, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p2, %f4, %f20;
	@!%p2 bra 	$Lt_16_4610;
	.loc	3	234	0
	neg.ftz.f32 	%f21, %f4;
	lg2.approx.ftz.f32 	%f22, %f21;
	mov.f32 	%f23, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f24, %f22, %f23;
	ex2.approx.ftz.f32 	%f25, %f24;
	neg.ftz.f32 	%f26, %f25;
	bra.uni 	$LDWendi___log2f_193_3;
$Lt_16_4610:
	.loc	3	236	0
	lg2.approx.ftz.f32 	%f27, %f4;
	mov.f32 	%f28, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f29, %f27, %f28;
	ex2.approx.ftz.f32 	%f26, %f29;
$LDWendi___log2f_193_3:
	.loc	3	257	0
	mov.f32 	%f30, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p3, %f6, %f30;
	@!%p3 bra 	$Lt_16_5122;
	.loc	3	234	0
	neg.ftz.f32 	%f31, %f6;
	lg2.approx.ftz.f32 	%f32, %f31;
	mov.f32 	%f33, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f34, %f32, %f33;
	ex2.approx.ftz.f32 	%f35, %f34;
	neg.ftz.f32 	%f36, %f35;
	bra.uni 	$LDWendi___log2f_193_1;
$Lt_16_5122:
	.loc	3	236	0
	lg2.approx.ftz.f32 	%f37, %f6;
	mov.f32 	%f38, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f39, %f37, %f38;
	ex2.approx.ftz.f32 	%f36, %f39;
$LDWendi___log2f_193_1:
	.loc	3	259	0
	mul.ftz.f32 	%f40, %f36, %f9;
	mul.ftz.f32 	%f41, %f26, %f9;
	mul.ftz.f32 	%f42, %f16, %f9;
	st.param.f32 	[__cudaretf__Z25PremultiplyLinearizePixel8PixelRGB+0], %f42;
	mov.f32 	%f43, %f41;
	st.param.f32 	[__cudaretf__Z25PremultiplyLinearizePixel8PixelRGB+4], %f43;
	mov.f32 	%f44, %f40;
	st.param.f32 	[__cudaretf__Z25PremultiplyLinearizePixel8PixelRGB+8], %f44;
	mov.f32 	%f45, %f9;
	st.param.f32 	[__cudaretf__Z25PremultiplyLinearizePixel8PixelRGB+12], %f45;
	ret;
$LDWend__Z25PremultiplyLinearizePixel8PixelRGB:
	} // _Z25PremultiplyLinearizePixel8PixelRGB

	.visible .func (.param .align 16 .b8 __cudaretf__Z29UnpremultiplyUnlinearizePixel8PixelRGB[16]) _Z29UnpremultiplyUnlinearizePixel8PixelRGB (.param .align 16 .b8 __cudaparmf1__Z29UnpremultiplyUnlinearizePixel8PixelRGB[16])
	{
	.reg .f32 %f<53>;
	.reg .pred %p<6>;
	.loc	3	263	0
$LDWbegin__Z29UnpremultiplyUnlinearizePixel8PixelRGB:
	ld.param.f32 	%f1, [__cudaparmf1__Z29UnpremultiplyUnlinearizePixel8PixelRGB+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z29UnpremultiplyUnlinearizePixel8PixelRGB+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z29UnpremultiplyUnlinearizePixel8PixelRGB+8];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf1__Z29UnpremultiplyUnlinearizePixel8PixelRGB+12];
	mov.f32 	%f8, %f7;
	.loc	3	208	0
	cvt.ftz.sat.f32.f32 	%f9, %f8;
	mov.f32 	%f10, %f9;
	mov.f32 	%f11, 0fb70637bd;    	// -8e-006
	add.ftz.f32 	%f12, %f9, %f11;
	mov.f32 	%f13, 0f00000000;    	// 0
	setp.le.ftz.f32 	%p1, %f12, %f13;
	@%p1 bra 	$Lt_17_5122;
	.loc	3	213	0
	rcp.approx.ftz.f32 	%f14, %f9;
	mul.ftz.f32 	%f15, %f14, %f6;
	.loc	3	214	0
	mul.ftz.f32 	%f16, %f14, %f4;
	.loc	3	215	0
	mul.ftz.f32 	%f17, %f14, %f2;
	bra.uni 	$Lt_17_4866;
$Lt_17_5122:
	.loc	3	219	0
	mov.f32 	%f15, 0f00000000;    	// 0
	mov.f32 	%f16, 0f00000000;    	// 0
	mov.f32 	%f17, 0f00000000;    	// 0
	mov.f32 	%f10, 0f00000000;    	// 0
$Lt_17_4866:
	.loc	3	266	0
	mov.f32 	%f18, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p2, %f17, %f18;
	@!%p2 bra 	$Lt_17_5378;
	.loc	3	242	0
	neg.ftz.f32 	%f19, %f17;
	lg2.approx.ftz.f32 	%f20, %f19;
	mov.f32 	%f21, 0f3ee8ba2e;    	// 0.454545
	mul.ftz.f32 	%f22, %f20, %f21;
	ex2.approx.ftz.f32 	%f23, %f22;
	neg.ftz.f32 	%f24, %f23;
	bra.uni 	$LDWendi___log2f_194_5;
$Lt_17_5378:
	.loc	3	244	0
	lg2.approx.ftz.f32 	%f25, %f17;
	mov.f32 	%f26, 0f3ee8ba2e;    	// 0.454545
	mul.ftz.f32 	%f27, %f25, %f26;
	ex2.approx.ftz.f32 	%f24, %f27;
$LDWendi___log2f_194_5:
	.loc	3	267	0
	mov.f32 	%f28, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p3, %f16, %f28;
	@!%p3 bra 	$Lt_17_5890;
	.loc	3	242	0
	neg.ftz.f32 	%f29, %f16;
	lg2.approx.ftz.f32 	%f30, %f29;
	mov.f32 	%f31, 0f3ee8ba2e;    	// 0.454545
	mul.ftz.f32 	%f32, %f30, %f31;
	ex2.approx.ftz.f32 	%f33, %f32;
	neg.ftz.f32 	%f34, %f33;
	bra.uni 	$LDWendi___log2f_194_3;
$Lt_17_5890:
	.loc	3	244	0
	lg2.approx.ftz.f32 	%f35, %f16;
	mov.f32 	%f36, 0f3ee8ba2e;    	// 0.454545
	mul.ftz.f32 	%f37, %f35, %f36;
	ex2.approx.ftz.f32 	%f34, %f37;
$LDWendi___log2f_194_3:
	.loc	3	268	0
	mov.f32 	%f38, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p4, %f15, %f38;
	@!%p4 bra 	$Lt_17_6402;
	.loc	3	242	0
	neg.ftz.f32 	%f39, %f15;
	lg2.approx.ftz.f32 	%f40, %f39;
	mov.f32 	%f41, 0f3ee8ba2e;    	// 0.454545
	mul.ftz.f32 	%f42, %f40, %f41;
	ex2.approx.ftz.f32 	%f43, %f42;
	neg.ftz.f32 	%f44, %f43;
	bra.uni 	$LDWendi___log2f_194_1;
$Lt_17_6402:
	.loc	3	244	0
	lg2.approx.ftz.f32 	%f45, %f15;
	mov.f32 	%f46, 0f3ee8ba2e;    	// 0.454545
	mul.ftz.f32 	%f47, %f45, %f46;
	ex2.approx.ftz.f32 	%f44, %f47;
$LDWendi___log2f_194_1:
	.loc	3	269	0
	mov.f32 	%f48, %f24;
	st.param.f32 	[__cudaretf__Z29UnpremultiplyUnlinearizePixel8PixelRGB+0], %f48;
	mov.f32 	%f49, %f34;
	st.param.f32 	[__cudaretf__Z29UnpremultiplyUnlinearizePixel8PixelRGB+4], %f49;
	mov.f32 	%f50, %f44;
	st.param.f32 	[__cudaretf__Z29UnpremultiplyUnlinearizePixel8PixelRGB+8], %f50;
	mov.f32 	%f51, %f10;
	st.param.f32 	[__cudaretf__Z29UnpremultiplyUnlinearizePixel8PixelRGB+12], %f51;
	ret;
$LDWend__Z29UnpremultiplyUnlinearizePixel8PixelRGB:
	} // _Z29UnpremultiplyUnlinearizePixel8PixelRGB

	.visible .func (.param .align 16 .b8 __cudaretf__Z20PremultiplyLinearize6float4[16]) _Z20PremultiplyLinearize6float4 (.param .align 16 .b8 __cudaparmf1__Z20PremultiplyLinearize6float4[16])
	{
	.reg .f32 %f<47>;
	.reg .pred %p<5>;
	.loc	3	277	0
$LDWbegin__Z20PremultiplyLinearize6float4:
	ld.param.f32 	%f1, [__cudaparmf1__Z20PremultiplyLinearize6float4+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z20PremultiplyLinearize6float4+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z20PremultiplyLinearize6float4+8];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf1__Z20PremultiplyLinearize6float4+12];
	mov.f32 	%f8, %f7;
	.loc	3	254	0
	cvt.ftz.sat.f32.f32 	%f9, %f8;
	.loc	3	255	0
	mov.f32 	%f10, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p1, %f2, %f10;
	@!%p1 bra 	$Lt_18_4098;
	.loc	3	234	0
	neg.ftz.f32 	%f11, %f2;
	lg2.approx.ftz.f32 	%f12, %f11;
	mov.f32 	%f13, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f14, %f12, %f13;
	ex2.approx.ftz.f32 	%f15, %f14;
	neg.ftz.f32 	%f16, %f15;
	bra.uni 	$LDWendi___log2f_195_5;
$Lt_18_4098:
	.loc	3	236	0
	lg2.approx.ftz.f32 	%f17, %f2;
	mov.f32 	%f18, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f19, %f17, %f18;
	ex2.approx.ftz.f32 	%f16, %f19;
$LDWendi___log2f_195_5:
	.loc	3	256	0
	mov.f32 	%f20, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p2, %f4, %f20;
	@!%p2 bra 	$Lt_18_4610;
	.loc	3	234	0
	neg.ftz.f32 	%f21, %f4;
	lg2.approx.ftz.f32 	%f22, %f21;
	mov.f32 	%f23, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f24, %f22, %f23;
	ex2.approx.ftz.f32 	%f25, %f24;
	neg.ftz.f32 	%f26, %f25;
	bra.uni 	$LDWendi___log2f_195_3;
$Lt_18_4610:
	.loc	3	236	0
	lg2.approx.ftz.f32 	%f27, %f4;
	mov.f32 	%f28, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f29, %f27, %f28;
	ex2.approx.ftz.f32 	%f26, %f29;
$LDWendi___log2f_195_3:
	.loc	3	257	0
	mov.f32 	%f30, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p3, %f6, %f30;
	@!%p3 bra 	$Lt_18_5122;
	.loc	3	234	0
	neg.ftz.f32 	%f31, %f6;
	lg2.approx.ftz.f32 	%f32, %f31;
	mov.f32 	%f33, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f34, %f32, %f33;
	ex2.approx.ftz.f32 	%f35, %f34;
	neg.ftz.f32 	%f36, %f35;
	bra.uni 	$LDWendi___log2f_195_1;
$Lt_18_5122:
	.loc	3	236	0
	lg2.approx.ftz.f32 	%f37, %f6;
	mov.f32 	%f38, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f39, %f37, %f38;
	ex2.approx.ftz.f32 	%f36, %f39;
$LDWendi___log2f_195_1:
	.loc	3	259	0
	mul.ftz.f32 	%f40, %f36, %f9;
	mul.ftz.f32 	%f41, %f26, %f9;
	.loc	3	278	0
	mul.ftz.f32 	%f42, %f16, %f9;
	st.param.f32 	[__cudaretf__Z20PremultiplyLinearize6float4+0], %f42;
	mov.f32 	%f43, %f41;
	st.param.f32 	[__cudaretf__Z20PremultiplyLinearize6float4+4], %f43;
	mov.f32 	%f44, %f40;
	st.param.f32 	[__cudaretf__Z20PremultiplyLinearize6float4+8], %f44;
	mov.f32 	%f45, %f9;
	st.param.f32 	[__cudaretf__Z20PremultiplyLinearize6float4+12], %f45;
	ret;
$LDWend__Z20PremultiplyLinearize6float4:
	} // _Z20PremultiplyLinearize6float4

	.visible .func (.param .align 16 .b8 __cudaretf__Z24UnpremultiplyUnlinearize6float4[16]) _Z24UnpremultiplyUnlinearize6float4 (.param .align 16 .b8 __cudaparmf1__Z24UnpremultiplyUnlinearize6float4[16])
	{
	.reg .f32 %f<53>;
	.reg .pred %p<6>;
	.loc	3	284	0
$LDWbegin__Z24UnpremultiplyUnlinearize6float4:
	ld.param.f32 	%f1, [__cudaparmf1__Z24UnpremultiplyUnlinearize6float4+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z24UnpremultiplyUnlinearize6float4+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z24UnpremultiplyUnlinearize6float4+8];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf1__Z24UnpremultiplyUnlinearize6float4+12];
	mov.f32 	%f8, %f7;
	.loc	3	208	0
	cvt.ftz.sat.f32.f32 	%f9, %f8;
	mov.f32 	%f10, %f9;
	mov.f32 	%f11, 0fb70637bd;    	// -8e-006
	add.ftz.f32 	%f12, %f9, %f11;
	mov.f32 	%f13, 0f00000000;    	// 0
	setp.le.ftz.f32 	%p1, %f12, %f13;
	@%p1 bra 	$Lt_19_5122;
	.loc	3	213	0
	rcp.approx.ftz.f32 	%f14, %f9;
	mul.ftz.f32 	%f15, %f14, %f6;
	.loc	3	214	0
	mul.ftz.f32 	%f16, %f14, %f4;
	.loc	3	215	0
	mul.ftz.f32 	%f17, %f14, %f2;
	bra.uni 	$Lt_19_4866;
$Lt_19_5122:
	.loc	3	219	0
	mov.f32 	%f15, 0f00000000;    	// 0
	mov.f32 	%f16, 0f00000000;    	// 0
	mov.f32 	%f17, 0f00000000;    	// 0
	mov.f32 	%f10, 0f00000000;    	// 0
$Lt_19_4866:
	.loc	3	266	0
	mov.f32 	%f18, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p2, %f17, %f18;
	@!%p2 bra 	$Lt_19_5378;
	.loc	3	242	0
	neg.ftz.f32 	%f19, %f17;
	lg2.approx.ftz.f32 	%f20, %f19;
	mov.f32 	%f21, 0f3ee8ba2e;    	// 0.454545
	mul.ftz.f32 	%f22, %f20, %f21;
	ex2.approx.ftz.f32 	%f23, %f22;
	neg.ftz.f32 	%f24, %f23;
	bra.uni 	$LDWendi___log2f_196_5;
$Lt_19_5378:
	.loc	3	244	0
	lg2.approx.ftz.f32 	%f25, %f17;
	mov.f32 	%f26, 0f3ee8ba2e;    	// 0.454545
	mul.ftz.f32 	%f27, %f25, %f26;
	ex2.approx.ftz.f32 	%f24, %f27;
$LDWendi___log2f_196_5:
	.loc	3	267	0
	mov.f32 	%f28, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p3, %f16, %f28;
	@!%p3 bra 	$Lt_19_5890;
	.loc	3	242	0
	neg.ftz.f32 	%f29, %f16;
	lg2.approx.ftz.f32 	%f30, %f29;
	mov.f32 	%f31, 0f3ee8ba2e;    	// 0.454545
	mul.ftz.f32 	%f32, %f30, %f31;
	ex2.approx.ftz.f32 	%f33, %f32;
	neg.ftz.f32 	%f34, %f33;
	bra.uni 	$LDWendi___log2f_196_3;
$Lt_19_5890:
	.loc	3	244	0
	lg2.approx.ftz.f32 	%f35, %f16;
	mov.f32 	%f36, 0f3ee8ba2e;    	// 0.454545
	mul.ftz.f32 	%f37, %f35, %f36;
	ex2.approx.ftz.f32 	%f34, %f37;
$LDWendi___log2f_196_3:
	.loc	3	268	0
	mov.f32 	%f38, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p4, %f15, %f38;
	@!%p4 bra 	$Lt_19_6402;
	.loc	3	242	0
	neg.ftz.f32 	%f39, %f15;
	lg2.approx.ftz.f32 	%f40, %f39;
	mov.f32 	%f41, 0f3ee8ba2e;    	// 0.454545
	mul.ftz.f32 	%f42, %f40, %f41;
	ex2.approx.ftz.f32 	%f43, %f42;
	neg.ftz.f32 	%f44, %f43;
	bra.uni 	$LDWendi___log2f_196_1;
$Lt_19_6402:
	.loc	3	244	0
	lg2.approx.ftz.f32 	%f45, %f15;
	mov.f32 	%f46, 0f3ee8ba2e;    	// 0.454545
	mul.ftz.f32 	%f47, %f45, %f46;
	ex2.approx.ftz.f32 	%f44, %f47;
$LDWendi___log2f_196_1:
	.loc	3	285	0
	mov.f32 	%f48, %f24;
	st.param.f32 	[__cudaretf__Z24UnpremultiplyUnlinearize6float4+0], %f48;
	mov.f32 	%f49, %f34;
	st.param.f32 	[__cudaretf__Z24UnpremultiplyUnlinearize6float4+4], %f49;
	mov.f32 	%f50, %f44;
	st.param.f32 	[__cudaretf__Z24UnpremultiplyUnlinearize6float4+8], %f50;
	mov.f32 	%f51, %f10;
	st.param.f32 	[__cudaretf__Z24UnpremultiplyUnlinearize6float4+12], %f51;
	ret;
$LDWend__Z24UnpremultiplyUnlinearize6float4:
	} // _Z24UnpremultiplyUnlinearize6float4
	.global .texref sTexture;

	.visible .func (.param .align 16 .b8 __cudaretf__Z13sampleTextureff[16]) _Z13sampleTextureff (.param .f32 __cudaparmf1__Z13sampleTextureff, .param .f32 __cudaparmf2__Z13sampleTextureff)
	{
	.reg .f32 %f<24>;
	.loc	4	39	0
$LDWbegin__Z13sampleTextureff:
	ld.param.f32 	%f1, [__cudaparmf1__Z13sampleTextureff];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf2__Z13sampleTextureff];
	mov.f32 	%f4, %f3;
	mov.f32 	%f5, %f2;
	mov.f32 	%f6, %f4;
	mov.f32 	%f7, 0f00000000;     	// 0
	mov.f32 	%f8, %f7;
	mov.f32 	%f9, 0f00000000;     	// 0
	mov.f32 	%f10, %f9;
	tex.2d.v4.f32.f32 {%f11,%f12,%f13,%f14},[sTexture,{%f5,%f6,%f8,%f10}];
	.loc	4	40	0
	mov.f32 	%f15, %f11;
	mov.f32 	%f16, %f12;
	mov.f32 	%f17, %f13;
	mov.f32 	%f18, %f14;
	mov.f32 	%f19, %f15;
	st.param.f32 	[__cudaretf__Z13sampleTextureff+0], %f19;
	mov.f32 	%f20, %f16;
	st.param.f32 	[__cudaretf__Z13sampleTextureff+4], %f20;
	mov.f32 	%f21, %f17;
	st.param.f32 	[__cudaretf__Z13sampleTextureff+8], %f21;
	mov.f32 	%f22, %f18;
	st.param.f32 	[__cudaretf__Z13sampleTextureff+12], %f22;
	ret;
$LDWend__Z13sampleTextureff:
	} // _Z13sampleTextureff

	.visible .func (.param .f32 __cudaretf__Z8distanceff6float2S_) _Z8distanceff6float2S_ (.param .f32 __cudaparmf1__Z8distanceff6float2S_, .param .f32 __cudaparmf2__Z8distanceff6float2S_, .param .align 8 .b8 __cudaparmf3__Z8distanceff6float2S_[8], .param .align 8 .b8 __cudaparmf4__Z8distanceff6float2S_[8])
	{
	.reg .f32 %f<19>;
	.loc	4	43	0
$LDWbegin__Z8distanceff6float2S_:
	ld.param.f32 	%f1, [__cudaparmf1__Z8distanceff6float2S_];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf2__Z8distanceff6float2S_];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf3__Z8distanceff6float2S_+0];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf3__Z8distanceff6float2S_+4];
	mov.f32 	%f8, %f7;
	ld.param.f32 	%f9, [__cudaparmf4__Z8distanceff6float2S_+0];
	mov.f32 	%f10, %f9;
	ld.param.f32 	%f11, [__cudaparmf4__Z8distanceff6float2S_+4];
	mov.f32 	%f12, %f11;
	.loc	4	44	0
	sub.ftz.f32 	%f13, %f6, %f2;
	mul.ftz.f32 	%f14, %f12, %f13;
	sub.ftz.f32 	%f15, %f8, %f4;
	mul.ftz.f32 	%f16, %f10, %f15;
	sub.ftz.f32 	%f17, %f16, %f14;
	st.param.f32 	[__cudaretf__Z8distanceff6float2S_], %f17;
	ret;
$LDWend__Z8distanceff6float2S_:
	} // _Z8distanceff6float2S_

	.visible .func (.param .f32 __cudaretf__Z4lerpfff) _Z4lerpfff (.param .f32 __cudaparmf1__Z4lerpfff, .param .f32 __cudaparmf2__Z4lerpfff, .param .f32 __cudaparmf3__Z4lerpfff)
	{
	.reg .f32 %f<10>;
	.loc	4	47	0
$LDWbegin__Z4lerpfff:
	ld.param.f32 	%f1, [__cudaparmf1__Z4lerpfff];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf2__Z4lerpfff];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf3__Z4lerpfff];
	mov.f32 	%f6, %f5;
	.loc	4	48	0
	sub.ftz.f32 	%f7, %f4, %f2;
	fma.rn.ftz.f32 	%f8, %f6, %f7, %f2;
	st.param.f32 	[__cudaretf__Z4lerpfff], %f8;
	ret;
$LDWend__Z4lerpfff:
	} // _Z4lerpfff

	.visible .func (.param .align 8 .b8 __cudaretf__Z7average6float2S_[8]) _Z7average6float2S_ (.param .align 8 .b8 __cudaparmf1__Z7average6float2S_[8], .param .align 8 .b8 __cudaparmf2__Z7average6float2S_[8])
	{
	.reg .f32 %f<18>;
	.loc	4	51	0
$LDWbegin__Z7average6float2S_:
	ld.param.f32 	%f1, [__cudaparmf1__Z7average6float2S_+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z7average6float2S_+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf2__Z7average6float2S_+0];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf2__Z7average6float2S_+4];
	mov.f32 	%f8, %f7;
	.loc	4	52	0
	add.ftz.f32 	%f9, %f2, %f6;
	mov.f32 	%f10, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f11, %f9, %f10;
	.loc	4	53	0
	add.ftz.f32 	%f12, %f4, %f8;
	mov.f32 	%f13, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f14, %f12, %f13;
	.loc	4	54	0
	mov.f32 	%f15, %f11;
	st.param.f32 	[__cudaretf__Z7average6float2S_+0], %f15;
	mov.f32 	%f16, %f14;
	st.param.f32 	[__cudaretf__Z7average6float2S_+4], %f16;
	ret;
$LDWend__Z7average6float2S_:
	} // _Z7average6float2S_

	.visible .func (.param .align 8 .b8 __cudaretf__Z7average6float2S_S_S_[8]) _Z7average6float2S_S_S_ (.param .align 8 .b8 __cudaparmf1__Z7average6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf2__Z7average6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf3__Z7average6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf4__Z7average6float2S_S_S_[8])
	{
	.reg .f32 %f<30>;
	.loc	4	57	0
$LDWbegin__Z7average6float2S_S_S_:
	ld.param.f32 	%f1, [__cudaparmf1__Z7average6float2S_S_S_+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z7average6float2S_S_S_+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf2__Z7average6float2S_S_S_+0];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf2__Z7average6float2S_S_S_+4];
	mov.f32 	%f8, %f7;
	ld.param.f32 	%f9, [__cudaparmf3__Z7average6float2S_S_S_+0];
	mov.f32 	%f10, %f9;
	ld.param.f32 	%f11, [__cudaparmf3__Z7average6float2S_S_S_+4];
	mov.f32 	%f12, %f11;
	ld.param.f32 	%f13, [__cudaparmf4__Z7average6float2S_S_S_+0];
	mov.f32 	%f14, %f13;
	ld.param.f32 	%f15, [__cudaparmf4__Z7average6float2S_S_S_+4];
	mov.f32 	%f16, %f15;
	.loc	4	58	0
	add.ftz.f32 	%f17, %f2, %f6;
	add.ftz.f32 	%f18, %f10, %f17;
	add.ftz.f32 	%f19, %f14, %f18;
	mov.f32 	%f20, 0f3e800000;    	// 0.25
	mul.ftz.f32 	%f21, %f19, %f20;
	.loc	4	59	0
	add.ftz.f32 	%f22, %f4, %f8;
	add.ftz.f32 	%f23, %f12, %f22;
	add.ftz.f32 	%f24, %f16, %f23;
	mov.f32 	%f25, 0f3e800000;    	// 0.25
	mul.ftz.f32 	%f26, %f24, %f25;
	.loc	4	60	0
	mov.f32 	%f27, %f21;
	st.param.f32 	[__cudaretf__Z7average6float2S_S_S_+0], %f27;
	mov.f32 	%f28, %f26;
	st.param.f32 	[__cudaretf__Z7average6float2S_S_S_+4], %f28;
	ret;
$LDWend__Z7average6float2S_S_S_:
	} // _Z7average6float2S_S_S_

	.visible .func (.param .align 16 .b8 __cudaretf__Z3sum6float4S_[16]) _Z3sum6float4S_ (.param .align 16 .b8 __cudaparmf1__Z3sum6float4S_[16], .param .align 16 .b8 __cudaparmf2__Z3sum6float4S_[16])
	{
	.reg .f32 %f<26>;
	.loc	4	63	0
$LDWbegin__Z3sum6float4S_:
	ld.param.f32 	%f1, [__cudaparmf1__Z3sum6float4S_+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z3sum6float4S_+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z3sum6float4S_+8];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf1__Z3sum6float4S_+12];
	mov.f32 	%f8, %f7;
	ld.param.f32 	%f9, [__cudaparmf2__Z3sum6float4S_+0];
	mov.f32 	%f10, %f9;
	ld.param.f32 	%f11, [__cudaparmf2__Z3sum6float4S_+4];
	mov.f32 	%f12, %f11;
	ld.param.f32 	%f13, [__cudaparmf2__Z3sum6float4S_+8];
	mov.f32 	%f14, %f13;
	ld.param.f32 	%f15, [__cudaparmf2__Z3sum6float4S_+12];
	mov.f32 	%f16, %f15;
	.loc	4	64	0
	add.ftz.f32 	%f17, %f2, %f10;
	.loc	4	65	0
	add.ftz.f32 	%f18, %f4, %f12;
	.loc	4	66	0
	add.ftz.f32 	%f19, %f6, %f14;
	.loc	4	67	0
	add.ftz.f32 	%f20, %f8, %f16;
	.loc	4	68	0
	mov.f32 	%f21, %f17;
	st.param.f32 	[__cudaretf__Z3sum6float4S_+0], %f21;
	mov.f32 	%f22, %f18;
	st.param.f32 	[__cudaretf__Z3sum6float4S_+4], %f22;
	mov.f32 	%f23, %f19;
	st.param.f32 	[__cudaretf__Z3sum6float4S_+8], %f23;
	mov.f32 	%f24, %f20;
	st.param.f32 	[__cudaretf__Z3sum6float4S_+12], %f24;
	ret;
$LDWend__Z3sum6float4S_:
	} // _Z3sum6float4S_

	.visible .func (.param .align 16 .b8 __cudaretf__Z6weight6float4f[16]) _Z6weight6float4f (.param .align 16 .b8 __cudaparmf1__Z6weight6float4f[16], .param .f32 __cudaparmf2__Z6weight6float4f)
	{
	.reg .f32 %f<20>;
	.loc	4	71	0
$LDWbegin__Z6weight6float4f:
	ld.param.f32 	%f1, [__cudaparmf1__Z6weight6float4f+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z6weight6float4f+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z6weight6float4f+8];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf1__Z6weight6float4f+12];
	mov.f32 	%f8, %f7;
	ld.param.f32 	%f9, [__cudaparmf2__Z6weight6float4f];
	mov.f32 	%f10, %f9;
	.loc	4	72	0
	mul.ftz.f32 	%f11, %f2, %f10;
	.loc	4	73	0
	mul.ftz.f32 	%f12, %f10, %f4;
	.loc	4	74	0
	mul.ftz.f32 	%f13, %f10, %f6;
	.loc	4	75	0
	mul.ftz.f32 	%f14, %f10, %f8;
	.loc	4	76	0
	mov.f32 	%f15, %f11;
	st.param.f32 	[__cudaretf__Z6weight6float4f+0], %f15;
	mov.f32 	%f16, %f12;
	st.param.f32 	[__cudaretf__Z6weight6float4f+4], %f16;
	mov.f32 	%f17, %f13;
	st.param.f32 	[__cudaretf__Z6weight6float4f+8], %f17;
	mov.f32 	%f18, %f14;
	st.param.f32 	[__cudaretf__Z6weight6float4f+12], %f18;
	ret;
$LDWend__Z6weight6float4f:
	} // _Z6weight6float4f

	.visible .func (.param .align 4 .b8 __cudaretf__Z9normalize6float3[12]) _Z9normalize6float3 (.param .align 4 .b8 __cudaparmf1__Z9normalize6float3[12])
	{
	.reg .f32 %f<18>;
	.loc	4	79	0
$LDWbegin__Z9normalize6float3:
	ld.param.f32 	%f1, [__cudaparmf1__Z9normalize6float3+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z9normalize6float3+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z9normalize6float3+8];
	mov.f32 	%f6, %f5;
	.loc	4	80	0
	mul.ftz.f32 	%f7, %f4, %f4;
	fma.rn.ftz.f32 	%f8, %f2, %f2, %f7;
	fma.rn.ftz.f32 	%f9, %f6, %f6, %f8;
	rsqrt.approx.ftz.f32 	%f10, %f9;
	.loc	4	81	0
	mul.ftz.f32 	%f11, %f10, %f2;
	.loc	4	82	0
	mul.ftz.f32 	%f12, %f10, %f4;
	.loc	4	83	0
	mul.ftz.f32 	%f13, %f10, %f6;
	.loc	4	84	0
	mov.f32 	%f14, %f11;
	st.param.f32 	[__cudaretf__Z9normalize6float3+0], %f14;
	mov.f32 	%f15, %f12;
	st.param.f32 	[__cudaretf__Z9normalize6float3+4], %f15;
	mov.f32 	%f16, %f13;
	st.param.f32 	[__cudaretf__Z9normalize6float3+8], %f16;
	ret;
$LDWend__Z9normalize6float3:
	} // _Z9normalize6float3

	.visible .func (.param .align 4 .b8 __cudaretf__Z6vector6float3S_[12]) _Z6vector6float3S_ (.param .align 4 .b8 __cudaparmf1__Z6vector6float3S_[12], .param .align 4 .b8 __cudaparmf2__Z6vector6float3S_[12])
	{
	.reg .f32 %f<17>;
	.loc	4	87	0
$LDWbegin__Z6vector6float3S_:
	ld.param.f32 	%f1, [__cudaparmf1__Z6vector6float3S_+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z6vector6float3S_+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z6vector6float3S_+8];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf2__Z6vector6float3S_+0];
	mov.f32 	%f8, %f7;
	ld.param.f32 	%f9, [__cudaparmf2__Z6vector6float3S_+4];
	mov.f32 	%f10, %f9;
	ld.param.f32 	%f11, [__cudaparmf2__Z6vector6float3S_+8];
	mov.f32 	%f12, %f11;
	.loc	4	92	0
	sub.ftz.f32 	%f13, %f2, %f8;
	st.param.f32 	[__cudaretf__Z6vector6float3S_+0], %f13;
	sub.ftz.f32 	%f14, %f4, %f10;
	st.param.f32 	[__cudaretf__Z6vector6float3S_+4], %f14;
	sub.ftz.f32 	%f15, %f6, %f12;
	st.param.f32 	[__cudaretf__Z6vector6float3S_+8], %f15;
	ret;
$LDWend__Z6vector6float3S_:
	} // _Z6vector6float3S_

	.visible .func (.param .align 4 .b8 __cudaretf__Z12crossProduct6float3S_[12]) _Z12crossProduct6float3S_ (.param .align 4 .b8 __cudaparmf1__Z12crossProduct6float3S_[12], .param .align 4 .b8 __cudaparmf2__Z12crossProduct6float3S_[12])
	{
	.reg .f32 %f<23>;
	.loc	4	95	0
$LDWbegin__Z12crossProduct6float3S_:
	ld.param.f32 	%f1, [__cudaparmf1__Z12crossProduct6float3S_+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z12crossProduct6float3S_+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z12crossProduct6float3S_+8];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf2__Z12crossProduct6float3S_+0];
	mov.f32 	%f8, %f7;
	ld.param.f32 	%f9, [__cudaparmf2__Z12crossProduct6float3S_+4];
	mov.f32 	%f10, %f9;
	ld.param.f32 	%f11, [__cudaparmf2__Z12crossProduct6float3S_+8];
	mov.f32 	%f12, %f11;
	.loc	4	100	0
	mul.ftz.f32 	%f13, %f6, %f10;
	mul.ftz.f32 	%f14, %f4, %f12;
	sub.ftz.f32 	%f15, %f14, %f13;
	st.param.f32 	[__cudaretf__Z12crossProduct6float3S_+0], %f15;
	mul.ftz.f32 	%f16, %f2, %f12;
	mul.ftz.f32 	%f17, %f8, %f6;
	sub.ftz.f32 	%f18, %f17, %f16;
	st.param.f32 	[__cudaretf__Z12crossProduct6float3S_+4], %f18;
	mul.ftz.f32 	%f19, %f8, %f4;
	mul.ftz.f32 	%f20, %f2, %f10;
	sub.ftz.f32 	%f21, %f20, %f19;
	st.param.f32 	[__cudaretf__Z12crossProduct6float3S_+8], %f21;
	ret;
$LDWend__Z12crossProduct6float3S_:
	} // _Z12crossProduct6float3S_

	.visible .func (.param .f32 __cudaretf__Z12innerProduct6float3S_) _Z12innerProduct6float3S_ (.param .align 4 .b8 __cudaparmf1__Z12innerProduct6float3S_[12], .param .align 4 .b8 __cudaparmf2__Z12innerProduct6float3S_[12])
	{
	.reg .f32 %f<17>;
	.loc	4	103	0
$LDWbegin__Z12innerProduct6float3S_:
	ld.param.f32 	%f1, [__cudaparmf1__Z12innerProduct6float3S_+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z12innerProduct6float3S_+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z12innerProduct6float3S_+8];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf2__Z12innerProduct6float3S_+0];
	mov.f32 	%f8, %f7;
	ld.param.f32 	%f9, [__cudaparmf2__Z12innerProduct6float3S_+4];
	mov.f32 	%f10, %f9;
	ld.param.f32 	%f11, [__cudaparmf2__Z12innerProduct6float3S_+8];
	mov.f32 	%f12, %f11;
	.loc	4	104	0
	mul.ftz.f32 	%f13, %f4, %f10;
	fma.rn.ftz.f32 	%f14, %f2, %f8, %f13;
	fma.rn.ftz.f32 	%f15, %f6, %f12, %f14;
	st.param.f32 	[__cudaretf__Z12innerProduct6float3S_], %f15;
	ret;
$LDWend__Z12innerProduct6float3S_:
	} // _Z12innerProduct6float3S_

	.visible .func (.param .f32 __cudaretf__Z5GetW0f) _Z5GetW0f (.param .f32 __cudaparmf1__Z5GetW0f)
	{
	.reg .f32 %f<10>;
	.loc	4	108	0
$LDWbegin__Z5GetW0f:
	ld.param.f32 	%f1, [__cudaparmf1__Z5GetW0f];
	mov.f32 	%f2, %f1;
	.loc	4	110	0
	mov.f32 	%f3, 0fbf000000;     	// -0.5
	mov.f32 	%f4, 0f3f800000;     	// 1
	mov.f32 	%f5, 0fbf000000;     	// -0.5
	fma.rn.ftz.f32 	%f6, %f5, %f2, %f4;
	fma.rn.ftz.f32 	%f7, %f2, %f6, %f3;
	mul.ftz.f32 	%f8, %f2, %f7;
	st.param.f32 	[__cudaretf__Z5GetW0f], %f8;
	ret;
$LDWend__Z5GetW0f:
	} // _Z5GetW0f

	.visible .func (.param .f32 __cudaretf__Z5GetW1f) _Z5GetW1f (.param .f32 __cudaparmf1__Z5GetW1f)
	{
	.reg .f32 %f<10>;
	.loc	4	112	0
$LDWbegin__Z5GetW1f:
	ld.param.f32 	%f1, [__cudaparmf1__Z5GetW1f];
	mov.f32 	%f2, %f1;
	.loc	4	114	0
	mov.f32 	%f3, 0f3f800000;     	// 1
	mov.f32 	%f4, 0fc0200000;     	// -2.5
	mov.f32 	%f5, 0f3fc00000;     	// 1.5
	fma.rn.ftz.f32 	%f6, %f5, %f2, %f4;
	mul.ftz.f32 	%f7, %f2, %f6;
	fma.rn.ftz.f32 	%f8, %f2, %f7, %f3;
	st.param.f32 	[__cudaretf__Z5GetW1f], %f8;
	ret;
$LDWend__Z5GetW1f:
	} // _Z5GetW1f

	.visible .func (.param .align 16 .b8 __cudaretf__Z12bicubicTex2Dff[16]) _Z12bicubicTex2Dff (.param .f32 __cudaparmf1__Z12bicubicTex2Dff, .param .f32 __cudaparmf2__Z12bicubicTex2Dff)
	{
	.reg .f32 %f<326>;
	.loc	4	118	0
$LDWbegin__Z12bicubicTex2Dff:
	ld.param.f32 	%f1, [__cudaparmf1__Z12bicubicTex2Dff];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf2__Z12bicubicTex2Dff];
	mov.f32 	%f4, %f3;
	.loc	4	147	0
	mov.f32 	%f5, 0fbf000000;     	// -0.5
	add.ftz.f32 	%f6, %f2, %f5;
	mov.f32 	%f7, 0fbf000000;     	// -0.5
	add.ftz.f32 	%f8, %f4, %f7;
	cvt.rmi.ftz.f32.f32 	%f9, %f6;
	cvt.rmi.ftz.f32.f32 	%f10, %f8;
	mov.f32 	%f11, 0fbf000000;    	// -0.5
	add.ftz.f32 	%f12, %f9, %f11;
	mov.f32 	%f13, 0fbf000000;    	// -0.5
	add.ftz.f32 	%f14, %f10, %f13;
	mov.f32 	%f15, %f12;
	mov.f32 	%f16, %f14;
	mov.f32 	%f17, 0f00000000;    	// 0
	mov.f32 	%f18, %f17;
	mov.f32 	%f19, 0f00000000;    	// 0
	mov.f32 	%f20, %f19;
	tex.2d.v4.f32.f32 {%f21,%f22,%f23,%f24},[sTexture,{%f15,%f16,%f18,%f20}];
	.loc	4	40	0
	mov.f32 	%f25, %f21;
	mov.f32 	%f26, %f22;
	mov.f32 	%f27, %f23;
	mov.f32 	%f28, %f24;
	.loc	4	72	0
	sub.ftz.f32 	%f29, %f6, %f9;
	sub.ftz.f32 	%f30, %f8, %f10;
	mov.f32 	%f31, 0f3f800000;    	// 1
	mov.f32 	%f32, 0fbf000000;    	// -0.5
	fma.rn.ftz.f32 	%f33, %f32, %f29, %f31;
	mov.f32 	%f34, 0f3f800000;    	// 1
	mov.f32 	%f35, 0fbf000000;    	// -0.5
	fma.rn.ftz.f32 	%f36, %f35, %f30, %f34;
	mov.f32 	%f37, 0fbf000000;    	// -0.5
	fma.rn.ftz.f32 	%f38, %f29, %f33, %f37;
	mov.f32 	%f39, 0fbf000000;    	// -0.5
	fma.rn.ftz.f32 	%f40, %f30, %f36, %f39;
	mul.ftz.f32 	%f41, %f29, %f38;
	mul.ftz.f32 	%f42, %f30, %f40;
	mul.ftz.f32 	%f43, %f41, %f42;
	mul.ftz.f32 	%f44, %f43, %f25;
	.loc	4	73	0
	mul.ftz.f32 	%f45, %f43, %f26;
	.loc	4	74	0
	mul.ftz.f32 	%f46, %f43, %f27;
	.loc	4	75	0
	mul.ftz.f32 	%f47, %f43, %f28;
	.loc	4	148	0
	mov.f32 	%f48, 0f3f800000;    	// 1
	add.ftz.f32 	%f49, %f12, %f48;
	mov.f32 	%f50, %f49;
	mov.f32 	%f51, %f14;
	mov.f32 	%f52, 0f00000000;    	// 0
	mov.f32 	%f53, %f52;
	mov.f32 	%f54, 0f00000000;    	// 0
	mov.f32 	%f55, %f54;
	tex.2d.v4.f32.f32 {%f56,%f57,%f58,%f59},[sTexture,{%f50,%f51,%f53,%f55}];
	.loc	4	40	0
	mov.f32 	%f25, %f56;
	mov.f32 	%f26, %f57;
	mov.f32 	%f27, %f58;
	mov.f32 	%f28, %f59;
	.loc	4	64	0
	mov.f32 	%f60, 0fc0200000;    	// -2.5
	mov.f32 	%f61, 0f3fc00000;    	// 1.5
	fma.rn.ftz.f32 	%f62, %f61, %f29, %f60;
	mul.ftz.f32 	%f63, %f29, %f62;
	mov.f32 	%f64, 0f3f800000;    	// 1
	fma.rn.ftz.f32 	%f65, %f29, %f63, %f64;
	mul.ftz.f32 	%f66, %f65, %f42;
	fma.rn.ftz.f32 	%f67, %f25, %f66, %f44;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f68, %f26, %f66, %f45;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f69, %f27, %f66, %f46;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f70, %f28, %f66, %f47;
	.loc	4	149	0
	mov.f32 	%f71, 0f40000000;    	// 2
	add.ftz.f32 	%f72, %f12, %f71;
	mov.f32 	%f73, %f72;
	mov.f32 	%f74, %f14;
	mov.f32 	%f75, 0f00000000;    	// 0
	mov.f32 	%f76, %f75;
	mov.f32 	%f77, 0f00000000;    	// 0
	mov.f32 	%f78, %f77;
	tex.2d.v4.f32.f32 {%f79,%f80,%f81,%f82},[sTexture,{%f73,%f74,%f76,%f78}];
	.loc	4	40	0
	mov.f32 	%f25, %f79;
	mov.f32 	%f26, %f80;
	mov.f32 	%f27, %f81;
	mov.f32 	%f28, %f82;
	.loc	4	64	0
	mov.f32 	%f83, 0f3f800000;    	// 1
	sub.ftz.f32 	%f84, %f83, %f29;
	mov.f32 	%f85, 0fc0200000;    	// -2.5
	mov.f32 	%f86, 0f3fc00000;    	// 1.5
	fma.rn.ftz.f32 	%f87, %f86, %f84, %f85;
	mul.ftz.f32 	%f88, %f84, %f87;
	mov.f32 	%f89, 0f3f800000;    	// 1
	fma.rn.ftz.f32 	%f90, %f84, %f88, %f89;
	mul.ftz.f32 	%f91, %f42, %f90;
	fma.rn.ftz.f32 	%f92, %f25, %f91, %f67;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f93, %f26, %f91, %f68;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f94, %f27, %f91, %f69;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f95, %f28, %f91, %f70;
	.loc	4	150	0
	mov.f32 	%f96, 0f40400000;    	// 3
	add.ftz.f32 	%f97, %f12, %f96;
	mov.f32 	%f98, %f97;
	mov.f32 	%f99, %f14;
	mov.f32 	%f100, 0f00000000;   	// 0
	mov.f32 	%f101, %f100;
	mov.f32 	%f102, 0f00000000;   	// 0
	mov.f32 	%f103, %f102;
	tex.2d.v4.f32.f32 {%f104,%f105,%f106,%f107},[sTexture,{%f98,%f99,%f101,%f103}];
	.loc	4	40	0
	mov.f32 	%f25, %f104;
	mov.f32 	%f26, %f105;
	mov.f32 	%f27, %f106;
	mov.f32 	%f28, %f107;
	.loc	4	64	0
	mov.f32 	%f108, 0f3f800000;   	// 1
	mov.f32 	%f109, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f110, %f109, %f84, %f108;
	mov.f32 	%f111, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f112, %f84, %f110, %f111;
	mul.ftz.f32 	%f113, %f84, %f112;
	mul.ftz.f32 	%f114, %f42, %f113;
	fma.rn.ftz.f32 	%f115, %f25, %f114, %f92;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f116, %f26, %f114, %f93;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f117, %f27, %f114, %f94;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f118, %f28, %f114, %f95;
	.loc	4	151	0
	mov.f32 	%f119, 0f3f800000;   	// 1
	add.ftz.f32 	%f120, %f14, %f119;
	mov.f32 	%f121, %f12;
	mov.f32 	%f122, %f120;
	mov.f32 	%f123, 0f00000000;   	// 0
	mov.f32 	%f124, %f123;
	mov.f32 	%f125, 0f00000000;   	// 0
	mov.f32 	%f126, %f125;
	tex.2d.v4.f32.f32 {%f127,%f128,%f129,%f130},[sTexture,{%f121,%f122,%f124,%f126}];
	.loc	4	40	0
	mov.f32 	%f25, %f127;
	mov.f32 	%f26, %f128;
	mov.f32 	%f27, %f129;
	mov.f32 	%f28, %f130;
	.loc	4	64	0
	mov.f32 	%f131, 0fc0200000;   	// -2.5
	mov.f32 	%f132, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f133, %f132, %f30, %f131;
	mul.ftz.f32 	%f134, %f30, %f133;
	mov.f32 	%f135, 0f3f800000;   	// 1
	fma.rn.ftz.f32 	%f136, %f30, %f134, %f135;
	mul.ftz.f32 	%f137, %f41, %f136;
	fma.rn.ftz.f32 	%f138, %f25, %f137, %f115;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f139, %f26, %f137, %f116;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f140, %f27, %f137, %f117;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f141, %f28, %f137, %f118;
	.loc	4	152	0
	mov.f32 	%f142, %f49;
	mov.f32 	%f143, %f120;
	mov.f32 	%f144, 0f00000000;   	// 0
	mov.f32 	%f145, %f144;
	mov.f32 	%f146, 0f00000000;   	// 0
	mov.f32 	%f147, %f146;
	tex.2d.v4.f32.f32 {%f148,%f149,%f150,%f151},[sTexture,{%f142,%f143,%f145,%f147}];
	.loc	4	40	0
	mov.f32 	%f25, %f148;
	mov.f32 	%f26, %f149;
	mov.f32 	%f27, %f150;
	mov.f32 	%f28, %f151;
	.loc	4	64	0
	mul.ftz.f32 	%f152, %f65, %f136;
	fma.rn.ftz.f32 	%f153, %f25, %f152, %f138;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f154, %f26, %f152, %f139;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f155, %f27, %f152, %f140;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f156, %f28, %f152, %f141;
	.loc	4	153	0
	mov.f32 	%f157, %f72;
	mov.f32 	%f158, %f120;
	mov.f32 	%f159, 0f00000000;   	// 0
	mov.f32 	%f160, %f159;
	mov.f32 	%f161, 0f00000000;   	// 0
	mov.f32 	%f162, %f161;
	tex.2d.v4.f32.f32 {%f163,%f164,%f165,%f166},[sTexture,{%f157,%f158,%f160,%f162}];
	.loc	4	40	0
	mov.f32 	%f25, %f163;
	mov.f32 	%f26, %f164;
	mov.f32 	%f27, %f165;
	mov.f32 	%f28, %f166;
	.loc	4	64	0
	mul.ftz.f32 	%f167, %f136, %f90;
	fma.rn.ftz.f32 	%f168, %f25, %f167, %f153;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f169, %f26, %f167, %f154;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f170, %f27, %f167, %f155;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f171, %f28, %f167, %f156;
	.loc	4	154	0
	mov.f32 	%f172, %f97;
	mov.f32 	%f173, %f120;
	mov.f32 	%f174, 0f00000000;   	// 0
	mov.f32 	%f175, %f174;
	mov.f32 	%f176, 0f00000000;   	// 0
	mov.f32 	%f177, %f176;
	tex.2d.v4.f32.f32 {%f178,%f179,%f180,%f181},[sTexture,{%f172,%f173,%f175,%f177}];
	.loc	4	40	0
	mov.f32 	%f25, %f178;
	mov.f32 	%f26, %f179;
	mov.f32 	%f27, %f180;
	mov.f32 	%f28, %f181;
	.loc	4	64	0
	mul.ftz.f32 	%f182, %f136, %f113;
	fma.rn.ftz.f32 	%f183, %f25, %f182, %f168;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f184, %f26, %f182, %f169;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f185, %f27, %f182, %f170;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f186, %f28, %f182, %f171;
	.loc	4	155	0
	mov.f32 	%f187, 0f40000000;   	// 2
	add.ftz.f32 	%f188, %f14, %f187;
	mov.f32 	%f189, %f12;
	mov.f32 	%f190, %f188;
	mov.f32 	%f191, 0f00000000;   	// 0
	mov.f32 	%f192, %f191;
	mov.f32 	%f193, 0f00000000;   	// 0
	mov.f32 	%f194, %f193;
	tex.2d.v4.f32.f32 {%f195,%f196,%f197,%f198},[sTexture,{%f189,%f190,%f192,%f194}];
	.loc	4	40	0
	mov.f32 	%f25, %f195;
	mov.f32 	%f26, %f196;
	mov.f32 	%f27, %f197;
	mov.f32 	%f28, %f198;
	.loc	4	64	0
	mov.f32 	%f199, 0f3f800000;   	// 1
	sub.ftz.f32 	%f200, %f199, %f30;
	mov.f32 	%f201, 0fc0200000;   	// -2.5
	mov.f32 	%f202, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f203, %f202, %f200, %f201;
	mul.ftz.f32 	%f204, %f200, %f203;
	mov.f32 	%f205, 0f3f800000;   	// 1
	fma.rn.ftz.f32 	%f206, %f200, %f204, %f205;
	mul.ftz.f32 	%f207, %f41, %f206;
	fma.rn.ftz.f32 	%f208, %f25, %f207, %f183;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f209, %f26, %f207, %f184;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f210, %f27, %f207, %f185;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f211, %f28, %f207, %f186;
	.loc	4	156	0
	mov.f32 	%f212, %f49;
	mov.f32 	%f213, %f188;
	mov.f32 	%f214, 0f00000000;   	// 0
	mov.f32 	%f215, %f214;
	mov.f32 	%f216, 0f00000000;   	// 0
	mov.f32 	%f217, %f216;
	tex.2d.v4.f32.f32 {%f218,%f219,%f220,%f221},[sTexture,{%f212,%f213,%f215,%f217}];
	.loc	4	40	0
	mov.f32 	%f25, %f218;
	mov.f32 	%f26, %f219;
	mov.f32 	%f27, %f220;
	mov.f32 	%f28, %f221;
	.loc	4	64	0
	mul.ftz.f32 	%f222, %f65, %f206;
	fma.rn.ftz.f32 	%f223, %f25, %f222, %f208;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f224, %f26, %f222, %f209;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f225, %f27, %f222, %f210;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f226, %f28, %f222, %f211;
	.loc	4	157	0
	mov.f32 	%f227, %f72;
	mov.f32 	%f228, %f188;
	mov.f32 	%f229, 0f00000000;   	// 0
	mov.f32 	%f230, %f229;
	mov.f32 	%f231, 0f00000000;   	// 0
	mov.f32 	%f232, %f231;
	tex.2d.v4.f32.f32 {%f233,%f234,%f235,%f236},[sTexture,{%f227,%f228,%f230,%f232}];
	.loc	4	40	0
	mov.f32 	%f25, %f233;
	mov.f32 	%f26, %f234;
	mov.f32 	%f27, %f235;
	mov.f32 	%f28, %f236;
	.loc	4	64	0
	mul.ftz.f32 	%f237, %f90, %f206;
	fma.rn.ftz.f32 	%f238, %f25, %f237, %f223;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f239, %f26, %f237, %f224;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f240, %f27, %f237, %f225;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f241, %f28, %f237, %f226;
	.loc	4	158	0
	mov.f32 	%f242, %f97;
	mov.f32 	%f243, %f188;
	mov.f32 	%f244, 0f00000000;   	// 0
	mov.f32 	%f245, %f244;
	mov.f32 	%f246, 0f00000000;   	// 0
	mov.f32 	%f247, %f246;
	tex.2d.v4.f32.f32 {%f248,%f249,%f250,%f251},[sTexture,{%f242,%f243,%f245,%f247}];
	.loc	4	40	0
	mov.f32 	%f25, %f248;
	mov.f32 	%f26, %f249;
	mov.f32 	%f27, %f250;
	mov.f32 	%f28, %f251;
	.loc	4	64	0
	mul.ftz.f32 	%f252, %f113, %f206;
	fma.rn.ftz.f32 	%f253, %f25, %f252, %f238;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f254, %f26, %f252, %f239;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f255, %f27, %f252, %f240;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f256, %f28, %f252, %f241;
	.loc	4	159	0
	mov.f32 	%f257, 0f40400000;   	// 3
	add.ftz.f32 	%f258, %f14, %f257;
	mov.f32 	%f259, %f12;
	mov.f32 	%f260, %f258;
	mov.f32 	%f261, 0f00000000;   	// 0
	mov.f32 	%f262, %f261;
	mov.f32 	%f263, 0f00000000;   	// 0
	mov.f32 	%f264, %f263;
	tex.2d.v4.f32.f32 {%f265,%f266,%f267,%f268},[sTexture,{%f259,%f260,%f262,%f264}];
	.loc	4	40	0
	mov.f32 	%f25, %f265;
	mov.f32 	%f26, %f266;
	mov.f32 	%f27, %f267;
	mov.f32 	%f28, %f268;
	.loc	4	64	0
	mov.f32 	%f269, 0f3f800000;   	// 1
	mov.f32 	%f270, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f271, %f270, %f200, %f269;
	mov.f32 	%f272, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f273, %f200, %f271, %f272;
	mul.ftz.f32 	%f274, %f200, %f273;
	mul.ftz.f32 	%f275, %f41, %f274;
	fma.rn.ftz.f32 	%f276, %f25, %f275, %f253;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f277, %f26, %f275, %f254;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f278, %f27, %f275, %f255;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f279, %f28, %f275, %f256;
	.loc	4	160	0
	mov.f32 	%f280, %f49;
	mov.f32 	%f281, %f258;
	mov.f32 	%f282, 0f00000000;   	// 0
	mov.f32 	%f283, %f282;
	mov.f32 	%f284, 0f00000000;   	// 0
	mov.f32 	%f285, %f284;
	tex.2d.v4.f32.f32 {%f286,%f287,%f288,%f289},[sTexture,{%f280,%f281,%f283,%f285}];
	.loc	4	40	0
	mov.f32 	%f25, %f286;
	mov.f32 	%f26, %f287;
	mov.f32 	%f27, %f288;
	mov.f32 	%f28, %f289;
	.loc	4	64	0
	mul.ftz.f32 	%f290, %f65, %f274;
	fma.rn.ftz.f32 	%f291, %f25, %f290, %f276;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f292, %f26, %f290, %f277;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f293, %f27, %f290, %f278;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f294, %f28, %f290, %f279;
	.loc	4	161	0
	mov.f32 	%f295, %f72;
	mov.f32 	%f296, %f258;
	mov.f32 	%f297, 0f00000000;   	// 0
	mov.f32 	%f298, %f297;
	mov.f32 	%f299, 0f00000000;   	// 0
	mov.f32 	%f300, %f299;
	tex.2d.v4.f32.f32 {%f301,%f302,%f303,%f304},[sTexture,{%f295,%f296,%f298,%f300}];
	.loc	4	40	0
	mov.f32 	%f25, %f301;
	mov.f32 	%f26, %f302;
	mov.f32 	%f27, %f303;
	mov.f32 	%f28, %f304;
	.loc	4	64	0
	mul.ftz.f32 	%f305, %f90, %f274;
	fma.rn.ftz.f32 	%f306, %f25, %f305, %f291;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f307, %f26, %f305, %f292;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f308, %f27, %f305, %f293;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f309, %f28, %f305, %f294;
	.loc	4	162	0
	mov.f32 	%f310, %f97;
	mov.f32 	%f311, %f258;
	mov.f32 	%f312, 0f00000000;   	// 0
	mov.f32 	%f313, %f312;
	mov.f32 	%f314, 0f00000000;   	// 0
	mov.f32 	%f315, %f314;
	tex.2d.v4.f32.f32 {%f316,%f317,%f318,%f319},[sTexture,{%f310,%f311,%f313,%f315}];
	.loc	4	40	0
	mov.f32 	%f25, %f316;
	mov.f32 	%f26, %f317;
	mov.f32 	%f27, %f318;
	mov.f32 	%f28, %f319;
	.loc	4	164	0
	mul.ftz.f32 	%f320, %f113, %f274;
	fma.rn.ftz.f32 	%f321, %f25, %f320, %f306;
	st.param.f32 	[__cudaretf__Z12bicubicTex2Dff+0], %f321;
	fma.rn.ftz.f32 	%f322, %f26, %f320, %f307;
	st.param.f32 	[__cudaretf__Z12bicubicTex2Dff+4], %f322;
	fma.rn.ftz.f32 	%f323, %f27, %f320, %f308;
	st.param.f32 	[__cudaretf__Z12bicubicTex2Dff+8], %f323;
	fma.rn.ftz.f32 	%f324, %f28, %f320, %f309;
	st.param.f32 	[__cudaretf__Z12bicubicTex2Dff+12], %f324;
	ret;
$LDWend__Z12bicubicTex2Dff:
	} // _Z12bicubicTex2Dff

	.visible .func (.param .align 8 .b8 __cudaretf__Z9ComputeUV6float3S_S_S_ff[8]) _Z9ComputeUV6float3S_S_S_ff (.param .align 4 .b8 __cudaparmf1__Z9ComputeUV6float3S_S_S_ff[12], .param .align 4 .b8 __cudaparmf2__Z9ComputeUV6float3S_S_S_ff[12], .param .align 4 .b8 __cudaparmf3__Z9ComputeUV6float3S_S_S_ff[12], .param .align 4 .b8 __cudaparmf4__Z9ComputeUV6float3S_S_S_ff[12], .param .f32 __cudaparmf5__Z9ComputeUV6float3S_S_S_ff, .param .f32 __cudaparmf6__Z9ComputeUV6float3S_S_S_ff)
	{
	.reg .f32 %f<76>;
	.loc	4	169	0
$LDWbegin__Z9ComputeUV6float3S_S_S_ff:
	ld.param.f32 	%f1, [__cudaparmf1__Z9ComputeUV6float3S_S_S_ff+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z9ComputeUV6float3S_S_S_ff+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf1__Z9ComputeUV6float3S_S_S_ff+8];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf2__Z9ComputeUV6float3S_S_S_ff+0];
	mov.f32 	%f8, %f7;
	ld.param.f32 	%f9, [__cudaparmf2__Z9ComputeUV6float3S_S_S_ff+4];
	mov.f32 	%f10, %f9;
	ld.param.f32 	%f11, [__cudaparmf2__Z9ComputeUV6float3S_S_S_ff+8];
	mov.f32 	%f12, %f11;
	ld.param.f32 	%f13, [__cudaparmf3__Z9ComputeUV6float3S_S_S_ff+0];
	mov.f32 	%f14, %f13;
	ld.param.f32 	%f15, [__cudaparmf3__Z9ComputeUV6float3S_S_S_ff+4];
	mov.f32 	%f16, %f15;
	ld.param.f32 	%f17, [__cudaparmf3__Z9ComputeUV6float3S_S_S_ff+8];
	mov.f32 	%f18, %f17;
	ld.param.f32 	%f19, [__cudaparmf4__Z9ComputeUV6float3S_S_S_ff+0];
	mov.f32 	%f20, %f19;
	ld.param.f32 	%f21, [__cudaparmf4__Z9ComputeUV6float3S_S_S_ff+4];
	mov.f32 	%f22, %f21;
	ld.param.f32 	%f23, [__cudaparmf4__Z9ComputeUV6float3S_S_S_ff+8];
	mov.f32 	%f24, %f23;
	ld.param.f32 	%f25, [__cudaparmf5__Z9ComputeUV6float3S_S_S_ff];
	mov.f32 	%f26, %f25;
	ld.param.f32 	%f27, [__cudaparmf6__Z9ComputeUV6float3S_S_S_ff];
	mov.f32 	%f28, %f27;
	.loc	4	183	0
	sub.ftz.f32 	%f29, %f28, %f4;
	sub.ftz.f32 	%f30, %f26, %f2;
	neg.ftz.f32 	%f31, %f6;
	mul.ftz.f32 	%f32, %f29, %f29;
	fma.rn.ftz.f32 	%f33, %f30, %f30, %f32;
	fma.rn.ftz.f32 	%f34, %f31, %f31, %f33;
	rsqrt.approx.ftz.f32 	%f35, %f34;
	mul.ftz.f32 	%f36, %f30, %f35;
	mul.ftz.f32 	%f37, %f35, %f6;
	mul.ftz.f32 	%f38, %f29, %f35;
	mul.ftz.f32 	%f39, %f36, %f24;
	neg.ftz.f32 	%f40, %f37;
	mul.ftz.f32 	%f41, %f37, %f22;
	mul.ftz.f32 	%f42, %f38, %f20;
	mul.ftz.f32 	%f43, %f20, %f40;
	sub.ftz.f32 	%f44, %f43, %f39;
	neg.ftz.f32 	%f45, %f41;
	mul.ftz.f32 	%f46, %f36, %f22;
	sub.ftz.f32 	%f47, %f46, %f42;
	mul.ftz.f32 	%f48, %f38, %f24;
	sub.ftz.f32 	%f49, %f48, %f45;
	mul.ftz.f32 	%f50, %f44, %f16;
	fma.rn.ftz.f32 	%f51, %f49, %f14, %f50;
	fma.rn.ftz.f32 	%f52, %f47, %f18, %f51;
	rcp.approx.ftz.f32 	%f53, %f52;
	.loc	4	186	0
	sub.ftz.f32 	%f54, %f4, %f10;
	sub.ftz.f32 	%f55, %f2, %f8;
	sub.ftz.f32 	%f56, %f6, %f12;
	mul.ftz.f32 	%f57, %f54, %f44;
	fma.rn.ftz.f32 	%f58, %f49, %f55, %f57;
	fma.rn.ftz.f32 	%f59, %f47, %f56, %f58;
	mul.ftz.f32 	%f60, %f53, %f59;
	.loc	4	191	0
	mov.f32 	%f61, %f60;
	st.param.f32 	[__cudaretf__Z9ComputeUV6float3S_S_S_ff+0], %f61;
	mul.ftz.f32 	%f62, %f55, %f18;
	mul.ftz.f32 	%f63, %f14, %f56;
	sub.ftz.f32 	%f64, %f63, %f62;
	mul.ftz.f32 	%f65, %f38, %f64;
	mul.ftz.f32 	%f66, %f56, %f16;
	mul.ftz.f32 	%f67, %f54, %f18;
	sub.ftz.f32 	%f68, %f67, %f66;
	fma.rn.ftz.f32 	%f69, %f68, %f36, %f65;
	mul.ftz.f32 	%f70, %f54, %f14;
	mul.ftz.f32 	%f71, %f55, %f16;
	sub.ftz.f32 	%f72, %f71, %f70;
	fma.rn.ftz.f32 	%f73, %f72, %f40, %f69;
	mul.ftz.f32 	%f74, %f53, %f73;
	st.param.f32 	[__cudaretf__Z9ComputeUV6float3S_S_S_ff+4], %f74;
	ret;
$LDWend__Z9ComputeUV6float3S_S_S_ff:
	} // _Z9ComputeUV6float3S_S_S_ff

	.visible .func (.param .align 16 .b8 __cudaretf__Z12QuadCoverage6float2S_S_S_[16]) _Z12QuadCoverage6float2S_S_S_ (.param .align 8 .b8 __cudaparmf1__Z12QuadCoverage6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf2__Z12QuadCoverage6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf3__Z12QuadCoverage6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf4__Z12QuadCoverage6float2S_S_S_[8])
	{
	.reg .u32 %r<36>;
	.reg .u64 %rd<15>;
	.reg .f32 %f<284>;
	.reg .pred %p<15>;
	.local .align 4 .b8 __cuda_local_var_91896_7_non_const_sl_0[16];
	.local .align 4 .b8 __cuda_local_var_91897_7_non_const_sc_16[16];
	.local .align 8 .b8 __cuda_local_var_91893_4_non_const_quads_32[224];
	.loc	4	195	0
$LDWbegin__Z12QuadCoverage6float2S_S_S_:
	ld.param.f32 	%f1, [__cudaparmf1__Z12QuadCoverage6float2S_S_S_+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z12QuadCoverage6float2S_S_S_+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf2__Z12QuadCoverage6float2S_S_S_+0];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf2__Z12QuadCoverage6float2S_S_S_+4];
	mov.f32 	%f8, %f7;
	ld.param.f32 	%f9, [__cudaparmf3__Z12QuadCoverage6float2S_S_S_+0];
	mov.f32 	%f10, %f9;
	ld.param.f32 	%f11, [__cudaparmf3__Z12QuadCoverage6float2S_S_S_+4];
	mov.f32 	%f12, %f11;
	ld.param.f32 	%f13, [__cudaparmf4__Z12QuadCoverage6float2S_S_S_+0];
	mov.f32 	%f14, %f13;
	ld.param.f32 	%f15, [__cudaparmf4__Z12QuadCoverage6float2S_S_S_+4];
	mov.f32 	%f16, %f15;
	.loc	4	207	0
	mov.s32 	%r1, 0;
	st.local.s32 	[__cuda_local_var_91896_7_non_const_sl_0+0], %r1;
	.loc	4	208	0
	mov.s32 	%r2, 1;
	st.local.s32 	[__cuda_local_var_91897_7_non_const_sc_16+0], %r2;
	.loc	4	209	0
	st.local.f32 	[__cuda_local_var_91893_4_non_const_quads_32+0], %f2;
	st.local.f32 	[__cuda_local_var_91893_4_non_const_quads_32+4], %f4;
	.loc	4	210	0
	st.local.f32 	[__cuda_local_var_91893_4_non_const_quads_32+8], %f6;
	st.local.f32 	[__cuda_local_var_91893_4_non_const_quads_32+12], %f8;
	.loc	4	211	0
	st.local.f32 	[__cuda_local_var_91893_4_non_const_quads_32+16], %f10;
	st.local.f32 	[__cuda_local_var_91893_4_non_const_quads_32+20], %f12;
	.loc	4	212	0
	st.local.f32 	[__cuda_local_var_91893_4_non_const_quads_32+24], %f14;
	st.local.f32 	[__cuda_local_var_91893_4_non_const_quads_32+28], %f16;
	mov.f32 	%f17, 0f00000000;    	// 0
	mov.f32 	%f18, 0f00000000;    	// 0
	mov.f32 	%f19, 0f00000000;    	// 0
	mov.f32 	%f20, 0f00000000;    	// 0
	mov.f32 	%f21, 0f00000000;    	// 0
	mov.s32 	%r3, 0;
	mov.s32 	%r4, 0;
	mov.u64 	%rd1, __cuda_local_var_91896_7_non_const_sl_0;
	mov.u64 	%rd2, __cuda_local_var_91897_7_non_const_sc_16;
	mov.u64 	%rd3, __cuda_local_var_91893_4_non_const_quads_32;
$Lt_35_11010:
 //<loop> Loop body line 212, nesting depth: 1, estimated iterations: unknown
	.loc	4	222	0
	cvt.s64.s32 	%rd4, %r4;
	mul.wide.s32 	%rd5, %r4, 32;
	add.u64 	%rd6, %rd3, %rd5;
	ld.local.f32 	%f22, [%rd6+0];
	ld.local.f32 	%f23, [%rd6+4];
	.loc	4	223	0
	ld.local.f32 	%f24, [%rd6+8];
	ld.local.f32 	%f25, [%rd6+12];
	.loc	4	224	0
	ld.local.f32 	%f26, [%rd6+16];
	ld.local.f32 	%f27, [%rd6+20];
	.loc	4	225	0
	ld.local.f32 	%f28, [%rd6+24];
	ld.local.f32 	%f29, [%rd6+28];
	.loc	4	234	0
	add.ftz.f32 	%f30, %f27, %f29;
	add.ftz.f32 	%f31, %f23, %f25;
	add.ftz.f32 	%f32, %f26, %f28;
	add.ftz.f32 	%f33, %f22, %f24;
	add.ftz.f32 	%f34, %f23, %f29;
	add.ftz.f32 	%f35, %f25, %f27;
	add.ftz.f32 	%f36, %f22, %f28;
	add.ftz.f32 	%f37, %f24, %f26;
	mov.f32 	%f38, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f39, %f30, %f38;
	mov.f32 	%f40, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f41, %f31, %f40;
	mov.f32 	%f42, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f43, %f32, %f42;
	mov.f32 	%f44, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f45, %f33, %f44;
	mov.f32 	%f46, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f47, %f34, %f46;
	mov.f32 	%f48, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f49, %f35, %f48;
	mov.f32 	%f50, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f51, %f36, %f50;
	mov.f32 	%f52, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f53, %f37, %f52;
	cvt.s64.s32 	%rd7, %r3;
	mul.wide.s32 	%rd8, %r3, 4;
	sub.ftz.f32 	%f54, %f39, %f41;
	sub.ftz.f32 	%f55, %f43, %f45;
	sub.ftz.f32 	%f56, %f47, %f49;
	sub.ftz.f32 	%f57, %f51, %f53;
	mul.ftz.f32 	%f58, %f54, %f54;
	mul.ftz.f32 	%f59, %f56, %f56;
	fma.rn.ftz.f32 	%f60, %f55, %f55, %f58;
	fma.rn.ftz.f32 	%f61, %f57, %f57, %f59;
	mov.f32 	%f62, 0f3f800000;    	// 1
	setp.gt.ftz.f32 	%p1, %f60, %f62;
	mov.f32 	%f63, 0f3f800000;    	// 1
	setp.gt.ftz.f32 	%p2, %f61, %f63;
	selp.s32 	%r5, 1, 0, %p2;
	or.b32 	%r6, %r5, 2;
	selp.s32 	%r7, %r6, %r5, %p1;
	mov.u32 	%r8, 0;
	setp.ne.s32 	%p3, %r7, %r8;
	@%p3 bra 	$Lt_35_11522;
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	250	0
	sub.s32 	%r4, %r4, 1;
	.loc	4	251	0
	mov.f32 	%f64, 0f3f800000;    	// 1
	add.ftz.f32 	%f21, %f21, %f64;
	.loc	4	252	0
	add.ftz.f32 	%f65, %f43, %f45;
	mov.f32 	%f66, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f67, %f65, %f66;
	mov.f32 	%f68, %f67;
	add.ftz.f32 	%f69, %f39, %f41;
	mov.f32 	%f70, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f71, %f69, %f70;
	mov.f32 	%f72, %f71;
	mov.f32 	%f73, 0f00000000;    	// 0
	mov.f32 	%f74, %f73;
	mov.f32 	%f75, 0f00000000;    	// 0
	mov.f32 	%f76, %f75;
	tex.2d.v4.f32.f32 {%f77,%f78,%f79,%f80},[sTexture,{%f68,%f72,%f74,%f76}];
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	40	0
	mov.f32 	%f81, %f77;
	mov.f32 	%f82, %f78;
	mov.f32 	%f83, %f79;
	mov.f32 	%f84, %f80;
	.loc	4	252	0
	add.ftz.f32 	%f20, %f81, %f20;
	add.ftz.f32 	%f19, %f82, %f19;
	add.ftz.f32 	%f18, %f83, %f18;
	add.ftz.f32 	%f17, %f84, %f17;
	.loc	4	253	0
	add.u64 	%rd9, %rd8, %rd2;
	ld.local.s32 	%r9, [%rd9+0];
	sub.s32 	%r10, %r9, 1;
	st.local.s32 	[%rd9+0], %r10;
	.loc	4	250	0
	sub.s32 	%r11, %r3, 1;
	mov.s32 	%r12, 0;
	setp.eq.s32 	%p4, %r10, %r12;
	selp.s32 	%r3, %r11, %r3, %p4;
	bra.uni 	$Lt_35_11266;
$Lt_35_11522:
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	258	0
	add.u64 	%rd10, %rd8, %rd1;
	ld.local.s32 	%r13, [%rd10+0];
	mov.u32 	%r14, 2;
	setp.eq.s32 	%p5, %r13, %r14;
	@%p5 bra 	$L_35_10498;
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	mov.f32 	%f85, 0f40800000;    	// 4
	set.lt.ftz.u32.f32 	%r15, %f60, %f85;
	neg.s32 	%r16, %r15;
	mov.f32 	%f86, 0f40800000;    	// 4
	set.lt.ftz.u32.f32 	%r17, %f61, %f86;
	neg.s32 	%r18, %r17;
	and.b32 	%r19, %r16, %r18;
	mov.u32 	%r20, 0;
	setp.eq.s32 	%p6, %r19, %r20;
	@%p6 bra 	$L_35_10242;
$L_35_10498:
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	259	0
	sub.s32 	%r4, %r4, 1;
	mov.u32 	%r21, 3;
	setp.ne.s32 	%p7, %r7, %r21;
	@%p7 bra 	$Lt_35_12034;
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	262	0
	mov.f32 	%f87, 0f40800000;    	// 4
	add.ftz.f32 	%f21, %f21, %f87;
	.loc	4	264	0
	add.ftz.f32 	%f88, %f39, %f41;
	add.ftz.f32 	%f89, %f43, %f45;
	mov.f32 	%f90, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f91, %f88, %f90;
	mov.f32 	%f92, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f93, %f89, %f92;
	add.ftz.f32 	%f94, %f51, %f93;
	add.ftz.f32 	%f95, %f22, %f94;
	add.ftz.f32 	%f96, %f45, %f95;
	mov.f32 	%f97, 0f3e800000;    	// 0.25
	mul.ftz.f32 	%f98, %f96, %f97;
	mov.f32 	%f99, %f98;
	add.ftz.f32 	%f100, %f47, %f91;
	add.ftz.f32 	%f101, %f23, %f100;
	add.ftz.f32 	%f102, %f41, %f101;
	mov.f32 	%f103, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f104, %f102, %f103;
	mov.f32 	%f105, %f104;
	mov.f32 	%f106, 0f00000000;   	// 0
	mov.f32 	%f107, %f106;
	mov.f32 	%f108, 0f00000000;   	// 0
	mov.f32 	%f109, %f108;
	tex.2d.v4.f32.f32 {%f110,%f111,%f112,%f113},[sTexture,{%f99,%f105,%f107,%f109}];
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	40	0
	mov.f32 	%f81, %f110;
	mov.f32 	%f82, %f111;
	mov.f32 	%f83, %f112;
	mov.f32 	%f84, %f113;
	.loc	4	64	0
	add.ftz.f32 	%f114, %f81, %f20;
	.loc	4	65	0
	add.ftz.f32 	%f115, %f82, %f19;
	.loc	4	66	0
	add.ftz.f32 	%f116, %f83, %f18;
	.loc	4	67	0
	add.ftz.f32 	%f117, %f84, %f17;
	.loc	4	266	0
	add.ftz.f32 	%f118, %f45, %f93;
	add.ftz.f32 	%f119, %f24, %f118;
	add.ftz.f32 	%f120, %f53, %f119;
	mov.f32 	%f121, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f122, %f120, %f121;
	mov.f32 	%f123, %f122;
	add.ftz.f32 	%f124, %f41, %f91;
	add.ftz.f32 	%f125, %f25, %f124;
	add.ftz.f32 	%f126, %f49, %f125;
	mov.f32 	%f127, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f128, %f126, %f127;
	mov.f32 	%f129, %f128;
	mov.f32 	%f130, 0f00000000;   	// 0
	mov.f32 	%f131, %f130;
	mov.f32 	%f132, 0f00000000;   	// 0
	mov.f32 	%f133, %f132;
	tex.2d.v4.f32.f32 {%f134,%f135,%f136,%f137},[sTexture,{%f123,%f129,%f131,%f133}];
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	40	0
	mov.f32 	%f81, %f134;
	mov.f32 	%f82, %f135;
	mov.f32 	%f83, %f136;
	mov.f32 	%f84, %f137;
	.loc	4	64	0
	add.ftz.f32 	%f138, %f81, %f114;
	.loc	4	65	0
	add.ftz.f32 	%f139, %f82, %f115;
	.loc	4	66	0
	add.ftz.f32 	%f140, %f83, %f116;
	.loc	4	67	0
	add.ftz.f32 	%f141, %f84, %f117;
	.loc	4	268	0
	add.ftz.f32 	%f142, %f53, %f93;
	add.ftz.f32 	%f143, %f26, %f142;
	add.ftz.f32 	%f144, %f43, %f143;
	mov.f32 	%f145, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f146, %f144, %f145;
	mov.f32 	%f147, %f146;
	add.ftz.f32 	%f148, %f49, %f91;
	add.ftz.f32 	%f149, %f27, %f148;
	add.ftz.f32 	%f150, %f39, %f149;
	mov.f32 	%f151, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f152, %f150, %f151;
	mov.f32 	%f153, %f152;
	mov.f32 	%f154, 0f00000000;   	// 0
	mov.f32 	%f155, %f154;
	mov.f32 	%f156, 0f00000000;   	// 0
	mov.f32 	%f157, %f156;
	tex.2d.v4.f32.f32 {%f158,%f159,%f160,%f161},[sTexture,{%f147,%f153,%f155,%f157}];
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	40	0
	mov.f32 	%f81, %f158;
	mov.f32 	%f82, %f159;
	mov.f32 	%f83, %f160;
	mov.f32 	%f84, %f161;
	.loc	4	64	0
	add.ftz.f32 	%f162, %f81, %f138;
	.loc	4	65	0
	add.ftz.f32 	%f163, %f82, %f139;
	.loc	4	66	0
	add.ftz.f32 	%f164, %f83, %f140;
	.loc	4	67	0
	add.ftz.f32 	%f165, %f84, %f141;
	.loc	4	270	0
	add.ftz.f32 	%f166, %f43, %f93;
	add.ftz.f32 	%f167, %f28, %f166;
	add.ftz.f32 	%f168, %f51, %f167;
	mov.f32 	%f169, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f170, %f168, %f169;
	mov.f32 	%f171, %f170;
	add.ftz.f32 	%f172, %f39, %f91;
	add.ftz.f32 	%f173, %f29, %f172;
	add.ftz.f32 	%f174, %f47, %f173;
	mov.f32 	%f175, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f176, %f174, %f175;
	mov.f32 	%f177, %f176;
	mov.f32 	%f178, 0f00000000;   	// 0
	mov.f32 	%f179, %f178;
	mov.f32 	%f180, 0f00000000;   	// 0
	mov.f32 	%f181, %f180;
	tex.2d.v4.f32.f32 {%f182,%f183,%f184,%f185},[sTexture,{%f171,%f177,%f179,%f181}];
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	40	0
	mov.f32 	%f81, %f182;
	mov.f32 	%f82, %f183;
	mov.f32 	%f83, %f184;
	mov.f32 	%f84, %f185;
	.loc	4	270	0
	add.ftz.f32 	%f20, %f81, %f162;
	add.ftz.f32 	%f19, %f82, %f163;
	add.ftz.f32 	%f18, %f83, %f164;
	add.ftz.f32 	%f17, %f84, %f165;
	bra.uni 	$Lt_35_11778;
$Lt_35_12034:
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	mov.f32 	%f186, 0f40000000;   	// 2
	add.ftz.f32 	%f187, %f21, %f186;
	mov.u32 	%r22, 2;
	setp.ne.s32 	%p8, %r7, %r22;
	@%p8 bra 	$Lt_35_12546;
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	272	0
	mov.f32 	%f21, %f187;
	.loc	4	274	0
	add.ftz.f32 	%f188, %f33, %f53;
	add.ftz.f32 	%f189, %f51, %f188;
	mov.f32 	%f190, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f191, %f189, %f190;
	mov.f32 	%f192, %f191;
	add.ftz.f32 	%f193, %f31, %f49;
	add.ftz.f32 	%f194, %f47, %f193;
	mov.f32 	%f195, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f196, %f194, %f195;
	mov.f32 	%f197, %f196;
	mov.f32 	%f198, 0f00000000;   	// 0
	mov.f32 	%f199, %f198;
	mov.f32 	%f200, 0f00000000;   	// 0
	mov.f32 	%f201, %f200;
	tex.2d.v4.f32.f32 {%f202,%f203,%f204,%f205},[sTexture,{%f192,%f197,%f199,%f201}];
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	40	0
	mov.f32 	%f81, %f202;
	mov.f32 	%f82, %f203;
	mov.f32 	%f83, %f204;
	mov.f32 	%f84, %f205;
	.loc	4	64	0
	add.ftz.f32 	%f206, %f81, %f20;
	.loc	4	65	0
	add.ftz.f32 	%f207, %f82, %f19;
	.loc	4	66	0
	add.ftz.f32 	%f208, %f83, %f18;
	.loc	4	67	0
	add.ftz.f32 	%f209, %f84, %f17;
	.loc	4	276	0
	add.ftz.f32 	%f210, %f51, %f53;
	add.ftz.f32 	%f211, %f26, %f210;
	add.ftz.f32 	%f212, %f28, %f211;
	mov.f32 	%f213, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f214, %f212, %f213;
	mov.f32 	%f215, %f214;
	add.ftz.f32 	%f216, %f47, %f49;
	add.ftz.f32 	%f217, %f27, %f216;
	add.ftz.f32 	%f218, %f29, %f217;
	mov.f32 	%f219, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f220, %f218, %f219;
	mov.f32 	%f221, %f220;
	mov.f32 	%f222, 0f00000000;   	// 0
	mov.f32 	%f223, %f222;
	mov.f32 	%f224, 0f00000000;   	// 0
	mov.f32 	%f225, %f224;
	tex.2d.v4.f32.f32 {%f226,%f227,%f228,%f229},[sTexture,{%f215,%f221,%f223,%f225}];
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	40	0
	mov.f32 	%f81, %f226;
	mov.f32 	%f82, %f227;
	mov.f32 	%f83, %f228;
	mov.f32 	%f84, %f229;
	.loc	4	276	0
	add.ftz.f32 	%f20, %f81, %f206;
	add.ftz.f32 	%f19, %f82, %f207;
	add.ftz.f32 	%f18, %f83, %f208;
	add.ftz.f32 	%f17, %f84, %f209;
	bra.uni 	$Lt_35_12290;
$Lt_35_12546:
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	278	0
	mov.f32 	%f21, %f187;
	.loc	4	280	0
	add.ftz.f32 	%f230, %f45, %f22;
	add.ftz.f32 	%f231, %f43, %f230;
	add.ftz.f32 	%f232, %f28, %f231;
	mov.f32 	%f233, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f234, %f232, %f233;
	mov.f32 	%f235, %f234;
	add.ftz.f32 	%f236, %f41, %f23;
	add.ftz.f32 	%f237, %f39, %f236;
	add.ftz.f32 	%f238, %f29, %f237;
	mov.f32 	%f239, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f240, %f238, %f239;
	mov.f32 	%f241, %f240;
	mov.f32 	%f242, 0f00000000;   	// 0
	mov.f32 	%f243, %f242;
	mov.f32 	%f244, 0f00000000;   	// 0
	mov.f32 	%f245, %f244;
	tex.2d.v4.f32.f32 {%f246,%f247,%f248,%f249},[sTexture,{%f235,%f241,%f243,%f245}];
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	40	0
	mov.f32 	%f81, %f246;
	mov.f32 	%f82, %f247;
	mov.f32 	%f83, %f248;
	mov.f32 	%f84, %f249;
	.loc	4	64	0
	add.ftz.f32 	%f250, %f81, %f20;
	.loc	4	65	0
	add.ftz.f32 	%f251, %f82, %f19;
	.loc	4	66	0
	add.ftz.f32 	%f252, %f83, %f18;
	.loc	4	67	0
	add.ftz.f32 	%f253, %f84, %f17;
	.loc	4	282	0
	add.ftz.f32 	%f254, %f45, %f24;
	add.ftz.f32 	%f255, %f26, %f254;
	add.ftz.f32 	%f256, %f43, %f255;
	mov.f32 	%f257, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f258, %f256, %f257;
	mov.f32 	%f259, %f258;
	add.ftz.f32 	%f260, %f41, %f25;
	add.ftz.f32 	%f261, %f27, %f260;
	add.ftz.f32 	%f262, %f39, %f261;
	mov.f32 	%f263, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f264, %f262, %f263;
	mov.f32 	%f265, %f264;
	mov.f32 	%f266, 0f00000000;   	// 0
	mov.f32 	%f267, %f266;
	mov.f32 	%f268, 0f00000000;   	// 0
	mov.f32 	%f269, %f268;
	tex.2d.v4.f32.f32 {%f270,%f271,%f272,%f273},[sTexture,{%f259,%f265,%f267,%f269}];
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	40	0
	mov.f32 	%f81, %f270;
	mov.f32 	%f82, %f271;
	mov.f32 	%f83, %f272;
	mov.f32 	%f84, %f273;
	.loc	4	282	0
	add.ftz.f32 	%f20, %f81, %f250;
	add.ftz.f32 	%f19, %f82, %f251;
	add.ftz.f32 	%f18, %f83, %f252;
	add.ftz.f32 	%f17, %f84, %f253;
$Lt_35_12290:
$Lt_35_11778:
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	285	0
	add.u64 	%rd9, %rd8, %rd2;
	ld.local.s32 	%r23, [%rd9+0];
	sub.s32 	%r10, %r23, 1;
	st.local.s32 	[%rd9+0], %r10;
	sub.s32 	%r24, %r3, 1;
	mov.s32 	%r25, 0;
	setp.eq.s32 	%p9, %r10, %r25;
	selp.s32 	%r3, %r24, %r3, %p9;
	bra.uni 	$L_35_9986;
$L_35_10242:
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	349	0
	mov.u32 	%r26, 3;
	setp.ne.s32 	%p10, %r7, %r26;
	@%p10 bra 	$Lt_35_13058;
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	294	0
	add.ftz.f32 	%f274, %f43, %f45;
	mov.f32 	%f275, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f93, %f274, %f275;
	st.local.f32 	[%rd6+0], %f93;
	add.ftz.f32 	%f276, %f39, %f41;
	mov.f32 	%f277, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f91, %f276, %f277;
	st.local.f32 	[%rd6+4], %f91;
	.loc	4	295	0
	st.local.f32 	[%rd6+8], %f51;
	st.local.f32 	[%rd6+12], %f47;
	.loc	4	296	0
	st.local.f32 	[%rd6+16], %f22;
	st.local.f32 	[%rd6+20], %f23;
	.loc	4	297	0
	st.local.f32 	[%rd6+24], %f45;
	st.local.f32 	[%rd6+28], %f41;
	.loc	4	299	0
	st.local.f32 	[%rd6+32], %f93;
	st.local.f32 	[%rd6+36], %f91;
	.loc	4	300	0
	st.local.f32 	[%rd6+40], %f45;
	st.local.f32 	[%rd6+44], %f41;
	.loc	4	301	0
	st.local.f32 	[%rd6+48], %f24;
	st.local.f32 	[%rd6+52], %f25;
	.loc	4	302	0
	st.local.f32 	[%rd6+56], %f53;
	st.local.f32 	[%rd6+60], %f49;
	.loc	4	304	0
	st.local.f32 	[%rd6+64], %f93;
	st.local.f32 	[%rd6+68], %f91;
	.loc	4	305	0
	st.local.f32 	[%rd6+72], %f53;
	st.local.f32 	[%rd6+76], %f49;
	.loc	4	306	0
	st.local.f32 	[%rd6+80], %f26;
	st.local.f32 	[%rd6+84], %f27;
	.loc	4	307	0
	st.local.f32 	[%rd6+88], %f43;
	st.local.f32 	[%rd6+92], %f39;
	.loc	4	309	0
	st.local.f32 	[%rd6+96], %f93;
	st.local.f32 	[%rd6+100], %f91;
	.loc	4	310	0
	st.local.f32 	[%rd6+104], %f43;
	st.local.f32 	[%rd6+108], %f39;
	.loc	4	311	0
	st.local.f32 	[%rd6+112], %f28;
	st.local.f32 	[%rd6+116], %f29;
	.loc	4	312	0
	st.local.f32 	[%rd6+120], %f51;
	st.local.f32 	[%rd6+124], %f47;
	mov.s32 	%r27, 4;
	bra.uni 	$Lt_35_12802;
$Lt_35_13058:
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	mov.u32 	%r28, 2;
	setp.ne.s32 	%p11, %r7, %r28;
	@%p11 bra 	$Lt_35_13570;
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	316	0
	st.local.f32 	[%rd6+0], %f22;
	st.local.f32 	[%rd6+4], %f23;
	.loc	4	317	0
	st.local.f32 	[%rd6+8], %f24;
	st.local.f32 	[%rd6+12], %f25;
	.loc	4	318	0
	st.local.f32 	[%rd6+16], %f53;
	st.local.f32 	[%rd6+20], %f49;
	.loc	4	319	0
	st.local.f32 	[%rd6+24], %f51;
	st.local.f32 	[%rd6+28], %f47;
	.loc	4	321	0
	st.local.f32 	[%rd6+32], %f51;
	st.local.f32 	[%rd6+36], %f47;
	.loc	4	322	0
	st.local.f32 	[%rd6+40], %f53;
	st.local.f32 	[%rd6+44], %f49;
	.loc	4	323	0
	st.local.f32 	[%rd6+48], %f26;
	st.local.f32 	[%rd6+52], %f27;
	.loc	4	324	0
	st.local.f32 	[%rd6+56], %f28;
	st.local.f32 	[%rd6+60], %f29;
	bra.uni 	$Lt_35_13314;
$Lt_35_13570:
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	330	0
	st.local.f32 	[%rd6+0], %f22;
	st.local.f32 	[%rd6+4], %f23;
	.loc	4	331	0
	st.local.f32 	[%rd6+8], %f45;
	st.local.f32 	[%rd6+12], %f41;
	.loc	4	332	0
	st.local.f32 	[%rd6+16], %f43;
	st.local.f32 	[%rd6+20], %f39;
	.loc	4	333	0
	st.local.f32 	[%rd6+24], %f28;
	st.local.f32 	[%rd6+28], %f29;
	.loc	4	335	0
	st.local.f32 	[%rd6+32], %f45;
	st.local.f32 	[%rd6+36], %f41;
	.loc	4	336	0
	st.local.f32 	[%rd6+40], %f24;
	st.local.f32 	[%rd6+44], %f25;
	.loc	4	337	0
	st.local.f32 	[%rd6+48], %f26;
	st.local.f32 	[%rd6+52], %f27;
	.loc	4	338	0
	st.local.f32 	[%rd6+56], %f43;
	st.local.f32 	[%rd6+60], %f39;
$Lt_35_13314:
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	mov.s32 	%r27, 2;
$Lt_35_12802:
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	.loc	4	343	0
	add.s32 	%r29, %r27, %r4;
	sub.s32 	%r4, %r29, 1;
	.loc	4	345	0
	add.u64 	%rd9, %rd8, %rd2;
	ld.local.s32 	%r30, [%rd9+0];
	sub.s32 	%r10, %r30, 1;
	st.local.s32 	[%rd9+0], %r10;
	.loc	4	343	0
	add.s32 	%r31, %r3, 1;
	mov.s32 	%r32, 0;
	setp.ne.s32 	%p12, %r10, %r32;
	selp.s32 	%r3, %r31, %r3, %p12;
	.loc	4	348	0
	cvt.s64.s32 	%rd11, %r3;
	mul.wide.s32 	%rd8, %r3, 4;
	add.s32 	%r33, %r13, 1;
	add.u64 	%rd12, %rd8, %rd1;
	st.local.s32 	[%rd12+0], %r33;
	.loc	4	349	0
	add.u64 	%rd13, %rd8, %rd2;
	st.local.s32 	[%rd13+0], %r27;
$L_35_9986:
$Lt_35_11266:
 //<loop> Part of loop body line 212, head labeled $Lt_35_11010
	mov.u32 	%r34, 0;
	setp.ge.s32 	%p13, %r4, %r34;
	@%p13 bra 	$Lt_35_11010;
	.loc	4	355	0
	rcp.approx.ftz.f32 	%f278, %f21;
	mul.ftz.f32 	%f279, %f278, %f20;
	st.param.f32 	[__cudaretf__Z12QuadCoverage6float2S_S_S_+0], %f279;
	mul.ftz.f32 	%f280, %f278, %f19;
	st.param.f32 	[__cudaretf__Z12QuadCoverage6float2S_S_S_+4], %f280;
	mul.ftz.f32 	%f281, %f278, %f18;
	st.param.f32 	[__cudaretf__Z12QuadCoverage6float2S_S_S_+8], %f281;
	mul.ftz.f32 	%f282, %f278, %f17;
	st.param.f32 	[__cudaretf__Z12QuadCoverage6float2S_S_S_+12], %f282;
	ret;
$LDWend__Z12QuadCoverage6float2S_S_S_:
	} // _Z12QuadCoverage6float2S_S_S_

	.visible .func (.param .align 16 .b8 __cudaretf__Z10SampleQuad6float2S_S_S_[16]) _Z10SampleQuad6float2S_S_S_ (.param .align 8 .b8 __cudaparmf1__Z10SampleQuad6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf2__Z10SampleQuad6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf3__Z10SampleQuad6float2S_S_S_[8], .param .align 8 .b8 __cudaparmf4__Z10SampleQuad6float2S_S_S_[8])
	{
	.reg .u32 %r<46>;
	.reg .u64 %rd<15>;
	.reg .f32 %f<1122>;
	.reg .pred %p<20>;
	.local .align 4 .b8 __cuda___cuda_local_var_91896_7_non_const_sl_16256[16];
	.local .align 4 .b8 __cuda___cuda_local_var_91897_7_non_const_sc_32272[16];
	.local .align 8 .b8 __cuda___cuda_local_var_91893_4_non_const_quads_48288[224];
	.loc	4	359	0
$LDWbegin__Z10SampleQuad6float2S_S_S_:
	ld.param.f32 	%f1, [__cudaparmf1__Z10SampleQuad6float2S_S_S_+0];
	mov.f32 	%f2, %f1;
	ld.param.f32 	%f3, [__cudaparmf1__Z10SampleQuad6float2S_S_S_+4];
	mov.f32 	%f4, %f3;
	ld.param.f32 	%f5, [__cudaparmf2__Z10SampleQuad6float2S_S_S_+0];
	mov.f32 	%f6, %f5;
	ld.param.f32 	%f7, [__cudaparmf2__Z10SampleQuad6float2S_S_S_+4];
	mov.f32 	%f8, %f7;
	ld.param.f32 	%f9, [__cudaparmf3__Z10SampleQuad6float2S_S_S_+0];
	mov.f32 	%f10, %f9;
	ld.param.f32 	%f11, [__cudaparmf3__Z10SampleQuad6float2S_S_S_+4];
	mov.f32 	%f12, %f11;
	ld.param.f32 	%f13, [__cudaparmf4__Z10SampleQuad6float2S_S_S_+0];
	mov.f32 	%f14, %f13;
	ld.param.f32 	%f15, [__cudaparmf4__Z10SampleQuad6float2S_S_S_+4];
	mov.f32 	%f16, %f15;
	.loc	4	370	0
	add.ftz.f32 	%f17, %f4, %f8;
	add.ftz.f32 	%f18, %f12, %f16;
	add.ftz.f32 	%f19, %f2, %f6;
	add.ftz.f32 	%f20, %f10, %f14;
	add.ftz.f32 	%f21, %f4, %f16;
	add.ftz.f32 	%f22, %f8, %f12;
	add.ftz.f32 	%f23, %f2, %f14;
	add.ftz.f32 	%f24, %f6, %f10;
	mov.f32 	%f25, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f26, %f17, %f25;
	mov.f32 	%f27, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f28, %f18, %f27;
	mov.f32 	%f29, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f30, %f19, %f29;
	mov.f32 	%f31, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f32, %f20, %f31;
	mov.f32 	%f33, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f34, %f21, %f33;
	mov.f32 	%f35, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f36, %f22, %f35;
	mov.f32 	%f37, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f38, %f23, %f37;
	mov.f32 	%f39, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f40, %f24, %f39;
	sub.ftz.f32 	%f41, %f26, %f28;
	sub.ftz.f32 	%f42, %f30, %f32;
	sub.ftz.f32 	%f43, %f34, %f36;
	sub.ftz.f32 	%f44, %f38, %f40;
	mul.ftz.f32 	%f45, %f41, %f41;
	mul.ftz.f32 	%f46, %f43, %f43;
	fma.rn.ftz.f32 	%f47, %f42, %f42, %f45;
	fma.rn.ftz.f32 	%f48, %f44, %f44, %f46;
	mov.f32 	%f49, 0f3f8020c5;    	// 1.001
	setp.gt.ftz.f32 	%p1, %f48, %f49;
	selp.s32 	%r1, 1, 0, %p1;
	or.b32 	%r2, %r1, 2;
	mov.f32 	%f50, 0f3f8020c5;    	// 1.001
	setp.gt.ftz.f32 	%p2, %f47, %f50;
	selp.s32 	%r3, %r2, %r1, %p2;
	mov.u32 	%r4, 0;
	setp.ne.s32 	%p3, %r3, %r4;
	@%p3 bra 	$Lt_36_14850;
	.loc	4	147	0
	add.ftz.f32 	%f51, %f26, %f28;
	add.ftz.f32 	%f52, %f30, %f32;
	mov.f32 	%f53, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f54, %f51, %f53;
	mov.f32 	%f55, 0f3f000000;    	// 0.5
	mul.ftz.f32 	%f56, %f52, %f55;
	mov.f32 	%f57, 0fbf000000;    	// -0.5
	add.ftz.f32 	%f58, %f54, %f57;
	mov.f32 	%f59, 0fbf000000;    	// -0.5
	add.ftz.f32 	%f60, %f56, %f59;
	cvt.rmi.ftz.f32.f32 	%f61, %f58;
	cvt.rmi.ftz.f32.f32 	%f62, %f60;
	mov.f32 	%f63, 0fbf000000;    	// -0.5
	add.ftz.f32 	%f64, %f61, %f63;
	mov.f32 	%f65, %f64;
	mov.f32 	%f66, 0fbf000000;    	// -0.5
	add.ftz.f32 	%f67, %f62, %f66;
	mov.f32 	%f68, %f67;
	mov.f32 	%f69, %f68;
	mov.f32 	%f70, %f65;
	mov.f32 	%f71, 0f00000000;    	// 0
	mov.f32 	%f72, %f71;
	mov.f32 	%f73, 0f00000000;    	// 0
	mov.f32 	%f74, %f73;
	tex.2d.v4.f32.f32 {%f75,%f76,%f77,%f78},[sTexture,{%f69,%f70,%f72,%f74}];
	.loc	4	40	0
	mov.f32 	%f79, %f75;
	mov.f32 	%f80, %f76;
	mov.f32 	%f81, %f77;
	mov.f32 	%f82, %f78;
	.loc	4	72	0
	sub.ftz.f32 	%f83, %f58, %f61;
	sub.ftz.f32 	%f84, %f60, %f62;
	mov.f32 	%f85, 0f3f800000;    	// 1
	mov.f32 	%f86, 0fbf000000;    	// -0.5
	fma.rn.ftz.f32 	%f87, %f86, %f83, %f85;
	mov.f32 	%f88, 0f3f800000;    	// 1
	mov.f32 	%f89, 0fbf000000;    	// -0.5
	fma.rn.ftz.f32 	%f90, %f89, %f84, %f88;
	mov.f32 	%f91, 0fbf000000;    	// -0.5
	fma.rn.ftz.f32 	%f92, %f83, %f87, %f91;
	mov.f32 	%f93, 0fbf000000;    	// -0.5
	fma.rn.ftz.f32 	%f94, %f84, %f90, %f93;
	mul.ftz.f32 	%f95, %f92, %f83;
	mul.ftz.f32 	%f96, %f94, %f84;
	mul.ftz.f32 	%f97, %f96, %f95;
	mul.ftz.f32 	%f98, %f97, %f79;
	.loc	4	73	0
	mul.ftz.f32 	%f99, %f97, %f80;
	.loc	4	74	0
	mul.ftz.f32 	%f100, %f97, %f81;
	.loc	4	75	0
	mul.ftz.f32 	%f101, %f97, %f82;
	.loc	4	148	0
	mov.f32 	%f102, 0f3f800000;   	// 1
	add.ftz.f32 	%f103, %f67, %f102;
	mov.f32 	%f104, %f103;
	mov.f32 	%f105, %f65;
	mov.f32 	%f106, 0f00000000;   	// 0
	mov.f32 	%f107, %f106;
	mov.f32 	%f108, 0f00000000;   	// 0
	mov.f32 	%f109, %f108;
	tex.2d.v4.f32.f32 {%f110,%f111,%f112,%f113},[sTexture,{%f104,%f105,%f107,%f109}];
	.loc	4	40	0
	mov.f32 	%f79, %f110;
	mov.f32 	%f80, %f111;
	mov.f32 	%f81, %f112;
	mov.f32 	%f82, %f113;
	.loc	4	72	0
	mov.f32 	%f114, 0fc0200000;   	// -2.5
	mov.f32 	%f115, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f116, %f115, %f84, %f114;
	mul.ftz.f32 	%f117, %f116, %f84;
	mov.f32 	%f118, 0f3f800000;   	// 1
	fma.rn.ftz.f32 	%f119, %f84, %f117, %f118;
	mul.ftz.f32 	%f120, %f119, %f95;
	mul.ftz.f32 	%f121, %f120, %f79;
	.loc	4	73	0
	mul.ftz.f32 	%f122, %f120, %f80;
	.loc	4	74	0
	mul.ftz.f32 	%f123, %f120, %f81;
	.loc	4	75	0
	mul.ftz.f32 	%f124, %f120, %f82;
	.loc	4	149	0
	mov.f32 	%f125, 0f40000000;   	// 2
	add.ftz.f32 	%f126, %f67, %f125;
	mov.f32 	%f127, %f126;
	mov.f32 	%f128, %f65;
	mov.f32 	%f129, 0f00000000;   	// 0
	mov.f32 	%f130, %f129;
	mov.f32 	%f131, 0f00000000;   	// 0
	mov.f32 	%f132, %f131;
	tex.2d.v4.f32.f32 {%f133,%f134,%f135,%f136},[sTexture,{%f127,%f128,%f130,%f132}];
	.loc	4	40	0
	mov.f32 	%f79, %f133;
	mov.f32 	%f80, %f134;
	mov.f32 	%f81, %f135;
	mov.f32 	%f82, %f136;
	.loc	4	149	0
	mov.f32 	%f137, 0f3f800000;   	// 1
	sub.ftz.f32 	%f138, %f137, %f84;
	mov.f32 	%f139, 0fc0200000;   	// -2.5
	mov.f32 	%f140, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f141, %f140, %f138, %f139;
	mul.ftz.f32 	%f142, %f141, %f138;
	mov.f32 	%f143, 0f3f800000;   	// 1
	fma.rn.ftz.f32 	%f144, %f138, %f142, %f143;
	mul.ftz.f32 	%f145, %f144, %f95;
	.loc	4	64	0
	add.ftz.f32 	%f146, %f98, %f121;
	fma.rn.ftz.f32 	%f147, %f79, %f145, %f146;
	.loc	4	65	0
	add.ftz.f32 	%f148, %f99, %f122;
	fma.rn.ftz.f32 	%f149, %f80, %f145, %f148;
	.loc	4	66	0
	add.ftz.f32 	%f150, %f100, %f123;
	fma.rn.ftz.f32 	%f151, %f81, %f145, %f150;
	.loc	4	67	0
	add.ftz.f32 	%f152, %f101, %f124;
	fma.rn.ftz.f32 	%f153, %f82, %f145, %f152;
	.loc	4	150	0
	mov.f32 	%f154, 0f40400000;   	// 3
	add.ftz.f32 	%f155, %f67, %f154;
	mov.f32 	%f156, %f155;
	mov.f32 	%f157, %f65;
	mov.f32 	%f158, 0f00000000;   	// 0
	mov.f32 	%f159, %f158;
	mov.f32 	%f160, 0f00000000;   	// 0
	mov.f32 	%f161, %f160;
	tex.2d.v4.f32.f32 {%f162,%f163,%f164,%f165},[sTexture,{%f156,%f157,%f159,%f161}];
	.loc	4	40	0
	mov.f32 	%f79, %f162;
	mov.f32 	%f80, %f163;
	mov.f32 	%f81, %f164;
	mov.f32 	%f82, %f165;
	.loc	4	150	0
	mov.f32 	%f166, 0f3f800000;   	// 1
	mov.f32 	%f167, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f168, %f167, %f138, %f166;
	mov.f32 	%f169, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f170, %f138, %f168, %f169;
	mul.ftz.f32 	%f171, %f170, %f138;
	mul.ftz.f32 	%f172, %f171, %f95;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f173, %f79, %f172, %f147;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f174, %f80, %f172, %f149;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f175, %f81, %f172, %f151;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f176, %f82, %f172, %f153;
	.loc	4	151	0
	mov.f32 	%f177, 0f3f800000;   	// 1
	add.ftz.f32 	%f178, %f64, %f177;
	mov.f32 	%f179, %f68;
	mov.f32 	%f180, %f178;
	mov.f32 	%f181, 0f00000000;   	// 0
	mov.f32 	%f182, %f181;
	mov.f32 	%f183, 0f00000000;   	// 0
	mov.f32 	%f184, %f183;
	tex.2d.v4.f32.f32 {%f185,%f186,%f187,%f188},[sTexture,{%f179,%f180,%f182,%f184}];
	.loc	4	40	0
	mov.f32 	%f79, %f185;
	mov.f32 	%f80, %f186;
	mov.f32 	%f81, %f187;
	mov.f32 	%f82, %f188;
	.loc	4	72	0
	mov.f32 	%f189, 0fc0200000;   	// -2.5
	mov.f32 	%f190, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f191, %f190, %f83, %f189;
	mul.ftz.f32 	%f192, %f191, %f83;
	mov.f32 	%f193, 0f3f800000;   	// 1
	fma.rn.ftz.f32 	%f194, %f83, %f192, %f193;
	mul.ftz.f32 	%f195, %f194, %f96;
	mul.ftz.f32 	%f196, %f195, %f79;
	.loc	4	73	0
	mul.ftz.f32 	%f197, %f195, %f80;
	.loc	4	74	0
	mul.ftz.f32 	%f198, %f195, %f81;
	.loc	4	75	0
	mul.ftz.f32 	%f199, %f195, %f82;
	.loc	4	152	0
	mov.f32 	%f200, %f103;
	mov.f32 	%f201, %f178;
	mov.f32 	%f202, 0f00000000;   	// 0
	mov.f32 	%f203, %f202;
	mov.f32 	%f204, 0f00000000;   	// 0
	mov.f32 	%f205, %f204;
	tex.2d.v4.f32.f32 {%f206,%f207,%f208,%f209},[sTexture,{%f200,%f201,%f203,%f205}];
	.loc	4	40	0
	mov.f32 	%f79, %f206;
	mov.f32 	%f80, %f207;
	mov.f32 	%f81, %f208;
	mov.f32 	%f82, %f209;
	.loc	4	72	0
	mul.ftz.f32 	%f210, %f194, %f119;
	mul.ftz.f32 	%f211, %f210, %f79;
	.loc	4	73	0
	mul.ftz.f32 	%f212, %f210, %f80;
	.loc	4	74	0
	mul.ftz.f32 	%f213, %f210, %f81;
	.loc	4	75	0
	mul.ftz.f32 	%f214, %f210, %f82;
	.loc	4	153	0
	mov.f32 	%f215, %f126;
	mov.f32 	%f216, %f178;
	mov.f32 	%f217, 0f00000000;   	// 0
	mov.f32 	%f218, %f217;
	mov.f32 	%f219, 0f00000000;   	// 0
	mov.f32 	%f220, %f219;
	tex.2d.v4.f32.f32 {%f221,%f222,%f223,%f224},[sTexture,{%f215,%f216,%f218,%f220}];
	.loc	4	40	0
	mov.f32 	%f79, %f221;
	mov.f32 	%f80, %f222;
	mov.f32 	%f81, %f223;
	mov.f32 	%f82, %f224;
	.loc	4	153	0
	mul.ftz.f32 	%f225, %f194, %f144;
	.loc	4	64	0
	add.ftz.f32 	%f226, %f173, %f196;
	add.ftz.f32 	%f227, %f211, %f226;
	fma.rn.ftz.f32 	%f228, %f79, %f225, %f227;
	.loc	4	65	0
	add.ftz.f32 	%f229, %f174, %f197;
	add.ftz.f32 	%f230, %f212, %f229;
	fma.rn.ftz.f32 	%f231, %f80, %f225, %f230;
	.loc	4	66	0
	add.ftz.f32 	%f232, %f175, %f198;
	add.ftz.f32 	%f233, %f213, %f232;
	fma.rn.ftz.f32 	%f234, %f81, %f225, %f233;
	.loc	4	67	0
	add.ftz.f32 	%f235, %f176, %f199;
	add.ftz.f32 	%f236, %f214, %f235;
	fma.rn.ftz.f32 	%f237, %f82, %f225, %f236;
	.loc	4	154	0
	mov.f32 	%f238, %f155;
	mov.f32 	%f239, %f178;
	mov.f32 	%f240, 0f00000000;   	// 0
	mov.f32 	%f241, %f240;
	mov.f32 	%f242, 0f00000000;   	// 0
	mov.f32 	%f243, %f242;
	tex.2d.v4.f32.f32 {%f244,%f245,%f246,%f247},[sTexture,{%f238,%f239,%f241,%f243}];
	.loc	4	40	0
	mov.f32 	%f79, %f244;
	mov.f32 	%f80, %f245;
	mov.f32 	%f81, %f246;
	mov.f32 	%f82, %f247;
	.loc	4	154	0
	mul.ftz.f32 	%f248, %f194, %f171;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f249, %f79, %f248, %f228;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f250, %f80, %f248, %f231;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f251, %f81, %f248, %f234;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f252, %f82, %f248, %f237;
	.loc	4	155	0
	mov.f32 	%f253, 0f40000000;   	// 2
	add.ftz.f32 	%f254, %f64, %f253;
	mov.f32 	%f255, %f68;
	mov.f32 	%f256, %f254;
	mov.f32 	%f257, 0f00000000;   	// 0
	mov.f32 	%f258, %f257;
	mov.f32 	%f259, 0f00000000;   	// 0
	mov.f32 	%f260, %f259;
	tex.2d.v4.f32.f32 {%f261,%f262,%f263,%f264},[sTexture,{%f255,%f256,%f258,%f260}];
	.loc	4	40	0
	mov.f32 	%f79, %f261;
	mov.f32 	%f80, %f262;
	mov.f32 	%f81, %f263;
	mov.f32 	%f82, %f264;
	.loc	4	155	0
	mov.f32 	%f265, 0f3f800000;   	// 1
	sub.ftz.f32 	%f266, %f265, %f83;
	mov.f32 	%f267, 0fc0200000;   	// -2.5
	mov.f32 	%f268, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f269, %f268, %f266, %f267;
	mul.ftz.f32 	%f270, %f269, %f266;
	mov.f32 	%f271, 0f3f800000;   	// 1
	fma.rn.ftz.f32 	%f272, %f266, %f270, %f271;
	mul.ftz.f32 	%f273, %f272, %f96;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f274, %f79, %f273, %f249;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f275, %f80, %f273, %f250;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f276, %f81, %f273, %f251;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f277, %f82, %f273, %f252;
	.loc	4	156	0
	mov.f32 	%f278, %f103;
	mov.f32 	%f279, %f254;
	mov.f32 	%f280, 0f00000000;   	// 0
	mov.f32 	%f281, %f280;
	mov.f32 	%f282, 0f00000000;   	// 0
	mov.f32 	%f283, %f282;
	tex.2d.v4.f32.f32 {%f284,%f285,%f286,%f287},[sTexture,{%f278,%f279,%f281,%f283}];
	.loc	4	40	0
	mov.f32 	%f79, %f284;
	mov.f32 	%f80, %f285;
	mov.f32 	%f81, %f286;
	mov.f32 	%f82, %f287;
	.loc	4	156	0
	mul.ftz.f32 	%f288, %f272, %f119;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f289, %f79, %f288, %f274;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f290, %f80, %f288, %f275;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f291, %f81, %f288, %f276;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f292, %f82, %f288, %f277;
	.loc	4	157	0
	mov.f32 	%f293, %f126;
	mov.f32 	%f294, %f254;
	mov.f32 	%f295, 0f00000000;   	// 0
	mov.f32 	%f296, %f295;
	mov.f32 	%f297, 0f00000000;   	// 0
	mov.f32 	%f298, %f297;
	tex.2d.v4.f32.f32 {%f299,%f300,%f301,%f302},[sTexture,{%f293,%f294,%f296,%f298}];
	.loc	4	40	0
	mov.f32 	%f79, %f299;
	mov.f32 	%f80, %f300;
	mov.f32 	%f81, %f301;
	mov.f32 	%f82, %f302;
	.loc	4	157	0
	mul.ftz.f32 	%f303, %f272, %f144;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f304, %f79, %f303, %f289;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f305, %f80, %f303, %f290;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f306, %f81, %f303, %f291;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f307, %f82, %f303, %f292;
	.loc	4	158	0
	mov.f32 	%f308, %f155;
	mov.f32 	%f309, %f254;
	mov.f32 	%f310, 0f00000000;   	// 0
	mov.f32 	%f311, %f310;
	mov.f32 	%f312, 0f00000000;   	// 0
	mov.f32 	%f313, %f312;
	tex.2d.v4.f32.f32 {%f314,%f315,%f316,%f317},[sTexture,{%f308,%f309,%f311,%f313}];
	.loc	4	40	0
	mov.f32 	%f79, %f314;
	mov.f32 	%f80, %f315;
	mov.f32 	%f81, %f316;
	mov.f32 	%f82, %f317;
	.loc	4	158	0
	mul.ftz.f32 	%f318, %f272, %f171;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f319, %f79, %f318, %f304;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f320, %f80, %f318, %f305;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f321, %f81, %f318, %f306;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f322, %f82, %f318, %f307;
	.loc	4	159	0
	mov.f32 	%f323, 0f40400000;   	// 3
	add.ftz.f32 	%f324, %f64, %f323;
	mov.f32 	%f325, %f68;
	mov.f32 	%f326, %f324;
	mov.f32 	%f327, 0f00000000;   	// 0
	mov.f32 	%f328, %f327;
	mov.f32 	%f329, 0f00000000;   	// 0
	mov.f32 	%f330, %f329;
	tex.2d.v4.f32.f32 {%f331,%f332,%f333,%f334},[sTexture,{%f325,%f326,%f328,%f330}];
	.loc	4	40	0
	mov.f32 	%f79, %f331;
	mov.f32 	%f80, %f332;
	mov.f32 	%f81, %f333;
	mov.f32 	%f82, %f334;
	.loc	4	159	0
	mov.f32 	%f335, 0f3f800000;   	// 1
	mov.f32 	%f336, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f337, %f336, %f266, %f335;
	mov.f32 	%f338, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f339, %f266, %f337, %f338;
	mul.ftz.f32 	%f340, %f339, %f266;
	mul.ftz.f32 	%f341, %f340, %f96;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f342, %f79, %f341, %f319;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f343, %f80, %f341, %f320;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f344, %f81, %f341, %f321;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f345, %f82, %f341, %f322;
	.loc	4	160	0
	mov.f32 	%f346, %f103;
	mov.f32 	%f347, %f324;
	mov.f32 	%f348, 0f00000000;   	// 0
	mov.f32 	%f349, %f348;
	mov.f32 	%f350, 0f00000000;   	// 0
	mov.f32 	%f351, %f350;
	tex.2d.v4.f32.f32 {%f352,%f353,%f354,%f355},[sTexture,{%f346,%f347,%f349,%f351}];
	.loc	4	40	0
	mov.f32 	%f79, %f352;
	mov.f32 	%f80, %f353;
	mov.f32 	%f81, %f354;
	mov.f32 	%f82, %f355;
	.loc	4	160	0
	mul.ftz.f32 	%f356, %f340, %f119;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f357, %f79, %f356, %f342;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f358, %f80, %f356, %f343;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f359, %f81, %f356, %f344;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f360, %f82, %f356, %f345;
	.loc	4	161	0
	mov.f32 	%f361, %f126;
	mov.f32 	%f362, %f324;
	mov.f32 	%f363, 0f00000000;   	// 0
	mov.f32 	%f364, %f363;
	mov.f32 	%f365, 0f00000000;   	// 0
	mov.f32 	%f366, %f365;
	tex.2d.v4.f32.f32 {%f367,%f368,%f369,%f370},[sTexture,{%f361,%f362,%f364,%f366}];
	.loc	4	40	0
	mov.f32 	%f79, %f367;
	mov.f32 	%f80, %f368;
	mov.f32 	%f81, %f369;
	mov.f32 	%f82, %f370;
	.loc	4	161	0
	mul.ftz.f32 	%f371, %f340, %f144;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f372, %f79, %f371, %f357;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f373, %f80, %f371, %f358;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f374, %f81, %f371, %f359;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f375, %f82, %f371, %f360;
	.loc	4	162	0
	mov.f32 	%f376, %f155;
	mov.f32 	%f377, %f324;
	mov.f32 	%f378, 0f00000000;   	// 0
	mov.f32 	%f379, %f378;
	mov.f32 	%f380, 0f00000000;   	// 0
	mov.f32 	%f381, %f380;
	tex.2d.v4.f32.f32 {%f382,%f383,%f384,%f385},[sTexture,{%f376,%f377,%f379,%f381}];
	.loc	4	40	0
	mov.f32 	%f79, %f382;
	mov.f32 	%f80, %f383;
	mov.f32 	%f81, %f384;
	mov.f32 	%f82, %f385;
	.loc	4	162	0
	mul.ftz.f32 	%f386, %f340, %f171;
	.loc	4	384	0
	fma.rn.ftz.f32 	%f387, %f79, %f386, %f372;
	fma.rn.ftz.f32 	%f388, %f80, %f386, %f373;
	fma.rn.ftz.f32 	%f389, %f81, %f386, %f374;
	fma.rn.ftz.f32 	%f390, %f82, %f386, %f375;
	bra.uni 	$LBB72__Z10SampleQuad6float2S_S_S_;
$Lt_36_14850:
	mov.f32 	%f391, 0f40800000;   	// 4
	set.gt.ftz.u32.f32 	%r5, %f47, %f391;
	neg.s32 	%r6, %r5;
	mov.f32 	%f392, 0f40800000;   	// 4
	set.gt.ftz.u32.f32 	%r7, %f48, %f392;
	neg.s32 	%r8, %r7;
	or.b32 	%r9, %r6, %r8;
	mov.u32 	%r10, 0;
	setp.eq.s32 	%p4, %r9, %r10;
	@%p4 bra 	$Lt_36_15362;
	.loc	4	207	0
	mov.s32 	%r11, 0;
	st.local.s32 	[__cuda___cuda_local_var_91896_7_non_const_sl_16256+0], %r11;
	.loc	4	208	0
	mov.s32 	%r12, 1;
	st.local.s32 	[__cuda___cuda_local_var_91897_7_non_const_sc_32272+0], %r12;
	.loc	4	209	0
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48288+0], %f2;
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48288+4], %f4;
	.loc	4	210	0
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48288+8], %f6;
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48288+12], %f8;
	.loc	4	211	0
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48288+16], %f10;
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48288+20], %f12;
	.loc	4	212	0
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48288+24], %f14;
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48288+28], %f16;
	mov.f32 	%f393, 0f00000000;   	// 0
	mov.f32 	%f394, 0f00000000;   	// 0
	mov.f32 	%f395, 0f00000000;   	// 0
	mov.f32 	%f396, 0f00000000;   	// 0
	mov.f32 	%f397, 0f00000000;   	// 0
	mov.s32 	%r13, 0;
	mov.s32 	%r14, 0;
	mov.u64 	%rd1, __cuda___cuda_local_var_91896_7_non_const_sl_16256;
	mov.u64 	%rd2, __cuda___cuda_local_var_91897_7_non_const_sc_32272;
	mov.u64 	%rd3, __cuda___cuda_local_var_91893_4_non_const_quads_48288;
$Lt_36_16130:
 //<loop> Loop body line 212, nesting depth: 1, estimated iterations: unknown
	.loc	4	222	0
	cvt.s64.s32 	%rd4, %r14;
	mul.wide.s32 	%rd5, %r14, 32;
	add.u64 	%rd6, %rd3, %rd5;
	ld.local.f32 	%f398, [%rd6+0];
	ld.local.f32 	%f399, [%rd6+4];
	.loc	4	223	0
	ld.local.f32 	%f400, [%rd6+8];
	ld.local.f32 	%f401, [%rd6+12];
	.loc	4	224	0
	ld.local.f32 	%f402, [%rd6+16];
	ld.local.f32 	%f403, [%rd6+20];
	.loc	4	225	0
	ld.local.f32 	%f404, [%rd6+24];
	ld.local.f32 	%f405, [%rd6+28];
	.loc	4	234	0
	add.ftz.f32 	%f406, %f403, %f405;
	add.ftz.f32 	%f407, %f399, %f401;
	add.ftz.f32 	%f408, %f402, %f404;
	add.ftz.f32 	%f409, %f398, %f400;
	add.ftz.f32 	%f410, %f399, %f405;
	add.ftz.f32 	%f411, %f401, %f403;
	add.ftz.f32 	%f412, %f398, %f404;
	add.ftz.f32 	%f413, %f400, %f402;
	mov.f32 	%f414, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f415, %f406, %f414;
	mov.f32 	%f416, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f417, %f407, %f416;
	mov.f32 	%f418, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f419, %f408, %f418;
	mov.f32 	%f420, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f421, %f409, %f420;
	mov.f32 	%f422, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f423, %f410, %f422;
	mov.f32 	%f424, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f425, %f411, %f424;
	mov.f32 	%f426, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f427, %f412, %f426;
	mov.f32 	%f428, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f429, %f413, %f428;
	cvt.s64.s32 	%rd7, %r13;
	mul.wide.s32 	%rd8, %r13, 4;
	sub.ftz.f32 	%f430, %f415, %f417;
	sub.ftz.f32 	%f431, %f419, %f421;
	sub.ftz.f32 	%f432, %f423, %f425;
	sub.ftz.f32 	%f433, %f427, %f429;
	mul.ftz.f32 	%f434, %f430, %f430;
	mul.ftz.f32 	%f435, %f432, %f432;
	fma.rn.ftz.f32 	%f436, %f431, %f431, %f434;
	fma.rn.ftz.f32 	%f437, %f433, %f433, %f435;
	mov.f32 	%f438, 0f3f800000;   	// 1
	setp.gt.ftz.f32 	%p5, %f436, %f438;
	mov.f32 	%f439, 0f3f800000;   	// 1
	setp.gt.ftz.f32 	%p6, %f437, %f439;
	selp.s32 	%r15, 1, 0, %p6;
	or.b32 	%r16, %r15, 2;
	selp.s32 	%r17, %r16, %r15, %p5;
	mov.u32 	%r18, 0;
	setp.ne.s32 	%p7, %r17, %r18;
	@%p7 bra 	$Lt_36_16642;
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	250	0
	sub.s32 	%r14, %r14, 1;
	.loc	4	251	0
	mov.f32 	%f440, 0f3f800000;   	// 1
	add.ftz.f32 	%f397, %f397, %f440;
	.loc	4	252	0
	add.ftz.f32 	%f441, %f419, %f421;
	mov.f32 	%f442, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f443, %f441, %f442;
	mov.f32 	%f444, %f443;
	add.ftz.f32 	%f445, %f415, %f417;
	mov.f32 	%f446, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f447, %f445, %f446;
	mov.f32 	%f448, %f447;
	mov.f32 	%f449, 0f00000000;   	// 0
	mov.f32 	%f450, %f449;
	mov.f32 	%f451, 0f00000000;   	// 0
	mov.f32 	%f452, %f451;
	tex.2d.v4.f32.f32 {%f453,%f454,%f455,%f456},[sTexture,{%f444,%f448,%f450,%f452}];
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	40	0
	mov.f32 	%f457, %f453;
	mov.f32 	%f458, %f454;
	mov.f32 	%f459, %f455;
	mov.f32 	%f460, %f456;
	.loc	4	252	0
	add.ftz.f32 	%f396, %f457, %f396;
	add.ftz.f32 	%f395, %f458, %f395;
	add.ftz.f32 	%f394, %f459, %f394;
	add.ftz.f32 	%f393, %f460, %f393;
	.loc	4	253	0
	add.u64 	%rd9, %rd8, %rd2;
	ld.local.s32 	%r19, [%rd9+0];
	sub.s32 	%r20, %r19, 1;
	st.local.s32 	[%rd9+0], %r20;
	.loc	4	250	0
	sub.s32 	%r21, %r13, 1;
	mov.s32 	%r22, 0;
	setp.eq.s32 	%p8, %r20, %r22;
	selp.s32 	%r13, %r21, %r13, %p8;
	bra.uni 	$Lt_36_16386;
$Lt_36_16642:
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	258	0
	add.u64 	%rd10, %rd8, %rd1;
	ld.local.s32 	%r23, [%rd10+0];
	mov.u32 	%r24, 2;
	setp.eq.s32 	%p9, %r23, %r24;
	@%p9 bra 	$L_36_14594;
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	mov.f32 	%f461, 0f40800000;   	// 4
	set.lt.ftz.u32.f32 	%r25, %f436, %f461;
	neg.s32 	%r26, %r25;
	mov.f32 	%f462, 0f40800000;   	// 4
	set.lt.ftz.u32.f32 	%r27, %f437, %f462;
	neg.s32 	%r28, %r27;
	and.b32 	%r29, %r26, %r28;
	mov.u32 	%r30, 0;
	setp.eq.s32 	%p10, %r29, %r30;
	@%p10 bra 	$L_36_14338;
$L_36_14594:
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	259	0
	sub.s32 	%r14, %r14, 1;
	mov.u32 	%r31, 3;
	setp.ne.s32 	%p11, %r17, %r31;
	@%p11 bra 	$Lt_36_17154;
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	262	0
	mov.f32 	%f463, 0f40800000;   	// 4
	add.ftz.f32 	%f397, %f397, %f463;
	.loc	4	264	0
	add.ftz.f32 	%f464, %f415, %f417;
	add.ftz.f32 	%f465, %f419, %f421;
	mov.f32 	%f466, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f467, %f464, %f466;
	mov.f32 	%f468, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f469, %f465, %f468;
	add.ftz.f32 	%f470, %f427, %f469;
	add.ftz.f32 	%f471, %f398, %f470;
	add.ftz.f32 	%f472, %f421, %f471;
	mov.f32 	%f473, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f474, %f472, %f473;
	mov.f32 	%f475, %f474;
	add.ftz.f32 	%f476, %f423, %f467;
	add.ftz.f32 	%f477, %f399, %f476;
	add.ftz.f32 	%f478, %f417, %f477;
	mov.f32 	%f479, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f480, %f478, %f479;
	mov.f32 	%f481, %f480;
	mov.f32 	%f482, 0f00000000;   	// 0
	mov.f32 	%f483, %f482;
	mov.f32 	%f484, 0f00000000;   	// 0
	mov.f32 	%f485, %f484;
	tex.2d.v4.f32.f32 {%f486,%f487,%f488,%f489},[sTexture,{%f475,%f481,%f483,%f485}];
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	40	0
	mov.f32 	%f457, %f486;
	mov.f32 	%f458, %f487;
	mov.f32 	%f459, %f488;
	mov.f32 	%f460, %f489;
	.loc	4	64	0
	add.ftz.f32 	%f490, %f457, %f396;
	.loc	4	65	0
	add.ftz.f32 	%f491, %f458, %f395;
	.loc	4	66	0
	add.ftz.f32 	%f492, %f459, %f394;
	.loc	4	67	0
	add.ftz.f32 	%f493, %f460, %f393;
	.loc	4	266	0
	add.ftz.f32 	%f494, %f421, %f469;
	add.ftz.f32 	%f495, %f400, %f494;
	add.ftz.f32 	%f496, %f429, %f495;
	mov.f32 	%f497, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f498, %f496, %f497;
	mov.f32 	%f499, %f498;
	add.ftz.f32 	%f500, %f417, %f467;
	add.ftz.f32 	%f501, %f401, %f500;
	add.ftz.f32 	%f502, %f425, %f501;
	mov.f32 	%f503, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f504, %f502, %f503;
	mov.f32 	%f505, %f504;
	mov.f32 	%f506, 0f00000000;   	// 0
	mov.f32 	%f507, %f506;
	mov.f32 	%f508, 0f00000000;   	// 0
	mov.f32 	%f509, %f508;
	tex.2d.v4.f32.f32 {%f510,%f511,%f512,%f513},[sTexture,{%f499,%f505,%f507,%f509}];
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	40	0
	mov.f32 	%f457, %f510;
	mov.f32 	%f458, %f511;
	mov.f32 	%f459, %f512;
	mov.f32 	%f460, %f513;
	.loc	4	64	0
	add.ftz.f32 	%f514, %f457, %f490;
	.loc	4	65	0
	add.ftz.f32 	%f515, %f458, %f491;
	.loc	4	66	0
	add.ftz.f32 	%f516, %f459, %f492;
	.loc	4	67	0
	add.ftz.f32 	%f517, %f460, %f493;
	.loc	4	268	0
	add.ftz.f32 	%f518, %f429, %f469;
	add.ftz.f32 	%f519, %f402, %f518;
	add.ftz.f32 	%f520, %f419, %f519;
	mov.f32 	%f521, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f522, %f520, %f521;
	mov.f32 	%f523, %f522;
	add.ftz.f32 	%f524, %f425, %f467;
	add.ftz.f32 	%f525, %f403, %f524;
	add.ftz.f32 	%f526, %f415, %f525;
	mov.f32 	%f527, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f528, %f526, %f527;
	mov.f32 	%f529, %f528;
	mov.f32 	%f530, 0f00000000;   	// 0
	mov.f32 	%f531, %f530;
	mov.f32 	%f532, 0f00000000;   	// 0
	mov.f32 	%f533, %f532;
	tex.2d.v4.f32.f32 {%f534,%f535,%f536,%f537},[sTexture,{%f523,%f529,%f531,%f533}];
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	40	0
	mov.f32 	%f457, %f534;
	mov.f32 	%f458, %f535;
	mov.f32 	%f459, %f536;
	mov.f32 	%f460, %f537;
	.loc	4	64	0
	add.ftz.f32 	%f538, %f457, %f514;
	.loc	4	65	0
	add.ftz.f32 	%f539, %f458, %f515;
	.loc	4	66	0
	add.ftz.f32 	%f540, %f459, %f516;
	.loc	4	67	0
	add.ftz.f32 	%f541, %f460, %f517;
	.loc	4	270	0
	add.ftz.f32 	%f542, %f419, %f469;
	add.ftz.f32 	%f543, %f404, %f542;
	add.ftz.f32 	%f544, %f427, %f543;
	mov.f32 	%f545, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f546, %f544, %f545;
	mov.f32 	%f547, %f546;
	add.ftz.f32 	%f548, %f415, %f467;
	add.ftz.f32 	%f549, %f405, %f548;
	add.ftz.f32 	%f550, %f423, %f549;
	mov.f32 	%f551, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f552, %f550, %f551;
	mov.f32 	%f553, %f552;
	mov.f32 	%f554, 0f00000000;   	// 0
	mov.f32 	%f555, %f554;
	mov.f32 	%f556, 0f00000000;   	// 0
	mov.f32 	%f557, %f556;
	tex.2d.v4.f32.f32 {%f558,%f559,%f560,%f561},[sTexture,{%f547,%f553,%f555,%f557}];
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	40	0
	mov.f32 	%f457, %f558;
	mov.f32 	%f458, %f559;
	mov.f32 	%f459, %f560;
	mov.f32 	%f460, %f561;
	.loc	4	270	0
	add.ftz.f32 	%f396, %f457, %f538;
	add.ftz.f32 	%f395, %f458, %f539;
	add.ftz.f32 	%f394, %f459, %f540;
	add.ftz.f32 	%f393, %f460, %f541;
	bra.uni 	$Lt_36_16898;
$Lt_36_17154:
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	mov.f32 	%f562, 0f40000000;   	// 2
	add.ftz.f32 	%f563, %f397, %f562;
	mov.u32 	%r32, 2;
	setp.ne.s32 	%p12, %r17, %r32;
	@%p12 bra 	$Lt_36_17666;
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	272	0
	mov.f32 	%f397, %f563;
	.loc	4	274	0
	add.ftz.f32 	%f564, %f409, %f429;
	add.ftz.f32 	%f565, %f427, %f564;
	mov.f32 	%f566, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f567, %f565, %f566;
	mov.f32 	%f568, %f567;
	add.ftz.f32 	%f569, %f407, %f425;
	add.ftz.f32 	%f570, %f423, %f569;
	mov.f32 	%f571, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f572, %f570, %f571;
	mov.f32 	%f573, %f572;
	mov.f32 	%f574, 0f00000000;   	// 0
	mov.f32 	%f575, %f574;
	mov.f32 	%f576, 0f00000000;   	// 0
	mov.f32 	%f577, %f576;
	tex.2d.v4.f32.f32 {%f578,%f579,%f580,%f581},[sTexture,{%f568,%f573,%f575,%f577}];
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	40	0
	mov.f32 	%f457, %f578;
	mov.f32 	%f458, %f579;
	mov.f32 	%f459, %f580;
	mov.f32 	%f460, %f581;
	.loc	4	64	0
	add.ftz.f32 	%f582, %f457, %f396;
	.loc	4	65	0
	add.ftz.f32 	%f583, %f458, %f395;
	.loc	4	66	0
	add.ftz.f32 	%f584, %f459, %f394;
	.loc	4	67	0
	add.ftz.f32 	%f585, %f460, %f393;
	.loc	4	276	0
	add.ftz.f32 	%f586, %f427, %f429;
	add.ftz.f32 	%f587, %f402, %f586;
	add.ftz.f32 	%f588, %f404, %f587;
	mov.f32 	%f589, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f590, %f588, %f589;
	mov.f32 	%f591, %f590;
	add.ftz.f32 	%f592, %f423, %f425;
	add.ftz.f32 	%f593, %f403, %f592;
	add.ftz.f32 	%f594, %f405, %f593;
	mov.f32 	%f595, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f596, %f594, %f595;
	mov.f32 	%f597, %f596;
	mov.f32 	%f598, 0f00000000;   	// 0
	mov.f32 	%f599, %f598;
	mov.f32 	%f600, 0f00000000;   	// 0
	mov.f32 	%f601, %f600;
	tex.2d.v4.f32.f32 {%f602,%f603,%f604,%f605},[sTexture,{%f591,%f597,%f599,%f601}];
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	40	0
	mov.f32 	%f457, %f602;
	mov.f32 	%f458, %f603;
	mov.f32 	%f459, %f604;
	mov.f32 	%f460, %f605;
	.loc	4	276	0
	add.ftz.f32 	%f396, %f457, %f582;
	add.ftz.f32 	%f395, %f458, %f583;
	add.ftz.f32 	%f394, %f459, %f584;
	add.ftz.f32 	%f393, %f460, %f585;
	bra.uni 	$Lt_36_17410;
$Lt_36_17666:
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	278	0
	mov.f32 	%f397, %f563;
	.loc	4	280	0
	add.ftz.f32 	%f606, %f421, %f398;
	add.ftz.f32 	%f607, %f419, %f606;
	add.ftz.f32 	%f608, %f404, %f607;
	mov.f32 	%f609, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f610, %f608, %f609;
	mov.f32 	%f611, %f610;
	add.ftz.f32 	%f612, %f417, %f399;
	add.ftz.f32 	%f613, %f415, %f612;
	add.ftz.f32 	%f614, %f405, %f613;
	mov.f32 	%f615, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f616, %f614, %f615;
	mov.f32 	%f617, %f616;
	mov.f32 	%f618, 0f00000000;   	// 0
	mov.f32 	%f619, %f618;
	mov.f32 	%f620, 0f00000000;   	// 0
	mov.f32 	%f621, %f620;
	tex.2d.v4.f32.f32 {%f622,%f623,%f624,%f625},[sTexture,{%f611,%f617,%f619,%f621}];
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	40	0
	mov.f32 	%f457, %f622;
	mov.f32 	%f458, %f623;
	mov.f32 	%f459, %f624;
	mov.f32 	%f460, %f625;
	.loc	4	64	0
	add.ftz.f32 	%f626, %f457, %f396;
	.loc	4	65	0
	add.ftz.f32 	%f627, %f458, %f395;
	.loc	4	66	0
	add.ftz.f32 	%f628, %f459, %f394;
	.loc	4	67	0
	add.ftz.f32 	%f629, %f460, %f393;
	.loc	4	282	0
	add.ftz.f32 	%f630, %f421, %f400;
	add.ftz.f32 	%f631, %f402, %f630;
	add.ftz.f32 	%f632, %f419, %f631;
	mov.f32 	%f633, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f634, %f632, %f633;
	mov.f32 	%f635, %f634;
	add.ftz.f32 	%f636, %f417, %f401;
	add.ftz.f32 	%f637, %f403, %f636;
	add.ftz.f32 	%f638, %f415, %f637;
	mov.f32 	%f639, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f640, %f638, %f639;
	mov.f32 	%f641, %f640;
	mov.f32 	%f642, 0f00000000;   	// 0
	mov.f32 	%f643, %f642;
	mov.f32 	%f644, 0f00000000;   	// 0
	mov.f32 	%f645, %f644;
	tex.2d.v4.f32.f32 {%f646,%f647,%f648,%f649},[sTexture,{%f635,%f641,%f643,%f645}];
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	40	0
	mov.f32 	%f457, %f646;
	mov.f32 	%f458, %f647;
	mov.f32 	%f459, %f648;
	mov.f32 	%f460, %f649;
	.loc	4	282	0
	add.ftz.f32 	%f396, %f457, %f626;
	add.ftz.f32 	%f395, %f458, %f627;
	add.ftz.f32 	%f394, %f459, %f628;
	add.ftz.f32 	%f393, %f460, %f629;
$Lt_36_17410:
$Lt_36_16898:
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	285	0
	add.u64 	%rd9, %rd8, %rd2;
	ld.local.s32 	%r33, [%rd9+0];
	sub.s32 	%r20, %r33, 1;
	st.local.s32 	[%rd9+0], %r20;
	sub.s32 	%r34, %r13, 1;
	mov.s32 	%r35, 0;
	setp.eq.s32 	%p13, %r20, %r35;
	selp.s32 	%r13, %r34, %r13, %p13;
	bra.uni 	$L_36_14082;
$L_36_14338:
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	349	0
	mov.u32 	%r36, 3;
	setp.ne.s32 	%p14, %r17, %r36;
	@%p14 bra 	$Lt_36_18178;
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	294	0
	add.ftz.f32 	%f650, %f419, %f421;
	mov.f32 	%f651, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f469, %f650, %f651;
	st.local.f32 	[%rd6+0], %f469;
	add.ftz.f32 	%f652, %f415, %f417;
	mov.f32 	%f653, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f467, %f652, %f653;
	st.local.f32 	[%rd6+4], %f467;
	.loc	4	295	0
	st.local.f32 	[%rd6+8], %f427;
	st.local.f32 	[%rd6+12], %f423;
	.loc	4	296	0
	st.local.f32 	[%rd6+16], %f398;
	st.local.f32 	[%rd6+20], %f399;
	.loc	4	297	0
	st.local.f32 	[%rd6+24], %f421;
	st.local.f32 	[%rd6+28], %f417;
	.loc	4	299	0
	st.local.f32 	[%rd6+32], %f469;
	st.local.f32 	[%rd6+36], %f467;
	.loc	4	300	0
	st.local.f32 	[%rd6+40], %f421;
	st.local.f32 	[%rd6+44], %f417;
	.loc	4	301	0
	st.local.f32 	[%rd6+48], %f400;
	st.local.f32 	[%rd6+52], %f401;
	.loc	4	302	0
	st.local.f32 	[%rd6+56], %f429;
	st.local.f32 	[%rd6+60], %f425;
	.loc	4	304	0
	st.local.f32 	[%rd6+64], %f469;
	st.local.f32 	[%rd6+68], %f467;
	.loc	4	305	0
	st.local.f32 	[%rd6+72], %f429;
	st.local.f32 	[%rd6+76], %f425;
	.loc	4	306	0
	st.local.f32 	[%rd6+80], %f402;
	st.local.f32 	[%rd6+84], %f403;
	.loc	4	307	0
	st.local.f32 	[%rd6+88], %f419;
	st.local.f32 	[%rd6+92], %f415;
	.loc	4	309	0
	st.local.f32 	[%rd6+96], %f469;
	st.local.f32 	[%rd6+100], %f467;
	.loc	4	310	0
	st.local.f32 	[%rd6+104], %f419;
	st.local.f32 	[%rd6+108], %f415;
	.loc	4	311	0
	st.local.f32 	[%rd6+112], %f404;
	st.local.f32 	[%rd6+116], %f405;
	.loc	4	312	0
	st.local.f32 	[%rd6+120], %f427;
	st.local.f32 	[%rd6+124], %f423;
	mov.s32 	%r37, 4;
	bra.uni 	$Lt_36_17922;
$Lt_36_18178:
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	mov.u32 	%r38, 2;
	setp.ne.s32 	%p15, %r17, %r38;
	@%p15 bra 	$Lt_36_18690;
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	316	0
	st.local.f32 	[%rd6+0], %f398;
	st.local.f32 	[%rd6+4], %f399;
	.loc	4	317	0
	st.local.f32 	[%rd6+8], %f400;
	st.local.f32 	[%rd6+12], %f401;
	.loc	4	318	0
	st.local.f32 	[%rd6+16], %f429;
	st.local.f32 	[%rd6+20], %f425;
	.loc	4	319	0
	st.local.f32 	[%rd6+24], %f427;
	st.local.f32 	[%rd6+28], %f423;
	.loc	4	321	0
	st.local.f32 	[%rd6+32], %f427;
	st.local.f32 	[%rd6+36], %f423;
	.loc	4	322	0
	st.local.f32 	[%rd6+40], %f429;
	st.local.f32 	[%rd6+44], %f425;
	.loc	4	323	0
	st.local.f32 	[%rd6+48], %f402;
	st.local.f32 	[%rd6+52], %f403;
	.loc	4	324	0
	st.local.f32 	[%rd6+56], %f404;
	st.local.f32 	[%rd6+60], %f405;
	bra.uni 	$Lt_36_18434;
$Lt_36_18690:
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	330	0
	st.local.f32 	[%rd6+0], %f398;
	st.local.f32 	[%rd6+4], %f399;
	.loc	4	331	0
	st.local.f32 	[%rd6+8], %f421;
	st.local.f32 	[%rd6+12], %f417;
	.loc	4	332	0
	st.local.f32 	[%rd6+16], %f419;
	st.local.f32 	[%rd6+20], %f415;
	.loc	4	333	0
	st.local.f32 	[%rd6+24], %f404;
	st.local.f32 	[%rd6+28], %f405;
	.loc	4	335	0
	st.local.f32 	[%rd6+32], %f421;
	st.local.f32 	[%rd6+36], %f417;
	.loc	4	336	0
	st.local.f32 	[%rd6+40], %f400;
	st.local.f32 	[%rd6+44], %f401;
	.loc	4	337	0
	st.local.f32 	[%rd6+48], %f402;
	st.local.f32 	[%rd6+52], %f403;
	.loc	4	338	0
	st.local.f32 	[%rd6+56], %f419;
	st.local.f32 	[%rd6+60], %f415;
$Lt_36_18434:
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	mov.s32 	%r37, 2;
$Lt_36_17922:
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	.loc	4	343	0
	add.s32 	%r39, %r37, %r14;
	sub.s32 	%r14, %r39, 1;
	.loc	4	345	0
	add.u64 	%rd9, %rd8, %rd2;
	ld.local.s32 	%r40, [%rd9+0];
	sub.s32 	%r20, %r40, 1;
	st.local.s32 	[%rd9+0], %r20;
	.loc	4	343	0
	add.s32 	%r41, %r13, 1;
	mov.s32 	%r42, 0;
	setp.ne.s32 	%p16, %r20, %r42;
	selp.s32 	%r13, %r41, %r13, %p16;
	.loc	4	348	0
	cvt.s64.s32 	%rd11, %r13;
	mul.wide.s32 	%rd8, %r13, 4;
	add.s32 	%r43, %r23, 1;
	add.u64 	%rd12, %rd8, %rd1;
	st.local.s32 	[%rd12+0], %r43;
	.loc	4	349	0
	add.u64 	%rd13, %rd8, %rd2;
	st.local.s32 	[%rd13+0], %r37;
$L_36_14082:
$Lt_36_16386:
 //<loop> Part of loop body line 212, head labeled $Lt_36_16130
	mov.u32 	%r44, 0;
	setp.ge.s32 	%p17, %r14, %r44;
	@%p17 bra 	$Lt_36_16130;
	.loc	4	386	0
	rcp.approx.ftz.f32 	%f654, %f397;
	mul.ftz.f32 	%f387, %f654, %f396;
	mul.ftz.f32 	%f388, %f654, %f395;
	mul.ftz.f32 	%f389, %f654, %f394;
	mul.ftz.f32 	%f390, %f654, %f393;
	bra.uni 	$LBB72__Z10SampleQuad6float2S_S_S_;
$Lt_36_15362:
	.loc	4	389	0
	add.ftz.f32 	%f655, %f26, %f28;
	add.ftz.f32 	%f656, %f30, %f32;
	mov.f32 	%f657, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f658, %f655, %f657;
	mov.f32 	%f659, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f660, %f656, %f659;
	add.ftz.f32 	%f661, %f26, %f658;
	add.ftz.f32 	%f662, %f30, %f660;
	add.ftz.f32 	%f663, %f662, %f2;
	add.ftz.f32 	%f664, %f38, %f663;
	mov.f32 	%f665, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f666, %f664, %f665;
	mov.f32 	%f667, %f666;
	add.ftz.f32 	%f668, %f661, %f4;
	add.ftz.f32 	%f669, %f34, %f668;
	mov.f32 	%f670, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f671, %f669, %f670;
	mov.f32 	%f672, %f671;
	mov.f32 	%f673, 0f00000000;   	// 0
	mov.f32 	%f674, %f673;
	mov.f32 	%f675, 0f00000000;   	// 0
	mov.f32 	%f676, %f675;
	tex.2d.v4.f32.f32 {%f677,%f678,%f679,%f680},[sTexture,{%f667,%f672,%f674,%f676}];
	.loc	4	40	0
	mov.f32 	%f681, %f677;
	mov.f32 	%f682, %f678;
	mov.f32 	%f683, %f679;
	mov.f32 	%f684, %f680;
	.loc	4	391	0
	add.ftz.f32 	%f685, %f662, %f6;
	add.ftz.f32 	%f686, %f40, %f685;
	mov.f32 	%f687, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f688, %f686, %f687;
	mov.f32 	%f689, %f688;
	add.ftz.f32 	%f690, %f661, %f8;
	add.ftz.f32 	%f691, %f36, %f690;
	mov.f32 	%f692, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f693, %f691, %f692;
	mov.f32 	%f694, %f693;
	mov.f32 	%f695, 0f00000000;   	// 0
	mov.f32 	%f696, %f695;
	mov.f32 	%f697, 0f00000000;   	// 0
	mov.f32 	%f698, %f697;
	tex.2d.v4.f32.f32 {%f699,%f700,%f701,%f702},[sTexture,{%f689,%f694,%f696,%f698}];
	.loc	4	40	0
	mov.f32 	%f703, %f699;
	mov.f32 	%f704, %f700;
	mov.f32 	%f705, %f701;
	mov.f32 	%f706, %f702;
	.loc	4	64	0
	add.ftz.f32 	%f707, %f681, %f703;
	.loc	4	65	0
	add.ftz.f32 	%f708, %f682, %f704;
	.loc	4	66	0
	add.ftz.f32 	%f709, %f683, %f705;
	.loc	4	67	0
	add.ftz.f32 	%f710, %f684, %f706;
	.loc	4	393	0
	add.ftz.f32 	%f711, %f28, %f658;
	add.ftz.f32 	%f712, %f32, %f660;
	add.ftz.f32 	%f713, %f712, %f10;
	add.ftz.f32 	%f714, %f40, %f713;
	mov.f32 	%f715, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f716, %f714, %f715;
	mov.f32 	%f717, %f716;
	add.ftz.f32 	%f718, %f711, %f12;
	add.ftz.f32 	%f719, %f36, %f718;
	mov.f32 	%f720, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f721, %f719, %f720;
	mov.f32 	%f722, %f721;
	mov.f32 	%f723, 0f00000000;   	// 0
	mov.f32 	%f724, %f723;
	mov.f32 	%f725, 0f00000000;   	// 0
	mov.f32 	%f726, %f725;
	tex.2d.v4.f32.f32 {%f727,%f728,%f729,%f730},[sTexture,{%f717,%f722,%f724,%f726}];
	.loc	4	40	0
	mov.f32 	%f731, %f727;
	mov.f32 	%f732, %f728;
	mov.f32 	%f733, %f729;
	mov.f32 	%f734, %f730;
	.loc	4	64	0
	add.ftz.f32 	%f735, %f731, %f707;
	.loc	4	65	0
	add.ftz.f32 	%f736, %f732, %f708;
	.loc	4	66	0
	add.ftz.f32 	%f737, %f733, %f709;
	.loc	4	67	0
	add.ftz.f32 	%f738, %f734, %f710;
	.loc	4	395	0
	add.ftz.f32 	%f739, %f712, %f14;
	add.ftz.f32 	%f740, %f38, %f739;
	mov.f32 	%f741, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f742, %f740, %f741;
	mov.f32 	%f743, %f742;
	add.ftz.f32 	%f744, %f711, %f16;
	add.ftz.f32 	%f745, %f34, %f744;
	mov.f32 	%f746, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f747, %f745, %f746;
	mov.f32 	%f748, %f747;
	mov.f32 	%f749, 0f00000000;   	// 0
	mov.f32 	%f750, %f749;
	mov.f32 	%f751, 0f00000000;   	// 0
	mov.f32 	%f752, %f751;
	tex.2d.v4.f32.f32 {%f753,%f754,%f755,%f756},[sTexture,{%f743,%f748,%f750,%f752}];
	.loc	4	40	0
	mov.f32 	%f757, %f753;
	mov.f32 	%f758, %f754;
	mov.f32 	%f759, %f755;
	mov.f32 	%f760, %f756;
	.loc	4	396	0
	add.ftz.f32 	%f761, %f757, %f735;
	mov.f32 	%f762, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f763, %f761, %f762;
	add.ftz.f32 	%f764, %f758, %f736;
	mov.f32 	%f765, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f766, %f764, %f765;
	add.ftz.f32 	%f767, %f759, %f737;
	mov.f32 	%f768, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f769, %f767, %f768;
	add.ftz.f32 	%f770, %f760, %f738;
	mov.f32 	%f771, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f772, %f770, %f771;
	max.ftz.f32 	%f773, %f47, %f48;
	mov.f32 	%f774, 0f3fb851ec;   	// 1.44
	setp.lt.ftz.f32 	%p18, %f773, %f774;
	@!%p18 bra 	$Lt_36_19202;
	.loc	4	147	0
	mov.f32 	%f775, 0fbf000000;   	// -0.5
	add.ftz.f32 	%f776, %f658, %f775;
	mov.f32 	%f777, 0fbf000000;   	// -0.5
	add.ftz.f32 	%f778, %f660, %f777;
	cvt.rmi.ftz.f32.f32 	%f779, %f776;
	cvt.rmi.ftz.f32.f32 	%f780, %f778;
	mov.f32 	%f781, 0fbf000000;   	// -0.5
	add.ftz.f32 	%f782, %f779, %f781;
	mov.f32 	%f783, %f782;
	mov.f32 	%f784, 0fbf000000;   	// -0.5
	add.ftz.f32 	%f785, %f780, %f784;
	mov.f32 	%f786, %f785;
	mov.f32 	%f787, %f786;
	mov.f32 	%f788, %f783;
	mov.f32 	%f789, 0f00000000;   	// 0
	mov.f32 	%f790, %f789;
	mov.f32 	%f791, 0f00000000;   	// 0
	mov.f32 	%f792, %f791;
	tex.2d.v4.f32.f32 {%f793,%f794,%f795,%f796},[sTexture,{%f787,%f788,%f790,%f792}];
	.loc	4	40	0
	mov.f32 	%f79, %f793;
	mov.f32 	%f80, %f794;
	mov.f32 	%f81, %f795;
	mov.f32 	%f82, %f796;
	.loc	4	72	0
	sub.ftz.f32 	%f797, %f776, %f779;
	sub.ftz.f32 	%f798, %f778, %f780;
	mov.f32 	%f799, 0f3f800000;   	// 1
	mov.f32 	%f800, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f801, %f800, %f797, %f799;
	mov.f32 	%f802, 0f3f800000;   	// 1
	mov.f32 	%f803, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f804, %f803, %f798, %f802;
	mov.f32 	%f805, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f806, %f797, %f801, %f805;
	mov.f32 	%f807, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f808, %f798, %f804, %f807;
	mul.ftz.f32 	%f809, %f806, %f797;
	mul.ftz.f32 	%f810, %f808, %f798;
	mul.ftz.f32 	%f811, %f810, %f809;
	mul.ftz.f32 	%f812, %f811, %f79;
	.loc	4	73	0
	mul.ftz.f32 	%f813, %f811, %f80;
	.loc	4	74	0
	mul.ftz.f32 	%f814, %f811, %f81;
	.loc	4	75	0
	mul.ftz.f32 	%f815, %f811, %f82;
	.loc	4	148	0
	mov.f32 	%f816, 0f3f800000;   	// 1
	add.ftz.f32 	%f817, %f785, %f816;
	mov.f32 	%f818, %f817;
	mov.f32 	%f819, %f783;
	mov.f32 	%f820, 0f00000000;   	// 0
	mov.f32 	%f821, %f820;
	mov.f32 	%f822, 0f00000000;   	// 0
	mov.f32 	%f823, %f822;
	tex.2d.v4.f32.f32 {%f824,%f825,%f826,%f827},[sTexture,{%f818,%f819,%f821,%f823}];
	.loc	4	40	0
	mov.f32 	%f79, %f824;
	mov.f32 	%f80, %f825;
	mov.f32 	%f81, %f826;
	mov.f32 	%f82, %f827;
	.loc	4	72	0
	mov.f32 	%f828, 0fc0200000;   	// -2.5
	mov.f32 	%f829, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f830, %f829, %f798, %f828;
	mul.ftz.f32 	%f831, %f830, %f798;
	mov.f32 	%f832, 0f3f800000;   	// 1
	fma.rn.ftz.f32 	%f833, %f798, %f831, %f832;
	mul.ftz.f32 	%f834, %f833, %f809;
	mul.ftz.f32 	%f835, %f834, %f79;
	.loc	4	73	0
	mul.ftz.f32 	%f836, %f834, %f80;
	.loc	4	74	0
	mul.ftz.f32 	%f837, %f834, %f81;
	.loc	4	75	0
	mul.ftz.f32 	%f838, %f834, %f82;
	.loc	4	149	0
	mov.f32 	%f839, 0f40000000;   	// 2
	add.ftz.f32 	%f840, %f785, %f839;
	mov.f32 	%f841, %f840;
	mov.f32 	%f842, %f783;
	mov.f32 	%f843, 0f00000000;   	// 0
	mov.f32 	%f844, %f843;
	mov.f32 	%f845, 0f00000000;   	// 0
	mov.f32 	%f846, %f845;
	tex.2d.v4.f32.f32 {%f847,%f848,%f849,%f850},[sTexture,{%f841,%f842,%f844,%f846}];
	.loc	4	40	0
	mov.f32 	%f79, %f847;
	mov.f32 	%f80, %f848;
	mov.f32 	%f81, %f849;
	mov.f32 	%f82, %f850;
	.loc	4	149	0
	mov.f32 	%f851, 0f3f800000;   	// 1
	sub.ftz.f32 	%f852, %f851, %f798;
	mov.f32 	%f853, 0fc0200000;   	// -2.5
	mov.f32 	%f854, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f855, %f854, %f852, %f853;
	mul.ftz.f32 	%f856, %f855, %f852;
	mov.f32 	%f857, 0f3f800000;   	// 1
	fma.rn.ftz.f32 	%f858, %f852, %f856, %f857;
	mul.ftz.f32 	%f859, %f858, %f809;
	.loc	4	64	0
	add.ftz.f32 	%f860, %f812, %f835;
	fma.rn.ftz.f32 	%f861, %f79, %f859, %f860;
	.loc	4	65	0
	add.ftz.f32 	%f862, %f813, %f836;
	fma.rn.ftz.f32 	%f863, %f80, %f859, %f862;
	.loc	4	66	0
	add.ftz.f32 	%f864, %f814, %f837;
	fma.rn.ftz.f32 	%f865, %f81, %f859, %f864;
	.loc	4	67	0
	add.ftz.f32 	%f866, %f815, %f838;
	fma.rn.ftz.f32 	%f867, %f82, %f859, %f866;
	.loc	4	150	0
	mov.f32 	%f868, 0f40400000;   	// 3
	add.ftz.f32 	%f869, %f785, %f868;
	mov.f32 	%f870, %f869;
	mov.f32 	%f871, %f783;
	mov.f32 	%f872, 0f00000000;   	// 0
	mov.f32 	%f873, %f872;
	mov.f32 	%f874, 0f00000000;   	// 0
	mov.f32 	%f875, %f874;
	tex.2d.v4.f32.f32 {%f876,%f877,%f878,%f879},[sTexture,{%f870,%f871,%f873,%f875}];
	.loc	4	40	0
	mov.f32 	%f79, %f876;
	mov.f32 	%f80, %f877;
	mov.f32 	%f81, %f878;
	mov.f32 	%f82, %f879;
	.loc	4	150	0
	mov.f32 	%f880, 0f3f800000;   	// 1
	mov.f32 	%f881, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f882, %f881, %f852, %f880;
	mov.f32 	%f883, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f884, %f852, %f882, %f883;
	mul.ftz.f32 	%f885, %f884, %f852;
	mul.ftz.f32 	%f886, %f885, %f809;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f887, %f79, %f886, %f861;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f888, %f80, %f886, %f863;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f889, %f81, %f886, %f865;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f890, %f82, %f886, %f867;
	.loc	4	151	0
	mov.f32 	%f891, 0f3f800000;   	// 1
	add.ftz.f32 	%f892, %f782, %f891;
	mov.f32 	%f893, %f786;
	mov.f32 	%f894, %f892;
	mov.f32 	%f895, 0f00000000;   	// 0
	mov.f32 	%f896, %f895;
	mov.f32 	%f897, 0f00000000;   	// 0
	mov.f32 	%f898, %f897;
	tex.2d.v4.f32.f32 {%f899,%f900,%f901,%f902},[sTexture,{%f893,%f894,%f896,%f898}];
	.loc	4	40	0
	mov.f32 	%f79, %f899;
	mov.f32 	%f80, %f900;
	mov.f32 	%f81, %f901;
	mov.f32 	%f82, %f902;
	.loc	4	72	0
	mov.f32 	%f903, 0fc0200000;   	// -2.5
	mov.f32 	%f904, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f905, %f904, %f797, %f903;
	mul.ftz.f32 	%f906, %f905, %f797;
	mov.f32 	%f907, 0f3f800000;   	// 1
	fma.rn.ftz.f32 	%f908, %f797, %f906, %f907;
	mul.ftz.f32 	%f909, %f908, %f810;
	mul.ftz.f32 	%f910, %f909, %f79;
	.loc	4	73	0
	mul.ftz.f32 	%f911, %f909, %f80;
	.loc	4	74	0
	mul.ftz.f32 	%f912, %f909, %f81;
	.loc	4	75	0
	mul.ftz.f32 	%f913, %f909, %f82;
	.loc	4	152	0
	mov.f32 	%f914, %f817;
	mov.f32 	%f915, %f892;
	mov.f32 	%f916, 0f00000000;   	// 0
	mov.f32 	%f917, %f916;
	mov.f32 	%f918, 0f00000000;   	// 0
	mov.f32 	%f919, %f918;
	tex.2d.v4.f32.f32 {%f920,%f921,%f922,%f923},[sTexture,{%f914,%f915,%f917,%f919}];
	.loc	4	40	0
	mov.f32 	%f79, %f920;
	mov.f32 	%f80, %f921;
	mov.f32 	%f81, %f922;
	mov.f32 	%f82, %f923;
	.loc	4	72	0
	mul.ftz.f32 	%f924, %f908, %f833;
	mul.ftz.f32 	%f925, %f924, %f79;
	.loc	4	73	0
	mul.ftz.f32 	%f926, %f924, %f80;
	.loc	4	74	0
	mul.ftz.f32 	%f927, %f924, %f81;
	.loc	4	75	0
	mul.ftz.f32 	%f928, %f924, %f82;
	.loc	4	153	0
	mov.f32 	%f929, %f840;
	mov.f32 	%f930, %f892;
	mov.f32 	%f931, 0f00000000;   	// 0
	mov.f32 	%f932, %f931;
	mov.f32 	%f933, 0f00000000;   	// 0
	mov.f32 	%f934, %f933;
	tex.2d.v4.f32.f32 {%f935,%f936,%f937,%f938},[sTexture,{%f929,%f930,%f932,%f934}];
	.loc	4	40	0
	mov.f32 	%f79, %f935;
	mov.f32 	%f80, %f936;
	mov.f32 	%f81, %f937;
	mov.f32 	%f82, %f938;
	.loc	4	153	0
	mul.ftz.f32 	%f939, %f908, %f858;
	.loc	4	64	0
	add.ftz.f32 	%f940, %f887, %f910;
	add.ftz.f32 	%f941, %f925, %f940;
	fma.rn.ftz.f32 	%f942, %f79, %f939, %f941;
	.loc	4	65	0
	add.ftz.f32 	%f943, %f888, %f911;
	add.ftz.f32 	%f944, %f926, %f943;
	fma.rn.ftz.f32 	%f945, %f80, %f939, %f944;
	.loc	4	66	0
	add.ftz.f32 	%f946, %f889, %f912;
	add.ftz.f32 	%f947, %f927, %f946;
	fma.rn.ftz.f32 	%f948, %f81, %f939, %f947;
	.loc	4	67	0
	add.ftz.f32 	%f949, %f890, %f913;
	add.ftz.f32 	%f950, %f928, %f949;
	fma.rn.ftz.f32 	%f951, %f82, %f939, %f950;
	.loc	4	154	0
	mov.f32 	%f952, %f869;
	mov.f32 	%f953, %f892;
	mov.f32 	%f954, 0f00000000;   	// 0
	mov.f32 	%f955, %f954;
	mov.f32 	%f956, 0f00000000;   	// 0
	mov.f32 	%f957, %f956;
	tex.2d.v4.f32.f32 {%f958,%f959,%f960,%f961},[sTexture,{%f952,%f953,%f955,%f957}];
	.loc	4	40	0
	mov.f32 	%f79, %f958;
	mov.f32 	%f80, %f959;
	mov.f32 	%f81, %f960;
	mov.f32 	%f82, %f961;
	.loc	4	154	0
	mul.ftz.f32 	%f962, %f908, %f885;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f963, %f79, %f962, %f942;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f964, %f80, %f962, %f945;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f965, %f81, %f962, %f948;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f966, %f82, %f962, %f951;
	.loc	4	155	0
	mov.f32 	%f967, 0f40000000;   	// 2
	add.ftz.f32 	%f968, %f782, %f967;
	mov.f32 	%f969, %f786;
	mov.f32 	%f970, %f968;
	mov.f32 	%f971, 0f00000000;   	// 0
	mov.f32 	%f972, %f971;
	mov.f32 	%f973, 0f00000000;   	// 0
	mov.f32 	%f974, %f973;
	tex.2d.v4.f32.f32 {%f975,%f976,%f977,%f978},[sTexture,{%f969,%f970,%f972,%f974}];
	.loc	4	40	0
	mov.f32 	%f79, %f975;
	mov.f32 	%f80, %f976;
	mov.f32 	%f81, %f977;
	mov.f32 	%f82, %f978;
	.loc	4	155	0
	mov.f32 	%f979, 0f3f800000;   	// 1
	sub.ftz.f32 	%f980, %f979, %f797;
	mov.f32 	%f981, 0fc0200000;   	// -2.5
	mov.f32 	%f982, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f983, %f982, %f980, %f981;
	mul.ftz.f32 	%f984, %f983, %f980;
	mov.f32 	%f985, 0f3f800000;   	// 1
	fma.rn.ftz.f32 	%f986, %f980, %f984, %f985;
	mul.ftz.f32 	%f987, %f986, %f810;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f988, %f79, %f987, %f963;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f989, %f80, %f987, %f964;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f990, %f81, %f987, %f965;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f991, %f82, %f987, %f966;
	.loc	4	156	0
	mov.f32 	%f992, %f817;
	mov.f32 	%f993, %f968;
	mov.f32 	%f994, 0f00000000;   	// 0
	mov.f32 	%f995, %f994;
	mov.f32 	%f996, 0f00000000;   	// 0
	mov.f32 	%f997, %f996;
	tex.2d.v4.f32.f32 {%f998,%f999,%f1000,%f1001},[sTexture,{%f992,%f993,%f995,%f997}];
	.loc	4	40	0
	mov.f32 	%f79, %f998;
	mov.f32 	%f80, %f999;
	mov.f32 	%f81, %f1000;
	mov.f32 	%f82, %f1001;
	.loc	4	156	0
	mul.ftz.f32 	%f1002, %f986, %f833;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f1003, %f79, %f1002, %f988;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1004, %f80, %f1002, %f989;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1005, %f81, %f1002, %f990;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1006, %f82, %f1002, %f991;
	.loc	4	157	0
	mov.f32 	%f1007, %f840;
	mov.f32 	%f1008, %f968;
	mov.f32 	%f1009, 0f00000000;  	// 0
	mov.f32 	%f1010, %f1009;
	mov.f32 	%f1011, 0f00000000;  	// 0
	mov.f32 	%f1012, %f1011;
	tex.2d.v4.f32.f32 {%f1013,%f1014,%f1015,%f1016},[sTexture,{%f1007,%f1008,%f1010,%f1012}];
	.loc	4	40	0
	mov.f32 	%f79, %f1013;
	mov.f32 	%f80, %f1014;
	mov.f32 	%f81, %f1015;
	mov.f32 	%f82, %f1016;
	.loc	4	157	0
	mul.ftz.f32 	%f1017, %f986, %f858;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f1018, %f79, %f1017, %f1003;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1019, %f80, %f1017, %f1004;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1020, %f81, %f1017, %f1005;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1021, %f82, %f1017, %f1006;
	.loc	4	158	0
	mov.f32 	%f1022, %f869;
	mov.f32 	%f1023, %f968;
	mov.f32 	%f1024, 0f00000000;  	// 0
	mov.f32 	%f1025, %f1024;
	mov.f32 	%f1026, 0f00000000;  	// 0
	mov.f32 	%f1027, %f1026;
	tex.2d.v4.f32.f32 {%f1028,%f1029,%f1030,%f1031},[sTexture,{%f1022,%f1023,%f1025,%f1027}];
	.loc	4	40	0
	mov.f32 	%f79, %f1028;
	mov.f32 	%f80, %f1029;
	mov.f32 	%f81, %f1030;
	mov.f32 	%f82, %f1031;
	.loc	4	158	0
	mul.ftz.f32 	%f1032, %f986, %f885;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f1033, %f79, %f1032, %f1018;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1034, %f80, %f1032, %f1019;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1035, %f81, %f1032, %f1020;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1036, %f82, %f1032, %f1021;
	.loc	4	159	0
	mov.f32 	%f1037, 0f40400000;  	// 3
	add.ftz.f32 	%f1038, %f782, %f1037;
	mov.f32 	%f1039, %f786;
	mov.f32 	%f1040, %f1038;
	mov.f32 	%f1041, 0f00000000;  	// 0
	mov.f32 	%f1042, %f1041;
	mov.f32 	%f1043, 0f00000000;  	// 0
	mov.f32 	%f1044, %f1043;
	tex.2d.v4.f32.f32 {%f1045,%f1046,%f1047,%f1048},[sTexture,{%f1039,%f1040,%f1042,%f1044}];
	.loc	4	40	0
	mov.f32 	%f79, %f1045;
	mov.f32 	%f80, %f1046;
	mov.f32 	%f81, %f1047;
	mov.f32 	%f82, %f1048;
	.loc	4	159	0
	mov.f32 	%f1049, 0f3f800000;  	// 1
	mov.f32 	%f1050, 0fbf000000;  	// -0.5
	fma.rn.ftz.f32 	%f1051, %f1050, %f980, %f1049;
	mov.f32 	%f1052, 0fbf000000;  	// -0.5
	fma.rn.ftz.f32 	%f1053, %f980, %f1051, %f1052;
	mul.ftz.f32 	%f1054, %f1053, %f980;
	mul.ftz.f32 	%f1055, %f1054, %f810;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f1056, %f79, %f1055, %f1033;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1057, %f80, %f1055, %f1034;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1058, %f81, %f1055, %f1035;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1059, %f82, %f1055, %f1036;
	.loc	4	160	0
	mov.f32 	%f1060, %f817;
	mov.f32 	%f1061, %f1038;
	mov.f32 	%f1062, 0f00000000;  	// 0
	mov.f32 	%f1063, %f1062;
	mov.f32 	%f1064, 0f00000000;  	// 0
	mov.f32 	%f1065, %f1064;
	tex.2d.v4.f32.f32 {%f1066,%f1067,%f1068,%f1069},[sTexture,{%f1060,%f1061,%f1063,%f1065}];
	.loc	4	40	0
	mov.f32 	%f79, %f1066;
	mov.f32 	%f80, %f1067;
	mov.f32 	%f81, %f1068;
	mov.f32 	%f82, %f1069;
	.loc	4	160	0
	mul.ftz.f32 	%f1070, %f1054, %f833;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f1071, %f79, %f1070, %f1056;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1072, %f80, %f1070, %f1057;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1073, %f81, %f1070, %f1058;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1074, %f82, %f1070, %f1059;
	.loc	4	161	0
	mov.f32 	%f1075, %f840;
	mov.f32 	%f1076, %f1038;
	mov.f32 	%f1077, 0f00000000;  	// 0
	mov.f32 	%f1078, %f1077;
	mov.f32 	%f1079, 0f00000000;  	// 0
	mov.f32 	%f1080, %f1079;
	tex.2d.v4.f32.f32 {%f1081,%f1082,%f1083,%f1084},[sTexture,{%f1075,%f1076,%f1078,%f1080}];
	.loc	4	40	0
	mov.f32 	%f79, %f1081;
	mov.f32 	%f80, %f1082;
	mov.f32 	%f81, %f1083;
	mov.f32 	%f82, %f1084;
	.loc	4	161	0
	mul.ftz.f32 	%f1085, %f1054, %f858;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f1086, %f79, %f1085, %f1071;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1087, %f80, %f1085, %f1072;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1088, %f81, %f1085, %f1073;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1089, %f82, %f1085, %f1074;
	.loc	4	162	0
	mov.f32 	%f1090, %f869;
	mov.f32 	%f1091, %f1038;
	mov.f32 	%f1092, 0f00000000;  	// 0
	mov.f32 	%f1093, %f1092;
	mov.f32 	%f1094, 0f00000000;  	// 0
	mov.f32 	%f1095, %f1094;
	tex.2d.v4.f32.f32 {%f1096,%f1097,%f1098,%f1099},[sTexture,{%f1090,%f1091,%f1093,%f1095}];
	.loc	4	40	0
	mov.f32 	%f79, %f1096;
	mov.f32 	%f80, %f1097;
	mov.f32 	%f81, %f1098;
	mov.f32 	%f82, %f1099;
	.loc	4	162	0
	mul.ftz.f32 	%f1100, %f1054, %f885;
	.loc	4	402	0
	mul.ftz.f32 	%f1101, %f1100, %f79;
	add.ftz.f32 	%f1102, %f1101, %f1086;
	mov.f32 	%f1103, 0fbf800000;  	// -1
	add.ftz.f32 	%f1104, %f773, %f1103;
	mov.f32 	%f1105, 0f3ee147b0;  	// 0.44
	div.approx.ftz.f32 	%f1106, %f1104, %f1105;
	sub.ftz.f32 	%f1107, %f763, %f1102;
	fma.rn.ftz.f32 	%f763, %f1106, %f1107, %f1102;
	.loc	4	403	0
	mul.ftz.f32 	%f1108, %f1100, %f80;
	add.ftz.f32 	%f1109, %f1108, %f1087;
	sub.ftz.f32 	%f1110, %f766, %f1109;
	fma.rn.ftz.f32 	%f766, %f1106, %f1110, %f1109;
	.loc	4	404	0
	mul.ftz.f32 	%f1111, %f1100, %f81;
	add.ftz.f32 	%f1112, %f1111, %f1088;
	sub.ftz.f32 	%f1113, %f769, %f1112;
	fma.rn.ftz.f32 	%f769, %f1106, %f1113, %f1112;
	.loc	4	405	0
	mul.ftz.f32 	%f1114, %f1100, %f82;
	add.ftz.f32 	%f1115, %f1114, %f1089;
	sub.ftz.f32 	%f1116, %f772, %f1115;
	fma.rn.ftz.f32 	%f772, %f1106, %f1116, %f1115;
$Lt_36_19202:
	.loc	4	408	0
	mov.f32 	%f387, %f763;
	mov.f32 	%f388, %f766;
	mov.f32 	%f389, %f769;
	mov.f32 	%f390, %f772;
$LBB72__Z10SampleQuad6float2S_S_S_:
	mov.f32 	%f1117, %f387;
	st.param.f32 	[__cudaretf__Z10SampleQuad6float2S_S_S_+0], %f1117;
	mov.f32 	%f1118, %f388;
	st.param.f32 	[__cudaretf__Z10SampleQuad6float2S_S_S_+4], %f1118;
	mov.f32 	%f1119, %f389;
	st.param.f32 	[__cudaretf__Z10SampleQuad6float2S_S_S_+8], %f1119;
	mov.f32 	%f1120, %f390;
	st.param.f32 	[__cudaretf__Z10SampleQuad6float2S_S_S_+12], %f1120;
	ret;
$LDWend__Z10SampleQuad6float2S_S_S_:
	} // _Z10SampleQuad6float2S_S_S_

	.entry cuda_kernel_renderquad (
		.param .u64 __cudaparm_cuda_kernel_renderquad_dstFrame,
		.param .s32 __cudaparm_cuda_kernel_renderquad_width,
		.param .s32 __cudaparm_cuda_kernel_renderquad_height,
		.param .f32 __cudaparm_cuda_kernel_renderquad_tWidth,
		.param .f32 __cudaparm_cuda_kernel_renderquad_tHeight,
		.param .s32 __cudaparm_cuda_kernel_renderquad_srcPitch,
		.param .s32 __cudaparm_cuda_kernel_renderquad_dstPitch,
		.param .u32 __cudaparm_cuda_kernel_renderquad_inDeviceFormat,
		.param .align 8 .b8 __cudaparm_cuda_kernel_renderquad___val_paramquad[120])
	{
	.reg .u32 %r<79>;
	.reg .u64 %rd<25>;
	.reg .f32 %f<1416>;
	.reg .pred %p<28>;
	.local .align 4 .b8 __cuda___cuda_local_var_91896_7_non_const_sl_16672[16];
	.local .align 4 .b8 __cuda___cuda_local_var_91897_7_non_const_sc_32688[16];
	.local .align 8 .b8 __cuda___cuda_local_var_91893_4_non_const_quads_48704[224];
	.loc	4	412	0
$LDWbegin_cuda_kernel_renderquad:
	.loc	4	415	0
	cvt.s32.u32 	%r1, %ctaid.x;
	cvt.s32.u32 	%r2, %ntid.x;
	mul.lo.s32 	%r3, %r1, %r2;
	cvt.s32.u32 	%r4, %ctaid.y;
	cvt.s32.u32 	%r5, %ntid.y;
	mul.lo.s32 	%r6, %r4, %r5;
	mov.u32 	%r7, %tid.x;
	add.u32 	%r8, %r3, %r7;
	mov.u32 	%r9, %tid.y;
	add.u32 	%r10, %r6, %r9;
	ld.param.s32 	%r11, [__cudaparm_cuda_kernel_renderquad_width];
	set.le.u32.s32 	%r12, %r11, %r8;
	neg.s32 	%r13, %r12;
	ld.param.s32 	%r14, [__cudaparm_cuda_kernel_renderquad_height];
	set.le.u32.s32 	%r15, %r14, %r10;
	neg.s32 	%r16, %r15;
	or.b32 	%r17, %r13, %r16;
	mov.u32 	%r18, 0;
	setp.eq.s32 	%p1, %r17, %r18;
	@%p1 bra 	$Lt_37_24066;
	bra.uni 	$LBB97_cuda_kernel_renderquad;
$Lt_37_24066:
	.loc	4	420	0
	cvt.rn.f32.s32 	%f1, %r8;
	cvt.rn.f32.s32 	%f2, %r10;
	mov.f32 	%f3, 0f3f000000;     	// 0.5
	add.ftz.f32 	%f4, %f1, %f3;
	mov.f32 	%f5, 0f3f000000;     	// 0.5
	add.ftz.f32 	%f6, %f2, %f5;
	mov.f32 	%f7, 0f3f800000;     	// 1
	ld.param.f32 	%f8, [__cudaparm_cuda_kernel_renderquad___val_paramquad+84];
	ld.param.f32 	%f9, [__cudaparm_cuda_kernel_renderquad___val_paramquad+48];
	sub.ftz.f32 	%f10, %f9, %f4;
	mul.ftz.f32 	%f11, %f8, %f10;
	ld.param.f32 	%f12, [__cudaparm_cuda_kernel_renderquad___val_paramquad+80];
	ld.param.f32 	%f13, [__cudaparm_cuda_kernel_renderquad___val_paramquad+52];
	sub.ftz.f32 	%f14, %f13, %f6;
	mul.ftz.f32 	%f15, %f12, %f14;
	sub.ftz.f32 	%f16, %f15, %f11;
	mov.f32 	%f17, 0f3f000000;    	// 0.5
	add.ftz.f32 	%f18, %f16, %f17;
	cvt.ftz.sat.f32.f32 	%f19, %f18;
	sub.ftz.f32 	%f20, %f7, %f19;
	mov.f32 	%f21, 0f3f800000;    	// 1
	ld.param.f32 	%f22, [__cudaparm_cuda_kernel_renderquad___val_paramquad+92];
	ld.param.f32 	%f23, [__cudaparm_cuda_kernel_renderquad___val_paramquad+56];
	sub.ftz.f32 	%f24, %f23, %f4;
	mul.ftz.f32 	%f25, %f22, %f24;
	ld.param.f32 	%f26, [__cudaparm_cuda_kernel_renderquad___val_paramquad+88];
	ld.param.f32 	%f27, [__cudaparm_cuda_kernel_renderquad___val_paramquad+60];
	sub.ftz.f32 	%f28, %f27, %f6;
	mul.ftz.f32 	%f29, %f26, %f28;
	sub.ftz.f32 	%f30, %f29, %f25;
	mov.f32 	%f31, 0f3f000000;    	// 0.5
	add.ftz.f32 	%f32, %f30, %f31;
	cvt.ftz.sat.f32.f32 	%f33, %f32;
	sub.ftz.f32 	%f34, %f21, %f33;
	mul.ftz.f32 	%f35, %f20, %f34;
	.loc	4	421	0
	mov.f32 	%f36, 0f3f800000;    	// 1
	ld.param.f32 	%f37, [__cudaparm_cuda_kernel_renderquad___val_paramquad+100];
	ld.param.f32 	%f38, [__cudaparm_cuda_kernel_renderquad___val_paramquad+64];
	sub.ftz.f32 	%f39, %f38, %f4;
	mul.ftz.f32 	%f40, %f37, %f39;
	ld.param.f32 	%f41, [__cudaparm_cuda_kernel_renderquad___val_paramquad+96];
	ld.param.f32 	%f42, [__cudaparm_cuda_kernel_renderquad___val_paramquad+68];
	sub.ftz.f32 	%f43, %f42, %f6;
	mul.ftz.f32 	%f44, %f41, %f43;
	sub.ftz.f32 	%f45, %f44, %f40;
	mov.f32 	%f46, 0f3f000000;    	// 0.5
	add.ftz.f32 	%f47, %f45, %f46;
	cvt.ftz.sat.f32.f32 	%f48, %f47;
	sub.ftz.f32 	%f49, %f36, %f48;
	mul.ftz.f32 	%f50, %f35, %f49;
	.loc	4	422	0
	mov.f32 	%f51, 0f3f800000;    	// 1
	ld.param.f32 	%f52, [__cudaparm_cuda_kernel_renderquad___val_paramquad+108];
	ld.param.f32 	%f53, [__cudaparm_cuda_kernel_renderquad___val_paramquad+72];
	sub.ftz.f32 	%f54, %f53, %f4;
	mul.ftz.f32 	%f55, %f52, %f54;
	ld.param.f32 	%f56, [__cudaparm_cuda_kernel_renderquad___val_paramquad+104];
	ld.param.f32 	%f57, [__cudaparm_cuda_kernel_renderquad___val_paramquad+76];
	sub.ftz.f32 	%f58, %f57, %f6;
	mul.ftz.f32 	%f59, %f56, %f58;
	sub.ftz.f32 	%f60, %f59, %f55;
	mov.f32 	%f61, 0f3f000000;    	// 0.5
	add.ftz.f32 	%f62, %f60, %f61;
	cvt.ftz.sat.f32.f32 	%f63, %f62;
	sub.ftz.f32 	%f64, %f51, %f63;
	mul.ftz.f32 	%f65, %f50, %f64;
	ld.param.s32 	%r19, [__cudaparm_cuda_kernel_renderquad_inDeviceFormat];
	mov.s32 	%r20, 0;
	setp.eq.s32 	%p2, %r19, %r20;
	ld.param.s32 	%r21, [__cudaparm_cuda_kernel_renderquad_dstPitch];
	mul.lo.s32 	%r22, %r21, %r10;
	add.s32 	%r23, %r8, %r22;
	cvt.s64.s32 	%rd1, %r23;
	ld.param.u64 	%rd2, [__cudaparm_cuda_kernel_renderquad_dstFrame];
	mov.f32 	%f66, 0f00000000;    	// 0
	setp.eq.ftz.f32 	%p3, %f65, %f66;
	@!%p3 bra 	$Lt_37_24578;
	@!%p2 bra 	$Lt_37_25346;
	.loc	19	126	0
	mov.f32 	%f67, 0f00000000;    	// 0
	{ .reg .b32 %b1;
	cvt.rn.ftz.f16.f32	%b1, %f67;
	mov.b32		%r24, %b1; }
	mov.s32 	%r25, %r24;
	mul.lo.u64 	%rd3, %rd1, 8;
	add.u64 	%rd4, %rd2, %rd3;
	st.global.v4.u16 	[%rd4+0], {%r25,%r25,%r25,%r25};
	.loc	4	426	0
	bra.uni 	$LBB97_cuda_kernel_renderquad;
$Lt_37_25346:
	.loc	19	126	0
	mul.lo.u64 	%rd5, %rd1, 16;
	add.u64 	%rd6, %rd2, %rd5;
	mov.f32 	%f68, 0f00000000;    	// 0
	mov.f32 	%f69, 0f00000000;    	// 0
	mov.f32 	%f70, 0f00000000;    	// 0
	mov.f32 	%f71, 0f00000000;    	// 0
	st.global.v4.f32 	[%rd6+0], {%f68,%f69,%f70,%f71};
	bra.uni 	$LBB97_cuda_kernel_renderquad;
$Lt_37_24578:
	.loc	4	97	0
	ld.param.f32 	%f72, [__cudaparm_cuda_kernel_renderquad___val_paramquad+44];
	neg.ftz.f32 	%f73, %f72;
	ld.param.f32 	%f74, [__cudaparm_cuda_kernel_renderquad___val_paramquad+36];
	sub.ftz.f32 	%f75, %f1, %f74;
	ld.param.f32 	%f76, [__cudaparm_cuda_kernel_renderquad___val_paramquad+40];
	sub.ftz.f32 	%f77, %f2, %f76;
	mul.ftz.f32 	%f78, %f77, %f77;
	fma.rn.ftz.f32 	%f79, %f75, %f75, %f78;
	fma.rn.ftz.f32 	%f80, %f73, %f73, %f79;
	rsqrt.approx.ftz.f32 	%f81, %f80;
	mul.ftz.f32 	%f82, %f81, %f72;
	mul.ftz.f32 	%f83, %f77, %f81;
	ld.param.f32 	%f84, [__cudaparm_cuda_kernel_renderquad___val_paramquad+32];
	ld.param.f32 	%f85, [__cudaparm_cuda_kernel_renderquad___val_paramquad+28];
	mul.ftz.f32 	%f86, %f82, %f85;
	fma.rn.ftz.f32 	%f87, %f83, %f84, %f86;
	.loc	4	104	0
	mul.ftz.f32 	%f88, %f75, %f81;
	neg.ftz.f32 	%f89, %f82;
	ld.param.f32 	%f90, [__cudaparm_cuda_kernel_renderquad___val_paramquad+24];
	mul.ftz.f32 	%f91, %f83, %f90;
	mul.ftz.f32 	%f92, %f88, %f84;
	mul.ftz.f32 	%f93, %f88, %f85;
	sub.ftz.f32 	%f94, %f93, %f91;
	mul.ftz.f32 	%f95, %f89, %f90;
	sub.ftz.f32 	%f96, %f95, %f92;
	ld.param.f32 	%f97, [__cudaparm_cuda_kernel_renderquad___val_paramquad+20];
	ld.param.f32 	%f98, [__cudaparm_cuda_kernel_renderquad___val_paramquad+12];
	ld.param.f32 	%f99, [__cudaparm_cuda_kernel_renderquad___val_paramquad+16];
	mul.ftz.f32 	%f100, %f96, %f99;
	fma.rn.ftz.f32 	%f101, %f87, %f98, %f100;
	fma.rn.ftz.f32 	%f102, %f94, %f97, %f101;
	ld.param.f32 	%f103, [__cudaparm_cuda_kernel_renderquad___val_paramquad+4];
	sub.ftz.f32 	%f104, %f76, %f103;
	ld.param.f32 	%f105, [__cudaparm_cuda_kernel_renderquad___val_paramquad+0];
	sub.ftz.f32 	%f106, %f74, %f105;
	ld.param.f32 	%f107, [__cudaparm_cuda_kernel_renderquad___val_paramquad+8];
	sub.ftz.f32 	%f108, %f72, %f107;
	mul.ftz.f32 	%f109, %f104, %f96;
	fma.rn.ftz.f32 	%f110, %f87, %f106, %f109;
	fma.rn.ftz.f32 	%f111, %f94, %f108, %f110;
	mul.ftz.f32 	%f112, %f104, %f98;
	mul.ftz.f32 	%f113, %f106, %f97;
	mul.ftz.f32 	%f114, %f108, %f99;
	mul.ftz.f32 	%f115, %f106, %f99;
	sub.ftz.f32 	%f116, %f115, %f112;
	mul.ftz.f32 	%f117, %f108, %f98;
	sub.ftz.f32 	%f118, %f117, %f113;
	mul.ftz.f32 	%f119, %f104, %f97;
	sub.ftz.f32 	%f120, %f119, %f114;
	mul.ftz.f32 	%f121, %f118, %f83;
	fma.rn.ftz.f32 	%f122, %f120, %f88, %f121;
	fma.rn.ftz.f32 	%f123, %f116, %f89, %f122;
	.loc	4	430	0
	rcp.approx.ftz.f32 	%f124, %f102;
	mul.ftz.f32 	%f125, %f111, %f124;
	mul.ftz.f32 	%f126, %f123, %f124;
	.loc	4	97	0
	add.s32 	%r26, %r8, 1;
	cvt.rn.f32.s32 	%f127, %r26;
	sub.ftz.f32 	%f128, %f127, %f74;
	fma.rn.ftz.f32 	%f129, %f128, %f128, %f78;
	fma.rn.ftz.f32 	%f130, %f73, %f73, %f129;
	rsqrt.approx.ftz.f32 	%f131, %f130;
	mul.ftz.f32 	%f132, %f131, %f72;
	mul.ftz.f32 	%f133, %f77, %f131;
	mul.ftz.f32 	%f134, %f132, %f85;
	fma.rn.ftz.f32 	%f135, %f133, %f84, %f134;
	.loc	4	104	0
	mul.ftz.f32 	%f136, %f128, %f131;
	neg.ftz.f32 	%f137, %f132;
	mul.ftz.f32 	%f138, %f133, %f90;
	mul.ftz.f32 	%f139, %f136, %f84;
	mul.ftz.f32 	%f140, %f136, %f85;
	sub.ftz.f32 	%f141, %f140, %f138;
	mul.ftz.f32 	%f142, %f137, %f90;
	sub.ftz.f32 	%f143, %f142, %f139;
	mul.ftz.f32 	%f144, %f143, %f99;
	fma.rn.ftz.f32 	%f145, %f135, %f98, %f144;
	fma.rn.ftz.f32 	%f146, %f141, %f97, %f145;
	mul.ftz.f32 	%f147, %f104, %f143;
	fma.rn.ftz.f32 	%f148, %f135, %f106, %f147;
	fma.rn.ftz.f32 	%f149, %f141, %f108, %f148;
	mul.ftz.f32 	%f150, %f118, %f133;
	fma.rn.ftz.f32 	%f151, %f120, %f136, %f150;
	fma.rn.ftz.f32 	%f152, %f116, %f137, %f151;
	.loc	4	431	0
	rcp.approx.ftz.f32 	%f153, %f146;
	mul.ftz.f32 	%f154, %f152, %f153;
	.loc	4	97	0
	add.s32 	%r27, %r10, 1;
	cvt.rn.f32.s32 	%f155, %r27;
	sub.ftz.f32 	%f156, %f155, %f76;
	mul.ftz.f32 	%f157, %f156, %f156;
	fma.rn.ftz.f32 	%f158, %f128, %f128, %f157;
	fma.rn.ftz.f32 	%f159, %f73, %f73, %f158;
	rsqrt.approx.ftz.f32 	%f160, %f159;
	mul.ftz.f32 	%f161, %f160, %f72;
	mul.ftz.f32 	%f162, %f156, %f160;
	mul.ftz.f32 	%f163, %f161, %f85;
	fma.rn.ftz.f32 	%f164, %f162, %f84, %f163;
	.loc	4	98	0
	mul.ftz.f32 	%f165, %f128, %f160;
	neg.ftz.f32 	%f166, %f161;
	mul.ftz.f32 	%f167, %f165, %f84;
	mul.ftz.f32 	%f168, %f166, %f90;
	sub.ftz.f32 	%f169, %f168, %f167;
	.loc	4	99	0
	mul.ftz.f32 	%f170, %f162, %f90;
	mul.ftz.f32 	%f171, %f165, %f85;
	sub.ftz.f32 	%f172, %f171, %f170;
	.loc	4	104	0
	mul.ftz.f32 	%f173, %f118, %f162;
	fma.rn.ftz.f32 	%f174, %f120, %f165, %f173;
	fma.rn.ftz.f32 	%f175, %f116, %f166, %f174;
	.loc	4	432	0
	mul.ftz.f32 	%f176, %f169, %f99;
	fma.rn.ftz.f32 	%f177, %f164, %f98, %f176;
	fma.rn.ftz.f32 	%f178, %f172, %f97, %f177;
	rcp.approx.ftz.f32 	%f179, %f178;
	mul.ftz.f32 	%f180, %f104, %f169;
	fma.rn.ftz.f32 	%f181, %f164, %f106, %f180;
	fma.rn.ftz.f32 	%f182, %f172, %f108, %f181;
	mul.ftz.f32 	%f183, %f179, %f182;
	mul.ftz.f32 	%f184, %f175, %f179;
	.loc	4	97	0
	fma.rn.ftz.f32 	%f185, %f75, %f75, %f157;
	fma.rn.ftz.f32 	%f186, %f73, %f73, %f185;
	rsqrt.approx.ftz.f32 	%f187, %f186;
	mul.ftz.f32 	%f188, %f187, %f72;
	mul.ftz.f32 	%f189, %f156, %f187;
	mul.ftz.f32 	%f190, %f188, %f85;
	fma.rn.ftz.f32 	%f191, %f189, %f84, %f190;
	.loc	4	98	0
	mul.ftz.f32 	%f192, %f75, %f187;
	neg.ftz.f32 	%f193, %f188;
	mul.ftz.f32 	%f194, %f192, %f84;
	mul.ftz.f32 	%f195, %f193, %f90;
	sub.ftz.f32 	%f196, %f195, %f194;
	.loc	4	99	0
	mul.ftz.f32 	%f197, %f189, %f90;
	mul.ftz.f32 	%f198, %f192, %f85;
	sub.ftz.f32 	%f199, %f198, %f197;
	.loc	4	104	0
	mul.ftz.f32 	%f200, %f118, %f189;
	fma.rn.ftz.f32 	%f201, %f120, %f192, %f200;
	fma.rn.ftz.f32 	%f202, %f116, %f193, %f201;
	.loc	4	435	0
	ld.param.f32 	%f203, [__cudaparm_cuda_kernel_renderquad_tWidth];
	mul.ftz.f32 	%f204, %f125, %f203;
	.loc	4	436	0
	ld.param.f32 	%f205, [__cudaparm_cuda_kernel_renderquad_tHeight];
	mul.ftz.f32 	%f206, %f126, %f205;
	.loc	4	438	0
	mul.ftz.f32 	%f207, %f154, %f205;
	.loc	4	439	0
	mul.ftz.f32 	%f208, %f183, %f203;
	.loc	4	440	0
	mul.ftz.f32 	%f209, %f184, %f205;
	.loc	4	370	0
	mul.ftz.f32 	%f210, %f196, %f99;
	add.ftz.f32 	%f211, %f206, %f207;
	add.ftz.f32 	%f212, %f207, %f209;
	mul.ftz.f32 	%f213, %f104, %f196;
	mul.ftz.f32 	%f214, %f149, %f153;
	fma.rn.ftz.f32 	%f215, %f191, %f98, %f210;
	mov.f32 	%f216, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f217, %f211, %f216;
	mov.f32 	%f218, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f219, %f212, %f218;
	fma.rn.ftz.f32 	%f220, %f191, %f106, %f213;
	mul.ftz.f32 	%f221, %f214, %f203;
	fma.rn.ftz.f32 	%f222, %f199, %f97, %f215;
	fma.rn.ftz.f32 	%f223, %f199, %f108, %f220;
	add.ftz.f32 	%f224, %f221, %f204;
	add.ftz.f32 	%f225, %f221, %f208;
	rcp.approx.ftz.f32 	%f226, %f222;
	mov.f32 	%f227, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f228, %f224, %f227;
	mov.f32 	%f229, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f230, %f225, %f229;
	mul.ftz.f32 	%f231, %f202, %f226;
	mul.ftz.f32 	%f232, %f223, %f226;
	mul.ftz.f32 	%f233, %f231, %f205;
	mul.ftz.f32 	%f234, %f232, %f203;
	add.ftz.f32 	%f235, %f233, %f209;
	add.ftz.f32 	%f236, %f233, %f206;
	add.ftz.f32 	%f237, %f234, %f208;
	add.ftz.f32 	%f238, %f234, %f204;
	mov.f32 	%f239, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f240, %f235, %f239;
	mov.f32 	%f241, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f242, %f236, %f241;
	mov.f32 	%f243, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f244, %f237, %f243;
	mov.f32 	%f245, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f246, %f238, %f245;
	sub.ftz.f32 	%f247, %f217, %f240;
	sub.ftz.f32 	%f248, %f242, %f219;
	sub.ftz.f32 	%f249, %f228, %f244;
	sub.ftz.f32 	%f250, %f246, %f230;
	mul.ftz.f32 	%f251, %f247, %f247;
	mul.ftz.f32 	%f252, %f248, %f248;
	fma.rn.ftz.f32 	%f253, %f249, %f249, %f251;
	fma.rn.ftz.f32 	%f254, %f250, %f250, %f252;
	mov.f32 	%f255, 0f3f8020c5;   	// 1.001
	setp.gt.ftz.f32 	%p4, %f254, %f255;
	selp.s32 	%r28, 1, 0, %p4;
	or.b32 	%r29, %r28, 2;
	mov.f32 	%f256, 0f3f8020c5;   	// 1.001
	setp.gt.ftz.f32 	%p5, %f253, %f256;
	selp.s32 	%r30, %r29, %r28, %p5;
	mov.u32 	%r31, 0;
	setp.ne.s32 	%p6, %r30, %r31;
	@%p6 bra 	$Lt_37_25602;
	.loc	4	114	0
	add.ftz.f32 	%f257, %f228, %f244;
	mov.f32 	%f258, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f259, %f257, %f258;
	mov.f32 	%f260, 0fbf000000;   	// -0.5
	add.ftz.f32 	%f261, %f259, %f260;
	cvt.rmi.ftz.f32.f32 	%f262, %f261;
	sub.ftz.f32 	%f263, %f261, %f262;
	mov.f32 	%f264, 0f3f800000;   	// 1
	sub.ftz.f32 	%f265, %f264, %f263;
	mov.f32 	%f266, 0f3f800000;   	// 1
	mov.f32 	%f267, 0fc0200000;   	// -2.5
	mov.f32 	%f268, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f269, %f268, %f265, %f267;
	mul.ftz.f32 	%f270, %f265, %f269;
	fma.rn.ftz.f32 	%f271, %f265, %f270, %f266;
	.loc	4	110	0
	mov.f32 	%f272, 0fbf000000;   	// -0.5
	mov.f32 	%f273, 0f3f800000;   	// 1
	mov.f32 	%f274, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f275, %f274, %f265, %f273;
	fma.rn.ftz.f32 	%f276, %f265, %f275, %f272;
	mul.ftz.f32 	%f277, %f265, %f276;
	add.ftz.f32 	%f278, %f217, %f240;
	mov.f32 	%f279, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f280, %f278, %f279;
	mov.f32 	%f281, 0fbf000000;   	// -0.5
	add.ftz.f32 	%f282, %f280, %f281;
	cvt.rmi.ftz.f32.f32 	%f283, %f282;
	sub.ftz.f32 	%f284, %f282, %f283;
	mov.f32 	%f285, 0fbf000000;   	// -0.5
	mov.f32 	%f286, 0f3f800000;   	// 1
	mov.f32 	%f287, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f288, %f287, %f284, %f286;
	fma.rn.ftz.f32 	%f289, %f284, %f288, %f285;
	mul.ftz.f32 	%f290, %f284, %f289;
	.loc	4	114	0
	mov.f32 	%f291, 0f3f800000;   	// 1
	mov.f32 	%f292, 0fc0200000;   	// -2.5
	mov.f32 	%f293, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f294, %f293, %f284, %f292;
	mul.ftz.f32 	%f295, %f284, %f294;
	fma.rn.ftz.f32 	%f296, %f284, %f295, %f291;
	mov.f32 	%f297, 0f3f800000;   	// 1
	sub.ftz.f32 	%f298, %f297, %f284;
	mov.f32 	%f299, 0f3f800000;   	// 1
	mov.f32 	%f300, 0fc0200000;   	// -2.5
	mov.f32 	%f301, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f302, %f301, %f298, %f300;
	mul.ftz.f32 	%f303, %f298, %f302;
	fma.rn.ftz.f32 	%f304, %f298, %f303, %f299;
	.loc	4	110	0
	mov.f32 	%f305, 0fbf000000;   	// -0.5
	mov.f32 	%f306, 0f3f800000;   	// 1
	mov.f32 	%f307, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f308, %f307, %f298, %f306;
	fma.rn.ftz.f32 	%f309, %f298, %f308, %f305;
	mul.ftz.f32 	%f310, %f298, %f309;
	.loc	4	147	0
	mov.f32 	%f311, 0fbf000000;   	// -0.5
	add.ftz.f32 	%f312, %f283, %f311;
	mov.f32 	%f313, %f312;
	mov.f32 	%f314, 0fbf000000;   	// -0.5
	add.ftz.f32 	%f315, %f262, %f314;
	mov.f32 	%f316, %f315;
	mov.f32 	%f317, %f316;
	mov.f32 	%f318, %f313;
	mov.f32 	%f319, 0f00000000;   	// 0
	mov.f32 	%f320, %f319;
	mov.f32 	%f321, 0f00000000;   	// 0
	mov.f32 	%f322, %f321;
	tex.2d.v4.f32.f32 {%f323,%f324,%f325,%f326},[sTexture,{%f317,%f318,%f320,%f322}];
	.loc	4	40	0
	mov.f32 	%f327, %f323;
	mov.f32 	%f328, %f324;
	mov.f32 	%f329, %f325;
	mov.f32 	%f330, %f326;
	.loc	4	147	0
	mov.f32 	%f331, 0f3f800000;   	// 1
	mov.f32 	%f332, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f333, %f332, %f263, %f331;
	mov.f32 	%f334, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f335, %f263, %f333, %f334;
	mul.ftz.f32 	%f336, %f335, %f263;
	mul.ftz.f32 	%f337, %f336, %f290;
	.loc	4	72	0
	mul.ftz.f32 	%f338, %f337, %f327;
	.loc	4	73	0
	mul.ftz.f32 	%f339, %f337, %f328;
	.loc	4	74	0
	mul.ftz.f32 	%f340, %f337, %f329;
	.loc	4	75	0
	mul.ftz.f32 	%f341, %f337, %f330;
	.loc	4	148	0
	mov.f32 	%f342, 0f3f800000;   	// 1
	add.ftz.f32 	%f343, %f315, %f342;
	mov.f32 	%f344, %f343;
	mov.f32 	%f345, %f313;
	mov.f32 	%f346, 0f00000000;   	// 0
	mov.f32 	%f347, %f346;
	mov.f32 	%f348, 0f00000000;   	// 0
	mov.f32 	%f349, %f348;
	tex.2d.v4.f32.f32 {%f350,%f351,%f352,%f353},[sTexture,{%f344,%f345,%f347,%f349}];
	.loc	4	40	0
	mov.f32 	%f327, %f350;
	mov.f32 	%f328, %f351;
	mov.f32 	%f329, %f352;
	mov.f32 	%f330, %f353;
	.loc	4	148	0
	mov.f32 	%f354, 0fc0200000;   	// -2.5
	mov.f32 	%f355, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f356, %f355, %f263, %f354;
	mul.ftz.f32 	%f357, %f356, %f263;
	mov.f32 	%f358, 0f3f800000;   	// 1
	fma.rn.ftz.f32 	%f359, %f263, %f357, %f358;
	mul.ftz.f32 	%f360, %f359, %f290;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f361, %f327, %f360, %f338;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f362, %f328, %f360, %f339;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f363, %f329, %f360, %f340;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f364, %f330, %f360, %f341;
	.loc	4	149	0
	mov.f32 	%f365, 0f40000000;   	// 2
	add.ftz.f32 	%f366, %f315, %f365;
	mov.f32 	%f367, %f366;
	mov.f32 	%f368, %f313;
	mov.f32 	%f369, 0f00000000;   	// 0
	mov.f32 	%f370, %f369;
	mov.f32 	%f371, 0f00000000;   	// 0
	mov.f32 	%f372, %f371;
	tex.2d.v4.f32.f32 {%f373,%f374,%f375,%f376},[sTexture,{%f367,%f368,%f370,%f372}];
	.loc	4	40	0
	mov.f32 	%f327, %f373;
	mov.f32 	%f328, %f374;
	mov.f32 	%f329, %f375;
	mov.f32 	%f330, %f376;
	.loc	4	64	0
	mul.ftz.f32 	%f377, %f290, %f271;
	fma.rn.ftz.f32 	%f378, %f327, %f377, %f361;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f379, %f328, %f377, %f362;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f380, %f329, %f377, %f363;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f381, %f330, %f377, %f364;
	.loc	4	150	0
	mov.f32 	%f382, 0f40400000;   	// 3
	add.ftz.f32 	%f383, %f315, %f382;
	mov.f32 	%f384, %f383;
	mov.f32 	%f385, %f313;
	mov.f32 	%f386, 0f00000000;   	// 0
	mov.f32 	%f387, %f386;
	mov.f32 	%f388, 0f00000000;   	// 0
	mov.f32 	%f389, %f388;
	tex.2d.v4.f32.f32 {%f390,%f391,%f392,%f393},[sTexture,{%f384,%f385,%f387,%f389}];
	.loc	4	40	0
	mov.f32 	%f327, %f390;
	mov.f32 	%f328, %f391;
	mov.f32 	%f329, %f392;
	mov.f32 	%f330, %f393;
	.loc	4	64	0
	mul.ftz.f32 	%f394, %f290, %f277;
	fma.rn.ftz.f32 	%f395, %f327, %f394, %f378;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f396, %f328, %f394, %f379;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f397, %f329, %f394, %f380;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f398, %f330, %f394, %f381;
	.loc	4	151	0
	mov.f32 	%f399, 0f3f800000;   	// 1
	add.ftz.f32 	%f400, %f312, %f399;
	mov.f32 	%f401, %f316;
	mov.f32 	%f402, %f400;
	mov.f32 	%f403, 0f00000000;   	// 0
	mov.f32 	%f404, %f403;
	mov.f32 	%f405, 0f00000000;   	// 0
	mov.f32 	%f406, %f405;
	tex.2d.v4.f32.f32 {%f407,%f408,%f409,%f410},[sTexture,{%f401,%f402,%f404,%f406}];
	.loc	4	40	0
	mov.f32 	%f327, %f407;
	mov.f32 	%f328, %f408;
	mov.f32 	%f329, %f409;
	mov.f32 	%f330, %f410;
	.loc	4	151	0
	mul.ftz.f32 	%f411, %f336, %f296;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f412, %f327, %f411, %f395;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f413, %f328, %f411, %f396;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f414, %f329, %f411, %f397;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f415, %f330, %f411, %f398;
	.loc	4	152	0
	mov.f32 	%f416, %f343;
	mov.f32 	%f417, %f400;
	mov.f32 	%f418, 0f00000000;   	// 0
	mov.f32 	%f419, %f418;
	mov.f32 	%f420, 0f00000000;   	// 0
	mov.f32 	%f421, %f420;
	tex.2d.v4.f32.f32 {%f422,%f423,%f424,%f425},[sTexture,{%f416,%f417,%f419,%f421}];
	.loc	4	40	0
	mov.f32 	%f327, %f422;
	mov.f32 	%f328, %f423;
	mov.f32 	%f329, %f424;
	mov.f32 	%f330, %f425;
	.loc	4	152	0
	mul.ftz.f32 	%f426, %f359, %f296;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f427, %f327, %f426, %f412;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f428, %f328, %f426, %f413;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f429, %f329, %f426, %f414;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f430, %f330, %f426, %f415;
	.loc	4	153	0
	mov.f32 	%f431, %f366;
	mov.f32 	%f432, %f400;
	mov.f32 	%f433, 0f00000000;   	// 0
	mov.f32 	%f434, %f433;
	mov.f32 	%f435, 0f00000000;   	// 0
	mov.f32 	%f436, %f435;
	tex.2d.v4.f32.f32 {%f437,%f438,%f439,%f440},[sTexture,{%f431,%f432,%f434,%f436}];
	.loc	4	40	0
	mov.f32 	%f327, %f437;
	mov.f32 	%f328, %f438;
	mov.f32 	%f329, %f439;
	mov.f32 	%f330, %f440;
	.loc	4	64	0
	mul.ftz.f32 	%f441, %f296, %f271;
	fma.rn.ftz.f32 	%f442, %f327, %f441, %f427;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f443, %f328, %f441, %f428;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f444, %f329, %f441, %f429;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f445, %f330, %f441, %f430;
	.loc	4	154	0
	mov.f32 	%f446, %f383;
	mov.f32 	%f447, %f400;
	mov.f32 	%f448, 0f00000000;   	// 0
	mov.f32 	%f449, %f448;
	mov.f32 	%f450, 0f00000000;   	// 0
	mov.f32 	%f451, %f450;
	tex.2d.v4.f32.f32 {%f452,%f453,%f454,%f455},[sTexture,{%f446,%f447,%f449,%f451}];
	.loc	4	40	0
	mov.f32 	%f327, %f452;
	mov.f32 	%f328, %f453;
	mov.f32 	%f329, %f454;
	mov.f32 	%f330, %f455;
	.loc	4	64	0
	mul.ftz.f32 	%f456, %f296, %f277;
	fma.rn.ftz.f32 	%f457, %f327, %f456, %f442;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f458, %f328, %f456, %f443;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f459, %f329, %f456, %f444;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f460, %f330, %f456, %f445;
	.loc	4	155	0
	mov.f32 	%f461, 0f40000000;   	// 2
	add.ftz.f32 	%f462, %f312, %f461;
	mov.f32 	%f463, %f316;
	mov.f32 	%f464, %f462;
	mov.f32 	%f465, 0f00000000;   	// 0
	mov.f32 	%f466, %f465;
	mov.f32 	%f467, 0f00000000;   	// 0
	mov.f32 	%f468, %f467;
	tex.2d.v4.f32.f32 {%f469,%f470,%f471,%f472},[sTexture,{%f463,%f464,%f466,%f468}];
	.loc	4	40	0
	mov.f32 	%f327, %f469;
	mov.f32 	%f328, %f470;
	mov.f32 	%f329, %f471;
	mov.f32 	%f330, %f472;
	.loc	4	155	0
	mul.ftz.f32 	%f473, %f336, %f304;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f474, %f327, %f473, %f457;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f475, %f328, %f473, %f458;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f476, %f329, %f473, %f459;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f477, %f330, %f473, %f460;
	.loc	4	156	0
	mov.f32 	%f478, %f343;
	mov.f32 	%f479, %f462;
	mov.f32 	%f480, 0f00000000;   	// 0
	mov.f32 	%f481, %f480;
	mov.f32 	%f482, 0f00000000;   	// 0
	mov.f32 	%f483, %f482;
	tex.2d.v4.f32.f32 {%f484,%f485,%f486,%f487},[sTexture,{%f478,%f479,%f481,%f483}];
	.loc	4	40	0
	mov.f32 	%f327, %f484;
	mov.f32 	%f328, %f485;
	mov.f32 	%f329, %f486;
	mov.f32 	%f330, %f487;
	.loc	4	156	0
	mul.ftz.f32 	%f488, %f359, %f304;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f489, %f327, %f488, %f474;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f490, %f328, %f488, %f475;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f491, %f329, %f488, %f476;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f492, %f330, %f488, %f477;
	.loc	4	157	0
	mov.f32 	%f493, %f366;
	mov.f32 	%f494, %f462;
	mov.f32 	%f495, 0f00000000;   	// 0
	mov.f32 	%f496, %f495;
	mov.f32 	%f497, 0f00000000;   	// 0
	mov.f32 	%f498, %f497;
	tex.2d.v4.f32.f32 {%f499,%f500,%f501,%f502},[sTexture,{%f493,%f494,%f496,%f498}];
	.loc	4	40	0
	mov.f32 	%f327, %f499;
	mov.f32 	%f328, %f500;
	mov.f32 	%f329, %f501;
	mov.f32 	%f330, %f502;
	.loc	4	64	0
	mul.ftz.f32 	%f503, %f304, %f271;
	fma.rn.ftz.f32 	%f504, %f327, %f503, %f489;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f505, %f328, %f503, %f490;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f506, %f329, %f503, %f491;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f507, %f330, %f503, %f492;
	.loc	4	158	0
	mov.f32 	%f508, %f383;
	mov.f32 	%f509, %f462;
	mov.f32 	%f510, 0f00000000;   	// 0
	mov.f32 	%f511, %f510;
	mov.f32 	%f512, 0f00000000;   	// 0
	mov.f32 	%f513, %f512;
	tex.2d.v4.f32.f32 {%f514,%f515,%f516,%f517},[sTexture,{%f508,%f509,%f511,%f513}];
	.loc	4	40	0
	mov.f32 	%f327, %f514;
	mov.f32 	%f328, %f515;
	mov.f32 	%f329, %f516;
	mov.f32 	%f330, %f517;
	.loc	4	64	0
	mul.ftz.f32 	%f518, %f304, %f277;
	fma.rn.ftz.f32 	%f519, %f327, %f518, %f504;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f520, %f328, %f518, %f505;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f521, %f329, %f518, %f506;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f522, %f330, %f518, %f507;
	.loc	4	159	0
	mov.f32 	%f523, 0f40400000;   	// 3
	add.ftz.f32 	%f524, %f312, %f523;
	mov.f32 	%f525, %f316;
	mov.f32 	%f526, %f524;
	mov.f32 	%f527, 0f00000000;   	// 0
	mov.f32 	%f528, %f527;
	mov.f32 	%f529, 0f00000000;   	// 0
	mov.f32 	%f530, %f529;
	tex.2d.v4.f32.f32 {%f531,%f532,%f533,%f534},[sTexture,{%f525,%f526,%f528,%f530}];
	.loc	4	40	0
	mov.f32 	%f327, %f531;
	mov.f32 	%f328, %f532;
	mov.f32 	%f329, %f533;
	mov.f32 	%f330, %f534;
	.loc	4	159	0
	mul.ftz.f32 	%f535, %f336, %f310;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f536, %f327, %f535, %f519;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f537, %f328, %f535, %f520;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f538, %f329, %f535, %f521;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f539, %f330, %f535, %f522;
	.loc	4	160	0
	mov.f32 	%f540, %f343;
	mov.f32 	%f541, %f524;
	mov.f32 	%f542, 0f00000000;   	// 0
	mov.f32 	%f543, %f542;
	mov.f32 	%f544, 0f00000000;   	// 0
	mov.f32 	%f545, %f544;
	tex.2d.v4.f32.f32 {%f546,%f547,%f548,%f549},[sTexture,{%f540,%f541,%f543,%f545}];
	.loc	4	40	0
	mov.f32 	%f327, %f546;
	mov.f32 	%f328, %f547;
	mov.f32 	%f329, %f548;
	mov.f32 	%f330, %f549;
	.loc	4	160	0
	mul.ftz.f32 	%f550, %f359, %f310;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f551, %f327, %f550, %f536;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f552, %f328, %f550, %f537;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f553, %f329, %f550, %f538;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f554, %f330, %f550, %f539;
	.loc	4	161	0
	mov.f32 	%f555, %f366;
	mov.f32 	%f556, %f524;
	mov.f32 	%f557, 0f00000000;   	// 0
	mov.f32 	%f558, %f557;
	mov.f32 	%f559, 0f00000000;   	// 0
	mov.f32 	%f560, %f559;
	tex.2d.v4.f32.f32 {%f561,%f562,%f563,%f564},[sTexture,{%f555,%f556,%f558,%f560}];
	.loc	4	40	0
	mov.f32 	%f327, %f561;
	mov.f32 	%f328, %f562;
	mov.f32 	%f329, %f563;
	mov.f32 	%f330, %f564;
	.loc	4	64	0
	mul.ftz.f32 	%f565, %f310, %f271;
	fma.rn.ftz.f32 	%f566, %f327, %f565, %f551;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f567, %f328, %f565, %f552;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f568, %f329, %f565, %f553;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f569, %f330, %f565, %f554;
	.loc	4	162	0
	mov.f32 	%f570, %f383;
	mov.f32 	%f571, %f524;
	mov.f32 	%f572, 0f00000000;   	// 0
	mov.f32 	%f573, %f572;
	mov.f32 	%f574, 0f00000000;   	// 0
	mov.f32 	%f575, %f574;
	tex.2d.v4.f32.f32 {%f576,%f577,%f578,%f579},[sTexture,{%f570,%f571,%f573,%f575}];
	.loc	4	40	0
	mov.f32 	%f327, %f576;
	mov.f32 	%f328, %f577;
	mov.f32 	%f329, %f578;
	mov.f32 	%f330, %f579;
	.loc	4	384	0
	mul.ftz.f32 	%f580, %f310, %f277;
	fma.rn.ftz.f32 	%f581, %f327, %f580, %f566;
	fma.rn.ftz.f32 	%f582, %f328, %f580, %f567;
	fma.rn.ftz.f32 	%f583, %f329, %f580, %f568;
	fma.rn.ftz.f32 	%f584, %f330, %f580, %f569;
	bra.uni 	$LDWendi__Z7average6float2S__214_7;
$Lt_37_25602:
	mov.f32 	%f585, 0f40800000;   	// 4
	set.gt.ftz.u32.f32 	%r32, %f253, %f585;
	neg.s32 	%r33, %r32;
	mov.f32 	%f586, 0f40800000;   	// 4
	set.gt.ftz.u32.f32 	%r34, %f254, %f586;
	neg.s32 	%r35, %r34;
	or.b32 	%r36, %r33, %r35;
	mov.u32 	%r37, 0;
	setp.eq.s32 	%p7, %r36, %r37;
	@%p7 bra 	$Lt_37_26114;
	.loc	4	207	0
	mov.s32 	%r38, 0;
	st.local.s32 	[__cuda___cuda_local_var_91896_7_non_const_sl_16672+0], %r38;
	.loc	4	208	0
	mov.s32 	%r39, 1;
	st.local.s32 	[__cuda___cuda_local_var_91897_7_non_const_sc_32688+0], %r39;
	.loc	4	209	0
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48704+0], %f204;
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48704+4], %f206;
	.loc	4	210	0
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48704+8], %f221;
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48704+12], %f207;
	.loc	4	211	0
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48704+16], %f208;
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48704+20], %f209;
	.loc	4	212	0
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48704+24], %f234;
	st.local.f32 	[__cuda___cuda_local_var_91893_4_non_const_quads_48704+28], %f233;
	mov.f32 	%f587, 0f00000000;   	// 0
	mov.f32 	%f588, 0f00000000;   	// 0
	mov.f32 	%f589, 0f00000000;   	// 0
	mov.f32 	%f590, 0f00000000;   	// 0
	mov.f32 	%f591, 0f00000000;   	// 0
	mov.s32 	%r40, 0;
	mov.s32 	%r41, 0;
	mov.u64 	%rd7, __cuda___cuda_local_var_91896_7_non_const_sl_16672;
	mov.u64 	%rd8, __cuda___cuda_local_var_91897_7_non_const_sc_32688;
	mov.u64 	%rd9, __cuda___cuda_local_var_91893_4_non_const_quads_48704;
$Lt_37_26882:
 //<loop> Loop body line 212, nesting depth: 1, estimated iterations: unknown
	.loc	4	222	0
	cvt.s64.s32 	%rd10, %r41;
	mul.wide.s32 	%rd11, %r41, 32;
	add.u64 	%rd12, %rd9, %rd11;
	ld.local.f32 	%f592, [%rd12+0];
	ld.local.f32 	%f593, [%rd12+4];
	.loc	4	223	0
	ld.local.f32 	%f594, [%rd12+8];
	ld.local.f32 	%f595, [%rd12+12];
	.loc	4	224	0
	ld.local.f32 	%f596, [%rd12+16];
	ld.local.f32 	%f597, [%rd12+20];
	.loc	4	225	0
	ld.local.f32 	%f598, [%rd12+24];
	ld.local.f32 	%f599, [%rd12+28];
	.loc	4	234	0
	add.ftz.f32 	%f600, %f597, %f599;
	add.ftz.f32 	%f601, %f593, %f595;
	add.ftz.f32 	%f602, %f596, %f598;
	add.ftz.f32 	%f603, %f592, %f594;
	add.ftz.f32 	%f604, %f593, %f599;
	add.ftz.f32 	%f605, %f595, %f597;
	add.ftz.f32 	%f606, %f592, %f598;
	add.ftz.f32 	%f607, %f594, %f596;
	mov.f32 	%f608, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f609, %f600, %f608;
	mov.f32 	%f610, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f611, %f601, %f610;
	mov.f32 	%f612, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f613, %f602, %f612;
	mov.f32 	%f614, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f615, %f603, %f614;
	mov.f32 	%f616, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f617, %f604, %f616;
	mov.f32 	%f618, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f619, %f605, %f618;
	mov.f32 	%f620, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f621, %f606, %f620;
	mov.f32 	%f622, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f623, %f607, %f622;
	cvt.s64.s32 	%rd13, %r40;
	mul.wide.s32 	%rd14, %r40, 4;
	sub.ftz.f32 	%f624, %f609, %f611;
	sub.ftz.f32 	%f625, %f613, %f615;
	sub.ftz.f32 	%f626, %f617, %f619;
	sub.ftz.f32 	%f627, %f621, %f623;
	mul.ftz.f32 	%f628, %f624, %f624;
	mul.ftz.f32 	%f629, %f626, %f626;
	fma.rn.ftz.f32 	%f630, %f625, %f625, %f628;
	fma.rn.ftz.f32 	%f631, %f627, %f627, %f629;
	mov.f32 	%f632, 0f3f800000;   	// 1
	setp.gt.ftz.f32 	%p8, %f630, %f632;
	mov.f32 	%f633, 0f3f800000;   	// 1
	setp.gt.ftz.f32 	%p9, %f631, %f633;
	selp.s32 	%r42, 1, 0, %p9;
	or.b32 	%r43, %r42, 2;
	selp.s32 	%r44, %r43, %r42, %p8;
	mov.u32 	%r45, 0;
	setp.ne.s32 	%p10, %r44, %r45;
	@%p10 bra 	$Lt_37_27394;
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	250	0
	sub.s32 	%r41, %r41, 1;
	.loc	4	251	0
	mov.f32 	%f634, 0f3f800000;   	// 1
	add.ftz.f32 	%f591, %f591, %f634;
	.loc	4	252	0
	add.ftz.f32 	%f635, %f613, %f615;
	mov.f32 	%f636, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f637, %f635, %f636;
	mov.f32 	%f638, %f637;
	add.ftz.f32 	%f639, %f609, %f611;
	mov.f32 	%f640, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f641, %f639, %f640;
	mov.f32 	%f642, %f641;
	mov.f32 	%f643, 0f00000000;   	// 0
	mov.f32 	%f644, %f643;
	mov.f32 	%f645, 0f00000000;   	// 0
	mov.f32 	%f646, %f645;
	tex.2d.v4.f32.f32 {%f647,%f648,%f649,%f650},[sTexture,{%f638,%f642,%f644,%f646}];
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	40	0
	mov.f32 	%f651, %f647;
	mov.f32 	%f652, %f648;
	mov.f32 	%f653, %f649;
	mov.f32 	%f654, %f650;
	.loc	4	252	0
	add.ftz.f32 	%f590, %f651, %f590;
	add.ftz.f32 	%f589, %f652, %f589;
	add.ftz.f32 	%f588, %f653, %f588;
	add.ftz.f32 	%f587, %f654, %f587;
	.loc	4	253	0
	add.u64 	%rd15, %rd14, %rd8;
	ld.local.s32 	%r46, [%rd15+0];
	sub.s32 	%r47, %r46, 1;
	st.local.s32 	[%rd15+0], %r47;
	.loc	4	250	0
	sub.s32 	%r48, %r40, 1;
	mov.s32 	%r49, 0;
	setp.eq.s32 	%p11, %r47, %r49;
	selp.s32 	%r40, %r48, %r40, %p11;
	bra.uni 	$L_37_23298;
$Lt_37_27394:
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	258	0
	add.u64 	%rd16, %rd14, %rd7;
	ld.local.s32 	%r50, [%rd16+0];
	mov.u32 	%r51, 2;
	setp.eq.s32 	%p12, %r50, %r51;
	@%p12 bra 	$L_37_23810;
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	mov.f32 	%f655, 0f40800000;   	// 4
	set.lt.ftz.u32.f32 	%r52, %f630, %f655;
	neg.s32 	%r53, %r52;
	mov.f32 	%f656, 0f40800000;   	// 4
	set.lt.ftz.u32.f32 	%r54, %f631, %f656;
	neg.s32 	%r55, %r54;
	and.b32 	%r56, %r53, %r55;
	mov.u32 	%r57, 0;
	setp.eq.s32 	%p13, %r56, %r57;
	@%p13 bra 	$L_37_23554;
$L_37_23810:
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	259	0
	sub.s32 	%r41, %r41, 1;
	mov.u32 	%r58, 3;
	setp.ne.s32 	%p14, %r44, %r58;
	@%p14 bra 	$Lt_37_27906;
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	262	0
	mov.f32 	%f657, 0f40800000;   	// 4
	add.ftz.f32 	%f591, %f591, %f657;
	.loc	4	264	0
	add.ftz.f32 	%f658, %f609, %f611;
	add.ftz.f32 	%f659, %f613, %f615;
	mov.f32 	%f660, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f661, %f658, %f660;
	mov.f32 	%f662, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f663, %f659, %f662;
	add.ftz.f32 	%f664, %f621, %f663;
	add.ftz.f32 	%f665, %f592, %f664;
	add.ftz.f32 	%f666, %f615, %f665;
	mov.f32 	%f667, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f668, %f666, %f667;
	mov.f32 	%f669, %f668;
	add.ftz.f32 	%f670, %f617, %f661;
	add.ftz.f32 	%f671, %f593, %f670;
	add.ftz.f32 	%f672, %f611, %f671;
	mov.f32 	%f673, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f674, %f672, %f673;
	mov.f32 	%f675, %f674;
	mov.f32 	%f676, 0f00000000;   	// 0
	mov.f32 	%f677, %f676;
	mov.f32 	%f678, 0f00000000;   	// 0
	mov.f32 	%f679, %f678;
	tex.2d.v4.f32.f32 {%f680,%f681,%f682,%f683},[sTexture,{%f669,%f675,%f677,%f679}];
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	40	0
	mov.f32 	%f651, %f680;
	mov.f32 	%f652, %f681;
	mov.f32 	%f653, %f682;
	mov.f32 	%f654, %f683;
	.loc	4	64	0
	add.ftz.f32 	%f684, %f651, %f590;
	.loc	4	65	0
	add.ftz.f32 	%f685, %f652, %f589;
	.loc	4	66	0
	add.ftz.f32 	%f686, %f653, %f588;
	.loc	4	67	0
	add.ftz.f32 	%f687, %f654, %f587;
	.loc	4	266	0
	add.ftz.f32 	%f688, %f615, %f663;
	add.ftz.f32 	%f689, %f594, %f688;
	add.ftz.f32 	%f690, %f623, %f689;
	mov.f32 	%f691, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f692, %f690, %f691;
	mov.f32 	%f693, %f692;
	add.ftz.f32 	%f694, %f611, %f661;
	add.ftz.f32 	%f695, %f595, %f694;
	add.ftz.f32 	%f696, %f619, %f695;
	mov.f32 	%f697, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f698, %f696, %f697;
	mov.f32 	%f699, %f698;
	mov.f32 	%f700, 0f00000000;   	// 0
	mov.f32 	%f701, %f700;
	mov.f32 	%f702, 0f00000000;   	// 0
	mov.f32 	%f703, %f702;
	tex.2d.v4.f32.f32 {%f704,%f705,%f706,%f707},[sTexture,{%f693,%f699,%f701,%f703}];
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	40	0
	mov.f32 	%f651, %f704;
	mov.f32 	%f652, %f705;
	mov.f32 	%f653, %f706;
	mov.f32 	%f654, %f707;
	.loc	4	64	0
	add.ftz.f32 	%f708, %f651, %f684;
	.loc	4	65	0
	add.ftz.f32 	%f709, %f652, %f685;
	.loc	4	66	0
	add.ftz.f32 	%f710, %f653, %f686;
	.loc	4	67	0
	add.ftz.f32 	%f711, %f654, %f687;
	.loc	4	268	0
	add.ftz.f32 	%f712, %f623, %f663;
	add.ftz.f32 	%f713, %f596, %f712;
	add.ftz.f32 	%f714, %f613, %f713;
	mov.f32 	%f715, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f716, %f714, %f715;
	mov.f32 	%f717, %f716;
	add.ftz.f32 	%f718, %f619, %f661;
	add.ftz.f32 	%f719, %f597, %f718;
	add.ftz.f32 	%f720, %f609, %f719;
	mov.f32 	%f721, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f722, %f720, %f721;
	mov.f32 	%f723, %f722;
	mov.f32 	%f724, 0f00000000;   	// 0
	mov.f32 	%f725, %f724;
	mov.f32 	%f726, 0f00000000;   	// 0
	mov.f32 	%f727, %f726;
	tex.2d.v4.f32.f32 {%f728,%f729,%f730,%f731},[sTexture,{%f717,%f723,%f725,%f727}];
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	40	0
	mov.f32 	%f651, %f728;
	mov.f32 	%f652, %f729;
	mov.f32 	%f653, %f730;
	mov.f32 	%f654, %f731;
	.loc	4	64	0
	add.ftz.f32 	%f732, %f651, %f708;
	.loc	4	65	0
	add.ftz.f32 	%f733, %f652, %f709;
	.loc	4	66	0
	add.ftz.f32 	%f734, %f653, %f710;
	.loc	4	67	0
	add.ftz.f32 	%f735, %f654, %f711;
	.loc	4	270	0
	add.ftz.f32 	%f736, %f613, %f663;
	add.ftz.f32 	%f737, %f598, %f736;
	add.ftz.f32 	%f738, %f621, %f737;
	mov.f32 	%f739, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f740, %f738, %f739;
	mov.f32 	%f741, %f740;
	add.ftz.f32 	%f742, %f609, %f661;
	add.ftz.f32 	%f743, %f599, %f742;
	add.ftz.f32 	%f744, %f617, %f743;
	mov.f32 	%f745, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f746, %f744, %f745;
	mov.f32 	%f747, %f746;
	mov.f32 	%f748, 0f00000000;   	// 0
	mov.f32 	%f749, %f748;
	mov.f32 	%f750, 0f00000000;   	// 0
	mov.f32 	%f751, %f750;
	tex.2d.v4.f32.f32 {%f752,%f753,%f754,%f755},[sTexture,{%f741,%f747,%f749,%f751}];
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	40	0
	mov.f32 	%f651, %f752;
	mov.f32 	%f652, %f753;
	mov.f32 	%f653, %f754;
	mov.f32 	%f654, %f755;
	.loc	4	270	0
	add.ftz.f32 	%f590, %f651, %f732;
	add.ftz.f32 	%f589, %f652, %f733;
	add.ftz.f32 	%f588, %f653, %f734;
	add.ftz.f32 	%f587, %f654, %f735;
	bra.uni 	$Lt_37_28162;
$Lt_37_27906:
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	mov.f32 	%f756, 0f40000000;   	// 2
	add.ftz.f32 	%f757, %f591, %f756;
	mov.u32 	%r59, 2;
	setp.ne.s32 	%p15, %r44, %r59;
	@%p15 bra 	$Lt_37_28418;
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	272	0
	mov.f32 	%f591, %f757;
	.loc	4	274	0
	add.ftz.f32 	%f758, %f603, %f623;
	add.ftz.f32 	%f759, %f621, %f758;
	mov.f32 	%f760, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f761, %f759, %f760;
	mov.f32 	%f762, %f761;
	add.ftz.f32 	%f763, %f601, %f619;
	add.ftz.f32 	%f764, %f617, %f763;
	mov.f32 	%f765, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f766, %f764, %f765;
	mov.f32 	%f767, %f766;
	mov.f32 	%f768, 0f00000000;   	// 0
	mov.f32 	%f769, %f768;
	mov.f32 	%f770, 0f00000000;   	// 0
	mov.f32 	%f771, %f770;
	tex.2d.v4.f32.f32 {%f772,%f773,%f774,%f775},[sTexture,{%f762,%f767,%f769,%f771}];
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	40	0
	mov.f32 	%f651, %f772;
	mov.f32 	%f652, %f773;
	mov.f32 	%f653, %f774;
	mov.f32 	%f654, %f775;
	.loc	4	64	0
	add.ftz.f32 	%f776, %f651, %f590;
	.loc	4	65	0
	add.ftz.f32 	%f777, %f652, %f589;
	.loc	4	66	0
	add.ftz.f32 	%f778, %f653, %f588;
	.loc	4	67	0
	add.ftz.f32 	%f779, %f654, %f587;
	.loc	4	276	0
	add.ftz.f32 	%f780, %f621, %f623;
	add.ftz.f32 	%f781, %f596, %f780;
	add.ftz.f32 	%f782, %f598, %f781;
	mov.f32 	%f783, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f784, %f782, %f783;
	mov.f32 	%f785, %f784;
	add.ftz.f32 	%f786, %f617, %f619;
	add.ftz.f32 	%f787, %f597, %f786;
	add.ftz.f32 	%f788, %f599, %f787;
	mov.f32 	%f789, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f790, %f788, %f789;
	mov.f32 	%f791, %f790;
	mov.f32 	%f792, 0f00000000;   	// 0
	mov.f32 	%f793, %f792;
	mov.f32 	%f794, 0f00000000;   	// 0
	mov.f32 	%f795, %f794;
	tex.2d.v4.f32.f32 {%f796,%f797,%f798,%f799},[sTexture,{%f785,%f791,%f793,%f795}];
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	40	0
	mov.f32 	%f651, %f796;
	mov.f32 	%f652, %f797;
	mov.f32 	%f653, %f798;
	mov.f32 	%f654, %f799;
	.loc	4	276	0
	add.ftz.f32 	%f590, %f651, %f776;
	add.ftz.f32 	%f589, %f652, %f777;
	add.ftz.f32 	%f588, %f653, %f778;
	add.ftz.f32 	%f587, %f654, %f779;
	bra.uni 	$Lt_37_28162;
$Lt_37_28418:
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	278	0
	mov.f32 	%f591, %f757;
	.loc	4	280	0
	add.ftz.f32 	%f800, %f615, %f592;
	add.ftz.f32 	%f801, %f613, %f800;
	add.ftz.f32 	%f802, %f598, %f801;
	mov.f32 	%f803, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f804, %f802, %f803;
	mov.f32 	%f805, %f804;
	add.ftz.f32 	%f806, %f611, %f593;
	add.ftz.f32 	%f807, %f609, %f806;
	add.ftz.f32 	%f808, %f599, %f807;
	mov.f32 	%f809, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f810, %f808, %f809;
	mov.f32 	%f811, %f810;
	mov.f32 	%f812, 0f00000000;   	// 0
	mov.f32 	%f813, %f812;
	mov.f32 	%f814, 0f00000000;   	// 0
	mov.f32 	%f815, %f814;
	tex.2d.v4.f32.f32 {%f816,%f817,%f818,%f819},[sTexture,{%f805,%f811,%f813,%f815}];
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	40	0
	mov.f32 	%f651, %f816;
	mov.f32 	%f652, %f817;
	mov.f32 	%f653, %f818;
	mov.f32 	%f654, %f819;
	.loc	4	64	0
	add.ftz.f32 	%f820, %f651, %f590;
	.loc	4	65	0
	add.ftz.f32 	%f821, %f652, %f589;
	.loc	4	66	0
	add.ftz.f32 	%f822, %f653, %f588;
	.loc	4	67	0
	add.ftz.f32 	%f823, %f654, %f587;
	.loc	4	282	0
	add.ftz.f32 	%f824, %f615, %f594;
	add.ftz.f32 	%f825, %f596, %f824;
	add.ftz.f32 	%f826, %f613, %f825;
	mov.f32 	%f827, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f828, %f826, %f827;
	mov.f32 	%f829, %f828;
	add.ftz.f32 	%f830, %f611, %f595;
	add.ftz.f32 	%f831, %f597, %f830;
	add.ftz.f32 	%f832, %f609, %f831;
	mov.f32 	%f833, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f834, %f832, %f833;
	mov.f32 	%f835, %f834;
	mov.f32 	%f836, 0f00000000;   	// 0
	mov.f32 	%f837, %f836;
	mov.f32 	%f838, 0f00000000;   	// 0
	mov.f32 	%f839, %f838;
	tex.2d.v4.f32.f32 {%f840,%f841,%f842,%f843},[sTexture,{%f829,%f835,%f837,%f839}];
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	40	0
	mov.f32 	%f651, %f840;
	mov.f32 	%f652, %f841;
	mov.f32 	%f653, %f842;
	mov.f32 	%f654, %f843;
	.loc	4	282	0
	add.ftz.f32 	%f590, %f651, %f820;
	add.ftz.f32 	%f589, %f652, %f821;
	add.ftz.f32 	%f588, %f653, %f822;
	add.ftz.f32 	%f587, %f654, %f823;
$Lt_37_28162:
$Lt_37_27650:
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	285	0
	add.u64 	%rd15, %rd14, %rd8;
	ld.local.s32 	%r60, [%rd15+0];
	sub.s32 	%r47, %r60, 1;
	st.local.s32 	[%rd15+0], %r47;
	sub.s32 	%r61, %r40, 1;
	mov.s32 	%r62, 0;
	setp.eq.s32 	%p16, %r47, %r62;
	selp.s32 	%r40, %r61, %r40, %p16;
	bra.uni 	$L_37_23298;
$L_37_23554:
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	349	0
	mov.u32 	%r63, 3;
	setp.ne.s32 	%p17, %r44, %r63;
	@%p17 bra 	$Lt_37_28930;
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	294	0
	add.ftz.f32 	%f844, %f613, %f615;
	mov.f32 	%f845, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f663, %f844, %f845;
	st.local.f32 	[%rd12+0], %f663;
	add.ftz.f32 	%f846, %f609, %f611;
	mov.f32 	%f847, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f661, %f846, %f847;
	st.local.f32 	[%rd12+4], %f661;
	.loc	4	295	0
	st.local.f32 	[%rd12+8], %f621;
	st.local.f32 	[%rd12+12], %f617;
	.loc	4	296	0
	st.local.f32 	[%rd12+16], %f592;
	st.local.f32 	[%rd12+20], %f593;
	.loc	4	297	0
	st.local.f32 	[%rd12+24], %f615;
	st.local.f32 	[%rd12+28], %f611;
	.loc	4	299	0
	st.local.f32 	[%rd12+32], %f663;
	st.local.f32 	[%rd12+36], %f661;
	.loc	4	300	0
	st.local.f32 	[%rd12+40], %f615;
	st.local.f32 	[%rd12+44], %f611;
	.loc	4	301	0
	st.local.f32 	[%rd12+48], %f594;
	st.local.f32 	[%rd12+52], %f595;
	.loc	4	302	0
	st.local.f32 	[%rd12+56], %f623;
	st.local.f32 	[%rd12+60], %f619;
	.loc	4	304	0
	st.local.f32 	[%rd12+64], %f663;
	st.local.f32 	[%rd12+68], %f661;
	.loc	4	305	0
	st.local.f32 	[%rd12+72], %f623;
	st.local.f32 	[%rd12+76], %f619;
	.loc	4	306	0
	st.local.f32 	[%rd12+80], %f596;
	st.local.f32 	[%rd12+84], %f597;
	.loc	4	307	0
	st.local.f32 	[%rd12+88], %f613;
	st.local.f32 	[%rd12+92], %f609;
	.loc	4	309	0
	st.local.f32 	[%rd12+96], %f663;
	st.local.f32 	[%rd12+100], %f661;
	.loc	4	310	0
	st.local.f32 	[%rd12+104], %f613;
	st.local.f32 	[%rd12+108], %f609;
	.loc	4	311	0
	st.local.f32 	[%rd12+112], %f598;
	st.local.f32 	[%rd12+116], %f599;
	.loc	4	312	0
	st.local.f32 	[%rd12+120], %f621;
	st.local.f32 	[%rd12+124], %f617;
	mov.s32 	%r64, 4;
	bra.uni 	$Lt_37_28674;
$Lt_37_28930:
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	mov.u32 	%r65, 2;
	setp.ne.s32 	%p18, %r44, %r65;
	@%p18 bra 	$Lt_37_29442;
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	316	0
	st.local.f32 	[%rd12+0], %f592;
	st.local.f32 	[%rd12+4], %f593;
	.loc	4	317	0
	st.local.f32 	[%rd12+8], %f594;
	st.local.f32 	[%rd12+12], %f595;
	.loc	4	318	0
	st.local.f32 	[%rd12+16], %f623;
	st.local.f32 	[%rd12+20], %f619;
	.loc	4	319	0
	st.local.f32 	[%rd12+24], %f621;
	st.local.f32 	[%rd12+28], %f617;
	.loc	4	321	0
	st.local.f32 	[%rd12+32], %f621;
	st.local.f32 	[%rd12+36], %f617;
	.loc	4	322	0
	st.local.f32 	[%rd12+40], %f623;
	st.local.f32 	[%rd12+44], %f619;
	.loc	4	323	0
	st.local.f32 	[%rd12+48], %f596;
	st.local.f32 	[%rd12+52], %f597;
	.loc	4	324	0
	st.local.f32 	[%rd12+56], %f598;
	st.local.f32 	[%rd12+60], %f599;
	bra.uni 	$Lt_37_29186;
$Lt_37_29442:
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	330	0
	st.local.f32 	[%rd12+0], %f592;
	st.local.f32 	[%rd12+4], %f593;
	.loc	4	331	0
	st.local.f32 	[%rd12+8], %f615;
	st.local.f32 	[%rd12+12], %f611;
	.loc	4	332	0
	st.local.f32 	[%rd12+16], %f613;
	st.local.f32 	[%rd12+20], %f609;
	.loc	4	333	0
	st.local.f32 	[%rd12+24], %f598;
	st.local.f32 	[%rd12+28], %f599;
	.loc	4	335	0
	st.local.f32 	[%rd12+32], %f615;
	st.local.f32 	[%rd12+36], %f611;
	.loc	4	336	0
	st.local.f32 	[%rd12+40], %f594;
	st.local.f32 	[%rd12+44], %f595;
	.loc	4	337	0
	st.local.f32 	[%rd12+48], %f596;
	st.local.f32 	[%rd12+52], %f597;
	.loc	4	338	0
	st.local.f32 	[%rd12+56], %f613;
	st.local.f32 	[%rd12+60], %f609;
$Lt_37_29186:
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	mov.s32 	%r64, 2;
$Lt_37_28674:
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	.loc	4	343	0
	add.s32 	%r66, %r64, %r41;
	sub.s32 	%r41, %r66, 1;
	.loc	4	345	0
	add.u64 	%rd15, %rd14, %rd8;
	ld.local.s32 	%r67, [%rd15+0];
	sub.s32 	%r47, %r67, 1;
	st.local.s32 	[%rd15+0], %r47;
	.loc	4	343	0
	add.s32 	%r68, %r40, 1;
	mov.s32 	%r69, 0;
	setp.ne.s32 	%p19, %r47, %r69;
	selp.s32 	%r40, %r68, %r40, %p19;
	.loc	4	348	0
	cvt.s64.s32 	%rd17, %r40;
	mul.wide.s32 	%rd14, %r40, 4;
	add.s32 	%r70, %r50, 1;
	add.u64 	%rd18, %rd14, %rd7;
	st.local.s32 	[%rd18+0], %r70;
	.loc	4	349	0
	add.u64 	%rd19, %rd14, %rd8;
	st.local.s32 	[%rd19+0], %r64;
$L_37_23298:
$Lt_37_27138:
 //<loop> Part of loop body line 212, head labeled $Lt_37_26882
	mov.u32 	%r71, 0;
	setp.ge.s32 	%p20, %r41, %r71;
	@%p20 bra 	$Lt_37_26882;
	.loc	4	386	0
	rcp.approx.ftz.f32 	%f848, %f591;
	mul.ftz.f32 	%f581, %f848, %f590;
	mul.ftz.f32 	%f582, %f848, %f589;
	mul.ftz.f32 	%f583, %f848, %f588;
	mul.ftz.f32 	%f584, %f848, %f587;
	bra.uni 	$LDWendi__Z7average6float2S__214_7;
$Lt_37_26114:
	.loc	4	389	0
	add.ftz.f32 	%f849, %f217, %f240;
	add.ftz.f32 	%f850, %f228, %f244;
	mov.f32 	%f851, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f852, %f849, %f851;
	mov.f32 	%f853, 0f3f000000;   	// 0.5
	mul.ftz.f32 	%f854, %f850, %f853;
	add.ftz.f32 	%f855, %f217, %f852;
	add.ftz.f32 	%f856, %f228, %f854;
	add.ftz.f32 	%f857, %f856, %f204;
	add.ftz.f32 	%f858, %f246, %f857;
	mov.f32 	%f859, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f860, %f858, %f859;
	mov.f32 	%f861, %f860;
	add.ftz.f32 	%f862, %f855, %f206;
	add.ftz.f32 	%f863, %f242, %f862;
	mov.f32 	%f864, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f865, %f863, %f864;
	mov.f32 	%f866, %f865;
	mov.f32 	%f867, 0f00000000;   	// 0
	mov.f32 	%f868, %f867;
	mov.f32 	%f869, 0f00000000;   	// 0
	mov.f32 	%f870, %f869;
	tex.2d.v4.f32.f32 {%f871,%f872,%f873,%f874},[sTexture,{%f861,%f866,%f868,%f870}];
	.loc	4	40	0
	mov.f32 	%f875, %f871;
	mov.f32 	%f876, %f872;
	mov.f32 	%f877, %f873;
	mov.f32 	%f878, %f874;
	.loc	4	391	0
	add.ftz.f32 	%f879, %f221, %f856;
	add.ftz.f32 	%f880, %f230, %f879;
	mov.f32 	%f881, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f882, %f880, %f881;
	mov.f32 	%f883, %f882;
	add.ftz.f32 	%f884, %f855, %f207;
	add.ftz.f32 	%f885, %f219, %f884;
	mov.f32 	%f886, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f887, %f885, %f886;
	mov.f32 	%f888, %f887;
	mov.f32 	%f889, 0f00000000;   	// 0
	mov.f32 	%f890, %f889;
	mov.f32 	%f891, 0f00000000;   	// 0
	mov.f32 	%f892, %f891;
	tex.2d.v4.f32.f32 {%f893,%f894,%f895,%f896},[sTexture,{%f883,%f888,%f890,%f892}];
	.loc	4	40	0
	mov.f32 	%f897, %f893;
	mov.f32 	%f898, %f894;
	mov.f32 	%f899, %f895;
	mov.f32 	%f900, %f896;
	.loc	4	64	0
	add.ftz.f32 	%f901, %f875, %f897;
	.loc	4	65	0
	add.ftz.f32 	%f902, %f876, %f898;
	.loc	4	66	0
	add.ftz.f32 	%f903, %f877, %f899;
	.loc	4	67	0
	add.ftz.f32 	%f904, %f878, %f900;
	.loc	4	393	0
	add.ftz.f32 	%f905, %f240, %f852;
	add.ftz.f32 	%f906, %f244, %f854;
	add.ftz.f32 	%f907, %f906, %f208;
	add.ftz.f32 	%f908, %f230, %f907;
	mov.f32 	%f909, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f910, %f908, %f909;
	mov.f32 	%f911, %f910;
	add.ftz.f32 	%f912, %f905, %f209;
	add.ftz.f32 	%f913, %f219, %f912;
	mov.f32 	%f914, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f915, %f913, %f914;
	mov.f32 	%f916, %f915;
	mov.f32 	%f917, 0f00000000;   	// 0
	mov.f32 	%f918, %f917;
	mov.f32 	%f919, 0f00000000;   	// 0
	mov.f32 	%f920, %f919;
	tex.2d.v4.f32.f32 {%f921,%f922,%f923,%f924},[sTexture,{%f911,%f916,%f918,%f920}];
	.loc	4	40	0
	mov.f32 	%f925, %f921;
	mov.f32 	%f926, %f922;
	mov.f32 	%f927, %f923;
	mov.f32 	%f928, %f924;
	.loc	4	64	0
	add.ftz.f32 	%f929, %f925, %f901;
	.loc	4	65	0
	add.ftz.f32 	%f930, %f926, %f902;
	.loc	4	66	0
	add.ftz.f32 	%f931, %f927, %f903;
	.loc	4	67	0
	add.ftz.f32 	%f932, %f928, %f904;
	.loc	4	395	0
	add.ftz.f32 	%f933, %f234, %f906;
	add.ftz.f32 	%f934, %f246, %f933;
	mov.f32 	%f935, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f936, %f934, %f935;
	mov.f32 	%f937, %f936;
	add.ftz.f32 	%f938, %f233, %f905;
	add.ftz.f32 	%f939, %f242, %f938;
	mov.f32 	%f940, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f941, %f939, %f940;
	mov.f32 	%f942, %f941;
	mov.f32 	%f943, 0f00000000;   	// 0
	mov.f32 	%f944, %f943;
	mov.f32 	%f945, 0f00000000;   	// 0
	mov.f32 	%f946, %f945;
	tex.2d.v4.f32.f32 {%f947,%f948,%f949,%f950},[sTexture,{%f937,%f942,%f944,%f946}];
	.loc	4	40	0
	mov.f32 	%f951, %f947;
	mov.f32 	%f952, %f948;
	mov.f32 	%f953, %f949;
	mov.f32 	%f954, %f950;
	.loc	4	396	0
	add.ftz.f32 	%f955, %f951, %f929;
	mov.f32 	%f956, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f957, %f955, %f956;
	add.ftz.f32 	%f958, %f952, %f930;
	mov.f32 	%f959, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f960, %f958, %f959;
	add.ftz.f32 	%f961, %f953, %f931;
	mov.f32 	%f962, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f963, %f961, %f962;
	add.ftz.f32 	%f964, %f954, %f932;
	mov.f32 	%f965, 0f3e800000;   	// 0.25
	mul.ftz.f32 	%f966, %f964, %f965;
	max.ftz.f32 	%f967, %f253, %f254;
	mov.f32 	%f968, 0f3fb851ec;   	// 1.44
	setp.lt.ftz.f32 	%p21, %f967, %f968;
	@!%p21 bra 	$Lt_37_29954;
	.loc	4	114	0
	mov.f32 	%f969, 0fbf000000;   	// -0.5
	add.ftz.f32 	%f970, %f854, %f969;
	cvt.rmi.ftz.f32.f32 	%f971, %f970;
	sub.ftz.f32 	%f972, %f970, %f971;
	mov.f32 	%f973, 0f3f800000;   	// 1
	sub.ftz.f32 	%f974, %f973, %f972;
	mov.f32 	%f975, 0f3f800000;   	// 1
	mov.f32 	%f976, 0fc0200000;   	// -2.5
	mov.f32 	%f977, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f978, %f977, %f974, %f976;
	mul.ftz.f32 	%f979, %f974, %f978;
	fma.rn.ftz.f32 	%f980, %f974, %f979, %f975;
	.loc	4	110	0
	mov.f32 	%f981, 0fbf000000;   	// -0.5
	mov.f32 	%f982, 0f3f800000;   	// 1
	mov.f32 	%f983, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f984, %f983, %f974, %f982;
	fma.rn.ftz.f32 	%f985, %f974, %f984, %f981;
	mul.ftz.f32 	%f986, %f974, %f985;
	mov.f32 	%f987, 0fbf000000;   	// -0.5
	add.ftz.f32 	%f988, %f852, %f987;
	cvt.rmi.ftz.f32.f32 	%f989, %f988;
	sub.ftz.f32 	%f990, %f988, %f989;
	mov.f32 	%f991, 0fbf000000;   	// -0.5
	mov.f32 	%f992, 0f3f800000;   	// 1
	mov.f32 	%f993, 0fbf000000;   	// -0.5
	fma.rn.ftz.f32 	%f994, %f993, %f990, %f992;
	fma.rn.ftz.f32 	%f995, %f990, %f994, %f991;
	mul.ftz.f32 	%f996, %f990, %f995;
	.loc	4	114	0
	mov.f32 	%f997, 0f3f800000;   	// 1
	mov.f32 	%f998, 0fc0200000;   	// -2.5
	mov.f32 	%f999, 0f3fc00000;   	// 1.5
	fma.rn.ftz.f32 	%f1000, %f999, %f990, %f998;
	mul.ftz.f32 	%f1001, %f990, %f1000;
	fma.rn.ftz.f32 	%f1002, %f990, %f1001, %f997;
	mov.f32 	%f1003, 0f3f800000;  	// 1
	sub.ftz.f32 	%f1004, %f1003, %f990;
	mov.f32 	%f1005, 0f3f800000;  	// 1
	mov.f32 	%f1006, 0fc0200000;  	// -2.5
	mov.f32 	%f1007, 0f3fc00000;  	// 1.5
	fma.rn.ftz.f32 	%f1008, %f1007, %f1004, %f1006;
	mul.ftz.f32 	%f1009, %f1004, %f1008;
	fma.rn.ftz.f32 	%f1010, %f1004, %f1009, %f1005;
	.loc	4	110	0
	mov.f32 	%f1011, 0fbf000000;  	// -0.5
	mov.f32 	%f1012, 0f3f800000;  	// 1
	mov.f32 	%f1013, 0fbf000000;  	// -0.5
	fma.rn.ftz.f32 	%f1014, %f1013, %f1004, %f1012;
	fma.rn.ftz.f32 	%f1015, %f1004, %f1014, %f1011;
	mul.ftz.f32 	%f1016, %f1004, %f1015;
	.loc	4	147	0
	mov.f32 	%f1017, 0fbf000000;  	// -0.5
	add.ftz.f32 	%f1018, %f989, %f1017;
	mov.f32 	%f1019, %f1018;
	mov.f32 	%f1020, 0fbf000000;  	// -0.5
	add.ftz.f32 	%f1021, %f971, %f1020;
	mov.f32 	%f1022, %f1021;
	mov.f32 	%f1023, %f1022;
	mov.f32 	%f1024, %f1019;
	mov.f32 	%f1025, 0f00000000;  	// 0
	mov.f32 	%f1026, %f1025;
	mov.f32 	%f1027, 0f00000000;  	// 0
	mov.f32 	%f1028, %f1027;
	tex.2d.v4.f32.f32 {%f1029,%f1030,%f1031,%f1032},[sTexture,{%f1023,%f1024,%f1026,%f1028}];
	.loc	4	40	0
	mov.f32 	%f327, %f1029;
	mov.f32 	%f328, %f1030;
	mov.f32 	%f329, %f1031;
	mov.f32 	%f330, %f1032;
	.loc	4	147	0
	mov.f32 	%f1033, 0f3f800000;  	// 1
	mov.f32 	%f1034, 0fbf000000;  	// -0.5
	fma.rn.ftz.f32 	%f1035, %f1034, %f972, %f1033;
	mov.f32 	%f1036, 0fbf000000;  	// -0.5
	fma.rn.ftz.f32 	%f1037, %f972, %f1035, %f1036;
	mul.ftz.f32 	%f1038, %f1037, %f972;
	mul.ftz.f32 	%f1039, %f1038, %f996;
	.loc	4	72	0
	mul.ftz.f32 	%f1040, %f1039, %f327;
	.loc	4	73	0
	mul.ftz.f32 	%f1041, %f1039, %f328;
	.loc	4	74	0
	mul.ftz.f32 	%f1042, %f1039, %f329;
	.loc	4	75	0
	mul.ftz.f32 	%f1043, %f1039, %f330;
	.loc	4	148	0
	mov.f32 	%f1044, 0f3f800000;  	// 1
	add.ftz.f32 	%f1045, %f1021, %f1044;
	mov.f32 	%f1046, %f1045;
	mov.f32 	%f1047, %f1019;
	mov.f32 	%f1048, 0f00000000;  	// 0
	mov.f32 	%f1049, %f1048;
	mov.f32 	%f1050, 0f00000000;  	// 0
	mov.f32 	%f1051, %f1050;
	tex.2d.v4.f32.f32 {%f1052,%f1053,%f1054,%f1055},[sTexture,{%f1046,%f1047,%f1049,%f1051}];
	.loc	4	40	0
	mov.f32 	%f327, %f1052;
	mov.f32 	%f328, %f1053;
	mov.f32 	%f329, %f1054;
	mov.f32 	%f330, %f1055;
	.loc	4	148	0
	mov.f32 	%f1056, 0fc0200000;  	// -2.5
	mov.f32 	%f1057, 0f3fc00000;  	// 1.5
	fma.rn.ftz.f32 	%f1058, %f1057, %f972, %f1056;
	mul.ftz.f32 	%f1059, %f1058, %f972;
	mov.f32 	%f1060, 0f3f800000;  	// 1
	fma.rn.ftz.f32 	%f1061, %f972, %f1059, %f1060;
	mul.ftz.f32 	%f1062, %f1061, %f996;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f1063, %f327, %f1062, %f1040;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1064, %f328, %f1062, %f1041;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1065, %f329, %f1062, %f1042;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1066, %f330, %f1062, %f1043;
	.loc	4	149	0
	mov.f32 	%f1067, 0f40000000;  	// 2
	add.ftz.f32 	%f1068, %f1021, %f1067;
	mov.f32 	%f1069, %f1068;
	mov.f32 	%f1070, %f1019;
	mov.f32 	%f1071, 0f00000000;  	// 0
	mov.f32 	%f1072, %f1071;
	mov.f32 	%f1073, 0f00000000;  	// 0
	mov.f32 	%f1074, %f1073;
	tex.2d.v4.f32.f32 {%f1075,%f1076,%f1077,%f1078},[sTexture,{%f1069,%f1070,%f1072,%f1074}];
	.loc	4	40	0
	mov.f32 	%f327, %f1075;
	mov.f32 	%f328, %f1076;
	mov.f32 	%f329, %f1077;
	mov.f32 	%f330, %f1078;
	.loc	4	64	0
	mul.ftz.f32 	%f1079, %f996, %f980;
	fma.rn.ftz.f32 	%f1080, %f327, %f1079, %f1063;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1081, %f328, %f1079, %f1064;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1082, %f329, %f1079, %f1065;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1083, %f330, %f1079, %f1066;
	.loc	4	150	0
	mov.f32 	%f1084, 0f40400000;  	// 3
	add.ftz.f32 	%f1085, %f1021, %f1084;
	mov.f32 	%f1086, %f1085;
	mov.f32 	%f1087, %f1019;
	mov.f32 	%f1088, 0f00000000;  	// 0
	mov.f32 	%f1089, %f1088;
	mov.f32 	%f1090, 0f00000000;  	// 0
	mov.f32 	%f1091, %f1090;
	tex.2d.v4.f32.f32 {%f1092,%f1093,%f1094,%f1095},[sTexture,{%f1086,%f1087,%f1089,%f1091}];
	.loc	4	40	0
	mov.f32 	%f327, %f1092;
	mov.f32 	%f328, %f1093;
	mov.f32 	%f329, %f1094;
	mov.f32 	%f330, %f1095;
	.loc	4	64	0
	mul.ftz.f32 	%f1096, %f996, %f986;
	fma.rn.ftz.f32 	%f1097, %f327, %f1096, %f1080;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1098, %f328, %f1096, %f1081;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1099, %f329, %f1096, %f1082;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1100, %f330, %f1096, %f1083;
	.loc	4	151	0
	mov.f32 	%f1101, 0f3f800000;  	// 1
	add.ftz.f32 	%f1102, %f1018, %f1101;
	mov.f32 	%f1103, %f1022;
	mov.f32 	%f1104, %f1102;
	mov.f32 	%f1105, 0f00000000;  	// 0
	mov.f32 	%f1106, %f1105;
	mov.f32 	%f1107, 0f00000000;  	// 0
	mov.f32 	%f1108, %f1107;
	tex.2d.v4.f32.f32 {%f1109,%f1110,%f1111,%f1112},[sTexture,{%f1103,%f1104,%f1106,%f1108}];
	.loc	4	40	0
	mov.f32 	%f327, %f1109;
	mov.f32 	%f328, %f1110;
	mov.f32 	%f329, %f1111;
	mov.f32 	%f330, %f1112;
	.loc	4	151	0
	mul.ftz.f32 	%f1113, %f1038, %f1002;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f1114, %f327, %f1113, %f1097;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1115, %f328, %f1113, %f1098;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1116, %f329, %f1113, %f1099;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1117, %f330, %f1113, %f1100;
	.loc	4	152	0
	mov.f32 	%f1118, %f1045;
	mov.f32 	%f1119, %f1102;
	mov.f32 	%f1120, 0f00000000;  	// 0
	mov.f32 	%f1121, %f1120;
	mov.f32 	%f1122, 0f00000000;  	// 0
	mov.f32 	%f1123, %f1122;
	tex.2d.v4.f32.f32 {%f1124,%f1125,%f1126,%f1127},[sTexture,{%f1118,%f1119,%f1121,%f1123}];
	.loc	4	40	0
	mov.f32 	%f327, %f1124;
	mov.f32 	%f328, %f1125;
	mov.f32 	%f329, %f1126;
	mov.f32 	%f330, %f1127;
	.loc	4	152	0
	mul.ftz.f32 	%f1128, %f1061, %f1002;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f1129, %f327, %f1128, %f1114;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1130, %f328, %f1128, %f1115;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1131, %f329, %f1128, %f1116;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1132, %f330, %f1128, %f1117;
	.loc	4	153	0
	mov.f32 	%f1133, %f1068;
	mov.f32 	%f1134, %f1102;
	mov.f32 	%f1135, 0f00000000;  	// 0
	mov.f32 	%f1136, %f1135;
	mov.f32 	%f1137, 0f00000000;  	// 0
	mov.f32 	%f1138, %f1137;
	tex.2d.v4.f32.f32 {%f1139,%f1140,%f1141,%f1142},[sTexture,{%f1133,%f1134,%f1136,%f1138}];
	.loc	4	40	0
	mov.f32 	%f327, %f1139;
	mov.f32 	%f328, %f1140;
	mov.f32 	%f329, %f1141;
	mov.f32 	%f330, %f1142;
	.loc	4	64	0
	mul.ftz.f32 	%f1143, %f1002, %f980;
	fma.rn.ftz.f32 	%f1144, %f327, %f1143, %f1129;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1145, %f328, %f1143, %f1130;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1146, %f329, %f1143, %f1131;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1147, %f330, %f1143, %f1132;
	.loc	4	154	0
	mov.f32 	%f1148, %f1085;
	mov.f32 	%f1149, %f1102;
	mov.f32 	%f1150, 0f00000000;  	// 0
	mov.f32 	%f1151, %f1150;
	mov.f32 	%f1152, 0f00000000;  	// 0
	mov.f32 	%f1153, %f1152;
	tex.2d.v4.f32.f32 {%f1154,%f1155,%f1156,%f1157},[sTexture,{%f1148,%f1149,%f1151,%f1153}];
	.loc	4	40	0
	mov.f32 	%f327, %f1154;
	mov.f32 	%f328, %f1155;
	mov.f32 	%f329, %f1156;
	mov.f32 	%f330, %f1157;
	.loc	4	64	0
	mul.ftz.f32 	%f1158, %f1002, %f986;
	fma.rn.ftz.f32 	%f1159, %f327, %f1158, %f1144;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1160, %f328, %f1158, %f1145;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1161, %f329, %f1158, %f1146;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1162, %f330, %f1158, %f1147;
	.loc	4	155	0
	mov.f32 	%f1163, 0f40000000;  	// 2
	add.ftz.f32 	%f1164, %f1018, %f1163;
	mov.f32 	%f1165, %f1022;
	mov.f32 	%f1166, %f1164;
	mov.f32 	%f1167, 0f00000000;  	// 0
	mov.f32 	%f1168, %f1167;
	mov.f32 	%f1169, 0f00000000;  	// 0
	mov.f32 	%f1170, %f1169;
	tex.2d.v4.f32.f32 {%f1171,%f1172,%f1173,%f1174},[sTexture,{%f1165,%f1166,%f1168,%f1170}];
	.loc	4	40	0
	mov.f32 	%f327, %f1171;
	mov.f32 	%f328, %f1172;
	mov.f32 	%f329, %f1173;
	mov.f32 	%f330, %f1174;
	.loc	4	155	0
	mul.ftz.f32 	%f1175, %f1038, %f1010;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f1176, %f327, %f1175, %f1159;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1177, %f328, %f1175, %f1160;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1178, %f329, %f1175, %f1161;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1179, %f330, %f1175, %f1162;
	.loc	4	156	0
	mov.f32 	%f1180, %f1045;
	mov.f32 	%f1181, %f1164;
	mov.f32 	%f1182, 0f00000000;  	// 0
	mov.f32 	%f1183, %f1182;
	mov.f32 	%f1184, 0f00000000;  	// 0
	mov.f32 	%f1185, %f1184;
	tex.2d.v4.f32.f32 {%f1186,%f1187,%f1188,%f1189},[sTexture,{%f1180,%f1181,%f1183,%f1185}];
	.loc	4	40	0
	mov.f32 	%f327, %f1186;
	mov.f32 	%f328, %f1187;
	mov.f32 	%f329, %f1188;
	mov.f32 	%f330, %f1189;
	.loc	4	156	0
	mul.ftz.f32 	%f1190, %f1061, %f1010;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f1191, %f327, %f1190, %f1176;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1192, %f328, %f1190, %f1177;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1193, %f329, %f1190, %f1178;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1194, %f330, %f1190, %f1179;
	.loc	4	157	0
	mov.f32 	%f1195, %f1068;
	mov.f32 	%f1196, %f1164;
	mov.f32 	%f1197, 0f00000000;  	// 0
	mov.f32 	%f1198, %f1197;
	mov.f32 	%f1199, 0f00000000;  	// 0
	mov.f32 	%f1200, %f1199;
	tex.2d.v4.f32.f32 {%f1201,%f1202,%f1203,%f1204},[sTexture,{%f1195,%f1196,%f1198,%f1200}];
	.loc	4	40	0
	mov.f32 	%f327, %f1201;
	mov.f32 	%f328, %f1202;
	mov.f32 	%f329, %f1203;
	mov.f32 	%f330, %f1204;
	.loc	4	64	0
	mul.ftz.f32 	%f1205, %f1010, %f980;
	fma.rn.ftz.f32 	%f1206, %f327, %f1205, %f1191;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1207, %f328, %f1205, %f1192;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1208, %f329, %f1205, %f1193;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1209, %f330, %f1205, %f1194;
	.loc	4	158	0
	mov.f32 	%f1210, %f1085;
	mov.f32 	%f1211, %f1164;
	mov.f32 	%f1212, 0f00000000;  	// 0
	mov.f32 	%f1213, %f1212;
	mov.f32 	%f1214, 0f00000000;  	// 0
	mov.f32 	%f1215, %f1214;
	tex.2d.v4.f32.f32 {%f1216,%f1217,%f1218,%f1219},[sTexture,{%f1210,%f1211,%f1213,%f1215}];
	.loc	4	40	0
	mov.f32 	%f327, %f1216;
	mov.f32 	%f328, %f1217;
	mov.f32 	%f329, %f1218;
	mov.f32 	%f330, %f1219;
	.loc	4	64	0
	mul.ftz.f32 	%f1220, %f1010, %f986;
	fma.rn.ftz.f32 	%f1221, %f327, %f1220, %f1206;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1222, %f328, %f1220, %f1207;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1223, %f329, %f1220, %f1208;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1224, %f330, %f1220, %f1209;
	.loc	4	159	0
	mov.f32 	%f1225, 0f40400000;  	// 3
	add.ftz.f32 	%f1226, %f1018, %f1225;
	mov.f32 	%f1227, %f1022;
	mov.f32 	%f1228, %f1226;
	mov.f32 	%f1229, 0f00000000;  	// 0
	mov.f32 	%f1230, %f1229;
	mov.f32 	%f1231, 0f00000000;  	// 0
	mov.f32 	%f1232, %f1231;
	tex.2d.v4.f32.f32 {%f1233,%f1234,%f1235,%f1236},[sTexture,{%f1227,%f1228,%f1230,%f1232}];
	.loc	4	40	0
	mov.f32 	%f327, %f1233;
	mov.f32 	%f328, %f1234;
	mov.f32 	%f329, %f1235;
	mov.f32 	%f330, %f1236;
	.loc	4	159	0
	mul.ftz.f32 	%f1237, %f1038, %f1016;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f1238, %f327, %f1237, %f1221;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1239, %f328, %f1237, %f1222;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1240, %f329, %f1237, %f1223;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1241, %f330, %f1237, %f1224;
	.loc	4	160	0
	mov.f32 	%f1242, %f1045;
	mov.f32 	%f1243, %f1226;
	mov.f32 	%f1244, 0f00000000;  	// 0
	mov.f32 	%f1245, %f1244;
	mov.f32 	%f1246, 0f00000000;  	// 0
	mov.f32 	%f1247, %f1246;
	tex.2d.v4.f32.f32 {%f1248,%f1249,%f1250,%f1251},[sTexture,{%f1242,%f1243,%f1245,%f1247}];
	.loc	4	40	0
	mov.f32 	%f327, %f1248;
	mov.f32 	%f328, %f1249;
	mov.f32 	%f329, %f1250;
	mov.f32 	%f330, %f1251;
	.loc	4	160	0
	mul.ftz.f32 	%f1252, %f1061, %f1016;
	.loc	4	64	0
	fma.rn.ftz.f32 	%f1253, %f327, %f1252, %f1238;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1254, %f328, %f1252, %f1239;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1255, %f329, %f1252, %f1240;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1256, %f330, %f1252, %f1241;
	.loc	4	161	0
	mov.f32 	%f1257, %f1068;
	mov.f32 	%f1258, %f1226;
	mov.f32 	%f1259, 0f00000000;  	// 0
	mov.f32 	%f1260, %f1259;
	mov.f32 	%f1261, 0f00000000;  	// 0
	mov.f32 	%f1262, %f1261;
	tex.2d.v4.f32.f32 {%f1263,%f1264,%f1265,%f1266},[sTexture,{%f1257,%f1258,%f1260,%f1262}];
	.loc	4	40	0
	mov.f32 	%f327, %f1263;
	mov.f32 	%f328, %f1264;
	mov.f32 	%f329, %f1265;
	mov.f32 	%f330, %f1266;
	.loc	4	64	0
	mul.ftz.f32 	%f1267, %f1016, %f980;
	fma.rn.ftz.f32 	%f1268, %f327, %f1267, %f1253;
	.loc	4	65	0
	fma.rn.ftz.f32 	%f1269, %f328, %f1267, %f1254;
	.loc	4	66	0
	fma.rn.ftz.f32 	%f1270, %f329, %f1267, %f1255;
	.loc	4	67	0
	fma.rn.ftz.f32 	%f1271, %f330, %f1267, %f1256;
	.loc	4	162	0
	mov.f32 	%f1272, %f1085;
	mov.f32 	%f1273, %f1226;
	mov.f32 	%f1274, 0f00000000;  	// 0
	mov.f32 	%f1275, %f1274;
	mov.f32 	%f1276, 0f00000000;  	// 0
	mov.f32 	%f1277, %f1276;
	tex.2d.v4.f32.f32 {%f1278,%f1279,%f1280,%f1281},[sTexture,{%f1272,%f1273,%f1275,%f1277}];
	.loc	4	40	0
	mov.f32 	%f327, %f1278;
	mov.f32 	%f328, %f1279;
	mov.f32 	%f329, %f1280;
	mov.f32 	%f330, %f1281;
	.loc	4	48	0
	mul.ftz.f32 	%f1282, %f1016, %f986;
	mul.ftz.f32 	%f1283, %f1282, %f327;
	add.ftz.f32 	%f1284, %f1283, %f1268;
	mov.f32 	%f1285, 0fbf800000;  	// -1
	add.ftz.f32 	%f1286, %f967, %f1285;
	mov.f32 	%f1287, 0f3ee147b0;  	// 0.44
	div.approx.ftz.f32 	%f1288, %f1286, %f1287;
	sub.ftz.f32 	%f1289, %f957, %f1284;
	fma.rn.ftz.f32 	%f1290, %f1288, %f1289, %f1284;
	.loc	4	402	0
	mov.f32 	%f957, %f1290;
	.loc	4	48	0
	mul.ftz.f32 	%f1291, %f1282, %f328;
	add.ftz.f32 	%f1292, %f1291, %f1269;
	sub.ftz.f32 	%f1293, %f960, %f1292;
	fma.rn.ftz.f32 	%f1294, %f1288, %f1293, %f1292;
	.loc	4	403	0
	mov.f32 	%f960, %f1294;
	.loc	4	48	0
	mul.ftz.f32 	%f1295, %f1282, %f329;
	add.ftz.f32 	%f1296, %f1295, %f1270;
	sub.ftz.f32 	%f1297, %f963, %f1296;
	fma.rn.ftz.f32 	%f1298, %f1288, %f1297, %f1296;
	.loc	4	404	0
	mov.f32 	%f963, %f1298;
	.loc	4	48	0
	mul.ftz.f32 	%f1299, %f1282, %f330;
	add.ftz.f32 	%f1300, %f1299, %f1271;
	sub.ftz.f32 	%f1301, %f966, %f1300;
	fma.rn.ftz.f32 	%f1302, %f1288, %f1301, %f1300;
	.loc	4	405	0
	mov.f32 	%f966, %f1302;
$Lt_37_29954:
	.loc	4	408	0
	mov.f32 	%f581, %f957;
	mov.f32 	%f582, %f960;
	mov.f32 	%f583, %f963;
	mov.f32 	%f584, %f966;
$LDWendi__Z7average6float2S__214_7:
	.loc	4	447	0
	mul.ftz.f32 	%f1303, %f65, %f581;
	mul.ftz.f32 	%f1304, %f65, %f582;
	mul.ftz.f32 	%f1305, %f65, %f583;
	mul.ftz.f32 	%f1306, %f65, %f584;
	ld.param.s8 	%r72, [__cudaparm_cuda_kernel_renderquad___val_paramquad+112];
	mov.u32 	%r73, 0;
	setp.eq.s32 	%p22, %r72, %r73;
	@%p22 bra 	$Lt_37_30466;
	.loc	4	80	0
	mul.ftz.f32 	%f1307, %f99, %f99;
	mul.ftz.f32 	%f1308, %f85, %f85;
	fma.rn.ftz.f32 	%f1309, %f98, %f98, %f1307;
	fma.rn.ftz.f32 	%f1310, %f90, %f90, %f1308;
	fma.rn.ftz.f32 	%f1311, %f97, %f97, %f1309;
	fma.rn.ftz.f32 	%f1312, %f84, %f84, %f1310;
	rsqrt.approx.ftz.f32 	%f1313, %f1311;
	rsqrt.approx.ftz.f32 	%f1314, %f1312;
	mul.ftz.f32 	%f1315, %f1313, %f99;
	mul.ftz.f32 	%f1316, %f1313, %f98;
	mul.ftz.f32 	%f1317, %f1313, %f97;
	mul.ftz.f32 	%f1318, %f1314, %f85;
	mul.ftz.f32 	%f1319, %f1314, %f90;
	mul.ftz.f32 	%f1320, %f1314, %f84;
	fma.rn.ftz.f32 	%f1321, %f204, %f1315, %f103;
	fma.rn.ftz.f32 	%f1322, %f204, %f1316, %f105;
	fma.rn.ftz.f32 	%f1323, %f204, %f1317, %f107;
	fma.rn.ftz.f32 	%f1324, %f206, %f1318, %f1321;
	fma.rn.ftz.f32 	%f1325, %f1319, %f206, %f1322;
	fma.rn.ftz.f32 	%f1326, %f206, %f1320, %f1323;
	mov.f32 	%f1327, 0f42c80000;  	// 100
	add.ftz.f32 	%f1328, %f1324, %f1327;
	mov.f32 	%f1329, 0f42c80000;  	// 100
	add.ftz.f32 	%f1330, %f1325, %f1329;
	mov.f32 	%f1331, 0f42c80000;  	// 100
	add.ftz.f32 	%f1332, %f1326, %f1331;
	mul.ftz.f32 	%f1333, %f1328, %f1328;
	fma.rn.ftz.f32 	%f1334, %f1330, %f1330, %f1333;
	fma.rn.ftz.f32 	%f1335, %f1332, %f1332, %f1334;
	rsqrt.approx.ftz.f32 	%f1336, %f1335;
	.loc	4	81	0
	mul.ftz.f32 	%f1337, %f1330, %f1336;
	.loc	4	82	0
	mul.ftz.f32 	%f1338, %f1328, %f1336;
	.loc	4	83	0
	mul.ftz.f32 	%f1339, %f1332, %f1336;
	.loc	4	80	0
	sub.ftz.f32 	%f1340, %f1324, %f76;
	sub.ftz.f32 	%f1341, %f1325, %f74;
	sub.ftz.f32 	%f1342, %f1326, %f72;
	mul.ftz.f32 	%f1343, %f1340, %f1340;
	fma.rn.ftz.f32 	%f1344, %f1341, %f1341, %f1343;
	fma.rn.ftz.f32 	%f1345, %f1342, %f1342, %f1344;
	rsqrt.approx.ftz.f32 	%f1346, %f1345;
	.loc	4	476	0
	mul.ftz.f32 	%f1347, %f1317, %f1318;
	mul.ftz.f32 	%f1348, %f1315, %f1319;
	mul.ftz.f32 	%f1349, %f1316, %f1320;
	mul.ftz.f32 	%f1350, %f1315, %f1320;
	sub.ftz.f32 	%f1351, %f1350, %f1347;
	mul.ftz.f32 	%f1352, %f1316, %f1318;
	sub.ftz.f32 	%f1353, %f1352, %f1348;
	mul.ftz.f32 	%f1354, %f1319, %f1317;
	sub.ftz.f32 	%f1355, %f1354, %f1349;
	mul.ftz.f32 	%f1356, %f1355, %f1338;
	fma.rn.ftz.f32 	%f1357, %f1337, %f1351, %f1356;
	fma.rn.ftz.f32 	%f1358, %f1339, %f1353, %f1357;
	add.ftz.f32 	%f1359, %f1358, %f1358;
	mul.ftz.f32 	%f1360, %f1351, %f1359;
	.loc	4	477	0
	mul.ftz.f32 	%f1361, %f1355, %f1359;
	.loc	4	478	0
	mul.ftz.f32 	%f1362, %f1353, %f1359;
	.loc	4	104	0
	mul.ftz.f32 	%f1363, %f1340, %f1346;
	sub.ftz.f32 	%f1364, %f1361, %f1338;
	mul.ftz.f32 	%f1365, %f1363, %f1364;
	sub.ftz.f32 	%f1366, %f1360, %f1337;
	mul.ftz.f32 	%f1367, %f1341, %f1346;
	fma.rn.ftz.f32 	%f1368, %f1366, %f1367, %f1365;
	sub.ftz.f32 	%f1369, %f1362, %f1339;
	mul.ftz.f32 	%f1370, %f1342, %f1346;
	fma.rn.ftz.f32 	%f1371, %f1369, %f1370, %f1368;
	.loc	4	488	0
	mov.f32 	%f1372, 0f00000000;  	// 0
	max.ftz.f32 	%f1373, %f1371, %f1372;
	lg2.approx.ftz.f32 	%f1374, %f1373;
	mov.f32 	%f1375, 0f418ccccd;  	// 17.6
	mul.ftz.f32 	%f1376, %f1374, %f1375;
	ex2.approx.ftz.f32 	%f1377, %f1376;
	mul.ftz.f32 	%f1378, %f1306, %f1377;
	add.ftz.f32 	%f1303, %f1378, %f1303;
	.loc	4	489	0
	add.ftz.f32 	%f1304, %f1378, %f1304;
	.loc	4	490	0
	add.ftz.f32 	%f1305, %f1378, %f1305;
$Lt_37_30466:
	cvt.ftz.sat.f32.f32 	%f1379, %f1306;
	mov.f32 	%f1380, 0f00000000;  	// 0
	setp.eq.ftz.f32 	%p23, %f1379, %f1380;
	@!%p23 bra 	$Lt_37_31234;
	mov.f32 	%f1305, 0f00000000;  	// 0
	mov.f32 	%f1304, 0f00000000;  	// 0
	mov.f32 	%f1303, 0f00000000;  	// 0
	bra.uni 	$Lt_37_30978;
$Lt_37_31234:
	.loc	4	501	0
	rcp.approx.ftz.f32 	%f1381, %f1379;
	mul.ftz.f32 	%f1382, %f1381, %f1303;
	mov.f32 	%f1383, 0f00000000;  	// 0
	setp.lt.ftz.f32 	%p24, %f1382, %f1383;
	@!%p24 bra 	$Lt_37_31490;
	.loc	3	242	0
	neg.ftz.f32 	%f1384, %f1382;
	lg2.approx.ftz.f32 	%f1385, %f1384;
	mov.f32 	%f1386, 0f3ee8ba2e;  	// 0.454545
	mul.ftz.f32 	%f1387, %f1385, %f1386;
	ex2.approx.ftz.f32 	%f1388, %f1387;
	neg.ftz.f32 	%f1389, %f1388;
	bra.uni 	$LDWendi___log2f_214_5;
$Lt_37_31490:
	.loc	3	244	0
	lg2.approx.ftz.f32 	%f1390, %f1382;
	mov.f32 	%f1391, 0f3ee8ba2e;  	// 0.454545
	mul.ftz.f32 	%f1392, %f1390, %f1391;
	ex2.approx.ftz.f32 	%f1389, %f1392;
$LDWendi___log2f_214_5:
	.loc	4	501	0
	mov.f32 	%f1303, %f1389;
	.loc	4	502	0
	mul.ftz.f32 	%f1393, %f1381, %f1304;
	mov.f32 	%f1394, 0f00000000;  	// 0
	setp.lt.ftz.f32 	%p25, %f1393, %f1394;
	@!%p25 bra 	$Lt_37_32002;
	.loc	3	242	0
	neg.ftz.f32 	%f1395, %f1393;
	lg2.approx.ftz.f32 	%f1396, %f1395;
	mov.f32 	%f1397, 0f3ee8ba2e;  	// 0.454545
	mul.ftz.f32 	%f1398, %f1396, %f1397;
	ex2.approx.ftz.f32 	%f1399, %f1398;
	neg.ftz.f32 	%f1400, %f1399;
	bra.uni 	$LDWendi___log2f_214_3;
$Lt_37_32002:
	.loc	3	244	0
	lg2.approx.ftz.f32 	%f1401, %f1393;
	mov.f32 	%f1402, 0f3ee8ba2e;  	// 0.454545
	mul.ftz.f32 	%f1403, %f1401, %f1402;
	ex2.approx.ftz.f32 	%f1400, %f1403;
$LDWendi___log2f_214_3:
	.loc	4	502	0
	mov.f32 	%f1304, %f1400;
	.loc	4	503	0
	mul.ftz.f32 	%f1404, %f1381, %f1305;
	mov.f32 	%f1405, 0f00000000;  	// 0
	setp.lt.ftz.f32 	%p26, %f1404, %f1405;
	@!%p26 bra 	$Lt_37_32514;
	.loc	3	242	0
	neg.ftz.f32 	%f1406, %f1404;
	lg2.approx.ftz.f32 	%f1407, %f1406;
	mov.f32 	%f1408, 0f3ee8ba2e;  	// 0.454545
	mul.ftz.f32 	%f1409, %f1407, %f1408;
	ex2.approx.ftz.f32 	%f1410, %f1409;
	neg.ftz.f32 	%f1411, %f1410;
	bra.uni 	$LDWendi___log2f_214_1;
$Lt_37_32514:
	.loc	3	244	0
	lg2.approx.ftz.f32 	%f1412, %f1404;
	mov.f32 	%f1413, 0f3ee8ba2e;  	// 0.454545
	mul.ftz.f32 	%f1414, %f1412, %f1413;
	ex2.approx.ftz.f32 	%f1411, %f1414;
$LDWendi___log2f_214_1:
	.loc	4	503	0
	mov.f32 	%f1305, %f1411;
$Lt_37_30978:
	@!%p2 bra 	$Lt_37_33282;
	.loc	19	126	0
	mul.lo.u64 	%rd20, %rd1, 8;
	add.u64 	%rd21, %rd2, %rd20;
	{ .reg .b32 %b1;
	cvt.rn.ftz.f16.f32	%b1, %f1303;
	mov.b32		%r74, %b1; }
	{ .reg .b32 %b1;
	cvt.rn.ftz.f16.f32	%b1, %f1304;
	mov.b32		%r75, %b1; }
	{ .reg .b32 %b1;
	cvt.rn.ftz.f16.f32	%b1, %f1305;
	mov.b32		%r76, %b1; }
	{ .reg .b32 %b1;
	cvt.rn.ftz.f16.f32	%b1, %f1379;
	mov.b32		%r77, %b1; }
	st.global.v4.u16 	[%rd21+0], {%r74,%r75,%r76,%r77};
	.loc	4	505	0
	bra.uni 	$LBB97_cuda_kernel_renderquad;
$Lt_37_33282:
	.loc	19	126	0
	mul.lo.u64 	%rd22, %rd1, 16;
	add.u64 	%rd23, %rd2, %rd22;
	st.global.v4.f32 	[%rd23+0], {%f1303,%f1304,%f1305,%f1379};
$LBB97_cuda_kernel_renderquad:
	.loc	4	506	0
	exit;
$LDWend_cuda_kernel_renderquad:
	} // cuda_kernel_renderquad

	.entry cuda_kernel_prepsource (
		.param .u64 __cudaparm_cuda_kernel_prepsource_srcFrame,
		.param .u64 __cudaparm_cuda_kernel_prepsource_dstFrame,
		.param .s32 __cudaparm_cuda_kernel_prepsource_width,
		.param .s32 __cudaparm_cuda_kernel_prepsource_height,
		.param .s32 __cudaparm_cuda_kernel_prepsource_srcPitch,
		.param .s32 __cudaparm_cuda_kernel_prepsource_dstPitch,
		.param .u32 __cudaparm_cuda_kernel_prepsource_inDeviceFormat)
	{
	.reg .u32 %r<36>;
	.reg .u64 %rd<14>;
	.reg .f32 %f<44>;
	.reg .pred %p<7>;
	.loc	4	509	0
$LDWbegin_cuda_kernel_prepsource:
	.loc	4	513	0
	cvt.s32.u32 	%r1, %ctaid.x;
	cvt.s32.u32 	%r2, %ntid.x;
	mul.lo.s32 	%r3, %r1, %r2;
	cvt.s32.u32 	%r4, %ctaid.y;
	cvt.s32.u32 	%r5, %ntid.y;
	mul.lo.s32 	%r6, %r4, %r5;
	mov.u32 	%r7, %tid.x;
	add.u32 	%r8, %r3, %r7;
	mov.u32 	%r9, %tid.y;
	add.u32 	%r10, %r6, %r9;
	ld.param.s32 	%r11, [__cudaparm_cuda_kernel_prepsource_width];
	set.gt.u32.s32 	%r12, %r11, %r8;
	neg.s32 	%r13, %r12;
	ld.param.s32 	%r14, [__cudaparm_cuda_kernel_prepsource_height];
	set.gt.u32.s32 	%r15, %r14, %r10;
	neg.s32 	%r16, %r15;
	and.b32 	%r17, %r13, %r16;
	mov.u32 	%r18, 0;
	setp.eq.s32 	%p1, %r17, %r18;
	@%p1 bra 	$Lt_38_6658;
	ld.param.s32 	%r19, [__cudaparm_cuda_kernel_prepsource_inDeviceFormat];
	mov.s32 	%r20, 0;
	setp.eq.s32 	%p2, %r19, %r20;
	ld.param.s32 	%r21, [__cudaparm_cuda_kernel_prepsource_srcPitch];
	mul.lo.s32 	%r22, %r21, %r10;
	add.s32 	%r23, %r8, %r22;
	cvt.s64.s32 	%rd1, %r23;
	ld.param.u64 	%rd2, [__cudaparm_cuda_kernel_prepsource_srcFrame];
	@!%p2 bra 	$Lt_38_7426;
	.loc	19	115	0
	mul.lo.u64 	%rd3, %rd1, 8;
	add.u64 	%rd4, %rd2, %rd3;
	ld.global.v4.u16 	{%r24,%r25,%r26,%r27}, [%rd4+0];
	.loc	4	517	0
	{ .reg .b32 %b1;
	mov.b32		%b1, %r24;
	cvt.ftz.f32.f16	%f1, %b1; }
	{ .reg .b32 %b1;
	mov.b32		%b1, %r25;
	cvt.ftz.f32.f16	%f2, %b1; }
	{ .reg .b32 %b1;
	mov.b32		%b1, %r26;
	cvt.ftz.f32.f16	%f3, %b1; }
	{ .reg .b32 %b1;
	mov.b32		%b1, %r27;
	cvt.ftz.f32.f16	%f4, %b1; }
	bra.uni 	$Lt_38_7170;
$Lt_38_7426:
	mul.lo.u64 	%rd5, %rd1, 16;
	add.u64 	%rd6, %rd2, %rd5;
	ld.global.v4.f32 	{%f1,%f2,%f3,%f4}, [%rd6+0];
$Lt_38_7170:
	.loc	4	519	0
	mov.f32 	%f5, 0f00000000;     	// 0
	setp.lt.ftz.f32 	%p3, %f3, %f5;
	@!%p3 bra 	$Lt_38_7682;
	.loc	3	234	0
	neg.ftz.f32 	%f6, %f3;
	lg2.approx.ftz.f32 	%f7, %f6;
	mov.f32 	%f8, 0f400ccccd;     	// 2.2
	mul.ftz.f32 	%f9, %f7, %f8;
	ex2.approx.ftz.f32 	%f10, %f9;
	neg.ftz.f32 	%f11, %f10;
	bra.uni 	$LDWendi___log2f_215_5;
$Lt_38_7682:
	.loc	3	236	0
	lg2.approx.ftz.f32 	%f12, %f3;
	mov.f32 	%f13, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f14, %f12, %f13;
	ex2.approx.ftz.f32 	%f11, %f14;
$LDWendi___log2f_215_5:
	.loc	4	520	0
	mov.f32 	%f15, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p4, %f2, %f15;
	@!%p4 bra 	$Lt_38_8194;
	.loc	3	234	0
	neg.ftz.f32 	%f16, %f2;
	lg2.approx.ftz.f32 	%f17, %f16;
	mov.f32 	%f18, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f19, %f17, %f18;
	ex2.approx.ftz.f32 	%f20, %f19;
	neg.ftz.f32 	%f21, %f20;
	bra.uni 	$LDWendi___log2f_215_3;
$Lt_38_8194:
	.loc	3	236	0
	lg2.approx.ftz.f32 	%f22, %f2;
	mov.f32 	%f23, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f24, %f22, %f23;
	ex2.approx.ftz.f32 	%f21, %f24;
$LDWendi___log2f_215_3:
	.loc	4	521	0
	mov.f32 	%f25, 0f00000000;    	// 0
	setp.lt.ftz.f32 	%p5, %f1, %f25;
	@!%p5 bra 	$Lt_38_8706;
	.loc	3	234	0
	neg.ftz.f32 	%f26, %f1;
	lg2.approx.ftz.f32 	%f27, %f26;
	mov.f32 	%f28, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f29, %f27, %f28;
	ex2.approx.ftz.f32 	%f30, %f29;
	neg.ftz.f32 	%f31, %f30;
	bra.uni 	$LDWendi___log2f_215_1;
$Lt_38_8706:
	.loc	3	236	0
	lg2.approx.ftz.f32 	%f32, %f1;
	mov.f32 	%f33, 0f400ccccd;    	// 2.2
	mul.ftz.f32 	%f34, %f32, %f33;
	ex2.approx.ftz.f32 	%f31, %f34;
$LDWendi___log2f_215_1:
	.loc	4	521	0
	ld.param.s32 	%r28, [__cudaparm_cuda_kernel_prepsource_dstPitch];
	mul.lo.s32 	%r29, %r28, %r10;
	add.s32 	%r30, %r8, %r29;
	cvt.s64.s32 	%rd7, %r30;
	ld.param.u64 	%rd8, [__cudaparm_cuda_kernel_prepsource_dstFrame];
	@!%p2 bra 	$Lt_38_9474;
	.loc	19	126	0
	cvt.ftz.sat.f32.f32 	%f35, %f4;
	mul.lo.u64 	%rd9, %rd7, 8;
	add.u64 	%rd10, %rd8, %rd9;
	mul.ftz.f32 	%f36, %f31, %f35;
	{ .reg .b32 %b1;
	cvt.rn.ftz.f16.f32	%b1, %f36;
	mov.b32		%r31, %b1; }
	mul.ftz.f32 	%f37, %f21, %f35;
	{ .reg .b32 %b1;
	cvt.rn.ftz.f16.f32	%b1, %f37;
	mov.b32		%r32, %b1; }
	mul.ftz.f32 	%f38, %f11, %f35;
	{ .reg .b32 %b1;
	cvt.rn.ftz.f16.f32	%b1, %f38;
	mov.b32		%r33, %b1; }
	{ .reg .b32 %b1;
	cvt.rn.ftz.f16.f32	%b1, %f35;
	mov.b32		%r34, %b1; }
	st.global.v4.u16 	[%rd10+0], {%r31,%r32,%r33,%r34};
	.loc	4	522	0
	bra.uni 	$Lt_38_9218;
$Lt_38_9474:
	.loc	19	126	0
	cvt.ftz.sat.f32.f32 	%f39, %f4;
	mul.lo.u64 	%rd11, %rd7, 16;
	add.u64 	%rd12, %rd8, %rd11;
	mul.ftz.f32 	%f40, %f31, %f39;
	mul.ftz.f32 	%f41, %f21, %f39;
	mul.ftz.f32 	%f42, %f11, %f39;
	st.global.v4.f32 	[%rd12+0], {%f40,%f41,%f42,%f39};
$Lt_38_9218:
$Lt_38_6658:
	.loc	4	524	0
	exit;
$LDWend_cuda_kernel_prepsource:
	} // cuda_kernel_prepsource

