// 同步同一个Block内的Threads __syncthreads();
// 同步Host和Device,等待GPU端的计算完成 cudaDeviceSynchronize();
cudaThreadSynchronize(); cudaStreamSynchronize();