Dalam SQL Server, dapatkah saya menjamin pesanan tanpa klausa ORDER BY yang eksplisit saat pencarian indeks dipaksa di atas meja dengan hanya indeks berkerumun?


24

Pembaruan 2014-12-18

Dengan respons yang luar biasa terhadap pertanyaan utama adalah "Tidak", respons yang lebih menarik telah difokuskan pada bagian 2, bagaimana menyelesaikan teka-teki kinerja dengan eksplisit ORDER BY. Meskipun saya sudah menandai jawaban, saya tidak akan terkejut jika ada solusi kinerja yang lebih baik.

Asli

Pertanyaan ini muncul karena satu-satunya solusi yang sangat cepat yang dapat saya temukan untuk masalah tertentu hanya berfungsi tanpa sebuah ORDER BY klausa. Di bawah ini adalah T-SQL lengkap yang diperlukan untuk menghasilkan masalah, bersama dengan solusi yang saya usulkan (Saya menggunakan SQL Server 2008 R2, jika itu penting.)

--Create Orders table
IF OBJECT_ID('tempdb..#Orders') IS NOT NULL DROP TABLE #Orders
CREATE TABLE #Orders
(  
       OrderID    INT NOT NULL IDENTITY(1,1)
     , CustID     INT NOT NULL
     , StoreID    INT NOT NULL       
     , Amount     FLOAT NOT NULL
)
CREATE CLUSTERED INDEX IX ON #Orders (StoreID, Amount DESC, CustID)

--Add 1 million rows w/ 100K Customers each of whom had 10 orders
;WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT INTO #Orders (CustID, StoreID, Amount)
SELECT CustID = Number / 10
     , StoreID    = Number % 4
     , Amount     = 1000 * RAND(Number)
FROM  FinalCte
WHERE Number <= 1000000

SET STATISTICS IO ON
SET STATISTICS TIME ON

--For StoreID = 1, find the top 500 customers ordered by their most expensive purchase (Amount)

--Solution A: Without ORDER BY
DECLARE @Top INT = 500
SELECT DISTINCT TOP (@Top) CustID
FROM #Orders WITH(FORCESEEK)
WHERE StoreID = 1
OPTION(OPTIMIZE FOR (@Top = 1), FAST 1);
--9 logical reads, CPU Time = 0 ms, elapsed time = 1 ms
GO
--Solution B: With ORDER BY
DECLARE @Top INT = 500
SELECT TOP (@Top) CustID
FROM #Orders
WHERE StoreID = 1
GROUP BY CustID
ORDER BY MAX(Amount) DESC
OPTION(MAXDOP 1)
--745 logical reads, CPU Time = 141 ms, elapsed time = 145 ms
--Uses Sort operator

GO

Berikut ini adalah rencana eksekusi untuk Solusi A dan B:

Sol A

Sol B

Solusi A memberikan kinerja yang saya butuhkan, tetapi saya tidak bisa membuatnya bekerja dengan kinerja yang sama ketika menambahkan jenis ORDER BY klausa (misalnya, lihat Solusi B). Dan sepertinya Solusi A harus mengirimkan hasilnya secara berurutan, karena 1) tabel hanya memiliki satu indeks di atasnya, 2) suatu pencarian terpaksa, sehingga menghilangkan kemungkinan menggunakan pemindaian alokasi alokasi berdasarkan halaman IAM .

Jadi pertanyaan saya adalah:

  1. Apakah saya benar bahwa itu akan menjamin pesanan dalam kasus ini tanpa pesanan dengan klausa?

  2. Jika tidak, apakah ada metode lain untuk memaksa rencana secepat Solusi A, lebih disukai yang menghindari jenis? Perhatikan bahwa itu harus menyelesaikan masalah yang sama persis (untuk StoreID = 1, temukan 500 pelanggan teratas yang dipesan dengan jumlah pembelian paling mahal). Itu juga harus tetap menggunakan #Orderstabel, tetapi skema pengindeksan yang berbeda akan OK.


16
Pemesanan hanya dijamin jika Anda menggunakannya ORDER BY.
alroc

8
" Apakah saya benar bahwa itu akan menjamin pesanan dalam kasus ini tanpa perintah dengan klausa " - tidak, sama sekali tidak.
a_horse_with_no_name

3
Berikut ini adalah artikel yang menjelaskan tentang hal ini. blogs.msdn.com/b/conor_cunningham_msft/archive/2008/08/27/…
Sean Lange

@SeanLange: Seperti Anda dan orang lain, saya tidak nyaman meninggalkan pesanan karena semua alasan yang sama. Namun, a) Saya tidak dapat menemukan kueri dengan kinerja yang sama dengan Solusi A yang menggunakan ORDER BY, dan b) Saya tidak tahu cara apa pun untuk memesannya dengan tidak benar. Apakah kamu? Saya tidak mengatakan tidak ada jalan, saya hanya tidak tahu satu, dan berharap seseorang bisa mengartikulasikan jika ada. Bahkan contoh dalam artikel yang Anda referensikan hanya berlaku untuk pindaian yang tidak dicari.
JohnnyM

UPDATE: Saya mengubah jenis data jumlah & metode perhitungan untuk menghindari duplikat begitu banyak. Semua prinsip masih berlaku. Meskipun dalam masalah ini saya tidak peduli siapa yang menang ketika ada dasi, memiliki begitu banyak ikatan membuat sulit untuk melihat apa yang terjadi ketika melihat data. Jauh lebih jelas sekarang bahwa kecuali untuk ikatan, Solusi A dan B menghasilkan hasil yang sama.
JohnnyM

Jawaban:


23
  1. Apakah saya benar bahwa itu akan menjamin pesanan dalam kasus ini tanpa pesanan dengan klausa?

Tidak . Perbedaan Arus yang menjaga ketertiban (memungkinkan ORDER BYtanpa pengurutan) tidak diterapkan di SQL Server hari ini. Hal ini dimungkinkan untuk dilakukan pada prinsipnya, tetapi kemudian banyak hal mungkin terjadi jika kita diizinkan untuk mengubah kode sumber SQL Server. Jika Anda dapat membuat kasus yang bagus untuk pekerjaan pengembangan ini, Anda dapat menyarankannya ke Microsoft .

  1. Jika tidak, apakah ada metode lain untuk memaksa rencana secepat Solusi A, lebih disukai yang menghindari jenis?

Iya nih. (Tabel & petunjuk kueri hanya diperlukan saat menggunakan penduga kardinalitas pra-2014):

-- Additional index
CREATE UNIQUE NONCLUSTERED INDEX i 
ON #Orders (StoreID, CustID, Amount, OrderID);

-- Query
SELECT TOP (500) 
    O.CustID, 
    O.Amount
FROM #Orders AS O
    WITH (FORCESEEK(IX (StoreID)))
WHERE O.StoreID = 1
AND NOT EXISTS
(
    SELECT NULL
    FROM #Orders AS O2
        WITH (FORCESEEK(i (StoreID, CustID, Amount)))
    WHERE 
        O2.StoreID = O.StoreID
        AND O2.CustID = O.CustID
        AND O2.Amount >= O.Amount
        AND
        (
            O2.Amount > O.Amount
            OR
            (
                O2.Amount = O.Amount
                AND O2.OrderID > O.OrderID
            )
        )
)
ORDER BY
    O.Amount DESC
OPTION (MAXDOP 1);

Rencana Eksekusi Aktual

(500 row(s) affected)

 SQL Server Execution Times:
   CPU time = 0 ms,  elapsed time = 4 ms.

Solusi SQL CLR

Script berikut ini menunjukkan menggunakan fungsi tabel-nilai SQL CLR untuk memenuhi persyaratan yang dinyatakan. Saya bukan pakar C #, jadi kode ini dapat mengalami peningkatan:

USE Sandpit;
GO
-- Ensure SQLCLR is enabled
EXECUTE sys.sp_configure
    @configname = 'clr enabled',
    @configvalue = 1;
RECONFIGURE;
GO
-- Lazy, but effective to allow EXTERNAL_ACCESS
ALTER DATABASE Sandpit
SET TRUSTWORTHY ON;
GO
-- The CLR assembly
CREATE ASSEMBLY FlowDistinctOrder
AUTHORIZATION dbo
FROM 
WITH PERMISSION_SET = EXTERNAL_ACCESS;
GO
-- The CLR TVF with order guarantee
CREATE FUNCTION dbo.FlowDistinctOrder 
(
    @ServerName nvarchar(128), 
    @DatabaseName nvarchar(128), 
    @MaxRows bigint
)
RETURNS TABLE 
(
    CustID integer NULL, 
    Amount float NULL
)
ORDER (Amount DESC)
AS EXTERNAL NAME FlowDistinctOrder.UserDefinedFunctions.FlowDistinctOrder;

Tabel uji dan data sampel dari pertanyaan:

-- Test table
CREATE TABLE dbo.Orders
(  
    OrderID    integer  NOT NULL IDENTITY(1,1),
    CustID     integer  NOT NULL,
    StoreID    integer  NOT NULL,
    Amount     float    NOT NULL
);
GO
-- Sample data
WITH  
    Cte0 AS (SELECT 1 AS C UNION ALL SELECT 1), --2 rows  
    Cte1 AS (SELECT 1 AS C FROM Cte0 AS A, Cte0 AS B),--4 rows  
    Cte2 AS (SELECT 1 AS C FROM Cte1 AS A ,Cte1 AS B),--16 rows 
    Cte3 AS (SELECT 1 AS C FROM Cte2 AS A ,Cte2 AS B),--256 rows 
    Cte4 AS (SELECT 1 AS C FROM Cte3 AS A ,Cte3 AS B),--65536 rows 
    Cte5 AS (SELECT 1 AS C FROM Cte4 AS A ,Cte2 AS B),--1048576 rows 
    FinalCte AS (SELECT  ROW_NUMBER() OVER (ORDER BY C) AS Number FROM   Cte5)
INSERT dbo.Orders 
    (CustID, StoreID, Amount)
SELECT 
    CustID  = Number / 10,
    StoreID = Number % 4,
    Amount  = 1000 * RAND(Number)
FROM FinalCte
WHERE 
    Number <= 1000000;
GO
-- Index
CREATE CLUSTERED INDEX IX 
ON dbo.Orders 
    (StoreID ASC, Amount DESC, CustID ASC);

Tes fungsi:

-- Test the function
-- Run several times to ensure connection is cached
-- and CLR code fully compiled
DECLARE @Start datetime2 = SYSUTCDATETIME();

SELECT TOP (500) 
    FDO.CustID
FROM dbo.FlowDistinctOrder
(
    @@SERVERNAME,   -- For external connection
    DB_NAME(),      -- For external connection
    500             -- Number of rows to return
) AS FDO 
ORDER BY 
    FDO.Amount DESC;

SELECT DATEDIFF(MILLISECOND, @Start, SYSUTCDATETIME());

Rencana pelaksanaan (perhatikan validasi ORDERjaminan):

Rencana pelaksanaan fungsi CLR

Di laptop saya, ini biasanya dijalankan dalam 80-100 ms. Ini sama sekali tidak secepat T-SQL menulis ulang di atas, tetapi harus menunjukkan stabilitas kinerja yang baik dalam menghadapi distribusi data yang berbeda.

Kode sumber:

using Microsoft.SqlServer.Server;
using System.Collections;
using System.Collections.Generic;
using System.Data.SqlClient;

public partial class UserDefinedFunctions
{
    private sealed class ReverseComparer<T> : IComparer<T>
    {
        private readonly IComparer<T> original;

        public ReverseComparer(IComparer<T> original)
        {
            this.original = original;
        }

        public int Compare(T left, T right)
        {
            return original.Compare(right, left);
        }
    }

    [SqlFunction
        (
        DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        FillRowMethodName = "FillRow",
        TableDefinition = "CustID integer NULL, Amount float NULL"
        )
    ]
    public static IEnumerable FlowDistinctOrder
        (
        [SqlFacet (MaxSize=128)]string ServerName, 
        [SqlFacet (MaxSize=128)]string DatabaseName,
        long MaxRows
        )
    {
        var list = new SortedDictionary<double, int>
            (new ReverseComparer<double>(Comparer<double>.Default));

        var csb = new SqlConnectionStringBuilder();
        csb.ConnectTimeout = 10;
        csb.DataSource = ServerName;
        csb.Enlist = false;
        csb.InitialCatalog = DatabaseName;
        csb.IntegratedSecurity = true;

        using (var conn = new SqlConnection(csb.ConnectionString))
        {
            conn.Open();
            using (var cmd = conn.CreateCommand())
            {
                cmd.CommandText =
                    @"
                    SELECT
                        O.CustID, 
                        O.Amount
                    FROM dbo.Orders AS O
                    WHERE 
                        O.StoreID = 1 
                    ORDER BY 
                        O.Amount DESC";

                int custid;
                double amount;

                using (var rdr = cmd.ExecuteReader())
                {
                    while (rdr.Read())
                    {
                        custid = rdr.GetInt32(0);
                        amount = rdr.GetDouble(1);

                        if (!list.ContainsKey(amount))
                        {
                            list.Add(amount, custid);
                            if (list.Count == MaxRows)
                            {
                                break;
                            }
                        }
                    }
                }
            }
        }
        return list;
    }

    public static void FillRow(object obj, out int CustID, out double Amount)
    {
        var v = (KeyValuePair<double, int>)obj;
        CustID = v.Value;
        Amount = v.Key;
    }
}

6

Tanpa ORDER BYbanyak hal bisa salah. Anda telah mengecualikan semua kemungkinan masalah yang dapat saya pikirkan, tetapi itu tidak berarti bahwa tidak ada masalah juga tidak akan ada satu di rilis mendatang.

Ini seharusnya bekerja:

Tarik kumpulan 500 baris dari tabel dalam satu lingkaran dan berhenti ketika Anda memiliki 500 ID pelanggan yang berbeda. Kueri pengambilan dapat terlihat seperti ini:

select TOP (500) Amount, CustID
into #fetchedOrders
from Orders
where StoreID = 1234 and Amount <= @lastAmountFetched
order by Amount DESC

Ini akan melakukan pemindaian rentang yang dipesan pada indeks. The Amount <= @lastAmountFetchedpredikat ada untuk secara bertahap menarik lebih banyak catatan. Setiap kueri hanya akan secara fisik menyentuh 500 catatan. Itu berarti O (1). Itu tidak menjadi lebih mahal semakin jauh Anda masuk ke dalam indeks.

Anda harus mempertahankan variabel @lastAmountFetchedagar berkurang ke nilai terkecil yang Anda ambil dalam pernyataan itu.

Dengan cara ini Anda akan memindai indeks secara bertahap secara berurutan. Anda akan membaca paling banyak (500 - 1) baris lebih banyak dari jumlah optimal seharusnya.

Ini akan jauh lebih cepat daripada selalu mengumpulkan sekitar 100.000 pesanan untuk toko tertentu. Mungkin, hanya beberapa iterasi 500 baris yang akan dibutuhkan.

Pada dasarnya, ini adalah operator berbeda yang dikodekan secara manual.

Atau, gunakan kursor untuk mengambil baris sesedikit mungkin. Ini akan jauh lebih lambat karena mengeksekusi 500 query baris tunggal paling sering lebih lambat daripada mengeksekusi batch 500 baris.

Sebagai alternatif, cukup kueri semua baris tanpa DISTINCTdengan cara yang dipesan dan buat aplikasi klien mengakhiri kueri setelah cukup banyak baris dikembalikan (menggunakan SqlCommand.Cancel).


1
Ini kurang detail yang penting - bagaimana Anda memastikan #fetchedOrderstidak mengandung pelanggan yang telah kita lihat? Agaknya ini melibatkan pencarian indeks pada tabel temp, yang tidak cukup sama dengan "aliran berbeda" dan memang mendapatkan lebih mahal semakin banyak baris yang kita lihat (meskipun masih akan mengalahkan solusi B dalam semua tetapi kasus terburuk harus memindai semua baris karena hanya ada satu pelanggan, yang A dan B akan tampil secara identik).

2
@ JoenMostert - IGNORE_DUP_KEYbisa melakukan itu.
Martin Smith

@ Usr: Terima kasih untuk ini. Saya mengkodekannya menggunakan IGNORE_DUP_KEY & menjalankan angka & mendapat waktu CPU = 31 ms, waktu berlalu = 27 ms. Meskipun jauh lebih cepat daripada Solusi B, itu tidak jauh dari Solusi A (cpu = 0, ms = 1), yang untuk tujuan saya perlu. Ketika Anda mengatakan, "Anda telah mengecualikan semua masalah yang mungkin saya pikirkan", saya bertanya-tanya apakah saya telah menyingkirkan semua masalah yang dapat dipikirkan siapa pun . Yang membuat frustrasi, saya bisa membayangkan apa yang perlu dilakukan SQL untuk mendapatkan kinerja A, saya hanya tidak tahu bagaimana cara mengatakannya menggunakan ORDER BY.
JohnnyM
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.