Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Why data­centric storage is the next big
thing for startups
Analyst: Simon Robinson 9 Apr, 2015
In the past few ...
Also, as Primary Data points out, the 'dynamic range' of storage is increasing: 20 years ago, there was little choice abou...
Data­centricity – for what?
The latest set of startups are also promising step­function changes in the way that enterprise...
Copyright © 2000­2015 The 451 Group. All Rights Reserved.
This report falls under the following categories. Click on a lin...
Upcoming SlideShare
Loading in …5

451 research why data-centric storage is the next big thing for startups


Published on

The wheels of innovation continue to turn in the enterprise storage technology market. As often happens, many of the latest batch of storage startups are describing their approach in similar terms, even if it differs. The common approach in question this time around? 'Data centricity.'

Published in: Technology
  • Be the first to comment

  • Be the first to like this

451 research why data-centric storage is the next big thing for startups

  1. 1. Spotlight Why data­centric storage is the next big thing for startups Analyst: Simon Robinson 9 Apr, 2015 In the past few months, we've seen a new batch of storage startups emerge that all broadly describe their products as offering – or enabling – some level of 'data awareness.' Specifically, DataGravity, which popped up late last summer with an approach it called 'data aware' storage. Shortly after, we saw two more startups – Formation Data Systems and Primary Data – reveal themselves with soft launches, both using the term 'data virtualization' to describe their broad approach. More recently, we saw another startup – scale­out NAS specialist Qumulo, founded by the team that created Isilon – exit stealth. Qumulo also labeled its approach data­aware storage. Though it has a slightly different focus, self­styled 'copy data virtualization' specialist Actifio is also aiming broadly here. Meanwhile, large players such as EMC are wading into this area (pun intended) with the notion of the 'data lake,' and NetApp is pursuing a similar tack with its Data Fabric messaging. We expect other stealthy startups to also begin talking about their technology in similar terms. What's going on? The 451 Take Ultimately, we don't expect a single approach or technology to become dominant here. However, the new batch of data­centric storage startups promoting data­aware storage and data virtualization will gain attention because they are suggesting a proposal to one of the IT organization's greatest challenges. The lack of a unified approach to data management is one of the largest elephants in the CIO's corner office, and not just at the storage level. But specifically in storage, IT organizations are increasingly aware of the operational impact of buying the newest, shiniest storage toy, and that investing to solve one specific challenge may add to the overall cost of management. And as data transformation moves up the corporate agenda, it will become increasingly clear that storage transformation needs to be an integral part of the process. Just what is the problem? Data­centric storage sounds like a truism – what is a storage system for, if not for marshaling an organization's data? But this has long been the conceit of enterprise storage systems, for two reasons. First, storage systems themselves have only ever had a rudimentary understanding of the actual data they store, and this has been by proxy; for example, in a tiered storage array, 'hot' data can be shuttled into flash, and can thus be interpreted as being important. But the fact that IT administrators often 'pin' certain hot data sets entirely into flash underscores that this intelligence is not typically built into a system. This becomes problematic in highly virtualized, multi­tenant or similarly contested environments where multiple applications may be competing for a systems' finite resources, both performance and capacity. Second, we know that enterprise data growth has led to the proliferation of multiple, complex storage silos, most of which are difficult to scale. Worse, interoperability between systems is very limited. Thus, data is beholden to the individual silo within which it resides, while spare capacity becomes very difficult to reallocate. Additionally, storage management is done on a per­system level, which in aggregate across large organizations can add substantially to opex.
  2. 2. Also, as Primary Data points out, the 'dynamic range' of storage is increasing: 20 years ago, there was little choice about where data should live. Most of it lived on tape, with a select amount residing on high­performance (and expensive) disk. Now, options abound: everything from PCIe­ attached flash cards, through to all­flash arrays (AFAs), hybrid disk­flash systems, disk­based backup, tape and now all manner of cloud­based infrastructure and SaaS applications that exist outside of the corporate firewall. This makes the discussion around 'where should my data live?' even more germane. At the other end of the spectrum, IT organizations are being pushed to more data­centric ways of thinking, and operating. Most large businesses – especially those that are heavily regulated – have of course done this for years from a legal and governance perspective, but the rise and remit of the 'chief data officer' is expanding. For example, much of the promise of big data is around capturing insight across new and broader data sets in real time – the most useful insights may well be those currently spanning multiple storage silos. And there's obviously an efficiency story here that Actifio and others have exposed by highlighting the amount of data that is needlessly replicated many times across multiple locations and systems. The bottom line, it seems, is that it is becoming increasingly important for IT to be able to get a data­centric view of their environments, both on an operational and a strategic basis. Managing data is becoming a much bigger problem, and is set to accelerate as the digital universe continues to expand. As more data is being created, in more places (on­premises or in the cloud), by more devices (increasingly mobile), and can be leveraged in more useful ways, we believe that more organizations will begin to look at this issue more holistically (in fact, they are, through the emergence of new functions such as the chief data officer). But this goal is hindered by current storage architectures. ILM and all that: plus Ã§a change? The storage industry has attempted to tackle this multiple times before. Remember information lifecycle management (ILM), the ill­fated attempt a decade ago by EMC, StorageTek and others to build an enterprise­wide framework for data management? ILM failed for many reasons, but one issue was that it was viewed as a process problem because the technology didn't exist to offer an alternative. Hence, it was suggested that building manual processes to classify data would help organizations manage the changing value of data over time. The problem was that by the time policies were agreed on, the rules had changed. That led to the emergence of startups that aimed to solve this proactively using software. A handful of information­classification specialists emerged. Some were eventually acquired – Kazeon Systems (by EMC), StoredIQ (IBM) – while some failed (Njini, Abrevity). Though some of this technology found a home in the e­discovery process, these technologies never became anything other than niche. And of course there is storage virtualization. This is another technology that has been around for a long time – in fact, the first open storage virtualization products predate server virtualization. And while there has been some success here – IBM's SVC and HDS's virtualization are two that come to mind, while specialists such as DataCore are still active – it is by no means a ubiquitous technology. Adoption of storage virtualization offerings is mostly concentrated in block environments, and most file­level virtualization products (remember Acopia?) have died altogether. Storage is pivoting to step­change innovation So what's different this time around with the latest batch of data­centric startups? We think a couple of issues are at play. The first concerns the nature of technology innovation. This typically falls into two camps: the 'build a better mousetrap' camp, and the 'step­change innovation' camp. Over the past 10­15 years, most storage startups have focused on the former – innovate around a specific feature (de­duplication, thin provisioning, CDP, flash­optimization, etc.) and build a system that's optimized for that feature. The amount – and pace – of storage innovation in the past decade here has been intense, to the degree that there is relatively little to be gained at the feature/function level. Additionally, this feature­level innovation has arguably compounded the storage fragmentation issue in many enterprises, to the extent that offering the latest and greatest feature is not necessarily appealing if it exacerbates the overall storage management burden. That means that the emphasis for storage innovation is pivoting to step­function innovation: products, technologies and approaches that promise substantial benefits, especially in TCO. We see examples here in areas such as hyperconvergence – players like Nutanix and SimpliVity are promising to dramatically simplify the cost of managing the overall IT environment – while Amazon Web Services and smaller players such as Zadara have a similar value proposition built around the public cloud. Even some AFA startups – such as SolidFire – claim that they offer step­ change innovation rather than merely building a better mousetrap.
  3. 3. Data­centricity – for what? The latest set of startups are also promising step­function changes in the way that enterprise storage is managed. As noted, this is partly driven by the fact that there is relatively little room for additional innovation at the so­called data services layer. But by promising an approach to managing storage that has an inherent understanding of the data being stored, they are potentially raising the bar. So what is the value of this centricity? At present, the arguments seem to falling into two broad camps. The first is that 'data awareness' can help vastly improve both the performance and efficiency of the storage system itself. This is an approach that both Qumulo and DataGravity are primarily focused on, though with different emphasis: Qumulo is aiming chiefly at high­performance NAS verticals such as oil and gas, life sciences and media and entertainment, while DataGravity is more aimed at SMBs, where as well as boosting performance/efficiency, the company says its data awareness can also help assist with other important IT functions, such as data security, e­discovery and governance. By contrast, both Formation Data Systems and Primary Data seem more focused on data virtualization, though we should stress that neither company has a product generally available yet. However, the basic premise for both vendors is the same: they recognize that the real challenge in storage is fragmentation (across storage location, media types and protocols) and propose that the remedy should be to simplify this through a unified approach to data visibility and management. Exactly how they plan to go about it looks very different – Formation intends to focus on net new applications and data types, rather than legacy infrastructure, while Primary suggests a more inclusive approach and is not actually aiming to offer a persistent storage tier. However, both players agree that the common point of virtualization is the data itself, rather than the underlying physical resources. What does the future hold for data­aware storage? So will these new approaches succeed? It's early days, of course, and we believe that more organizations are beginning to think more strategically about their overall data management strategy: it's increasingly apparent that historical approaches are simply not going to be viable over the longer term if data keeps growing at its current rate. There was nothing wrong with the idea of ILM, it's just that the execution failed because the right technology didn't exist to effectively automate the process. We feel that the planets are aligning in ways that should favor increasingly data­centric approaches to managing storage. The emergence of scale­ out technologies promises to remove some of the management issues caused by storage silos, while software­defined approaches promise further decoupling between the 'control plane' of storage and the physical data plane, the latter of which is increasingly moving to a commodity­based platform. However, there are still some large challenges to overcome. Many organizations still manage their storage in a very siloed manner. In each discrete area, the storage may be functioning reasonably well: it's only when you pan out to a broader view of storage across the entire enterprise that you get the true picture of multiple islands of data, stranded capacity, and lots of low­value data sitting on very expensive storage. So this notion of data aware/virtualization needs to be pitched at a more strategic level – this is a notoriously difficult task for startups, which typically need to prove themselves in a specific use case before expanding to other areas. This is one major reason why DataGravity elected to focus on SMBs rather than large enterprises, for example. Additionally, getting a true end­to­end picture of the data environment is becoming increasingly difficult as the digital economy evolves. Big­data projects are still mostly line of business­driven: is the IT department even aware that these projects exist? And data is being pushed to the edge of the enterprise – on mobile devices – and often lives outside of the physical enterprise in third­party SaaS applications and cloud services. Is it realistic to expect to gain a holistic picture of data across such a broad environment, let alone manage it centrally? And one further challenge for storage­focused providers, in particular: Is it even the job of a storage system to manage the data itself, or should this be left to a higher layer in the stack? Many of the new big­data vendors such as Cloudera and Hortonworks espouse the notion of the 'enterprise data hub,' contending that they are ideally placed to become the central point of management and control for all enterprise data, especially as 'new' data types and applications such as NoSQL and Hadoop become more important. As these types of companies look to become more strategic to their customers, we can expect them to expand their purview, including pushing down into the storage layer.
  4. 4. Copyright © 2000­2015 The 451 Group. All Rights Reserved. This report falls under the following categories. Click on a link below to find similar documents. Company: No primary company Other Companies: Abrevity, Acopia Networks, Actifio, Amazon, Amazon Web Services, Cloudera, DataCore Software, DataGravity, EMC, Formation Data Systems, Hitachi Data Systems, Hortonworks, IBM, Isilon, Kazeon Systems, NetApp, Njini, Nutanix, Primary Data, Qumulo, SimpliVity, SolidFire , Oracle StorageTek, StoredIQ, Zadara Storage, Zadara Storage,  Analyst(s): Simon Robinson  Sector(s): Storage / General